[PYTHON] Cours de formation Data Scientist Chapitre 3 Jour 1 + 2

portée

Le titre est le suivant

Le degré d'incompréhension et d'odeur dangereuse pour un petit nombre d'articles apparaîtra, mais fondamentalement, le calcul devrait être laissé à Python.

read_csv Pour résoudre réellement le problème, lisez les données CSV. Pour ce faire, utilisez read_csv dans Pandas. Certes, je pense qu'il y avait plusieurs autres façons de charger le DataFrame, mais quand j'ai regardé les paramètres read_csv, j'ai remarqué.

?pd.read_csv Signature: pd.read_csv( filepath_or_buffer, sep=',', delimiter=None, header='infer', names=None

Avec ce sentiment, vous pouvez spécifier le séparateur et la délimitation. Dans le même sens? j'ai pensé

pd.read_csv("xxx.csv", sep=";") pd.read_csv("xxx.csv", delimiter=";")

J'ai essayé de comparer, mais ça n'a pas changé Il y avait un bon commentaire à ce sujet dans Stack Overflow

What is the difference between sep and delimiter attributes in pandas.read_csv() method?

Pour le dire clairement, si delimiter n'est pas spécifié (= None), la valeur de sep est entrée. En d'autres termes, peu importe celui que vous utilisez. Cependant, compte tenu de la compatibilité et d'autres fonctions (to_csv etc.), il semble que sep soit préférable. Le code source dit également que «le délimiteur est le cas d'angle ennuyeux». Utilisons sep

Qualité des données

Lorsqu'il y a plusieurs colonnes, il est nécessaire de reconnaître correctement la qualité des données. Contient-il des données nulles, est-ce quantitatif ou qualitatif? S'il s'agit de données quantitatives, elles peuvent être utilisées comme une valeur obtenue par calcul mathématique. S'il s'agit de données qualitatives, elles peuvent être utilisées comme catégorie pour classer des données quantitatives ou comme valeur pour trier des données telles que le rang.

analyses statistiques

L'analyse statistique peut être divisée en statistiques descriptives et statistiques spéculatives.

En gros, c'est probablement comme ça avec des statistiques descriptives et un modèle de prédiction! Est-ce une statistique spéculative? Ce dernier est écrasant étant donné que le but est d'apprendre l'IA / l'apprentissage automatique, mais les statistiques spéculatives semblent être le prochain chapitre.

Boîte à moustaches

plt.boxplot(student_data_math.G1)

Une figure de barbe de boîte est dessinée sous la forme de. Je me sentais comme ça. Dans le but de le voir, cela ressemble à une bougie qui montre le cours de l'action. Il semble que les limites inférieure et supérieure de Box pour les bougies soient de 25% de carreaux et 75% de carreaux. Il est appelé box plot car il est en anglais.

Ce n'est pas limité à cela, mais c'est une bonne idée de se rappeler le plus possible de l'anglais d'où provient la fonction. Cette fois, j'ai appris que la fonction boxplot est une fonction qui dessine un diagramme box whiskers, mais si vous savez que le diagramme box whiskers est en premier lieu Box Plot en anglais, vous pouvez le trouver dans la liste des fonctions.

Formules, formules, formules

Le coefficient de fluctuation est l'écart type divisé par la moyenne.

student_data_math.std() / student_data_math.mean()

La fonction qui mène à la distribution est var C'est cov qui dérive la covariance utilisée lors de l'examen de la variance de deux variables ou plus. La covariance est calculée sous forme de formule mathématique par le produit des écarts par rapport à la moyenne.

Dans leur forme finale, le coefficient de corrélation est calculé pour indiquer si les deux variables ont une relation. Ici, le coefficient est calculé à l'aide d'une fonction de Pearson.

sp.stats.pearsonr(student_data_math.G1, student_data_math.G3)

Eh bien, c'est tout pour aujourd'hui!

Recommended Posts

Cours de formation Data Scientist Chapitre 2 Jour 2
Cours de formation Data Scientist Chapitre 3 Jour 3
Cours de formation Data Scientist Chapitre 4 Jour 1
Cours de formation Data Scientist Chapitre 3 Jour 1 + 2
Résolution d'exercices dans le cours de formation GCI Data Scientist Chapitre 6
Résolution d'exercices dans le cours de formation GCI Data Scientist Chapitre 7
Résolution d'exercices dans le cours de formation GCI Data Scientist Chapitre 8
[Introduction à Python3, jour 17] Chapitre 8 Destinations de données (8.1-8.2.5)
[Introduction à Python3, jour 17] Chapitre 8 Destinations de données (8.3-8.3.6.1)
[Introduction à Python3 Jour 19] Chapitre 8 Destinations de données (8.4-8.5)
[Introduction à Python3 Day 18] Chapitre 8 Destinations de données (8.3.6.2 à 8.3.6.3)
Données de formation par CNN
Python pour l'analyse des données Chapitre 4
<Cours> Apprentissage en profondeur: Day2 CNN
<Cours> Apprentissage en profondeur: Jour 1 NN
Sortie du cours Infra_Data Science
Python pour l'analyse des données Chapitre 2
Python pour l'analyse des données Chapitre 3