[PYTHON] Cours de formation Data Scientist Chapitre 3 Jour 3

Je n'ai pas beaucoup de temps, mais je vais procéder petit à petit.

Hier, je me suis rapproché de la corrélation. Oui, Pearson

Pearsonr

sp.stats.pearsonr(student_data_math.G1,student_data_math.G3) (0.8014679320174141, 9.001430312276602e-90)

Par conséquent, plus la valeur de 0,801 qui apparaît est proche de 1, plus la corrélation entre les deux variables est forte.

Eh bien, qu'est-il arrivé au deuxième 9.001 ... alors vérifiez la référence

Returns r : float Pearson's correlation coefficient p-value : float 2-tailed p-value

The p-value roughly indicates the probability of an uncorrelated system producing datasets that have a Pearson correlation at least as extreme as the one computed from these datasets.

scipy.stats.pearsonr

Eh bien, je ne suis pas sûr, alors je vais me fier au japonais

Python: vérifier la corrélation des fonctionnalités avec SciPy

Si vous vous référez à cela, il semble que la valeur p soit la probabilité supérieure, alors étudiez plus en détail

Probabilité de prédominance C'est la norme pour rejeter l'hypothèse nulle et adopter l'hypothèse alternative dans le test d'hypothèse statistique. Aussi appelé le niveau de signification. Généralement, 5% et 1% sont utilisés.

Ouaip. Est-ce vraiment japonais? Ce n'est pas clair autant que je pense, mais si la probabilité de dominance est inférieure à 5%, cela signifie que le coefficient de corrélation obtenu est un produit du hasard et doit être crédité. Je ne suis pas sûr que ma compréhension soit correcte.

Cependant, il convient de noter que pearsonr n'est efficace que lorsqu'il existe une corrélation linéaire, il n'est donc pas utile lorsque la corrélation est non linéaire. Ce n'est pas toujours bon de le faire avec pearsonr. Cela reviendra peut-être dans les prochains chapitres.

PairPlot

La syntaxe est la suivante

seaborn.pairplot( DataFrame ) JupyterLab.jpg

Cela affichera la corrélation entre les éléments numériques dans le DataFrame sous une forme graphique. Dans l'exemple ci-dessus, 4 éléments de DataFrame sont affichés.

Un histogramme est affiché à l'intersection des axes, et un diagramme de dispersion entre les deux variables est affiché à d'autres points, et la corrélation peut être vue.

Quand j'ai essayé pairPlot sans traiter le DataFrame qui était dans l'exemple, c'est devenu comme ça

JupyterLab-2.jpg

C'était trop gros pour être capturé correctement. Au fait, cela suffisait pour enregistrer la figure affichée dans un fichier

plot = sns.pairplot( DataFrame ) plot.savefig("output.png ")

Quand j'ai cherché comment le faire, je suis resté coincé avec savefig après avoir appelé get_figure (), mais cela semble être la méthode lorsque la version était ancienne, et maintenant c'est une erreur.

Analyse de régression simple

Je vais faire les détails dans les chapitres suivants, donc je veux comprendre le sens des mots.

Variable objective: valeur numérique et variable Variable explicative: Une variable pour obtenir la variable objective. Variables utilisées pour expliquer

Une analyse de régression simple semble être résolue en supposant une équation dans laquelle la relation entre la variable objective / la variable explicative consiste en une seule variable.

Pour procéder avec ceux-ci, nous utiliserons sklearn.

J'ai une idée approximative, mais revoyons le problème global demain. Eh bien, c'est lent, mais ça ne peut pas être aidé.

Recommended Posts

Cours de formation Data Scientist Chapitre 2 Jour 2
Cours de formation Data Scientist Chapitre 3 Jour 3
Cours de formation Data Scientist Chapitre 4 Jour 1
Cours de formation Data Scientist Chapitre 3 Jour 1 + 2
Résolution d'exercices dans le cours de formation GCI Data Scientist Chapitre 6
Résolution d'exercices dans le cours de formation GCI Data Scientist Chapitre 7
Résolution d'exercices dans le cours de formation GCI Data Scientist Chapitre 8
[Introduction à Python3, jour 17] Chapitre 8 Destinations de données (8.1-8.2.5)
[Introduction à Python3, jour 17] Chapitre 8 Destinations de données (8.3-8.3.6.1)
[Introduction à Python3 Jour 19] Chapitre 8 Destinations de données (8.4-8.5)
[Introduction à Python3 Day 18] Chapitre 8 Destinations de données (8.3.6.2 à 8.3.6.3)
Créer des données d'entraînement
Données de formation par CNN
Python pour l'analyse des données Chapitre 4
<Cours> Apprentissage en profondeur: Day2 CNN
<Cours> Apprentissage en profondeur: Jour 1 NN
Sortie du cours Infra_Data Science
Python pour l'analyse des données Chapitre 2
Python pour l'analyse des données Chapitre 3