[PYTHON] Data Scientist Training Course Kapitel 3 Tag 3

Ich habe nicht viel Zeit, aber ich werde nach und nach fortfahren.

Bis gestern bin ich der Korrelation nahe gekommen. Ja, Pearson

Pearsonr

sp.stats.pearsonr(student_data_math.G1,student_data_math.G3) (0.8014679320174141, 9.001430312276602e-90)

Je näher der angezeigte Wert von 0,801 an 1 liegt, desto stärker ist die Korrelation zwischen den beiden Variablen.

Nun, was ist mit dem zweiten 9.001 passiert ... also überprüfen Sie die Referenz

Returns r : float Pearson's correlation coefficient p-value : float 2-tailed p-value

The p-value roughly indicates the probability of an uncorrelated system producing datasets that have a Pearson correlation at least as extreme as the one computed from these datasets.

scipy.stats.pearsonr

Nun, ich bin mir nicht sicher, also werde ich mich auf Japanisch verlassen

Python: Überprüfen Sie die Korrelation von Funktionen mit SciPy

Wenn Sie sich darauf beziehen, scheint es, dass der p-Wert die überlegene Wahrscheinlichkeit ist, also untersuchen Sie weiter

Vorherrschaftswahrscheinlichkeit Dies ist der Standard für die Ablehnung der Nullhypothese und die Übernahme der Alternativhypothese in den statistischen Hypothesentest. Wird auch als Signifikanzniveau bezeichnet. Im Allgemeinen werden 5% und 1% verwendet.

Jep. Ist es wirklich japanisch? Es ist unklar, wie Sie denken, aber wenn die Vorteilswahrscheinlichkeit weniger als 5% beträgt, bedeutet dies, dass der erhaltene Korrelationskoeffizient ein Zufallsprodukt ist und gutgeschrieben werden muss. Ich bin nicht sicher, ob mein Verständnis richtig ist.

Es sollte jedoch beachtet werden, dass Pearson nur dann wirksam ist, wenn eine lineare Korrelation vorliegt, so dass es nicht nützlich ist, wenn die Korrelation nicht linear ist. Es ist nicht immer gut, es mit Pearson zu tun. Vielleicht wird das in zukünftigen Kapiteln auftauchen.

PairPlot

Die Syntax lautet wie folgt

seaborn.pairplot( DataFrame )

Dadurch wird die Korrelation zwischen den numerischen Elementen im DataFrame in grafischer Form angezeigt. Im obigen Beispiel werden 4 Elemente in DataFrame angezeigt.

Am Schnittpunkt der Achsen wird ein Hist-Diagramm angezeigt, und an anderen Punkten wird ein Streudiagramm zwischen den beiden Variablen angezeigt, damit die Korrelation sichtbar wird.

Als ich pairPlot ausprobierte, ohne den im Beispiel enthaltenen DataFrame zu verarbeiten, wurde es so

Es war zu groß, um es richtig zu erfassen. Dies reichte übrigens aus, um die angezeigte Figur in einer Datei zu speichern

plot = sns.pairplot( DataFrame ) plot.savefig("output.png ")

Als ich nachforschte, wie es geht, blieb ich nach dem Aufruf von "get_figure ()" bei "savefig" hängen, aber es scheint die Methode zu sein, als die Version alt war, und jetzt ist es ein Fehler.

Einfache Regressionsanalyse

Ich werde die Details in den folgenden Kapiteln ausführen, damit ich die Bedeutung der Wörter verstehen kann.

Zielvariable: Numerischer Wert und Variable Erklärende Variable: Eine Variable, um die Zielvariable zu erhalten. Zur Erklärung verwendete Variablen

Eine einfache Regressionsanalyse scheint unter der Annahme einer Gleichung gelöst zu sein, bei der die Beziehung zwischen der Zielvariablen / der erklärenden Variablen nur aus einer Variablen besteht.

Um mit diesen fortzufahren, werden wir sklearn verwenden.

Ich habe eine ungefähre Vorstellung, aber lassen Sie uns das Gesamtproblem morgen noch einmal sehen. Nun, es ist langsam, aber es kann nicht geholfen werden.