[PYTHON] Überdenken Sie den Korrelationskoeffizienten

Wenn zwei kontinuierliche Variablen vorhanden sind, zeichnen Sie ein ** Streudiagramm **, wenn Sie diese Beziehung berücksichtigen möchten. Wie oben erläutert, sind Tools wie matplotlib und R zum Zeichnen von Streudiagrammen nützlich.

Lineare Regression überarbeitet

Nehmen wir Rache, weil wir sie im linearen Regressions- und Korrelationskoeffizienten behandelt haben.

import numpy as np
import matplotlib.pyplot as plt

#Zwei kontinuierliche Variablen
v1 = np.array([24, 27, 29, 34, 42, 43, 51])
v2 = np.array([236, 330, 375, 392, 460, 525, 578])

def phi(x): #Berechnen Sie den Phi-Koeffizienten, in diesem Fall X.=4
    return [1, x, x**2, x**3]

def f(w, x): #
    return np.dot(w, phi(x))

PHI = np.array([phi(x) for x in v2])
w = np.linalg.solve(np.dot(PHI.T, PHI), np.dot(PHI.T, v1))

ylist = np.arange(200, 600, 10)
xlist = [f(w, x) for x in ylist]

plt.xlim(20, 55)
plt.ylim(200, 600)
plt.xlabel('Age')
plt.ylabel('Price')
plt.plot(v1, v2, 'o', color="blue")
plt.plot(xlist, ylist, color="red")
plt.show()
plt.savefig("image.png ")

image2.png

Die Statistik der kontinuierlichen Variablen kann wie folgt erhalten werden. Dies war auch in Frühere Artikel.

Artikel Funktion Wert
v2 Durchschnitt np.average(v2) 413.714285714
v2-Verteilung np.var(v2) 11725.3469388
Standardabweichung von v2 np.std(v2) 108.283641141
Korrelationskoeffizient zwischen v1 und v2 np.corrcoef(v1, v2) 0.96799293

Wenn die Variable X (= v1) zunimmt, nimmt auch Y (= v2) zu, was als positive Korrelation bezeichnet wird. In diesem Fall besteht eine positive Korrelation.

Lineare Beziehung und Korrelationskoeffizient

Auf diese Weise wird diese lineare Beziehung als ** lineare Beziehung ** bezeichnet, wenn sich eine Variable und die andere Variable ändert, was eine monotone Änderung ist.

Um genau zu sein, wird der Korrelationskoeffizient ** Pearson-Produktmoment-Korrelationskoeffizient ** genannt. Es gibt andere Korrelationskoeffizienten, aber im Allgemeinen beziehen sich die meisten auf den Pearson-Produktfaktorkorrelationskoeffizienten.

Bei der Erstellung des Streudiagramms wurde dieses orthogonale Koordinatensystem verwendet Die obere rechte Ecke von 99% E7% B3% BB) wird als erster Quadrant bezeichnet. In ähnlicher Weise ist das obere linke das 2. Quad, das untere linke das 3. Quad und das untere rechte das 4. Quad. Wenn es im 1. und 3. Quadranten des Streudiagramms insgesamt viele Verteilungen gibt, ist der Gesamtwert der Produkte der Abweichungen in positiver Richtung groß.

Die Zahl ** Kovarianz ** ist eine Zahl, die die Stärke und Richtung der linearen Beziehung zwischen stetigen Variablen angibt und durch die folgende Gleichung ausgedrückt wird.

Cov(X, Y) = \frac {\sum (Y_i - \overline{Y})(X_i - \overline{X})} {N - 1}

Der Produktfaktorkorrelationskoeffizient kann unter Verwendung der Kovarianz und Korrektur mit der Standardabweichung σ von X und Y berechnet werden.

r_{xy} = \frac {Cov(X, Y)} {Von X.\Sigma × Y.\sigma}

Zusammenfassung

Der Korrelationskoeffizient wurde neu organisiert und ergänzt. Wenn wir die Nullhypothese aufstellen, dass es keine lineare Beziehung zwischen den beiden Variablen gibt, müssen wir den Produktfaktorkorrelationskoeffizienten testen. In diesem Fall nimmt die Nullhypothese einen unabhängigen Zustand an, in dem die Populationskorrelation 0 ist und der Wert einer Variablen den Wert der anderen Variablen nicht ändert. Der Grad der Dissoziation vom unabhängigen Zustand der Probendaten wird verwendet, um zu testen, ob der Korrelationskoeffizient in der Population 0 ist oder nicht.

Referenz

Einführung in die Sozialstatistik http://www.amazon.co.jp/dp/4595313705

Lassen Sie uns die Bayes'sche lineare Regression implementieren http://gihyo.jp/dev/serial/01/machine-learning/0014

Recommended Posts

Überdenken Sie den Korrelationskoeffizienten
Visualisieren Sie einfach den Korrelationskoeffizienten zwischen Variablen
Wie berechnet man den Autokorrelationskoeffizienten?
[Maschinelles Lernen] Verstehen Sie aus der Mathematik, warum der Korrelationskoeffizient zwischen -1 und 1 liegt.
Berechnung des Spearman-Rangkorrelationskoeffizienten
Untersuchen Sie die Auswirkung von Ausreißern auf die Korrelation
Überprüfen Sie die Korrelation mit Kaggles Titanic (kaggle③)
Zeitvergleich: Berechnung des Korrelationskoeffizienten in Python