Wenn zwei kontinuierliche Variablen vorhanden sind, zeichnen Sie ein ** Streudiagramm **, wenn Sie diese Beziehung berücksichtigen möchten. Wie oben erläutert, sind Tools wie matplotlib und R zum Zeichnen von Streudiagrammen nützlich.
Nehmen wir Rache, weil wir sie im linearen Regressions- und Korrelationskoeffizienten behandelt haben.
import numpy as np
import matplotlib.pyplot as plt
#Zwei kontinuierliche Variablen
v1 = np.array([24, 27, 29, 34, 42, 43, 51])
v2 = np.array([236, 330, 375, 392, 460, 525, 578])
def phi(x): #Berechnen Sie den Phi-Koeffizienten, in diesem Fall X.=4
return [1, x, x**2, x**3]
def f(w, x): #
return np.dot(w, phi(x))
PHI = np.array([phi(x) for x in v2])
w = np.linalg.solve(np.dot(PHI.T, PHI), np.dot(PHI.T, v1))
ylist = np.arange(200, 600, 10)
xlist = [f(w, x) for x in ylist]
plt.xlim(20, 55)
plt.ylim(200, 600)
plt.xlabel('Age')
plt.ylabel('Price')
plt.plot(v1, v2, 'o', color="blue")
plt.plot(xlist, ylist, color="red")
plt.show()
plt.savefig("image.png ")
Die Statistik der kontinuierlichen Variablen kann wie folgt erhalten werden. Dies war auch in Frühere Artikel.
Artikel | Funktion | Wert |
---|---|---|
v2 Durchschnitt | np.average(v2) | 413.714285714 |
v2-Verteilung | np.var(v2) | 11725.3469388 |
Standardabweichung von v2 | np.std(v2) | 108.283641141 |
Korrelationskoeffizient zwischen v1 und v2 | np.corrcoef(v1, v2) | 0.96799293 |
Wenn die Variable X (= v1) zunimmt, nimmt auch Y (= v2) zu, was als positive Korrelation bezeichnet wird. In diesem Fall besteht eine positive Korrelation.
Auf diese Weise wird diese lineare Beziehung als ** lineare Beziehung ** bezeichnet, wenn sich eine Variable und die andere Variable ändert, was eine monotone Änderung ist.
Um genau zu sein, wird der Korrelationskoeffizient ** Pearson-Produktmoment-Korrelationskoeffizient ** genannt. Es gibt andere Korrelationskoeffizienten, aber im Allgemeinen beziehen sich die meisten auf den Pearson-Produktfaktorkorrelationskoeffizienten.
Bei der Erstellung des Streudiagramms wurde dieses orthogonale Koordinatensystem verwendet Die obere rechte Ecke von 99% E7% B3% BB) wird als erster Quadrant bezeichnet. In ähnlicher Weise ist das obere linke das 2. Quad, das untere linke das 3. Quad und das untere rechte das 4. Quad. Wenn es im 1. und 3. Quadranten des Streudiagramms insgesamt viele Verteilungen gibt, ist der Gesamtwert der Produkte der Abweichungen in positiver Richtung groß.
Die Zahl ** Kovarianz ** ist eine Zahl, die die Stärke und Richtung der linearen Beziehung zwischen stetigen Variablen angibt und durch die folgende Gleichung ausgedrückt wird.
Cov(X, Y) = \frac {\sum (Y_i - \overline{Y})(X_i - \overline{X})} {N - 1}
Der Produktfaktorkorrelationskoeffizient kann unter Verwendung der Kovarianz und Korrektur mit der Standardabweichung σ von X und Y berechnet werden.
r_{xy} = \frac {Cov(X, Y)} {Von X.\Sigma × Y.\sigma}
Der Korrelationskoeffizient wurde neu organisiert und ergänzt. Wenn wir die Nullhypothese aufstellen, dass es keine lineare Beziehung zwischen den beiden Variablen gibt, müssen wir den Produktfaktorkorrelationskoeffizienten testen. In diesem Fall nimmt die Nullhypothese einen unabhängigen Zustand an, in dem die Populationskorrelation 0 ist und der Wert einer Variablen den Wert der anderen Variablen nicht ändert. Der Grad der Dissoziation vom unabhängigen Zustand der Probendaten wird verwendet, um zu testen, ob der Korrelationskoeffizient in der Population 0 ist oder nicht.
Einführung in die Sozialstatistik http://www.amazon.co.jp/dp/4595313705
Lassen Sie uns die Bayes'sche lineare Regression implementieren http://gihyo.jp/dev/serial/01/machine-learning/0014
Recommended Posts