2. Multivariate Analyse in Python 1-2. Einfache Regressionsanalyse (Algorithmus)

Wir werden eine einfache Regressionsgleichung finden, die nur Numpy und Pandas verwendet, die für grundlegende numerische Berechnungen erforderlich sind.

⑴ Bibliothek importieren

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

⑵ Daten importieren und Inhalt prüfen

df = pd.read_csv("https://raw.githubusercontent.com/karaage0703/machine-learning-study/master/data/karaage_data.csv")
print(df.head())

Methode des minimalen Quadrats </ font>

Das Ziel der einfachen Regressionsanalyse war es, die beiden in der Regressionsgleichung enthaltenen Konstanten zu finden: den Regressionskoeffizienten $ a $ und den Abschnitt $ b $. Zu diesem Zeitpunkt werden die Konstanten $ a $ und $ b $ bestimmt, um eine genauere einfache Regressionsgleichung zu erhalten, so dass der Gesamtfehler, dh der Rest $ y- \ hat {y} $, so klein wie möglich ist. Ich muss. Betrachten Sie diese ** Definition von Residuen **. e_{1}+e_{2}+e_{3}…+e_{n} Es sieht so aus, aber das ist falsch. Die gemessenen Werte sind auf jeder positiven und negativen Seite der Regressionslinie ungleich verteilt. Mit anderen Worten, das Plus und das Minus heben sich gegenseitig auf und die Summe ist 0. Durch Quadrieren des Residuums für jedes Individuum werden daher das Positive und das Negative eliminiert, und es kann einfach als die Größe (Entfernung) der Entfernung behandelt werden. Q = {e_{1}}^{2}+{e_{2}}^{2}+{e_{3}}^{2}…+{e_{n}}^{2} $ Q $ wurde als Gesamtabstand von der Regressionslinie definiert. Der kleinste dieser $ Q $ ist der entscheidende Faktor für die Steigung der Regressionslinie $ a $, und wenn er erhalten wird, kann der Schnittpunkt $ b $ mit der $ y $ -Achse natürlich erhalten werden. Diese Methode wird als ** Methode der kleinsten Quadrate ** bezeichnet.

Wir werden die einfache Regressionsgleichung basierend auf der Methode der kleinsten Quadrate lösen.

⑶ Berechnen Sie den Durchschnittswert jeder der Variablen x und y

mean_x = df['x'].mean()
mean_y = df['y'].mean()

⑷ Berechnen Sie die Abweichung jeder der Variablen x und y

Die Abweichung ist die Differenz zwischen dem numerischen Wert und dem Durchschnittswert jedes Einzelnen. Berechnen Sie $ x_ {i} - \ bar {x} $ für die Variable $ x $ und $ y- \ bar {y} $ für die Variable $ y $. Jede Variable wird für die Anzahl der Daten berechnet.

#Abweichung von x
dev_x = []
for i in df['x']:
    dx = i - mean_x
    dev_x.append(dx)
#Abweichung von y
dev_y = []
for j in df['y']:
    dy = j - mean_y
    dev_y.append(dy)

⑸ Berechnen Sie die Verteilung der Variablen x

Berechnen Sie die Varianz anhand der in (4) erhaltenen Abweichung. Die Varianz ist der Durchschnitt der Quadrate der Abweichungen, dh der Quadrate für jede Abweichung und der Summe der Abweichungen geteilt durch den numerischen Wert (Anzahl der Daten-1).

#Summe der Abweichungsquadrate
ssdev_x = 0
for i in dev_x:
    d = i ** 2
    ssdev_x += d
#Verteilt
var_x = ssdev_x / (len(df) - 1)

⑹ Kovarianz berechnen

Die Kovarianz $ s_ {xy} $ ist einer der Indizes, die die Stärke der Beziehung zwischen zwei Variablen anzeigen, und wird durch die folgende Gleichung definiert. s_{xy} = \frac{1}{n - 1} \displaystyle \sum_{i = 1}^n {(x_i - \overline{x})(y_{i} - \overline{y})} Betrachten Sie einen Datensatz für jede Person. Wenn es $ n $ Paare von $ (x_ {1}, y_ {1}), (x_ {2}, y_ {2}), ..., (x_ {n}, y_ {n}) $ gibt Multiplizieren Sie die Abweichung von $ x $ und die Abweichung von $ y $ für jedes Paar und dividieren Sie die Summe durch den numerischen Wert von (Anzahl der Daten-1).

#Summe der Abweichungen
spdev = 0
for i,j in zip(df['x'], df['y']):
    spdev += (i - mean_x) * (j - mean_y)
#Mitverteilt
cov = spdev / (len(df) - 1)

⑺ Berechnen Sie den Regressionskoeffizienten a

Hier ist die Formel zum Ermitteln des Regressionskoeffizienten nach der Methode der kleinsten Quadrate. a = \frac{S_{xy}}{Sx^2} Der Regressionskoeffizient $ a $ kann erhalten werden, indem die in ⑹ erhaltene Kovarianz $ S_ {xy} $ durch die Varianz $ Sx ^ 2 $ der in ⑸ erhaltenen Variablen $ x $ dividiert wird.

a = cov / var_x

⑻ Berechne Abschnitt b

Durch Transformieren der einfachen Regressionsgleichung $ y = ax + b $ und Setzen von $ b = y -ax $ werden der Durchschnittswert $ \ bar {x}, \ bar {y} $ in ⑶ und der Regressionskoeffizient in ⑺ erhalten Ersetzen Sie $ a $.

b = mean_y - (a * mean_x)

** Wie oben erwähnt, wurde die einfache Regressionsgleichung nach der Formel der Methode der kleinsten Quadrate erhalten. ** ** ** ** Es stimmt mit dem Berechnungsergebnis überein, das mit der maschinellen Lernbibliothek scikit-learn erhalten wurde. Daher werde ich auch die Bestätigung des Entscheidungskoeffizienten selbst berechnen. ** ** **

⑼ Berechnen Sie den Entscheidungskoeffizienten und überprüfen Sie die Genauigkeit der Regressionsgleichung

Verwenden Sie die Regressionsgleichung, um Vorhersagewertdaten zu erstellen und deren Varianz zu ermitteln. Wie viel Prozent der Varianz des gemessenen Wertes $ y $, dh wie viel kann die ursprüngliche Variation $ y $ erklärt werden?

#Datenerstellung des vorhergesagten Wertes z
df['z'] = (a * df['x']) + b
print(df)

#Vorhersagewert z Varianz
ssdev_z = 0
for i in df['z']:
    j = (i - df['z'].mean())**2
    ssdev_z += j
var_z = ssdev_z / (len(df) - 1)
print("Voraussichtliche Wertverteilung:", var_z)

#Dispersion des Messwertes y
ssdev_y = 0
for i in dev_y:
    j = i ** 2
    ssdev_y += j
var_y = ssdev_y / (len(df) - 1)
print("Dispersion des Messwertes y:", var_y)

#Entscheidungskoeffizient
R = var_z / var_y
print("Entscheidungsfaktor R.:", R)

Es wurde bestätigt, dass der Bestimmungskoeffizient auch mit dem Berechnungsergebnis durch Scikit-Learn oben übereinstimmt.

⑽ Zeige das Streudiagramm mit der Regressionslinie

plt.plot(x, y, "o") #Streudiagramm
plt.plot(x, z, "r") #Gerade zurückgeben
plt.show()

Bisher haben Sie die Algorithmen für die einfache Regressionsanalyse gelernt. In der realen Welt gibt es jedoch nur wenige Fälle, in denen ein bestimmtes Phänomen nur durch einen Faktor erklärt werden kann. Vor dem Hintergrund eines bestimmten Phänomens sind verschiedene Faktoren mehr oder weniger gleichzeitig miteinander verflochten. Als Nächstes lernen Sie eine multiple Regressionsanalyse, die sich mit drei oder mehr Variablen befasst.

2. Multivariate Analyse in Python 1-2. Einfache Regressionsanalyse (Algorithmus)

** ⑴ Bibliothek importieren **

** ⑵ Daten importieren und Inhalt prüfen **

** Methode des minimalen Quadrats </ font> **

** ⑶ Berechnen Sie den Durchschnittswert jeder der Variablen x und y **

** ⑷ Berechnen Sie die Abweichung jeder der Variablen x und y **

** ⑸ Berechnen Sie die Verteilung der Variablen x **

** ⑹ Kovarianz berechnen **

** ⑺ Berechnen Sie den Regressionskoeffizienten a **

** ⑻ Berechne Abschnitt b **

** ⑼ Berechnen Sie den Entscheidungskoeffizienten und überprüfen Sie die Genauigkeit der Regressionsgleichung **

** ⑽ Zeige das Streudiagramm mit der Regressionslinie **