Letztes Mal Kurs für maschinelles Lernen an der Tsukuba University: Lernen Sie sklearn, während Sie das Python-Skript in die Aufgabe aufnehmen (4) https://github.com/legacyworld/sklearn-basic
Dies ist ein Vergleich zwischen Ridge-Regression und Lasso-Regression. Der Youtube-Kommentar ist 5. (1) pro 12 Minuten und 50 Sekunden Als Programm ist es nicht viel anders, aber die Ergebnisse stimmen nicht mit den Antworten überein. Ich habe verschiedene Dinge ausprobiert und gesehen, aber aufgegeben. Dieses Mal werde ich zu den Weindaten der ersten Aufgabe zurückkehren.
python:Homework_4.1.py
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn import linear_model
from sklearn.metrics import mean_squared_error
from sklearn import preprocessing
from sklearn.model_selection import cross_val_score
#scikit-Importieren Sie Weindaten aus Lean
df= pd.read_csv('winequality-red.csv',sep=';')
#Da die Zielwertqualität enthalten ist, erstellen Sie einen abgelegten Datenrahmen
df1 = df.drop(columns='quality')
y = df['quality'].values.reshape(-1,1)
scaler = preprocessing.StandardScaler()
#Regularisierungsparameter
alpha = 2 ** (-16)
X = df1.values
X_fit = scaler.fit_transform(X)
#DataFrame zum Speichern von Ergebnissen
df_ridge_coeff = pd.DataFrame(columns=df1.columns)
df_ridge_result = pd.DataFrame(columns=['alpha','TrainErr','TestErr'])
df_lasso_coeff = pd.DataFrame(columns=df1.columns)
df_lasso_result = pd.DataFrame(columns=['alpha','TrainErr','TestErr'])
while alpha <= 2 ** 12:
#Ridge kehrt zurück
model_ridge = linear_model.Ridge(alpha=alpha)
model_ridge.fit(X_fit,y)
mse_ridge = mean_squared_error(model_ridge.predict(X_fit),y)
scores_ridge = cross_val_score(model_ridge,X_fit,y,scoring="neg_mean_squared_error",cv=10)
df_ridge_coeff = df_ridge_coeff.append(pd.Series(model_ridge.coef_[0],index=df_ridge_coeff.columns),ignore_index=True)
df_ridge_result = df_ridge_result.append(pd.Series([alpha,mse_ridge,-scores_ridge.mean()],index=df_ridge_result.columns),ignore_index=True)
#Lasso kehrt zurück
model_lasso = linear_model.Lasso(alpha=alpha)
model_lasso.fit(X_fit,y)
mse_lasso = mean_squared_error(model_lasso.predict(X_fit),y)
scores_lasso = cross_val_score(model_lasso,X_fit,y,scoring="neg_mean_squared_error",cv=10)
df_lasso_coeff = df_lasso_coeff.append(pd.Series(model_lasso.coef_,index=df_lasso_coeff.columns),ignore_index=True)
df_lasso_result = df_lasso_result.append(pd.Series([alpha,mse_lasso,-scores_lasso.mean()],index=df_lasso_result.columns),ignore_index=True)
alpha = alpha * 2
for index, row in df_ridge_coeff.iterrows():
print(row.sort_values())
print(df_ridge_result.iloc[index])
print(df_ridge_result.sort_values('TestErr'))
for index, row in df_lasso_coeff.iterrows():
print(row.sort_values())
print(df_lasso_result.iloc[index])
print(df_lasso_result.sort_values('TestErr'))
Ähnlich wie bei der Erklärung sind die erhaltenen Koeffizienten in aufsteigender Reihenfolge angeordnet, und der Trainingsfehler und der Testfehler werden ebenfalls ausgegeben. Die ursprüngliche Antwort lautet wie folgt.
--Regularisierungsparameter, die die minimalen Trainings- und Testfehler bei der Gratregression angeben
Der Trainingsfehler ist natürlich der mit dem kleinsten Regularisierungsparameter, aber der Testfehler ist ganz anders. Das Ergebnis dieses Programms ist wie folgt.
Ridge kehrt zurück
alpha TrainErr TestErr
23 128.000000 0.417864 0.433617
22 64.000000 0.417102 0.433799
21 32.000000 0.416863 0.434265
20 16.000000 0.416793 0.434649
24 256.000000 0.420109 0.434870
19 8.000000 0.416774 0.434894
18 4.000000 0.416769 0.435033
17 2.000000 0.416768 0.435107
16 1.000000 0.416767 0.435146
15 0.500000 0.416767 0.435165
14 0.250000 0.416767 0.435175
13 0.125000 0.416767 0.435180
12 0.062500 0.416767 0.435182
11 0.031250 0.416767 0.435184
10 0.015625 0.416767 0.435184
9 0.007812 0.416767 0.435185
8 0.003906 0.416767 0.435185
7 0.001953 0.416767 0.435185
6 0.000977 0.416767 0.435185
5 0.000488 0.416767 0.435185
4 0.000244 0.416767 0.435185
3 0.000122 0.416767 0.435185
2 0.000061 0.416767 0.435185
1 0.000031 0.416767 0.435185
0 0.000015 0.416767 0.435185
25 512.000000 0.426075 0.440302
26 1024.000000 0.439988 0.454846
27 2048.000000 0.467023 0.483752
28 4096.000000 0.507750 0.526141
Lasso kehrt zurück
alpha TrainErr TestErr
9 0.007812 0.418124 0.434068
10 0.015625 0.420260 0.434252
8 0.003906 0.417211 0.434764
7 0.001953 0.416878 0.435060
6 0.000977 0.416795 0.435161
0 0.000015 0.416767 0.435185
1 0.000031 0.416767 0.435185
2 0.000061 0.416767 0.435186
5 0.000488 0.416774 0.435186
3 0.000122 0.416768 0.435186
4 0.000244 0.416769 0.435189
11 0.031250 0.424774 0.438609
12 0.062500 0.439039 0.451202
13 0.125000 0.467179 0.478006
14 0.250000 0.549119 0.562292
15 0.500000 0.651761 0.663803
16 1.000000 0.651761 0.663803
17 2.000000 0.651761 0.663803
18 4.000000 0.651761 0.663803
19 8.000000 0.651761 0.663803
20 16.000000 0.651761 0.663803
21 32.000000 0.651761 0.663803
22 64.000000 0.651761 0.663803
23 128.000000 0.651761 0.663803
24 256.000000 0.651761 0.663803
25 512.000000 0.651761 0.663803
26 1024.000000 0.651761 0.663803
27 2048.000000 0.651761 0.663803
28 4096.000000 0.651761 0.663803
Leider war es nutzlos, selbst wenn ich die Methode der Kreuzverifizierung in geschichtetes kfold und die Anzahl der Unterteilungen von K-Fold geändert habe. Die Tendenz ist jedoch richtig, daher denke ich nicht, dass es als Programm ein großer Fehler ist.
Wenn Sie diese Aufgabe versuchen, können Sie den Unterschied zwischen Ridge und Lasso erkennen. Bei der Gratregression werden alle Koeffizienten allmählich weniger einflussreich, während bei Lasso diejenigen mit weniger Einfluss sofort 0 werden.
Fortschritt der Lasso-Rückkehr
volatile acidity -0.183183
total sulfur dioxide -0.090231
chlorides -0.081657
pH -0.060154
fixed acidity 0.000000
citric acid -0.000000
density -0.000000
residual sugar 0.002591
free sulfur dioxide 0.027684
sulphates 0.139798
alcohol 0.304033
alpha 0.007812
TrainErr 0.418124
TestErr 0.434068
Die flüchtige Säure und der Alkohol, die einen großen Einfluss auf die Qualität des Weins haben, bleiben bestehen, aber alles andere ist kleiner. Dies ist das Ergebnis einer Gratregression mit demselben Regularisierungsparameter (= 0,008412).
volatile acidity -0.193965
total sulfur dioxide -0.107355
chlorides -0.088183
pH -0.063840
citric acid -0.035550
density -0.033741
residual sugar 0.023020
fixed acidity 0.043500
free sulfur dioxide 0.045605
sulphates 0.155276
alcohol 0.294240
alpha 0.007812
TrainErr 0.416767
TestErr 0.435185
Da Citrixsäure und -dichte fast keinen Einfluss auf die Qualität haben, ist das Ergebnis der Lasso-Regression, dass sie ignoriert und vereinfacht werden kann, interessant.
Kurs für maschinelles Lernen an der Tsukuba University: Lernen Sie sklearn, während Sie das Python-Skript in die Aufgabe aufnehmen (1) Kurs für maschinelles Lernen an der Tsukuba University: Lernen Sie sklearn, während Sie das Python-Skript in die Aufgabe aufnehmen (2) Kurs für maschinelles Lernen an der Tsukuba University: Lernen Sie sklearn, während Sie das Python-Skript in die Aufgabe aufnehmen (3)
Recommended Posts