Wir haben die Methoden zusammengefasst, die beim maschinellen Lernen häufig angewendet werden. Wir werden nach Bedarf Korrekturen vornehmen.
StandardScaler
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler() #Instanzerstellung
scaler.fit(pd_sample) #Parameterberechnung (Mittelwert, Standardabweichung usw.)
pd_sample_sc = scaler.transform(pd_sample) #Datenkonvertierung
#pd_sample_sc = scaler.fit_transform(pd_sample)Kann gemeinsam mit ausgeführt werden
get_dummies
#pandas.get_dummies()Funktion
pd_sample = pd.get_dummies(pd_sample)
train_test_split
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y)
KMeans
from skleran.cluster import KMeans
kmeans = KMeans(n_clusters=4, random_state=0) #K-bedeutet Modelldefinition
clusters = kmeans.fit(pd_sample) #Clustering-Ausführung
pd_sample['cluster'] = clusters.labels_ #Erhalten Sie Clustering-Ergebnisse
PCA
from sklearn.decomposition import PCA
pca = PCA(n_components=2) #PCA-Modelldefinition
pca.fit(pd_sample) #Hauptkomponentenanalyse
x_pca = pca.transform(pd_sample) #Datenkonvertierung (Rückgabewert ist ein Objekt vom Typ Array)
x_pca = pd.DataFrame(x_pca) #Wiederherstellung im DataFrame-Typ
#x_pca = pca.fit_transform(pd_sample)Kann gemeinsam mit ausgeführt werden
LinearRegression
from sklearn.linear_model import LinearRegression()
model = LinearRegreession() #Modellinitialisierung
model.fit(X_train, y_train) #Modellieren
#Genauigkeitsüberprüfung von Trainingsdaten und Bewertungsdaten
print(model.score(X_train, y_train))
print(model.score(X_test, y_test))
#Gibt einen Koeffizienten aus, der den Grad des Beitrags für jede erklärende Variable darstellt
coef = pd.DataFrame({"feature_names":X.columns, "coefficient":model.coef_})
print(coef)
#Regressionswert für unbekannte Daten vorhersagen
print(model.predict(x_pred))
DecisionTreeClassifier
from sklearn.tree import DecisionTreeClassifier
model = DecisionTreeClassifier(random_state=0) #Modellinitialisierung
model.fit(X_train, y_train) #Modellieren
#Genauigkeitsüberprüfung von Trainingsdaten und Bewertungsdaten
print(model.score(X_train, y_train))
print(model.score(X_test, y_test))
#Gibt einen Koeffizienten aus, der den Grad des Beitrags für jede erklärende Variable darstellt
importance = pd.DataFrame({"feature_names":X.columns, "coefficient":model.feature_importances_})
print(importance)
#Klassifizierungswert für unbekannte Daten vorhersagen
print(model.predict(x_pred))
#0/Ausgangsvorhersagewahrscheinlichkeit von 1
print(model.predict_proba(x_pred))
#Richtige Antwortrate= (TP+TN)/(TP+FN+FP+TN)
model.score(X_test, y_test)
#Gemischte Matrix
from skleran.metrics import confusion_matrix
matrix = confusion_matrix(X_test, y_test)
#Wärmekarte der gemischten Matrix
import seaborn as sns
sns.heatmap(matrix, annot=True, cmap='Blues')
plt.xlabel('Prediction')
plt.ylabel('Target')
plt.show()
#Anpassungsrate= TP/(TP+FP)
from sklearn.metrics import precision_score
precision_score(X_test, y_test)
#Erinnern= TP/(TP+FN)
from sklearn.metrics import recall_score
recall_score(X_test, y_test)
#F-Wert= 2*(Precision*Recall)/(Precision+Recall)
from sklearn.metrics import f1_score
f1_score(X_test, y_test)
Recommended Posts