Beim Lernen oder Lehren von maschinellem Lernen basierend auf PyData.Tokyo Tutorial # 1 aus der Aufteilung der Trainingsdaten, Ich finde es schwierig, die Teile Lernen, Vorhersage und Verifikation zu verstehen. Ich werde diesen Teil erklären.
Merkmalsmatrix X
Klassenbezeichnungsdaten y
Wenn Sie Folgendes tun, können Sie die Daten teilen.
from sklearn.model_selection import train_test_split
X_train, X_val, y_train, y_val = train_test_split(X, y, train_size=0.8, random_state=1)
--X_train: Funktionsmatrix zum Lernen (80%) --X_val: Bewertungsfeature-Matrix (20%) --y_train: Trainingsklassenbezeichnung (80%) Unbekannte Daten --y_val: Bewertungsklassenbezeichnung (20%) Wird zur Beantwortung unbekannter Daten verwendet (versteckt halten)
from sklearn.linear_model import LogisticRegression
clf = LogisticRegression()
Initialisieren Sie clf und verwenden Sie es für das folgende Lernen, Vorhersagen und Überprüfen.
clf.fit(X_train, y_train)
Trainiere mit der initialisierten CLF-Fit-Methode Die Daten geben 80% der Trainingsdaten eine Merkmalsmatrix und eine Klassenbezeichnung
y_train_pred = clf.predict(X_train)
y_val_pred = clf.predict(X_val)
Vorhersage mit der Vorhersagemethode von clf.
--y_train_pred
: Ergebnis der erneuten Vorhersage mit Trainingsdaten
--y_val_pred
: Ergebnis der Vorhersage unter Verwendung von Bewertungsdaten
Bisher habe ich "y_val" nicht verwendet. Das heißt, "y_train" wird als unbekannte Daten behandelt
from sklearn.metrics import accuracy_score
train_score = accuracy_score(y_train, y_train_pred)
val_score = accuracy_score(y_val, y_val_pred)
Geben Sie für "Genauigkeitscore" "Klassenbeschriftungsdaten" und "das obige Vorhersageergebnis" an und geben Sie die richtige Antwortrate aus.
--train_score: Ergebnis der Vorhersage unter Verwendung von Trainingsdaten --val_score: Als Ergebnis einer Vorhersage unter Verwendung von Bewertungsdaten bedeutet dies, dass eine Vorhersage unter Verwendung unbekannter Daten gemacht wurde.
Recommended Posts