[PYTHON] Maschinelles Lernen Aufteilung der Trainingsdaten und Lernen / Vorhersage / Verifizierung

Beim Lernen oder Lehren von maschinellem Lernen basierend auf PyData.Tokyo Tutorial # 1 aus der Aufteilung der Trainingsdaten, Ich finde es schwierig, die Teile Lernen, Vorhersage und Verifikation zu verstehen. Ich werde diesen Teil erklären.

Voraussetzungen

Trainingsdaten teilen

Merkmalsmatrix X Klassenbezeichnungsdaten y Wenn Sie Folgendes tun, können Sie die Daten teilen.

from sklearn.model_selection import train_test_split
X_train, X_val, y_train, y_val = train_test_split(X, y, train_size=0.8, random_state=1)

機械学習データの分割2.png

--X_train: Funktionsmatrix zum Lernen (80%) --X_val: Bewertungsfeature-Matrix (20%) --y_train: Trainingsklassenbezeichnung (80%) Unbekannte Daten --y_val: Bewertungsklassenbezeichnung (20%) Wird zur Beantwortung unbekannter Daten verwendet (versteckt halten)

Lernen / Vorhersage / Verifikation

Initialisierung des Klassifikators (Lernender)

from sklearn.linear_model import LogisticRegression
clf = LogisticRegression()

Initialisieren Sie clf und verwenden Sie es für das folgende Lernen, Vorhersagen und Überprüfen.

Lernen

clf.fit(X_train, y_train)

Trainiere mit der initialisierten CLF-Fit-Methode Die Daten geben 80% der Trainingsdaten eine Merkmalsmatrix und eine Klassenbezeichnung

Prognose

y_train_pred = clf.predict(X_train)
y_val_pred = clf.predict(X_val)

Vorhersage mit der Vorhersagemethode von clf.

--y_train_pred: Ergebnis der erneuten Vorhersage mit Trainingsdaten --y_val_pred: Ergebnis der Vorhersage unter Verwendung von Bewertungsdaten

Bisher habe ich "y_val" nicht verwendet. Das heißt, "y_train" wird als unbekannte Daten behandelt

Bewertung / Verifikation

from sklearn.metrics import accuracy_score
train_score = accuracy_score(y_train, y_train_pred)
val_score = accuracy_score(y_val, y_val_pred)

Geben Sie für "Genauigkeitscore" "Klassenbeschriftungsdaten" und "das obige Vorhersageergebnis" an und geben Sie die richtige Antwortrate aus.

--train_score: Ergebnis der Vorhersage unter Verwendung von Trainingsdaten --val_score: Als Ergebnis einer Vorhersage unter Verwendung von Bewertungsdaten bedeutet dies, dass eine Vorhersage unter Verwendung unbekannter Daten gemacht wurde.

Recommended Posts

Maschinelles Lernen Aufteilung der Trainingsdaten und Lernen / Vorhersage / Verifizierung
Vorhersage von Zeitreihendaten durch AutoML (automatisches maschinelles Lernen)
Datensatz für maschinelles Lernen
Maschinelles Lernen und mathematische Optimierung
Aufteilen von Trainingsdaten für maschinelles Lernen in objektive Variablen und andere in Pandas
Leistungsüberprüfung der Datenvorverarbeitung für maschinelles Lernen (numerische Daten) (Teil 2)
Vorverarbeitung beim maschinellen Lernen 3 Fehlende Wert- / Ausreißer- / Ungleichgewichtsdaten
Leistungsüberprüfung der Datenvorverarbeitung für maschinelles Lernen (numerische Daten) (Teil 1)
Bedeutung des maschinellen Lernens und des Mini-Batch-Lernens
Klassifikation und Regression beim maschinellen Lernen
Organisation von Plattformen für maschinelles Lernen und tiefes Lernen
Maschinelles Lernen in Delemas (Datenerfassung)
Vorverarbeitung beim maschinellen Lernen 2 Datenerfassung
Vorverarbeitung beim maschinellen Lernen 4 Datenkonvertierung
Grundlegendes maschinelles Lernverfahren: ② Daten vorbereiten
Sammeln von Daten zum maschinellen Lernen
[Maschinelles Lernen] OOB (Out-Of-Bag) und sein Verhältnis
Unausgeglichenes Datenlernen mit maschinellem Lernen k-NN
[Maschinelles Lernen] FX-Vorhersage unter Verwendung des Entscheidungsbaums
Maschinelles Lernen
Struktur und Betrieb der Python-Daten (Python-Lernnotiz ③)
[Python] Erste Datenanalyse / maschinelles Lernen (Kaggle)
Ein-Klick-Datenvorhersage für das Feld, realisiert durch vollautomatisches maschinelles Lernen
Zusammenfassung der Klassifizierung und Implementierung von Algorithmen für maschinelles Lernen
Erstellen einer Umgebung für Python und maschinelles Lernen (macOS)
Python: Vorverarbeitung beim maschinellen Lernen: Datenkonvertierung
"OpenCV-Python Tutorials" und "Praktisches maschinelles Lernsystem"
Python: Vorverarbeitung beim maschinellen Lernen: Umgang mit fehlenden / Ausreißern / unausgeglichenen Daten
Vorverarbeitung beim maschinellen Lernen 1 Datenanalyseprozess
Bis zum Start einer dreifachen Vorhersage-Website für Bootsrennen mit maschinellem Lernen und Flask
Ich habe versucht, das Bild zu verarbeiten und zu transformieren und die Daten für maschinelles Lernen zu erweitern
Maschinelles Lernen mit Docker (40) mit Anaconda (40) "Hands-On Data Science und Python Machine Learning" von Frank Kane
Studieren Sie maschinelles Lernen und Informatik. Ressourcenliste
Datenversorgungstricks mit deque beim maschinellen Lernen
Trainingsdaten und Testdaten (Was sind X_train und y_train?) ②
Numerai Turnier-Fusion von traditionellen Quants und maschinellem Lernen-
[Python] Datenanalyse, maschinelles Lernen (Kaggle) -Datenvorverarbeitung-
Ich habe mit der maschinellen Vorverarbeitung von Python Data begonnen
Geschichte rund um die Datenanalyse durch maschinelles Lernen
Sammeln Sie selbst Bilddaten für maschinelles Lernen (Google Custom Search API Pikachu).
Trainingsdaten erstellen
Vorhersage offensiver und defensiver Attribute anhand des Yugioh-Kartennamens - Yugiou Data Science 3. Maschinelles Lernen
Sammeln Sie selbst Bilddaten für maschinelles Lernen (Tumblr API Yoshioka Riho ed.)
[Memo] Maschinelles Lernen
Klassifikation des maschinellen Lernens
Beispiel für maschinelles Lernen
Maschinelles Lernen mit Raspberry Pi 4 und Coral USB Accelerator
Lernen von Beziehungsdaten mit Numpy und NetworkX (Spektralclustering)
Einfaches maschinelles Lernen mit Scikit-Learn und Flask ✕ Web App
Python-Lernnotiz für maschinelles Lernen von Chainer Kapitel 1 und 2
Maschinelles Lernen #k Nachbarschaftsmethode und deren Implementierung und verschiedene
[PyTorch Tutorial ⑦] Visualisieren von Modellen, Daten und Training mit Tensorboard
Verwenden Sie den Scikit-Learn-Trainingsdatensatz mit Chainer (für Training / Vorhersage).
Künstliche Intelligenz, maschinelles Lernen, tiefes Lernen zu implementieren und zu verstehen
Praktisches maschinelles Lernen mit Scikit-Learn und TensorFlow-TensorFlow gab auf-
xgboost: Effektives Modell für maschinelles Lernen für Tabellendaten
Richten Sie Python- und maschinelle Lernbibliotheken unter Ubuntu ein