Inhalt

Dies ist ein Memo für mich, während ich Einführung in Anwendungen zur Verarbeitung natürlicher Sprache in 15 Schritten lese. Dieses Mal werde ich in Kapitel 2, Schritt 07 meine eigenen Punkte aufschreiben.

Vorbereitung

Persönlicher MacPC: MacOS Mojave Version 10.14.6 --docker Version: Version 19.03.2 für Client und Server

Kapitelübersicht

Quantitative Bewertung der Vorhersagegenauigkeit des maschinellen Lernsystems mit verschiedenen Indikatoren
Wenn Sie Verbesserungen an einem vorhandenen System vornehmen, können Sie sicherstellen, dass durch die Bewertung keine Leistungseinbußen auftreten, und Sie können das System zuverlässig aktualisieren.
Überlernen verstehen und verhindern, dass es auftritt

07.1 Trainings- und Testdaten sowie Übertraining und Verallgemeinerung

Die Überanpassung des Klassifikators an die Trainingsdaten aufgrund des Trainings wird als ** Überlernen ** bezeichnet.

Wenn 100% der in den Trainingsdaten enthaltenen Merkmalsvektoren identifiziert werden können, wird selbst Rauschen, das ignoriert werden kann, zu einer feinen Identifikationsfläche, so dass es korrekt identifiziert werden kann. Die Möglichkeit, stabile Vorhersagen für andere Daten als Trainingsdaten zu treffen, wird als ** Generalisierung ** bezeichnet.

Wenn dieselben Daten für das Training und die Bewertung verwendet werden, wird das übertrainierte System hoch bewertet. Daher müssen ** die Testdaten für die Bewertung mit etwas anderem als den Trainingsdaten bewertet werden **. (Egal wie gut die Trainingsdaten sind, es macht nicht viel Sinn und Sie müssen sicherstellen, dass Sie nicht übertrainiert haben.)

07.2 Bewertungsindex

Artikel	Inhalt
Genauigkeit (korrekte Antwortrate)	Verhältnis der korrekten Testdaten zu allen Testdaten
Präzision	Prozentsatz der korrekten Testdaten unter den für die Zielklasse vorhergesagten Testdaten
Erinnern	Prozentsatz der korrekten Vorhersagen der Testdaten für die Zielklasse
F-Wert	Ein Index, der das Gleichgewicht zwischen Präzision und Rückruf anzeigt

Implementierung

from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

accuracy_score(y_true, y_pred)
precision_score(y_true, y_pred)
recall_score(y_true, y_pred)
f1_score(y_true, y_pred, average='macro')

Durch Angabe von "Durchschnitt" können Sie den Makro-Durchschnitt "=" Makro "und den Mikro-Durchschnitt" = "Mikro" berechnen
Präzision und Rückruf stehen in einem Kompromiss

07.3 Vorsichtsmaßnahmen für die Bewertung

Artikel	Inhalt
Untere Genauigkeitsgrenze	Die untere Genauigkeitsgrenze ist der Fall der Vorhersage ohne Vermutung.
Anzahl der Klassifizierungsklassen	Da der Schwierigkeitsgrad der Mehrklassenklassifizierung naturgemäß höher ist als der der 2-Klassenklassifizierung, weist der Bewertungsindex je nach Anwendung unterschiedliche Werte auf.
Datentyp testen	Bei der Bewertung verschiedener Systeme relativ zueinander sollten dieselben Testdaten verwendet werden.
Verzerrung in der Anzahl der Daten	Es ist wünschenswert, dass die Testdaten die Daten jeder Klasse so gleichmäßig wie möglich enthalten.