Dies ist ein Memo für mich, während ich Einführung in Anwendungen zur Verarbeitung natürlicher Sprache in 15 Schritten lese. Dieses Mal werde ich in Kapitel 2, Schritt 07 meine eigenen Punkte aufschreiben.
Die Überanpassung des Klassifikators an die Trainingsdaten aufgrund des Trainings wird als ** Überlernen ** bezeichnet.
Wenn 100% der in den Trainingsdaten enthaltenen Merkmalsvektoren identifiziert werden können, wird selbst Rauschen, das ignoriert werden kann, zu einer feinen Identifikationsfläche, so dass es korrekt identifiziert werden kann. Die Möglichkeit, stabile Vorhersagen für andere Daten als Trainingsdaten zu treffen, wird als ** Generalisierung ** bezeichnet.
Wenn dieselben Daten für das Training und die Bewertung verwendet werden, wird das übertrainierte System hoch bewertet. Daher müssen ** die Testdaten für die Bewertung mit etwas anderem als den Trainingsdaten bewertet werden **. (Egal wie gut die Trainingsdaten sind, es macht nicht viel Sinn und Sie müssen sicherstellen, dass Sie nicht übertrainiert haben.)
Artikel | Inhalt |
---|---|
Genauigkeit (korrekte Antwortrate) | Verhältnis der korrekten Testdaten zu allen Testdaten |
Präzision | Prozentsatz der korrekten Testdaten unter den für die Zielklasse vorhergesagten Testdaten |
Erinnern | Prozentsatz der korrekten Vorhersagen der Testdaten für die Zielklasse |
F-Wert | Ein Index, der das Gleichgewicht zwischen Präzision und Rückruf anzeigt |
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
accuracy_score(y_true, y_pred)
precision_score(y_true, y_pred)
recall_score(y_true, y_pred)
f1_score(y_true, y_pred, average='macro')
Artikel | Inhalt |
---|---|
Untere Genauigkeitsgrenze | Die untere Genauigkeitsgrenze ist der Fall der Vorhersage ohne Vermutung. |
Anzahl der Klassifizierungsklassen | Da der Schwierigkeitsgrad der Mehrklassenklassifizierung naturgemäß höher ist als der der 2-Klassenklassifizierung, weist der Bewertungsindex je nach Anwendung unterschiedliche Werte auf. |
Datentyp testen | Bei der Bewertung verschiedener Systeme relativ zueinander sollten dieselben Testdaten verwendet werden. |
Verzerrung in der Anzahl der Daten | Es ist wünschenswert, dass die Testdaten die Daten jeder Klasse so gleichmäßig wie möglich enthalten. |
Recommended Posts