Hallo. Dieses Mal werde ich ein wenig begeistert sein von ** Klassifizierungsgenauigkeit **: entspannt:

Was ist ein Index?

Ein Indikator ist ein Maß dafür, wie genau eine Datenklasse zugeordnet ist. Dieses Modell ist richtig! !! !! Also bitte adoptieren! !! Niemand ist überzeugt, auch wenn es gesagt wird.

Ein konkretes Beispiel für das Leben um uns herum ist der ** Abweichungswert **. Der Abweichungswert spielt eine Rolle von ** Kriterien ** für das Studium. Ich denke nicht, dass die Abweichungswerte alle sind, aber einige Kriterien werden benötigt. Denn ohne Standards können Urteile zu unfairen Entscheidungen führen. In der akademischen Welt gibt es verschiedene Methoden für Standards wie Benachrichtigungstabellen und Lebensläufe. Außerdem hat jeder Standard eine andere Achse.

Dies ist auch in der Welt der Klassifikation so. Es gibt viele Indikatoren zur Bewertung der Qualität eines Modells, das mithilfe von maschinellem Lernen erstellt wurde. Ich möchte diesmal vier davon vorstellen.

Konformitätsrate (* Präzision *)
Rückrufquote (* Rückruf *)
F-Wert (* F-Wert *)
Richtige Antwortrate (* Genauigkeit *)

Bevor ich diese einführe, möchte ich die Existenz der ** Verwirrungsmatrix ** erklären.

Verwirrte Matrix

Zusammenfassend ist eine Verwirrungsmatrix eine ** Matrix, die die Ergebnisse der Klassifizierung ** zusammenfasst. Huh? Ich bin mir sicher, dass einige Leute das gedacht haben, aber bitte seien Sie versichert, dass ich es von nun an erklären werde.

Positive und negative Beispiele

In der Welt der Klassifikation gibt es die Idee von "interessiert" und "nicht interessiert". Ebenfalls "Ich bin interessiert" heißt ** reguläres Beispiel ** "Ich bin nicht interessiert" ist ein ** negatives Beispiel **.

Wenn Sie beispielsweise davon ausgehen, dass es sich bei der gesendeten E-Mail um Spam handelt Ich bin daran interessiert, welche E-Mails ** Spam ** sind Das positive Beispiel ist Spam und das negative Beispiel ist normale E-Mail. Haben Sie eine Vorstellung von den positiven und negativen Beispielen bekommen?

Schauen Sie sich vor diesem Hintergrund das Bild unten an.

Beschreibung der Verwirrungsmatrix

Die Verwirrungsmatrix ist in vier Typen unterteilt. Richtig positiv (oben links): Wenn die tatsächlichen Daten ein positives Beispiel sind und maschinelles Lernen selbst ebenfalls als positives Beispiel eingestuft wird. (Richtige Antwort) Falsch negativ (oben rechts): Tatsächliche Daten sind ein positives Beispiel, maschinelles Lernen wird jedoch als negatives Beispiel eingestuft. (Falsche Antwort) Falsch positiv (unten links): Tatsächliche Daten sind ein negativer Fall, aber maschinelles Lernen wird auch als positiver Fall klassifiziert. (Falsche Antwort) Richtig negativ (unten rechts): Wenn die tatsächlichen Daten ein negatives Beispiel sind und maschinelles Lernen selbst ebenfalls als negatives Beispiel klassifiziert wird. (Richtige Antwort)

Mathematisch kann es nur diese vier Typen geben. Denn je nach Anzahl der Fälle 2 (tatsächliche Daten sind 2 Typen (positiv oder negativ)) * 2 (Vorhersage sind auch 2 Typen) = ** 4 **

Die Erklärung der Verwirrungsmatrix gibt es hier. Anhand dieser Zahl möchte ich die vier Indikatoren betrachten.

Compliance-Rate

Konformitätsrate: ** Gibt an, wie viel Prozent des maschinellen Lernmodells als korrektes Beispiel vorhergesagt wurden ** (ob es sich um ein korrektes Beispiel handelte). Wenn Sie in die Formel mit den Symbolen in der obigen Abbildung schreiben,

Compliance-Rate= \frac{tp}{tp + fp}

Kann geschrieben werden. Mit anderen Worten bedeutet eine hohe Präzisionsrate, dass der Anteil der Daten, der als positives Beispiel und tatsächlich als positives Beispiel vorhergesagt wurde, hoch ist.

Erinnern

Rückrufrate: ** Gibt das Verhältnis der tatsächlich positiven Beispieldaten an, das als korrekt vorausgesagt wird **. Dies hat eine Beziehung, die der Genauigkeitsrate sehr ähnlich ist. Ich werde das später erklären. Wenn Sie die Rückrufrate zuerst in eine mathematische Formel schreiben,

Erinnern= \frac{tp}{tp + fn}

Mit anderen Worten bedeutet eine hohe Rückrufrate, dass das Verhältnis von Daten, die als positiv vorhergesagt werden können, im Vergleich zu den Daten, die positiv sind, hoch ist.

Beziehung zwischen Präzision und Rückruf

Diese beiden Metriken stehen in einer ** Kompromissbeziehung **. Mit anderen Worten, wenn Sie versuchen, die Rückrufrate zu erhöhen, verringert sich die Präzisionsrate und umgekehrt.

Wenn Sie sich nur schwer vorstellen können, lesen Sie bitte das folgende Beispiel. Es war sehr leicht zu verstehen. Beziehung zwischen Reproduktion und Präzision

F-Wert

F-Wert: Harmonisierter Durchschnitt von Präzision und Rückruf Das ist,

F-Wert= \frac{2}{\frac{1}{Compliance-Rate} + \frac{1}{Erinnern}} = \frac{2 \times Compliance-Rate \times Erinnern}{Compliance-Rate + Erinnern}

Der F-Wert ist ein Index, der hervorgehoben wird, wenn für beide Indikatoren ein guter ** Balance ** -Wert angestrebt wird, indem ein harmonisierter Durchschnitt aus Präzisionsrate und Rückrufrate gebildet wird.

Richtige Antwortrate

Richtige Antwortrate: Gibt den Prozentsatz der Daten an, bei denen die Prognose und das tatsächliche Ergebnis übereinstimmen, unabhängig davon, ob der Fall positiv oder negativ ist. Das ist,

Richtige Antwortrate= \frac{tp + tn}{tp + fp + fn + tn}

Ein Index, der bestimmt, wie gut die Antwort mit dem Gesamtergebnis der Vorhersage übereinstimmt.

Zusammenfassung

Wie war das? Es gibt verschiedene Perspektiven, um festzustellen, ob ein Modell für maschinelles Lernen gut oder schlecht ist. Es scheint, dass Sie herausfinden müssen, welche Art von Modell Sie während der gesamten Aufgabe benötigen. Diesmal habe ich zusammengefasst

Konformitätsrate
Rückruf --F Wert
Richtige Antwortrate war. Es gibt viele Indikatoren auf dieser Welt. Ich denke nicht, dass es notwendig ist, sich an die Indikatoren zu erinnern, aber es ist wichtig zu wissen. Vielen Dank.

Verweise

Bewertungsfunktion des maschinellen Lernens, die ich nicht mehr hören kann Die Verwirrungsmatrix verstehen

[PYTHON] Typischer Klassifizierungsindex