[PYTHON] Erkennung abnormaler Werte durch unbeaufsichtigtes Lernen: Maharanobis-Distanz (Theorie)

Ich werde die Erkennung abnormaler Werte basierend auf der Maharanobis-Entfernung </ b> erläutern. Zur Implementierung hier klicken

Dies ist eine Methode zum Lernen des Datenmusters durch unbeaufsichtigtes Lernen und Erkennen von Daten, die erheblich von diesen Daten abweichen, als abnormaler Wert. Die Maharanobis-Entfernung ist eine der Methoden, die in der Statistik verwendet werden, um die Entfernung auszudrücken. Es gibt euklidischen Abstand </ b> als Methode, um ähnliche Abstände auszudrücken.

Rezension

Zunächst möchte ich die euklidische Distanz erklären und überprüfen. Die euklidische Distanz ist eine Technik zum Ausdrücken sogenannter "allgemeiner" Distanzen. Sie wissen, dass der Satz von Pitagolas dies erfordert. Wenn Sie kurz in einer zweidimensionalen Ebene denken,

{ \displaystyle
p = (p_1,p_2)
}

und,

{ \displaystyle
q = (q_1,q_2)
}

Wann ist ihre Entfernung

{ \displaystyle
d(p,q) = \sqrt{(p_1 - q_1)^2 + (p_2 - q_2)^2}
}

Sie werden danach gefragt. Dies ist eine allgemeine Entfernungsberechnungsmethode.

Maharanobis Entfernung

Die Maharanobis-Entfernung ist eine der Methoden, die in der Statistik verwendet werden, um die Entfernung auszudrücken, wie bereits erläutert. Wenn es verwendet wird, wird es häufig verwendet, wenn mehrdimensionale Daten eine Korrelation </ b> aufweisen.

Unter der Annahme, dass die Daten ein n-dimensionaler kontinuierlicher Vektor sind, ist die erhaltene Datenzeichenfolge

 x^m = x_1,x_2,…x_m

(Stellen Sie sich diese als eine Reihe von Vektoren vor)

Die i-ten Daten sind

{ 
  x_i = \left(
    \begin{array}{c}
      x_i,_1 \\
      x_i,_2 \\
      \vdots \\
      x_i,_n
    \end{array}
  \right)
}

Beim Schreiben der Durchschnittswertvektor

μ

, Verteilte, gemeinsam verteilte Matrix

\sum_{}

Wird wie folgt berechnet.

Mittelwertvektor

{ 
  μ = \frac{1}{m} \sum_{i=1}^m x_i
}

Verteilte mitverteilte Matrix

\sum_{} = \frac{1}{m}\sum_{i=1}^m (x_i - μ)(x_i - μ)^{\mathrm{T}}

Daher ist mit θ als Schwellenparameter für neue Daten x,

  θ < \sqrt{(x_i - μ) ^{\mathrm{T}}\sum{}^{-1} (x_i - μ) }

Wenn erfüllt ist, wird x als abnormaler Wert beurteilt. Die rechte Seite dieser Gleichung wird als Maharanobis-Abstand bezeichnet.

Mehr Mahara Nobis Entfernung

Hier,

\sum_{}

Wenn eine Einheitsmatrix ist, wird das Quadrat des euklidischen Abstandes erhalten. Wenn es sich um eine Diagonalmatrix </ b> handelt, ist der Maßstab für jede Dimension unterschiedlich. Wenn es sich um eine nicht diagonale Matrix handelt, wird sie weiter gedreht.

Unten ist ein Bild der Ausreißererkennung basierend auf der Maharanobis-Entfernung auf einem zweidimensionalen Vektor dargestellt. 20150704155700.png

Dies liegt daran, dass die gezeichneten Punkte Datenpunkte sind und eine Ellipse angezeigt wird, um die Datenpunkte abzudecken.

Punkte, die nicht in dieser Ellipse enthalten sind, sind Ausreißer. Daher gibt der Schwellenwert & thgr; die Größe dieser Ellipse an, und das Verhältnis der Ausreißer ändert sich in Abhängigkeit davon, wie viel zulässig ist.

Unterschied zwischen euklidischer Entfernung und Maharanobis-Entfernung

20150704160419.png

Es ist leicht zu verstehen, wenn Sie sich diese Abbildung ansehen. Der Unterschied zwischen der euklidischen Entfernung und der Maharanobis-Entfernung besteht darin, ob die Korrelation mehrdimensionaler Daten bei der Definition der Entfernung berücksichtigt wird oder nicht. In der Maharanobis-Entfernung ist die Richtung der Entfernung mit starker Korrelation die Idee, dass sie relativ kürzer als die tatsächliche Entfernung ist. Im Fall der euklidischen Entfernung ist die Entfernung sowohl auf der x-Achse als auch auf der y-Achse gleich. Der Maharanobis-Abstand wird jedoch durch Streuung sowohl auf der x-Achse als auch auf der y-Achse definiert. Mit anderen Worten, wenn die Dispersion groß ist, kann interpretiert werden, dass der Abstand vom Ursprung nicht so weit ist. Wenn die Dispersion klein ist, ist der Abstand vom Ursprung groß </ b>.

Ein bisschen mehr Detail Mahara Nobis Distance

20150704160726.png

In dieser Abbildung werden mehrere Ellipsen vom Ursprung gezeichnet. Die Größe dieser Ellipse gibt die Größe des Schwellenwerts für Ausreißer an. Je größer der Schwellenwert ist, desto größer ist die Ellipse und desto geringer ist der Anteil der Ausreißer.

Ich habe darüber gesprochen, dass die Form der Ellipse durch die Streuung bestimmt wird, aber Sie können diese Figur als Bild wie die Konturlinien eines Berges interpretieren. Die Konturlinie umschließt den Bergteil auf gleicher Höhe. Die Maharanobis-Entfernung ist gleich. Wenn Sie interpretieren, dass der Wert des Schwellenwerts innerhalb des Bereichs liegt, der von derselben Ellipse umgeben ist, ohne das Konzept der Achse zu berücksichtigen, können Sie meiner Meinung nach verstehen, wie der Kreis verzerrt ist.

Maharanobis-Entfernungsprobleme

Bei der Methode zur Erkennung von Ausreißern anhand der Maharanobis-Entfernung wird das Konzept der Ausreißer durch grundlegende Konzepte wie Mittelwertvektor und Bruch formuliert. Da jedoch der Durchschnittswert selbst stark von dem abnormalen Wert beeinflusst wird, wurde auch ein Verfahren zum Erfassen des abnormalen Werts unter Verwendung des Konzepts des Medianwerts vorgeschlagen. (Hier weggelassen)

Persönlich wichtig ist auch, dass die Entfernungsberechnungsmethode, die diese Maharanobis-Entfernung verwendet, keine Daten nur mit dem Booleschen Wert verwenden kann. </ b> (Die Methode besteht darin, den logischen Wert von 1 oder 0 vom Durchschnittswert von 1 oder 0 zu subtrahieren. Überlegen Sie also, was passieren wird ...)

Zusammenfassung

  • Maharanobis Distanz ist eine Verallgemeinerung der Distanz.
  • Maharanobis-Abstand ist ein Abstand, der die Korrelation in jeder Dimension berücksichtigt.

Das nächste Mal werde ich Implementierung mit Python ausführen, da es sich um eine Implementierungsversion handelt.