Aidemy　2020/11/10

Einführung

Hallo, es ist ja! Ich bin eine knusprige Literaturschule, aber ich war an den Möglichkeiten der KI interessiert, also ging ich zur KI-Fachschule "Aidemy", um zu studieren. Ich möchte das hier gewonnene Wissen mit Ihnen teilen und habe es in Qiita zusammengefasst. Ich freue mich sehr, dass viele Menschen den vorherigen zusammenfassenden Artikel gelesen haben. Vielen Dank! Dies ist der dritte Beitrag zur Erkennung von Anomalien. Freut mich, dich kennenzulernen.

Dieser Artikel ist eine Zusammenfassung dessen, was Sie in "Aidemy" "in Ihren eigenen Worten" gelernt haben. Es kann Fehler und Missverständnisse enthalten. Bitte beachten Sie.

Was diesmal zu lernen ・ Änderungserkennung mit der kumulativen Summenmethode ・ Erkennung abnormaler Teile durch Näherungsmethode ・ Singularspektrum-Konvertierungsmethode

Änderungserkennung durch kumulative Summenmethode

Was ist die kumulative Summenmethode?

-__ Die kumulative Summenmethode __ ist eine Methode zur __ "Änderungserkennung" __, die __ Änderungspunkt __ erkennt (siehe Kapitel 1). Im Gegensatz zur Erkennung von Ausreißern verursacht die Änderungserkennung __ "kontinuierliche Abnormalität" __, daher wird die kumulative Summenmethode verwendet, die dies erkennen kann. -In der kumulativen Summenmethode wird der "abnormale Zustand (Änderungsgrad)" __ entlang der __ Zeit gezählt, und wenn die Zählung (kumulative Summe) den Schwellenwert überschreitet, wird festgestellt, dass er abnormal ist. Mit anderen Worten kann gesagt werden, dass dieses Verfahren geeignet ist, wenn eine Abnormalität eines bestimmten Wertes in Zeitreihendaten erfasst wird.

-Der Fluss der kumulativen Summenmethode (wenn die Änderung positiv ist, dh wenn es abnormal ist, zu steigen) ist wie folgt. (1) Definieren Sie den Grad der Änderung __, indem Sie eine Richtlinie für normale Zeiten und eine Richtlinie für die Aufwärtsbewegung angeben. (2) Finden Sie die __upper kumulative Summe des Änderungsgrades __ ③ Wenn der Schwellenwert überschritten wird, wird er als abnormal beurteilt.

(1) Definieren Sie den Grad der Änderung, indem Sie eine Richtlinie für normale Zeiten und eine Richtlinie für die Aufwärtsbewegung angeben.

-__ Änderungsgrad __ ist ein Wert, der angibt, wie stark sich die Daten in einen abnormalen Zustand geändert haben. ・ Hier wird der Änderungsgrad definiert, aber dafür werden __ "Wert, der genommen werden muss, wenn normal (μ)" und "Aufwärtswert, der als abnormal beurteilt werden soll (ν +)" __ im Voraus festgelegt (vergangene Fälle). Müssen bekommen (analysieren).

Finden Sie auch __ "Standardabweichung (σ)" __ aus den Daten. __ Erhalten von "np.std ()" __. ・ Einmal berechnet, kann der Änderungsgrad (a + (t)) zum Zeitpunkt t wie folgt berechnet werden. $ a_{+}(t) = \left( \frac{\nu _{+}}{\sigma} \right)\frac{{ x(t)} - \mu - \nu _{+} / 2}{\sigma} $ (Die Formel __ "x (t)" __ ist der beobachtete Wert zum Zeitpunkt t)
Als Ergebnis wird, wenn die Daten normal sind, der Änderungsgrad negativ, und wenn die Daten abnormal sind, wird er positiv, so dass es möglich ist, mit der kumulierten Summe zu verarbeiten.
Auch diesmal haben wir den Zeitpunkt berücksichtigt, zu dem die Änderung positiv war, aber die gleiche Berechnung kann durchgeführt werden, wenn die Änderung negativ ist.

・ Code (Berechnen Sie den Änderungsgrad als 10 für Normal und 14 für Aufwärts) スクリーンショット 2020-11-05 22.33.06.png

·Ergebnis スクリーンショット 2020-11-05 22.33.56.png

(2) Ermitteln Sie die obere kumulative Summe des Änderungsgrades

・ Da der Änderungsgrad im vorherigen Abschnitt berechnet wurde, wird er als nächstes akkumuliert. In dem im vorherigen Abschnitt definierten Änderungsgrad nimmt es einen negativen Wert an, wenn es normal ist, aber wenn es akkumuliert, sollte es __ sein, wenn es normal ist __. Mit anderen Worten, der Änderungsgrad steigt nur an, wenn __ abnormal __ ist. Dies ist die __upper kumulative Summe __. -Die Berechnung der oberen kumulativen Summe erfolgt, indem der Änderungsgrad nacheinander mit for loop herausgenommen und addiert wird. Insbesondere ist es wie folgt.

スクリーンショット 2020-11-06 11.11.57.png

・ Erläuterung des obigen Codes

Im __ "Bereich (x.size --1)" __ Teil der for-Anweisung ist __ "-1" __ die obere kumulative Summe bis zum Zeitpunkt t ist __ "t-1" Da es durch "den Gesamtänderungsgrad von + den Änderungsgrad von t" __ berechnet wird, wird es auf diese Weise extrahiert, um dieses "t-1" auszudrücken. -__ "Max (0, x_cumsum [i])" __ gibt an, dass das Array, in dem die kumulative Summe gespeichert ist, __ "0 und das Array mit dem größeren Änderungsgrad" __ speichert. ・ __ "x_cumsum [i + 1] = x_cumsum [i] + x [i + 1]" __ "i + 1" __ ist tatsächlich __, weil __i t-1 darstellt Zeigt an, dass es "t" ist.

・ Der Graph der oberen kumulativen Summe ist wie folgt. スクリーンショット 2020-11-06 11.21.22.png

③ Wenn der Schwellenwert überschritten wird, wird er als abnormal beurteilt.

Danach reicht es wie bei der herkömmlichen Methode aus, den Schwellenwert und die kumulative Summe zu vergleichen, um festzustellen, ob er abnormal ist oder nicht. -Auch um den Punkt zu finden, der zum ersten Mal den Schwellenwert überschreitet, dh den "Änderungspunkt", reicht es aus, __ "den Index zu finden, der zum ersten Mal zwischen 0 und der Größe der kumulativen Summe == __ liegt. Kann wie folgt beschrieben werden.

np.arange(score_cumsum.size)[pred==1][0]

・ "Np.arange begrenzt den Bereich auf 0 auf die Größe der kumulierten Summe und bezieht sich auf jede einzelne, und __ [pred == 1] __ extrahiert den Teil, der zum ersten Mal als abnormal beurteilt wird, und __ [0 ] __ um den Index abzurufen "ist fertig.

・ Folgendes habe ich gegen die Anomalie getan. スクリーンショット 2020-11-06 11.40.03.png

·Ergebnis スクリーンショット 2020-11-06 11.40.13.png

Abnormale Teileerkennung durch Näherungsmethode

Schiebefenster, Teilzeitreihen

-Dieses Mal werden die Zeitreihendaten durch __ "Ausreißererkennung" __ erkannt. Bei der kumulativen Summenmethode bis zum vorherigen Abschnitt mussten Sie den Schwellenwert und die Parameter für die Berechnung des Änderungspunkts selbst vorbereiten, was den Nachteil hatte, dass __ nicht sehr praktisch __, aber mit der __near-Methode __ Dieses Problem kann also gelöst werden. ・ Die Ausreißererkennung ist nicht zum Erkennen von Änderungen in Zeitreihendaten geeignet, liegt jedoch daran, dass __kontinuierliche Daten wie Zeitreihendaten nicht beobachtet werden können. Bei dieser Nachbarschaftsmethode wird dies durch __Entwickeln __ ermöglicht, um ein solches Problem zu lösen. Insbesondere ist es möglich, den Zeiteffekt zu berücksichtigen, indem alle Daten als M benachbarte Daten gruppiert werden, dh in eine Sammlung von M-dimensionalen Vektoren umgewandelt werden.

Zu diesem Zeitpunkt wird die in "M" Teile unterteilte Länge als "Schiebefenster" bezeichnet, und der dadurch erzeugte Satz von Vektoren wird als "Teilzeitreihendaten" bezeichnet. Im Folgenden werden Daten beispielsweise mithilfe eines Schiebefensters der Länge 3 konvertiert.

スクリーンショット 2020-11-06 11.59.13.png

-Der Code lautet wie folgt. Teilen Sie nach dem Konvertieren der Daten von einer Dimension in zwei Dimensionen die Daten für die Anzahl der Folienfenster __M __ und erstellen Sie sie durch __extrahieren __.

・ Code (konvertiert 550 Daten x in Teilzeitreihendaten) スクリーンショット 2020-11-06 14.09.51.png

-Wenn das Obige ausgeführt wird, beträgt die Länge der Teilzeitreihendaten __ "((Anzahl der Daten - M + 1), M)" __.

Abnormalitätsberechnung

・ Berechnen Sie nach dem Erstellen von Teilzeitreihendaten den Grad der Abnormalität. Dieses Mal verwenden wir __ "Methode des nächsten Nachbarn" __ mit der Entfernung zum nächsten Nachbarn als Grad der Anomalie. Einzelheiten finden Sie in Kapitel 2. Verwenden Sie KNeiborsClassifier, um die Entfernung zum nächsten __ zu berechnen. -Setze __ "n_neighbors" __ diesmal auf _2 statt 1. Dies liegt daran, dass die nächste Nachbarschaft von Daten als __ "die Daten selbst" __ behandelt wird. Daher ist die nächstgelegene Nähe __ "Entfernung der zweitnächsten Daten" __. -Daher kann __ "clf.kneighbors ()" __ verwendet werden, um die Nähe der einzelnen Daten zu berechnen, und __ "dist [:, 1]" __ kann verwendet werden, um die Entfernung der zweitnächsten Daten zu erhalten. ..

·Code スクリーンショット 2020-11-06 14.38.01.png

Schwellenwerteinstellung, Beurteilung von Anomalien

・ Stellen Sie als Nächstes den Schwellenwert ein. Da diese Methode die Verteilung von Daten nicht definiert, legen Sie den Schwellenwert so fest, dass er mit dem SVM der Klasse ___1 identisch ist.

Verwenden Sie speziell __ "st.scoreatpercentile ()" __. __ Angenommen, "die Daten enthalten abnormale Daten mit einer bestimmten Rate" __, stellen Sie die Rate __ "a" __ ein und übergeben Sie den Grad der Abnormalität "Entfernungen", um den Schwellenwert festzulegen.
Dieses Mal möchten wir sagen, dass der an das Argument übergebene Partitionspunkt __ "100-a" __ ist, je größer der Grad der Abnormalität ist, desto abnormaler ist er.

・ Code (wenn die oberen 30% der Teilungspunkt sind)![Screenshot 2020-11-06 14.52.20.png](https: //qiita-image-store.s3.ap-northeast-1.amazonaws. com / 0/698700 / 467fc634-211b-a03c-5d62-f8989f0edf3c.png)

Singular Spectrum Conversion-Methode

Verlaufsmatrix und Testmatrix

・ Durch die Trennung von Vergangenheit und Gegenwart von den Teilzeitreihendaten bis zum vorherigen Abschnitt ist es möglich geworden, fortgeschrittenere Verteilungen zu berücksichtigen. Die __ "Methode zur Umwandlung des singulären Spektrums" , die wir dieses Mal lernen werden, findet zwei Dinge: __ "einen Vektor, der die aktuellen Daten darstellt, und" __ "Daten, die die vergangenen Daten darstellen", indem diese erweiterte Verteilung definiert wird. Dies ist eine Methode zum Erkennen von Anomalien, indem die Differenz zwischen beiden als Änderungspunkt verwendet wird. ・ Der Ablauf der Methode zur Umwandlung des singulären Spektrums ist wie folgt. (1) Geben Sie __ Fensterbreite M, Anzahl der Zeilen in der Verlaufsmatrix n, Anzahl der Spalten in der Testmatrix k und Verzögerung L für Zeitreihendaten an. ② Konvertieren Sie Daten in __Teilzeitreihendaten der Fensterbreite M __ ③ Erstellen Sie __history matrix __ und __test matrix __ ④ Die Verlaufsmatrix und die Testmatrix werden durch __ Singularwert __ zerlegt, und jede __ linke Singularvektormatrix __ wird erhalten. ⑤ _ Berechnen Sie den Änderungsgrad aus der Differenz zwischen den beiden Matrizen __

-Die oben angezeigte __ "Verlaufsmatrix" __ ist "eine Sammlung von n Daten aus der vorherigen __Zeit __". Außerdem ist __ "Testmatrix" __ "ein Array von Daten __ von der aktuellen Zeit bis __L (Verzögerung) und bis zu k Stück vorher". Siehe unten visuell.

スクリーンショット 2020-11-06 15.16.20.png

・ Für ① wird diesmal __ "M = 50, n = 25, k = 25, L = 13" __ verwendet. -Für (2) erfolgt die Konvertierung in partielle Zeitreihendaten auf die gleiche Weise wie bei __ "Erkennung abnormaler Teile durch die Nachbarschaftsmethode" __. ・ Für ③ lesen Sie im Folgenden, wie Sie eine Verlaufsmatrix und eine Testmatrix aus den in ② erstellten Teilzeitreihendaten (X_pts) erstellen.

スクリーンショット 2020-11-06 15.26.38.png

(4) Zerlegen Sie die Verlaufsmatrix und die Testmatrix in Singularwerte und finden Sie die Matrix jedes linken Singularvektors.

Durch Ausführen von __ "Low-Layer-Approximation der Singularwertzerlegung" __ für die in (3) erstellte Verlaufsmatrix und Testmatrix ist es möglich, den Wert zu erhalten, der die __matrix darstellt.
Verwenden Sie als Code __ "np.linalg.svd (A)" __, wenn Sie die Matrix A von (m × n) in singuläre Werte zerlegen. Bereiten Sie drei zu speichernde Variablen vor: __ "U, S, V" __. Dieses Mal werden wir __ "U" __ verwenden. U enthält einen __ linken Singularvektor __. Der linke Singularvektor ist ein repräsentativer Vektor __ von __matrix A, und U ist eine Matrix, die in absteigender Reihenfolge der Priorität angeordnet ist, also __hierarchie "r", wie unten gezeigt. Durch Angabe von __ können Sie den repräsentativen Vektor mit höherer Priorität abrufen. -Auch ist die Form von U __ (die Anzahl der Zeilen in der Matrix, die Anzahl der Fenster M, die Anzahl der linken Singularvektoren) __, so dass bei einer Näherung auf niedriger Ebene die __-te Achse in Scheiben geschnitten wird. Zu __.

スクリーンショット 2020-11-06 15.46.19.png

-Code, der dies getan hat ([0] Teil extrahiert nur "U") スクリーンショット 2020-11-06 15.49.42.png

⑤ Berechnen Sie den Änderungsgrad aus der Differenz zwischen den beiden Matrizen

・ Ermitteln Sie den Unterschied __ der beiden im vorherigen Abschnitt erstellten __ linken Singularvektoren. Die Differenz wird durch das innere Produkt von vectors berechnet. Diesmal wird die Menge der Vektoren, dh das innere Produkt der Matrizen, mit __ "np.matmul ()" __ berechnet, und der Abstand wird mit __ "np.linalg.norm ()" __ berechnet. ・ Wenn dieser Abstand normal ist, kann der Änderungsgrad mit __ "1-Norm" __ berechnet werden.

-Der Code, der dies tut, ist wie folgt. スクリーンショット 2020-11-07 9.55.34.png

・ Ergebnis![Screenshot 2020-11-07 9.55.56.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/698700/2084bdb3-25c6-142a- 2189-2e54669d77e8.png)

・ Ergänzende Informationen zum obigen Code -__ "Get_score" __ erstellt eine Funktion, um den Grad der Änderung selbst zu ermitteln. In __np.matmul () __ muss die history-Matrix wie __ "x.T" __ transponiert werden. - "Score" __ übergibt U_hist und U_test zusammen an den obigen get_score. Die __für Notation __ ist, weil __ der Änderungsgrad __ zu jedem Zeitpunkt berechnet wird.

Zusammenfassung

-Es gibt eine "kumulative Summenmethode" als Methode zum Erkennen von Änderungspunkten mit einer Zeitreihe. Dies ist eine Methode zum Akkumulieren (Hinzufügen) des Änderungsgrades und zum Bestimmen einer Abnormalität, wenn der Änderungsgrad den Schwellenwert überschreitet. Dieser Schwellenwert und diese Berechnungsparameter müssen jedoch selbst berechnet werden, was nicht praktikabel ist. -Die Methode mit der "Nachbarschaftsmethode" löst dieses Problem. Diese Methode bestimmt durch Erkennen von Ausreißern, ob Zeitreihendaten abnormal sind oder nicht. Ursprünglich sind die Ausreißererkennung und die Zeitreihendaten inkonsistent, dies wird jedoch durch Aufteilen der benachbarten Daten in M Teile gelöst.

Die zu diesem Zeitpunkt in M Teile unterteilte Länge wird als Schiebefenster bezeichnet, und die Erfassung der erstellten Daten wird als Teilzeitreihendaten bezeichnet. Mit diesen wird der Grad der Anomalie nach der Methode des nächsten Nachbarn berechnet. -Es gibt auch eine "singuläre Spektrumsumwandlungsmethode", die die obige Methode anwendet. Dies ist ein Verfahren zum Erfassen eines Änderungspunkts aus "den aktuellen repräsentativen Daten oder der Differenz zwischen den repräsentativen Daten".

Diese Zeit ist vorbei. Vielen Dank für das Lesen bis zum Ende.

[PYTHON] Einführung in die Anomalieerkennung 3 Änderungspunkterkennung