[PYTHON] Ich habe ein Umfragepapier zur Erkennung von Zeitreihenanomalien gelesen und werde es daher zusammenfassen.

Dies ist Nishimori von Scrum Sign. Dieses Mal habe ich als grundlegende Umfrage ein Umfragepapier zur Erkennung von Anomalien bei Zeitreihendaten gelesen. Dieser Artikel ist eine Zusammenfassung.

Titel Anomalie Erkennung von Zeitreihen Autor Deepthi Cheboli Zeit 2010 Mai Der Link ist hier. https://conservancy.umn.edu/bitstream/handle/11299/92985/Cheboli_Deepthi_May2010.pdf%C2%A0?sequence=1

Inhaltsverzeichnis

Was ist Anomalieerkennung? Abnormalitätserkennung von Zeitreihendaten ・ Nutzungsbereich .Problemeinstellung ・ Mit oder ohne Etikett · Datentyp Methode ・ Konvertierungsmethode ・ Erkennungsmethode

Was ist Anomalieerkennung?

Die Erkennung von Anomalien bezieht sich auf die Verwendung von Data Mining, um Beobachtungen, unerwartete Muster usw. zu identifizieren, die nicht mit anderen Daten im Datensatz übereinstimmen. Anomalien bei der Erkennung von Anomalien sind Datenmuster, die nicht dem Konzept entsprechen, das eindeutig als normales Muster definiert ist. Der Unterschied in der Methode zum Definieren des obigen normalen Musters kann der Unterschied in der Methode sein. Es gibt verschiedene Arten der Anomalieerkennung: Ausreißererkennung, die einen singulären Wert in den Daten findet, Änderungspunkterkennung, die einen Punkt findet, an dem eine abnormale Änderung in kontinuierlichen Daten aufgetreten ist, und ob die Daten abnormal sind oder nicht. Beurteilung, Erkennung abnormaler Zustände usw. In der realen Welt spiegeln Datenanomalien häufig Defekte wider, die nicht übersehen werden können (Herz-Lungen-Stillstand usw.). Dies ist daher ein Bereich großer Forschung.

Abnormalitätserkennung von Zeitreihendaten

In der realen Welt besteht der Wunsch, kontinuierliche Werte aufzuzeichnen und Fehler in der realen Welt anhand dieser Werte zu erkennen. In vielen Fällen erscheint der Fehler in den Daten als eine Art abnormaler Wert. Die Erkennung von Abnormalitäten von Zeitreihendaten wird besonders aktiv untersucht. Im Vergleich zur Erkennung von Anomalien in anderen Bereichen ist der Wert selbst kein Ausreißer, aber es gibt viele Möglichkeiten, Anomalien zu berücksichtigen, die im Kontext des Kontexts als Anomalien betrachtet werden.

・ Nutzungsbereich

Es gibt viele, aber ein typisches wird in Systemen verwendet, die Anomalien, die während des Fluges auftreten, anhand von Informationen von Flugzeugsensoren erkennen.

・ Problemstellung

Es gibt drei Problemeinstellungen zum Erkennen von Anomalien in Zeitreihendaten. 1Contextual anomalies Erkennt Datenpunkte, die als abnormal eingestuft werden, indem die Daten vorher und nachher berücksichtigt werden. IMG_0187.jpg 2 anomalous subsequence Erkennt Teilsequenzen (Teilabschnitte), die in Zeitreihendaten als abnormal beurteilt werden. IMG_0186.jpg 3 anomalous dataset Stellen Sie fest, ob der gesamte angegebene Datensatz abnormal ist.

・ Mit oder ohne Etikett

Es kann je nach Grad der normalen oder abnormalen Kennzeichnung der Trainingsdaten in drei Typen eingeteilt werden. Überwacht → Normal, abnormal, beide sind gekennzeichnet (in Wirklichkeit gibt es nur wenige Fälle, in denen beide gekennzeichnet werden können)

Halbüberwacht → Nur normale Daten sind gekennzeichnet.

Unbeaufsichtigt → Beides ist nicht gekennzeichnet (viele nicht überwachte Methoden gehen jedoch davon aus, dass die Anzahl abnormaler Daten einige oder viel geringer ist als die von normalen Daten. Mit anderen Worten, der zu trainierende Datensatz wird simuliert. Es wird als normale Daten angesehen.)

・ Arten von Zeitreihendaten

Zeitreihendaten weisen zwei eindeutige Merkmale auf, die bei der Durchführung einer Analyse berücksichtigt werden sollten. 1 Periodizität (ob die Daten eine Periode haben) 2 Synchronität (Beim Umgang mit mehreren Zeitreihendaten, ob die Daten synchronisiert sind) IMG_0188.jpg 周期性、同期性共にあるデータの例 IMG_0189.jpg 周期性はあるが同期生はないデータの例

Methode

In der Arbeit wurden zwei Arten von Methoden vorgestellt. Die sogenannte Vorverarbeitung ist für Zeitreihendaten sehr wichtig. Diese Transformation scheint der Teil zu sein, der dieser Vorverarbeitung entspricht. 1 Methode zur Umwandlung bestimmter Zeitreihendaten in Daten, die einfacher zu analysieren sind (Transformation) 2 Methode zur Erkennung von Anomalien anhand von Zeitreihendaten (Erkennung)

Transformation

1 Aggression Erläuterung Komprimieren Sie die Daten zu einer besseren Darstellung. PAA (stückweise Aggregationsapporoximation) ist eine typische Methode. Es hat den Vorteil, die Berechnungseffizienz zu erhöhen, da es die Abmessungen verringert, aber es besteht auch die Gefahr, dass wichtige Merkmale ausgeblendet werden. PAA Betrachten Sie die Umwandlung von Zeitreihendaten der Länge n in einen w-dimensionalen Vektor. In der folgenden Gleichung werden Zeitreihendaten C der Länge n in einen w-dimensionalen Vektor umgewandelt. IMG_0185.jpg Mit anderen Worten können durch Teilen der Daten in w Rahmen in gleichen Intervallen und Mitteln der Daten in jedem Rahmen n Zeitreihendaten auf w Elemente reduziert werden.

2 Signal Processing Erläuterung Die Analyse erfolgt durch Konvertieren in den Frequenzbereich unter Verwendung der Signalverarbeitungstechnologie (Fourier-Konvertierung, Wavelet). Am häufigsten wird die Haarumwandlung verwendet IMG_0191.jpg

3 Discretization Erläuterung Bild der Aufteilung des Wertes von max nach minimal, der als Funktion der Zeit schwankt, in mehrere Bereiche, Zuordnung der einzelnen Daten zu dem Bereich, zu dem die Daten gehören, und Winken des Alphabets IMG_0190.jpg Die am häufigsten verwendete Methode ist SAX Klicken Sie hier für eine Erklärung von SAX. https://ipsj.ixsq.nii.ac.jp/ej/index.php?action=pages_view_main&active_action=repository_action_common_download&item_id=109658&item_no=1&attribute_id=1&file_no=1&page_id=13&block_id=8

Detection

1 window based

Erläuterung Die Trainingsdaten sind in n Fenster unterteilt, und die Testdaten werden durch leichtes Verschieben jedes Fensters erhalten. Der Grad der Abnormalität wird für jedes Fenster gemäß dem Abstand zwischen den Testdaten und den normalen Daten berechnet und aggregiert. (Es wird angenommen, dass das Distanzkonzept anwendbar ist, das den Grad der Abnormalität anhand des Grads der Ähnlichkeit mit Trainingsdaten misst.)

verdienen ・ Kann mit jeder der oben genannten Problemeinstellungen umgehen Fehler ・ Die Breite des Fensters ist schwer zu bestimmen ・ Es ist sehr schwierig, die Breite zum Verschieben des Fensters zu bestimmen. (Wenn die Breite schmal ist, sind die Berechnungskosten hoch, und wenn die Breite breit ist, können innerhalb der Verschiebungsbreite auftretende Anomalien nicht erkannt werden.) ・ Die Berechnungskosten sind sehr hoch

2 prediction based

Erläuterung Am aktivsten im Bereich der Zeitreihendaten untersucht. Es wird angenommen, dass normale Daten aus einem probabilistischen Prozess generiert werden und dass abnormale Daten nicht zu diesem Prozess passen. (1) Trainieren Sie das stochastische Modell, um den Zustand von t + 1 aus dem Zustand t vorherzusagen. (2) Basierend auf der Vorhersage werden die Testdaten vorhergesagt, und der Fehler aus der Vorhersage wird als Grad der Abnormalität durch Einstellen eines Schwellenwerts festgelegt. Dieser Prozess ist üblich. Als typische Methode MovingAverage, Autoregression, ARMA, ARIMA, Kalman Filter Und so weiter.

verdienen ・ Die Leistung ist gut, da es sich um eine Methode handelt, die die Eigenschaften von Zeitreihendaten leicht widerspiegelt. ・ Jede Problemeinstellung kann behandelt werden. ・ Eine hohe Genauigkeit wird erreicht, wenn die angenommene Verteilung korrekt ist. Fehler ・ Bei der Selbstrückgabe ist es schwierig, das Intervall zu bestimmen, das für die Vorhersage verwendet werden soll, wie bei der fensterbasierten Methode. (Wenn Sie den Abschnitt einschließlich der Abnormalität nicht einstellen, können Sie die Abnormalität nicht richtig erkennen.)

3 hidden Markov model based

Erläuterung Die Zeitreihendaten werden durch eine bestimmte versteckte Zeitreihe generiert, und die Methode basiert auf der Prämisse, dass die Zeitreihen auf Markov-Weise erstellt werden. (1) Erstellen Sie aus den angegebenen Daten ein Hidden-Markov-Modell (HMM (λ)). Ermitteln Sie für Trainingsdaten (Zug = O1, O2 ...) den Maximalwert der Wahrscheinlichkeit von P (Zug | λ) mithilfe des Baum-Welch-Neuschätzungsverfahrens und identifizieren Sie den HMM-Parameter. (2) Finden Sie P (Otest | λ) aus den Testdaten und betrachten Sie das mit einer geringen Wahrscheinlichkeit als abnormal.

verdienen ・ Kann alle Problemeinstellungen behandeln Fehler

4 segment based

Erläuterung

Die Zeitreihen werden in homogene Segmente zerlegt und die FSA zwischen den Segmenten (endlicher Automan (ein Modell dafür, welche Art von logischem Fluss die logisch verbundenen Elemente in einem bestimmten Zustand ausdrücken)) modelliert. Lernen. (In diesem Modell wird die logische Verbindung als Übergangswahrscheinlichkeit ausgedrückt.) Unten ist ein Link, um den endlichen Automan zu erklären. https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&ved=2ahUKEwj-lMqxhvHoAhXCPXAKHRJ9Dm0QFjAAegQIAhAB&url=https%3A%2F%2Fja.wikipedia.org%2Fwiki%2F%25E6%259C%2589%25E9%2599%2590%25E3%2582%25AA%25E3%2583%25BC%25E3%2583%2588%25E3%2583%259E%25E3%2583%2588%25E3%2583%25B3&usg=AOvVaw0fOQ4xY7fgxP189BFnv09U Ablauf der Erkennung von Anomalien ① Erstellen Sie FSA in Trainingsdaten (2) Testdaten (X = X1, X2 ,,,, Xn) Wie folgt vorhergesagt Setzen Sie X1 auf den aktuellen Status und dann X2 auf Xn (a) Wenn es dem aktuellen Status entspricht, lassen Sie es wie es ist (b) Übergang zum nächsten Zustand (möglich) (c) Wenn keiner von ihnen gefunden wird, wird er als abnormal beurteilt.

verdienen

Zusammenfassung

Ich habe ein Umfragepapier zur Erkennung von Zeitreihenanomalien zusammengestellt. Ich wurde daran erinnert, dass das Umfragepapier zuerst gelesen werden sollte, wenn ein Gebiet untersucht wird. Wie bei jeder Anomalieerkennung war es mir sehr wichtig, die Art der Daten zu verstehen, bevor ich eine Erkennungsmethode auswählte, und dass dies die wichtigste Aufgabe für den Menschen war. Ich bin der Meinung, dass dies wahrscheinlich für das maschinelle Lernen im Allgemeinen gilt. Ich bin noch am Anfang, aber ich möchte mit einem der Dinge, die ich in diesem Artikel gelernt habe, als mein eigenes Wissen weiter lernen.

Herausforderungen und Zukunftsaussichten

Aufgrund meines Mangels an mathematischen Kenntnissen konnte ich diesmal nicht tief in jede Methode eintauchen. Eine der Zukunftsaussichten besteht darin, die diesmal erlernte Methode tatsächlich auszuprobieren. Insbesondere denke ich, dass die prädiktionsbasierte Methode einfach zu implementieren scheint, daher würde ich sie gerne ausprobieren. Ich bin noch am Anfang, aber ich möchte mich darauf konzentrieren, vor mir zu verstehen, ohne ungeduldig zu sein.

Recommended Posts

Ich habe ein Umfragepapier zur Erkennung von Zeitreihenanomalien gelesen und werde es daher zusammenfassen.
Ich habe über Docker recherchiert und werde es zusammenfassen
Ich habe 10 Bücher gelesen, die sich auf Zeitreihendaten beziehen, daher werde ich eine Rezension schreiben.
Ich habe es mit Visual Studio Code (hauptsächlich für Python) angepasst, daher werde ich es zusammenfassen
Ich habe 10 Bücher gelesen, die sich auf Zeitreihendaten beziehen, daher werde ich eine Rezension schreiben.
Bücher über Datenwissenschaft, die 2020 gelesen werden sollen
Ich habe ein Umfragepapier zur Erkennung von Zeitreihenanomalien gelesen und werde es daher zusammenfassen.
Einführung in datenwissenschaftliche Bücher.
[Python] Ich habe einen Dekorateur gemacht, der keinen Nutzen zu haben scheint.
Ein Memorandum darüber, wie man Pandas schreibt, das ich persönlich oft vergesse
Python-Anfänger haben einen Chat-BOT erstellt, also habe ich versucht, zusammenzufassen, wie man es macht
Mein Hund sagte mir, ich solle mich auf Youtube zum Star machen, also analysierte ich es mit der Youtube-API.