[PYTHON] Zeitreihenanalyse 1 Grundlagen

Aidemy 2020/10/

Einführung

Hallo, es ist ja! Obwohl es ein knuspriges literarisches System ist, interessierte ich mich für die Möglichkeiten der KI, also ging ich zur KI-Fachschule "Aidemy", um zu studieren. Ich möchte das hier gewonnene Wissen mit Ihnen teilen und habe es in Qiita zusammengefasst. Ich freue mich sehr, dass viele Menschen den vorherigen zusammenfassenden Artikel gelesen haben. Vielen Dank! Dies ist der erste Beitrag der nächsten Serienanalyse. Freut mich, dich kennenzulernen.

Was diesmal zu lernen ・ Informationen zur Zeitreihenanalyse ・ Arten von Zeitreihendaten ・ Statistik der Zeitreihendaten

Über Zeitreihenanalyse

Was sind Zeitreihendaten?

(Überprüfung) Anzeige von Zeitreihendaten

-Für die Zeitreihenanalyse ist es unerlässlich, die Zeitreihendaten grafisch darzustellen. Verwenden Sie Matplotlib zum Plotten. Im Folgenden werde ich die diesmal erscheinende plt überprüfen.

-Erstellen eines Diagramms: __plt.plot (x, y) __ -Diagrammanzeige: __plt.show () __

Zeitreihendatenmuster

-Es gibt die folgenden drei Muster in Zeitreihendaten. Zeitreihendaten bestehen aus einer Kombination dieser drei Muster. · __ Trend : Langfristige Datentrends. Wenn der Wert steigt, wird er als "positiver Trend" bezeichnet, und wenn er abnimmt, wird er als "negativer Trend" bezeichnet. - Periodische Fluktuation : Der Wert der Daten wiederholt sich im Laufe der Zeit steigend und fallend. Insbesondere wird die einjährige periodische Fluktuation als __ saisonale Fluktuation __ bezeichnet. - Unregelmäßige Schwankungen __: Der Wert der Daten schwankt unabhängig vom Zeitablauf.

Modellieren

-__ Modellierung __ dient zur Formulierung von Zeitreihendaten (__ Build-Modell __). ・ Bei der Zeitreihenanalyse wird dieses Modell verwendet, um Vorhersagen zu treffen und die Beziehungen zwischen Daten zu analysieren.

Arten von Zeitreihendaten

-Die Zeitreihendaten enthalten __ "Originalserie" __, dh die Daten selbst vor der Verarbeitung. Der Zweck der Zeitreihenanalyse besteht darin, die Eigenschaften dieser ursprünglichen Reihe zu analysieren, aber der größte Teil der tatsächlichen Analyse sind die Daten nach der Verarbeitung. -Die verarbeiteten Daten umfassen __ "Protokollserien", "Differenzserien" und "saisonbereinigte Serien" __. Wir werden uns jedes unten genauer ansehen.

Protokollserie

-Für Daten mit großen Wertschwankungen zwischen Zeitreihendaten wird eine sanfte Änderung als logarithmische Konvertierung bezeichnet, und Daten, die einer logarithmischen Konvertierung unterzogen wurden, werden als logarithmische Reihen bezeichnet.

Bodendifferenzserie

Saisonbereinigte Serien

・ Die einjährige periodische Fluktuation wird als saisonale Fluktuation bezeichnet, es ist jedoch schwierig, "Daten zu analysieren, die kein saisonales Fluktuationsmuster sind", wie dies bei Daten mit saisonaler Fluktuation der Fall ist. Um solche Fälle zu behandeln, kann eine Verarbeitung zur Beseitigung saisonaler Schwankungen durchgeführt werden, und die durch diese Verarbeitung erhaltenen Daten werden als __ saisonbereinigte Serien__ bezeichnet.

-Um eine saisonbereinigte Serie durchzuführen, gehen Sie wie folgt vor: (Sm steht für Statistikmodelle) __sm.tsa.seasonal_decompose (Daten) __

・ Code![Screenshot 2020-10-29 13.23.57.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/698700/0cc42af4-cdae-2551- b768-f33da02e8d90.png)

・ Ergebnis![Screenshot 2020-10-29 13.24.06.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/698700/80c2e264-d78c-b4e9- 769f-8f0e7d8322fd.png)

Statistik von Zeitreihendaten

Erwarteter Wert (Durchschnitt)

-Der Durchschnittswert aller Zeitreihendaten heißt Expectation. -Der Durchschnittswert kann mit __np.mean () __ berechnet werden.

Dispersion / Standardabweichung

-Der Wert, der angibt, wie stark die Zeitreihendaten vom erwarteten Wert abweichen, ist __verteilt __. ・ Die Varianz wird berechnet durch __ (jeder Datenerwartungswert) ^ 2 __, und diese Quadratwurzel heißt __ Standardabweichung __. ・ In der Welt der Aktien und Anlagen ist die Standardzeitabweichung ein wichtiger Index für die Risikomessung.

Selbstkovarianz / Autokorrelationskoeffizient

-__ Selbstverteilung __ bedeutet Mitverteilung __ derselben Daten in verschiedenen Zeitreihen. ・ Wenn die Zeitreihen durch k getrennt sind, wird dies als Selbstkovarianz k-ter Ordnung bezeichnet und wie folgt berechnet. __ (Jeder Datenerwartungswert) (Daten durch k-Erwartungswert getrennt) __ -Die obige Gleichung, die als Funktion für k angesehen wird, heißt __selbstverteilungsfunktion __.

-Der __Autokorrelationskoeffizient __ ist eine Umrechnung dieser Selbstkovarianz, damit sie mit verschiedenen Werten verglichen werden kann. -Der Autokorrelationskoeffizient gibt __ an, wie ähnlich er dem früheren Wert __ ist. ・ Der Autokorrelationskoeffizient wird wie folgt berechnet. __ Selbstkovariante / (Standardabweichung der Daten) (Standardabweichung der durch k getrennten Daten) ___ -Die obige Formel, die als Funktion für k angesehen wird, heißt __autokorrelationsfunktion __, und der Graph davon heißt __chologram __.

Ausgabe der Autokorrelationsfunktion

・ Die Autokorrelationsfunktion Vertreten durch __sm.tsa.stattools.acf (Daten, nlags) __. ・ Grafik (Cholerogramm) Es wird durch __sm.graphics.tsa.plot_acf (Daten, Verzögerungen) __ dargestellt.

-Das Argument "Verzögerung" ist __ "der Wert der verschobenen Zeitreihe k" __. ・ Man kann sagen, je näher der Korrelationskoeffizient an 1,0 liegt, desto stärker ist die positive Korrelation, und je näher er an -1,0 liegt, desto stärker ist die negative Korrelation.

・ Code![Screenshot 2020-10-29 13.23.02.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/698700/a61008fc-e9ec-3c69- dd58-a5f40dae509f.png)

・ Ergebnis![Screenshot 2020-10-29 13.23.25.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/698700/32d7d822-abad-bae7- 25f4-86cc625b2c80.png)

Zusammenfassung

-Zeitreihendaten beziehen sich auf Daten, deren Wert sich im Laufe der Zeit ändert. -Es gibt drei Muster in Zeitreihendaten. Die langfristige Tendenz des Wertes, zu steigen und zu fallen, ist "Trend", der wiederholte Anstieg und Abfall des Wertes im Laufe der Zeit ist "periodische Fluktuation", und der Wert, der sich im Laufe der Zeit ändert, ist "unregelmäßige Fluktuation". ・ Statistiken für die Zeitreihenanalyse umfassen erwartete Werte (Mittelwerte), Abweichungen und Standardabweichungen. Zusätzlich gibt es Selbstkovarianz- und Autokorrelationskoeffizienten, die unter Verwendung dieser berechnet werden, und durch Berechnung des Autokorrelationskoeffizienten kann die Ähnlichkeit der Daten zu diesem Zeitpunkt mit der Vergangenheit verstanden werden.

Diese Zeit ist vorbei. Vielen Dank für das Lesen bis zum Ende.

Recommended Posts

Zeitreihenanalyse 1 Grundlagen
RNN_LSTM1 Zeitreihenanalyse
Zeitreihenanalyse Teil 4 VAR
Zeitreihenanalyse Teil 3 Prognose
Zeitreihenanalyse Teil 1 Autokorrelation
Python: Zeitreihenanalyse: Vorverarbeitung von Zeitreihendaten
Umsatzprognose für die Zeitreihenanalyse
Zeitreihenanalyse 3 Vorverarbeitung von Zeitreihendaten
Zeitreihenanalyse 2 Stabilität, ARMA / ARIMA-Modell
Ich habe versucht, Zeitreihen zu analysieren! (AR-Modell)
Zeitreihenanalyse Teil 2 AR / MA / ARMA
Zeitreihenanalyse 4 Konstruktion des SARIMA-Modells
Zeitreihenanalyse Nr. 6 Gefälschte Rückkehr und republikanischer Teil
Python: Zeitreihenanalyse: Erstellen eines SARIMA-Modells
Python: Zeitreihenanalyse: Konstanz, ARMA / ARIMA-Modell
Grundlagen der Regressionsanalyse
TOPIX-Zeitreihen anzeigen
Zeitreihendiagramm / Matplotlib
Python 3.4 Windows7-64bit-Umgebung erstellen (für die Analyse finanzieller Zeitreihen)
Ich habe versucht, "Grundlagen der Zeitreihenanalyse und des Zustandsraummodells" (Hayamoto) mit Pystan zu implementieren
[Python] Zeichnen Sie Zeitreihendaten
Herausforderung für die zukünftige Umsatzprognose: ② Zeitreihenanalyse mit PyFlux
Eine Lernmethode für Anfänger zum Erlernen der Zeitreihenanalyse
[In kürzester Zeit verstehen] Python-Grundlagen für die Datenanalyse
Herausforderung für die zukünftige Umsatzprognose: ⑤ Zeitreihenanalyse von Prophet
Herausforderung für die zukünftige Umsatzprognose: ① Was ist Zeitreihenanalyse?
Berechnung der Zeitreihen-Kundenbindung
So extrahieren Sie Funktionen von Zeitreihendaten mit PySpark Basics
Zeitreihenplot gestartet ~ Python Edition ~
Über Zeitreihendaten und Übertraining
[Statistik] [Zeitreihenanalyse] Zeichnen Sie das ARMA-Modell und erfassen Sie die Tendenz.
Differenzierung von Zeitreihendaten (diskret)
Bewegungsstatistik zur Vorhersage von Zeitreihen
LSTM (1) zur Zeitreihenvorhersage (für Anfänger)
Leistungsfähigkeit von Vorhersagemethoden in der Zeitreihendatenanalyse Halboptimierung (SARIMA) [Memo]
Veranschaulichen Sie sofort die vorherrschende Periode in Zeitreihendaten mithilfe der Spektralanalyse
Vorhersage von Zeitreihendaten durch Simplex-Projektion
Vorhersage von Zeitreihendaten mit einem neuronalen Netzwerk
So vergleichen Sie Zeitreihendaten-Derivative DTW, DTW-
[Python] Beschleunigt das Laden von Zeitreihen-CSV
Erkennung von Zeitreihendatenanomalien für Anfänger
matplotlib Schreiben Sie Text in ein Zeitreihendiagramm
Umgang mit Zeitreihendaten (Implementierung)
OpenFOAM-Zeitreihendaten lesen und Daten einstellen
Einführung in die Zeitreihenanalyse ~ Saisonales Anpassungsmodell ~ In R und Python implementiert
Herausforderung für die zukünftige Umsatzprognose: ④ Zeitreihenanalyse unter Berücksichtigung der Saisonalität nach Statistikmodellen