Aidemy 2020/10/
Hallo, es ist ja! Obwohl es ein knuspriges literarisches System ist, interessierte ich mich für die Möglichkeiten der KI, also ging ich zur KI-Fachschule "Aidemy", um zu studieren. Ich möchte das hier gewonnene Wissen mit Ihnen teilen und habe es in Qiita zusammengefasst. Ich freue mich sehr, dass viele Menschen den vorherigen zusammenfassenden Artikel gelesen haben. Vielen Dank! Dies ist der erste Beitrag der nächsten Serienanalyse. Freut mich, dich kennenzulernen.
Was diesmal zu lernen ・ Informationen zur Zeitreihenanalyse ・ Arten von Zeitreihendaten ・ Statistik der Zeitreihendaten
-Für die Zeitreihenanalyse ist es unerlässlich, die Zeitreihendaten grafisch darzustellen. Verwenden Sie Matplotlib zum Plotten. Im Folgenden werde ich die diesmal erscheinende plt überprüfen.
-Erstellen eines Diagramms: __plt.plot (x, y) __ -Diagrammanzeige: __plt.show () __
-Es gibt die folgenden drei Muster in Zeitreihendaten. Zeitreihendaten bestehen aus einer Kombination dieser drei Muster. · __ Trend : Langfristige Datentrends. Wenn der Wert steigt, wird er als "positiver Trend" bezeichnet, und wenn er abnimmt, wird er als "negativer Trend" bezeichnet. - Periodische Fluktuation : Der Wert der Daten wiederholt sich im Laufe der Zeit steigend und fallend. Insbesondere wird die einjährige periodische Fluktuation als __ saisonale Fluktuation __ bezeichnet. - Unregelmäßige Schwankungen __: Der Wert der Daten schwankt unabhängig vom Zeitablauf.
-__ Modellierung __ dient zur Formulierung von Zeitreihendaten (__ Build-Modell __). ・ Bei der Zeitreihenanalyse wird dieses Modell verwendet, um Vorhersagen zu treffen und die Beziehungen zwischen Daten zu analysieren.
-Die Zeitreihendaten enthalten __ "Originalserie" __, dh die Daten selbst vor der Verarbeitung. Der Zweck der Zeitreihenanalyse besteht darin, die Eigenschaften dieser ursprünglichen Reihe zu analysieren, aber der größte Teil der tatsächlichen Analyse sind die Daten nach der Verarbeitung. -Die verarbeiteten Daten umfassen __ "Protokollserien", "Differenzserien" und "saisonbereinigte Serien" __. Wir werden uns jedes unten genauer ansehen.
-Für Daten mit großen Wertschwankungen zwischen Zeitreihendaten wird eine sanfte Änderung als logarithmische Konvertierung bezeichnet, und Daten, die einer logarithmischen Konvertierung unterzogen wurden, werden als logarithmische Reihen bezeichnet.
Von den Zeitreihendaten wird die Behandlung unter Verwendung der Differenz zum vorherigen Wert als skalierte Differenzreihe bezeichnet.
Durch die Konvertierung in eine Differenzserie können __Trends (langfristige Trends) entfernt werden __.
Durch Entfernen des Trends kann möglicherweise ein stationärer Prozess erstellt werden, der angibt, dass sich "der Wert in der Zeitreihe nicht als Ganzes ändert, unabhängig vom Zeitablauf". Der stationäre Prozess wird später beschrieben.
Führen Sie die folgenden Schritte aus, um die Differenzserie auszuführen. __DataFrame-Daten .diff () __
・ Die einjährige periodische Fluktuation wird als saisonale Fluktuation bezeichnet, es ist jedoch schwierig, "Daten zu analysieren, die kein saisonales Fluktuationsmuster sind", wie dies bei Daten mit saisonaler Fluktuation der Fall ist. Um solche Fälle zu behandeln, kann eine Verarbeitung zur Beseitigung saisonaler Schwankungen durchgeführt werden, und die durch diese Verarbeitung erhaltenen Daten werden als __ saisonbereinigte Serien__ bezeichnet.
-Um eine saisonbereinigte Serie durchzuführen, gehen Sie wie folgt vor: (Sm steht für Statistikmodelle) __sm.tsa.seasonal_decompose (Daten) __
・ Code![Screenshot 2020-10-29 13.23.57.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/698700/0cc42af4-cdae-2551- b768-f33da02e8d90.png)
・ Ergebnis![Screenshot 2020-10-29 13.24.06.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/698700/80c2e264-d78c-b4e9- 769f-8f0e7d8322fd.png)
-Der Durchschnittswert aller Zeitreihendaten heißt Expectation. -Der Durchschnittswert kann mit __np.mean () __ berechnet werden.
-Der Wert, der angibt, wie stark die Zeitreihendaten vom erwarteten Wert abweichen, ist __verteilt __. ・ Die Varianz wird berechnet durch __ (jeder Datenerwartungswert) ^ 2 __, und diese Quadratwurzel heißt __ Standardabweichung __. ・ In der Welt der Aktien und Anlagen ist die Standardzeitabweichung ein wichtiger Index für die Risikomessung.
-__ Selbstverteilung __ bedeutet Mitverteilung __ derselben Daten in verschiedenen Zeitreihen. ・ Wenn die Zeitreihen durch k getrennt sind, wird dies als Selbstkovarianz k-ter Ordnung bezeichnet und wie folgt berechnet. __ (Jeder Datenerwartungswert) (Daten durch k-Erwartungswert getrennt) __ -Die obige Gleichung, die als Funktion für k angesehen wird, heißt __selbstverteilungsfunktion __.
-Der __Autokorrelationskoeffizient __ ist eine Umrechnung dieser Selbstkovarianz, damit sie mit verschiedenen Werten verglichen werden kann. -Der Autokorrelationskoeffizient gibt __ an, wie ähnlich er dem früheren Wert __ ist. ・ Der Autokorrelationskoeffizient wird wie folgt berechnet. __ Selbstkovariante / (Standardabweichung der Daten) (Standardabweichung der durch k getrennten Daten) ___ -Die obige Formel, die als Funktion für k angesehen wird, heißt __autokorrelationsfunktion __, und der Graph davon heißt __chologram __.
・ Die Autokorrelationsfunktion Vertreten durch __sm.tsa.stattools.acf (Daten, nlags) __. ・ Grafik (Cholerogramm) Es wird durch __sm.graphics.tsa.plot_acf (Daten, Verzögerungen) __ dargestellt.
-Das Argument "Verzögerung" ist __ "der Wert der verschobenen Zeitreihe k" __. ・ Man kann sagen, je näher der Korrelationskoeffizient an 1,0 liegt, desto stärker ist die positive Korrelation, und je näher er an -1,0 liegt, desto stärker ist die negative Korrelation.
・ Code![Screenshot 2020-10-29 13.23.02.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/698700/a61008fc-e9ec-3c69- dd58-a5f40dae509f.png)
・ Ergebnis![Screenshot 2020-10-29 13.23.25.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/698700/32d7d822-abad-bae7- 25f4-86cc625b2c80.png)
-Zeitreihendaten beziehen sich auf Daten, deren Wert sich im Laufe der Zeit ändert. -Es gibt drei Muster in Zeitreihendaten. Die langfristige Tendenz des Wertes, zu steigen und zu fallen, ist "Trend", der wiederholte Anstieg und Abfall des Wertes im Laufe der Zeit ist "periodische Fluktuation", und der Wert, der sich im Laufe der Zeit ändert, ist "unregelmäßige Fluktuation". ・ Statistiken für die Zeitreihenanalyse umfassen erwartete Werte (Mittelwerte), Abweichungen und Standardabweichungen. Zusätzlich gibt es Selbstkovarianz- und Autokorrelationskoeffizienten, die unter Verwendung dieser berechnet werden, und durch Berechnung des Autokorrelationskoeffizienten kann die Ähnlichkeit der Daten zu diesem Zeitpunkt mit der Vergangenheit verstanden werden.
Diese Zeit ist vorbei. Vielen Dank für das Lesen bis zum Ende.
Recommended Posts