[PYTHON] Eine Geschichte über das Clustering von Zeitreihendaten des Austauschs

Zusammenfassung dieses Artikels

Ich habe versucht, Austauschdaten zu gruppieren.
k-bedeutet, euklidischer Abstand wurde verwendet.
Es erscheint sinnvoll, die Daten der Oberschenkel (längere Zeitachse) zu kombinieren.
Unter Verwendung des oberen Balkens verbesserte sich die Verzerrung des Verhältnisses der Etiketten (Gewinnmitnahme: 1, Verlustkürzung: -1, Abrechnung durch Haltezeit: 0).

Entwicklungsumgebung

Colaboratory
- scikit-learn

Datenaufbereitung

Verwendung von USD / JPY von 2018.01 bis 2019.04, Der Eintrittspunkt des goldenen Kreuzes der gleitenden Durchschnittslinie in 5 Minuten wurde als Probendaten verwendet. (2482 Daten)

Funktionswert:
Ungefähr 3 Stunden Daten (ohlc) vor dem Einstiegspunkt
- RSI

Beschriftung

Die Kennzeichnung erfolgte nach folgenden Regeln.

Result	Label
Profit	1
Loss	-1
Abrechnung durch Haltezeit	0

Dieses Mal setzen wir die Linien für Verlustreduzierung und Gewinnmitnahme so, dass sie grob in drei gleiche Teile unterteilt sind.

Clustering

Erwartetes Ergebnis

Wie in der folgenden Grafik gezeigt, habe ich erwartet, dass "Gewinnmitnahme" / "Verlustkürzung" / "Abrechnung durch Haltezeit" für jeden Cluster getrennt wird.

Damit kann im Fall von Cluster 2 beurteilt werden, dass es nicht gut ist und der Handel vergessen werden kann.

Ergebnis

Wir haben mithilfe der TimeSeriesKMeans von scikit-learn geclustert, den Prozentsatz der Labels in jedem Cluster dargestellt und nach Gewinnrate sortiert.

Nicht gut genug. .. Die höchste Gewinnrate betrug 45% und die niedrigste Gewinnrate 22%. Da das Original fast in 3 gleiche Teile geteilt ist (33%), scheint es, dass es ein wenig geteilt werden kann, aber ich möchte, dass es ein bisschen schöner geteilt wird.

Oberschenkel hinzufügen

Mit dem Ziel der Verbesserung haben wir beschlossen, die folgenden längeren Zeitrahmeninformationen zur Feature-Menge hinzuzufügen.

Oszillatoranzeige in 30 Minuten
Trendfolge-Indikator in 2 Stunden

Das Ergebnis ist unten.

Die höchste Gewinnrate betrug 63% und die niedrigste Gewinnrate betrug 14%. Durch das Hinzufügen der Informationen auf den Oberschenkeln hat sich viel verbessert. Ich finde es gut, weil ich erneut bestätigen konnte, dass die Informationen auf den Oberschenkeln nützlich waren. Mit einem solchen Ergebnis scheint es schwierig zu sein, den Schaden zu vermeiden, aber ich persönlich dachte, dass es verwendet werden könnte, um die Anzahl der Positionen anzupassen.

Vielen Dank für das Lesen des Artikels.