[PYTHON] Feature Engineering für Finanzprognosen: Wie hoch ist der Feature-Betrag in der Finanzprognose?

Vorwort

Hallo, das ist KO. Danke, dass du immer zuschaust. Wenn Sie ein Investor sind und die ganze Zeit über Finanzkennzeichnung gesprochen haben, denken Sie wahrscheinlich über Ihre Anlagestrategie nach und darüber, was Sie tun können, um sie zu analysieren. Ich denke, dass viele Anleger zuerst den Markt analysieren und über die Anlagestrategie nachdenken werden, aber hier ist das Gegenteil der Fall. Beim maschinellen Lernen ist es üblicher, über die Anlagestrategie nachzudenken und sie dann an den Markt anzupassen. Ich denke. (Vielleicht trifft es nur auf mich zu, auch wenn es allgemein ist (lacht)

Referenzen finden Sie hier.

Grundlagen des Konzepts der Merkmalsmenge

Entscheiden Sie sich zunächst für eine Anlagestrategie und kennzeichnen Sie diese. Dann Backtest. Eigentlich macht das nichts. Selbst wenn Sie hier gute Ergebnisse erzielen, kann dies passieren, und ich denke, dass Sie darüber nachdenken müssen, um es tatsächlich zu betreiben: "Wird diese Strategie in Zukunft gültig sein?" .. Mit anderen Worten, das Backtesting selbst garantiert keine Performance, sondern zeigt lediglich die Anlagestrategie auf dem vergangenen Markt. Lassen Sie uns hier über wichtige logische Beziehungen sprechen. "Immer profitable Strategie" ⇒ "Die Strategie ist auch in der Vergangenheit profitabel" Diese logische Beziehung ist richtig, aber das Gegenteil ist eindeutig nicht der Fall. Es klingt hart, aber um es in der Praxis anzuwenden, ist es notwendig, nach diesem Prinzip zu analysieren. Mit anderen Worten, wir glauben, dass die Merkmalsmenge eine Variable ist, die die Anlagestrategie marktgerechter macht. Es ist eine goldene Stange für einen Dämon.

Definition in Feature Quantity Engineering

Im Beispiel: Trainingsdaten Aus der Probe: Testdaten Substitutionseffekt: Der Effekt, der auftritt, wenn die geschätzte Bedeutung eines Merkmals durch das Vorhandensein eines anderen verwandten Merkmals verringert wird.

Merkmalsbedeutung aufgrund des Substitutionseffekts

Mittlere Abnahme der Verunreinigung

MDI (: = Mean Decrease Impurity) ist eine Methode zur Messung der Wichtigkeit der Erklärung anhand einer Stichprobe, die für einen baumbasierten Klassifikator wie einen Zufallsbaum (: = RF) spezifisch ist. Mit anderen Worten, wie man die Merkmalsmenge findet, wenn es viele Merkmale gibt. Bedeutung von RF. Zunächst erkläre ich die MDI-Methode anhand des Codes.

def featImpMDI(fit, featNames):
    df0 = {i: tree.feature_importances_ for i, tree in enumerate(fit.estimators_)}
    df0 = pd.DataFrame.from_dict(df0, orient='index')
    df0.columns = featNames
    df0 = df0.replace(0, np.nan)
    imp = pd.concat({'mean':df0.mean(), 'std':df0.std()*df0.shape[0]**-.5}, axis=1)
    imp /= imp['mean'].sum()
    return imp

Bereiten Sie zunächst einige Funktionen vor. Hier, bei dieser Methode, die ersten vier Zeilen Datenrahmen model.feature_importances_ aus dem bereits angepassten Modell. Da es sich um einen zufälligen Baum handelt, wird die Wichtigkeit von Merkmalen für jede große Anzahl von Bäumen berechnet. Stellen Sie hier für den als "0" angezeigten Funktionsbetrag "np.nan" ein. Hiermit wird die maximale Wichtigkeit der Merkmalsmenge auf "1" gesetzt. Danach werden der Durchschnitt und die Standardabweichung für die Zeilenrichtung (Achse = 1) berechnet und als durchschnittliche Merkmalsmenge ausgegeben. Die grundlegende Verwendung wird im Folgenden für diejenigen vorgestellt, die noch nie einen zufälligen Baum verwendet haben.

from sklearn.ensemble import RandomForestClassifier as RF

model = RF(max_features=1)
model.fit(X_train, y_train)
model.feature_importances_

So wählen Sie zufällige Baumparameter aus

Fazit

Dieses Mal habe ich die Positionierung von Merkmalsmengen im Finanzbereich und die Vorsicht bei der Prognose vorgestellt. Es wird ein technischer Vortrag darüber sein, wie durch die Methode zur Bewertung der Merkmalsmenge ein Beitrag zur Anlagestrategie geleistet werden kann. Daher möchte ich ihn in Zukunft langsam einführen.

Recommended Posts

Feature Engineering für Finanzprognosen: Wie hoch ist der Feature-Betrag in der Finanzprognose?
Was ist Kennzeichnung in der Finanzprognose?
[Minecraft] Was sind die wichtigsten Überlebensgegenstände?
Financial Engineering bestätigte die Behauptung, dass "Leveraged Investment Trusts in einem volatilen Markt nachteilig sind".
Verwenden Sie Funktionen, die auf der Benutzeroberfläche in Slack nicht mehr sichtbar sind
Was sind die "Pipeline" und "{...}" in der Jenkins-Pipeline-Pipeline {...} (für Groovy-Anfänger, für erfahrene Sprachen)
Verwenden Sie die in Sphinx-2.4 entwickelten Typfunktionen
Was ist "Mahjong" in der Python-Bibliothek? ??
Was ist der Grund, warum der Mensch keine grundlegenden Befehle auf Japanisch anzeigt?
Feature Engineering für maschinelles Lernen Beginnend mit dem 4. Google Colaboratory - Interacting Features
Überprüfen Sie, ob die Zeichen in Python ähnlich sind
[Python] Vor dem Unterstrich (Unterstrich) Was sind die beiden Funktionen?
Was ist im Docker Python-Image pfeifend?
Feststellen, ob das Bild Vögel enthält