Hallo, das ist KO. Danke, dass du immer zuschaust. Wenn Sie ein Investor sind und die ganze Zeit über Finanzkennzeichnung gesprochen haben, denken Sie wahrscheinlich über Ihre Anlagestrategie nach und darüber, was Sie tun können, um sie zu analysieren. Ich denke, dass viele Anleger zuerst den Markt analysieren und über die Anlagestrategie nachdenken werden, aber hier ist das Gegenteil der Fall. Beim maschinellen Lernen ist es üblicher, über die Anlagestrategie nachzudenken und sie dann an den Markt anzupassen. Ich denke. (Vielleicht trifft es nur auf mich zu, auch wenn es allgemein ist (lacht)
Entscheiden Sie sich zunächst für eine Anlagestrategie und kennzeichnen Sie diese. Dann Backtest. Eigentlich macht das nichts. Selbst wenn Sie hier gute Ergebnisse erzielen, kann dies passieren, und ich denke, dass Sie darüber nachdenken müssen, um es tatsächlich zu betreiben: "Wird diese Strategie in Zukunft gültig sein?" .. Mit anderen Worten, das Backtesting selbst garantiert keine Performance, sondern zeigt lediglich die Anlagestrategie auf dem vergangenen Markt. Lassen Sie uns hier über wichtige logische Beziehungen sprechen. "Immer profitable Strategie" ⇒ "Die Strategie ist auch in der Vergangenheit profitabel" Diese logische Beziehung ist richtig, aber das Gegenteil ist eindeutig nicht der Fall. Es klingt hart, aber um es in der Praxis anzuwenden, ist es notwendig, nach diesem Prinzip zu analysieren. Mit anderen Worten, wir glauben, dass die Merkmalsmenge eine Variable ist, die die Anlagestrategie marktgerechter macht. Es ist eine goldene Stange für einen Dämon.
Im Beispiel: Trainingsdaten Aus der Probe: Testdaten Substitutionseffekt: Der Effekt, der auftritt, wenn die geschätzte Bedeutung eines Merkmals durch das Vorhandensein eines anderen verwandten Merkmals verringert wird.
MDI (: = Mean Decrease Impurity) ist eine Methode zur Messung der Wichtigkeit der Erklärung anhand einer Stichprobe, die für einen baumbasierten Klassifikator wie einen Zufallsbaum (: = RF) spezifisch ist. Mit anderen Worten, wie man die Merkmalsmenge findet, wenn es viele Merkmale gibt. Bedeutung von RF. Zunächst erkläre ich die MDI-Methode anhand des Codes.
def featImpMDI(fit, featNames):
df0 = {i: tree.feature_importances_ for i, tree in enumerate(fit.estimators_)}
df0 = pd.DataFrame.from_dict(df0, orient='index')
df0.columns = featNames
df0 = df0.replace(0, np.nan)
imp = pd.concat({'mean':df0.mean(), 'std':df0.std()*df0.shape[0]**-.5}, axis=1)
imp /= imp['mean'].sum()
return imp
Bereiten Sie zunächst einige Funktionen vor.
Hier, bei dieser Methode, die ersten vier Zeilen Datenrahmen model.feature_importances_
aus dem bereits angepassten Modell.
Da es sich um einen zufälligen Baum handelt, wird die Wichtigkeit von Merkmalen für jede große Anzahl von Bäumen berechnet.
Stellen Sie hier für den als "0" angezeigten Funktionsbetrag "np.nan" ein. Hiermit wird die maximale Wichtigkeit der Merkmalsmenge auf "1" gesetzt.
Danach werden der Durchschnitt und die Standardabweichung für die Zeilenrichtung (Achse = 1) berechnet und als durchschnittliche Merkmalsmenge ausgegeben.
Die grundlegende Verwendung wird im Folgenden für diejenigen vorgestellt, die noch nie einen zufälligen Baum verwendet haben.
from sklearn.ensemble import RandomForestClassifier as RF
model = RF(max_features=1)
model.fit(X_train, y_train)
model.feature_importances_
Setzen Sie max_features = int (1)
, um den Maskierungseffekt zu vermeiden (kategorisierte Features systematisch ignorieren und andere Features hervorheben). Auf diese Weise wird nur eine zufällige Merkmalsmenge für jede Ebene ausgewählt.
Diese Technik sollte nur in der Probe verwendet werden. Auch wenn hier keine Vorhersagekraft vorhanden ist, haben alle Merkmalsgrößen eine gewisse Bedeutung. --MDI kann nicht verallgemeinert und auf andere Klassifizierer als baumbasiert angewendet werden.
Strukturell hat MDI eine Gesamtmerkmalbedeutung von 1, und jede Wichtigkeit liegt zwischen 0 und 1.
Bei dieser Methode wird der alternative Effekt bei korrelierten Merkmalen nicht berücksichtigt. Mit anderen Worten, wenn es zwei identische Merkmale gibt, wird die Wichtigkeit halbiert. Seien Sie also vorsichtig. Dies ist eine ziemlich wichtige Geschichte, deshalb werde ich sie in Zukunft in einem anderen Artikel schreiben.
Es kann eine Tendenz zu einigen Prädiktoren geben. In einem einzelnen Entscheidungsbaum wird diese Verzerrung durch die allgemeine unreine Funktion hervorgerufen, die sich zu Unrecht auf Prädiktoren mit vielen Kategorien konzentriert. (Strobl et al. [2007])
Dieses Mal habe ich die Positionierung von Merkmalsmengen im Finanzbereich und die Vorsicht bei der Prognose vorgestellt. Es wird ein technischer Vortrag darüber sein, wie durch die Methode zur Bewertung der Merkmalsmenge ein Beitrag zur Anlagestrategie geleistet werden kann. Daher möchte ich ihn in Zukunft langsam einführen.
Recommended Posts