Grobes Verständnis und Notiz darüber, wann kausales Denken mit in den letzten Jahren beliebten Methoden des maschinellen Lernens angewendet werden sollte (Denkmal) Grundsätzlich eine schematische Zusammenfassung der aktuellen Methode des kausalen Denkens
Kausales Denken ist eine Reihe statistischer Methoden, mit denen die Ursache für das Ergebnis ermittelt werden soll. Im Allgemeinen konzentrieren sich statistische Ansätze wie die Regressionsanalyse auf die Quantifizierung der Beziehung von Änderungen in X zu Änderungen in Y. Andererseits betont das statistische kausale Denken die Bestimmung, ob eine Änderung von X eine Änderung von Y verursacht, und die Quantifizierung dieses Kausalzusammenhangs. Das in den letzten Jahren populär gewordene Gebiet der Verschmelzung von maschinellem Lernen und kausalem Denken wird verwendet, um kausale Auswirkungen unter bestimmten Bedingungen abzuschätzen. Dieses Mal haben wir die ordnungsgemäße Verwendung bestehender kausaler Inferenzmethoden und Methoden des maschinellen Lernens grob zusammengefasst.
Natürlich werden wir die Daten analysieren, die wir haben, nachdem wir geklärt haben: "Was und warum möchten Sie wissen?" Ansonsten kann ich die Taktik nicht sehen.
Für die kausale Argumentation werden verschiedene Richtlinien verwendet. Daher können verschiedene Methoden in Betracht gezogen werden, um eine kausale Folgerung aus den vorhandenen Daten durchzuführen. Um das kausale Denken strukturell zu verstehen, teilen wir es zunächst in zwei Kategorien ein. Dieses Mal werden wir feststellen, ob es sich bei den uns vorliegenden Daten um experimentelle Daten oder Beobachtungsdaten handelt, und typische Ansätze für jeden einzelnen untersuchen.
Bei experimentellen Daten ist die Schätzung klarer und leichter zu verstehen als die beobachteten Daten, da das Experiment darauf ausgelegt ist, den kausalen Effekt zu verifizieren. In vielen Fällen wird die Analyse durchgeführt, um sich der RCT-Bedingung (Randomized Controlled Trial) zu nähern. Die durchschnittliche Schätzung des kausalen Effekts während des geplanten Experiments kann jedoch unter Verwendung der klassischen statistischen Methode des kausalen Denkens geschätzt werden. Es gibt jedoch Situationen, in denen Sie nicht nur den durchschnittlichen Kausaleffekt, sondern auch den Kausaleffekt unter bestimmten Umständen und Bedingungen abschätzen möchten. Daher wurde es in den letzten Jahren durch kausale Überlegungen ermöglicht, die Methoden des maschinellen Lernens miteinander verweben.
Die experimentellen Daten werden grob in vier Kategorien unterteilt.
Wenn die Daten, die Sie haben, als experimentelle Daten eingestuft werden, betrachten Sie sie in der Reihenfolge von oben. Führen Sie dann die gewünschte Analyse durch.
Dies ist eine allgemeine kausale Argumentation. Grundsätzlich wird davon ausgegangen, dass Sie den kausalen Effekt zwischen der Interventionsgruppe und der Nicht-Interventionsgruppe abschätzen möchten. Zu diesem Zeitpunkt unterscheiden sich andere Kovariaten als Behandlung (Ursache) und Reaktion (Wirkung) zwischen den Gruppen. Dann kann der korrekte Effekt nicht geschätzt werden. Daher wird diese Kovariate so angepasst, dass sie zwischen den Gruppen so gleich wie möglich ist, und dann wird die Schätzung durchgeführt. Die wichtigsten Richtlinien sind DID, Matching, IPW usw.
→ DID, Matching, IPW etc.
Selbst wenn die Intervention aufgrund der unvoreingenommenen Abschätzung des Interventionseffekts in der experimentellen Studie zufällig vergeben wird, wird diese Intervention nicht immer so durchgeführt, wie sie ist (Nichteinhaltung). Wenn die Zuweisung von Interventionen gleich der tatsächlich erhaltenen Intervention ist, hat sich die Person an die zugewiesene Intervention gehalten. Wenn sie jedoch nicht gleich sind, liegt eine Nichteinhaltung vor. Mit anderen Worten, unter Nichteinhaltungsbedingungen ist die Interventionsgruppe eine Mischung aus verschiedenen Gruppen von Compliance- und Nichteinhaltungsgruppen. Daher ist es notwendig, den durchschnittlichen Kausaleffekt zu schätzen, der auf die Compliance-Gruppe (LATE) beschränkt ist.
→ Betriebsvariable (IV)
Selbst innerhalb der Interventionsgruppe hat jede Probe eine andere Kovariate. Bei der Bestimmung des Interventionseffekts für jede bestimmte Probe muss dann der Interventionseffekt berechnet werden, der unter bestimmten Bedingungen innerhalb der Interventionsgruppe personalisiert ist. Kausales Denken durch sogenanntes maschinelles Lernen.
→ HTE(Heterogeneous Treatment Effects)、Uplift Modeling → GRF (Generalized Random Forest) und ORF (Orthogonal Random Forest) schätzen den Interventionseffekt, ohne den Neigungswert zu berechnen. → Meta-Learner schätzt den Interventionseffekt aus dem geschätzten Wert anhand des Neigungsscores, nachdem der Effekt für jede Gruppe modelliert und geschätzt wurde.
Wenn eine Variable eine andere beeinflusst, kann sie direkt oder indirekt über eine Zwischenvariable wirken. Zu diesem Zeitpunkt ist es wichtig zu analysieren, wie direkt und indirekt die Auswirkungen auf die Variablen sind. Wenn Sie nicht nur die Beziehung zwischen Ursache und Wirkung verstehen, sondern auch den Mechanismus, der das Ergebnis verursacht hat, können Sie analysieren, welche Mediatorvariable geändert werden sollte, um eine hohe Wirkung zu erzielen.
→ Mediationsanalyse
Bei Beobachtungsdaten werden viele regelmäßig beobachtet. Zu diesem Zeitpunkt werden sie als Zeitreihendaten verwendet. Wenn es sich jedoch nicht um Zeitreihendaten handelt, werden andere Variablen als die Ursache- und Wirkungsvariablen definiert. Zu diesem Zeitpunkt sind ausreichende Kenntnisse über eine bestimmte Situation erforderlich. Darauf aufbauend muss die Kausalstruktur ermittelt werden.
Die Beobachtungsdaten sind wie folgt in Fälle unterteilt.
Heterogeneous Treatment Effects (HTE) Individuen unterscheiden sich nicht nur in ihren Hintergrundmerkmalen, sondern auch in ihrer Reaktion auf bestimmte Behandlungen, Interventionen oder Reize. Insbesondere können therapeutische Wirkungen je nach Behandlungstrends systematisch variieren (Xie et al., 2012). Und angesichts dieser Heterogenität der Effekte lieferte die Schätzung des durchschnittlichen Behandlungseffekts (Average Treatment Effect, ATE), eines klassischen kausalen Inferenzansatzes unter Verwendung der Haupteffekte, nicht immer eine ausreichende Schätzung. Unter Berücksichtigung der heterogenen Behandlungseffekte (HTE) als Schätzung von Interventionseffekten, die die Auswirkungen auf persönlicher Ebene wie dem Hintergrund berücksichtigen, ist es daher möglich, eine Schätzung vorzunehmen, die jeden dieser Effekte berücksichtigt. Zu diesem Zeitpunkt wird die kausale Folgerung durch maschinelles Lernen ausgeführt.
Es gibt Bibliotheken und Pakete in R und Python. Die typischen sind wie folgt.
R ・ Grf ・ Heben ・ Lerner
Python ・ EconML ・ CausalML ・ Pylift
・ Eine Vogelperspektive der kausalen Argumentation, die beim Nobel Economics Award auffällt https://note.com/tak1/n/nf35b48502339 ・ Verwenden von Causal Inference zur Verbesserung der Uber-Benutzererfahrung https://eng.uber.com/causal-inference-at-uber/ ・ Zusammenfassung der Forschung zu X-Learner https://dev.classmethod.jp/articles/causal-metalearner-xlearner/ ・ Einführung des EconML-Pakets (Meta-Learners Edition) https://usaito.hatenablog.com/entry/2019/04/07/205756 ・ Yu Xie, Jennie E. Brand und Ben Jann (2012) Abschätzung heterogener Behandlungseffekte anhand von Beobachtungsdaten. Sociol Methodol 42 (1): 314-347.
Recommended Posts