[PYTHON] Kausales Denken mit maschinellem Lernen (Organisation von Methoden des kausalen Denkens)

Kausales Denken durch maschinelles Lernen

Grobes Verständnis und Notiz darüber, wann kausales Denken mit in den letzten Jahren beliebten Methoden des maschinellen Lernens angewendet werden sollte (Denkmal) Grundsätzlich eine schematische Zusammenfassung der aktuellen Methode des kausalen Denkens

Einführung

Kausales Denken ist eine Reihe statistischer Methoden, mit denen die Ursache für das Ergebnis ermittelt werden soll. Im Allgemeinen konzentrieren sich statistische Ansätze wie die Regressionsanalyse auf die Quantifizierung der Beziehung von Änderungen in X zu Änderungen in Y. Andererseits betont das statistische kausale Denken die Bestimmung, ob eine Änderung von X eine Änderung von Y verursacht, und die Quantifizierung dieses Kausalzusammenhangs. Das in den letzten Jahren populär gewordene Gebiet der Verschmelzung von maschinellem Lernen und kausalem Denken wird verwendet, um kausale Auswirkungen unter bestimmten Bedingungen abzuschätzen. Dieses Mal haben wir die ordnungsgemäße Verwendung bestehender kausaler Inferenzmethoden und Methoden des maschinellen Lernens grob zusammengefasst.

Natürlich werden wir die Daten analysieren, die wir haben, nachdem wir geklärt haben: "Was und warum möchten Sie wissen?" Ansonsten kann ich die Taktik nicht sehen.

Allgemeine Taktik für kausales Denken

Für die kausale Argumentation werden verschiedene Richtlinien verwendet. Daher können verschiedene Methoden in Betracht gezogen werden, um eine kausale Folgerung aus den vorhandenen Daten durchzuführen. Um das kausale Denken strukturell zu verstehen, teilen wir es zunächst in zwei Kategorien ein. Dieses Mal werden wir feststellen, ob es sich bei den uns vorliegenden Daten um experimentelle Daten oder Beobachtungsdaten handelt, und typische Ansätze für jeden einzelnen untersuchen.

Politik

  1. Identifizierung von experimentellen Daten oder Beobachtungsdaten
  2. Kausales Denken mit experimentellen Daten
  3. Kausales Denken mit beobachteten Daten

Kausales Denken mit experimentellen Daten

Bei experimentellen Daten ist die Schätzung klarer und leichter zu verstehen als die beobachteten Daten, da das Experiment darauf ausgelegt ist, den kausalen Effekt zu verifizieren. In vielen Fällen wird die Analyse durchgeführt, um sich der RCT-Bedingung (Randomized Controlled Trial) zu nähern. Die durchschnittliche Schätzung des kausalen Effekts während des geplanten Experiments kann jedoch unter Verwendung der klassischen statistischen Methode des kausalen Denkens geschätzt werden. Es gibt jedoch Situationen, in denen Sie nicht nur den durchschnittlichen Kausaleffekt, sondern auch den Kausaleffekt unter bestimmten Umständen und Bedingungen abschätzen möchten. Daher wurde es in den letzten Jahren durch kausale Überlegungen ermöglicht, die Methoden des maschinellen Lernens miteinander verweben.

Die experimentellen Daten werden grob in vier Kategorien unterteilt.

Wenn die Daten, die Sie haben, als experimentelle Daten eingestuft werden, betrachten Sie sie in der Reihenfolge von oben. Führen Sie dann die gewünschte Analyse durch.


Unterschied in den Kovariaten zwischen Intervention und Nichtintervention

Dies ist eine allgemeine kausale Argumentation. Grundsätzlich wird davon ausgegangen, dass Sie den kausalen Effekt zwischen der Interventionsgruppe und der Nicht-Interventionsgruppe abschätzen möchten. Zu diesem Zeitpunkt unterscheiden sich andere Kovariaten als Behandlung (Ursache) und Reaktion (Wirkung) zwischen den Gruppen. Dann kann der korrekte Effekt nicht geschätzt werden. Daher wird diese Kovariate so angepasst, dass sie zwischen den Gruppen so gleich wie möglich ist, und dann wird die Schätzung durchgeführt. Die wichtigsten Richtlinien sind DID, Matching, IPW usw.

→ DID, Matching, IPW etc.


Ein Teil der Interventionsgruppe ist die Nichtintervention

Selbst wenn die Intervention aufgrund der unvoreingenommenen Abschätzung des Interventionseffekts in der experimentellen Studie zufällig vergeben wird, wird diese Intervention nicht immer so durchgeführt, wie sie ist (Nichteinhaltung). Wenn die Zuweisung von Interventionen gleich der tatsächlich erhaltenen Intervention ist, hat sich die Person an die zugewiesene Intervention gehalten. Wenn sie jedoch nicht gleich sind, liegt eine Nichteinhaltung vor. Mit anderen Worten, unter Nichteinhaltungsbedingungen ist die Interventionsgruppe eine Mischung aus verschiedenen Gruppen von Compliance- und Nichteinhaltungsgruppen. Daher ist es notwendig, den durchschnittlichen Kausaleffekt zu schätzen, der auf die Compliance-Gruppe (LATE) beschränkt ist.

→ Betriebsvariable (IV)


Unterschiedliche Untergruppen haben unterschiedliche Auswirkungen innerhalb der Interventionsgruppe

Selbst innerhalb der Interventionsgruppe hat jede Probe eine andere Kovariate. Bei der Bestimmung des Interventionseffekts für jede bestimmte Probe muss dann der Interventionseffekt berechnet werden, der unter bestimmten Bedingungen innerhalb der Interventionsgruppe personalisiert ist. Kausales Denken durch sogenanntes maschinelles Lernen.

→ HTE(Heterogeneous Treatment Effects)、Uplift Modeling → GRF (Generalized Random Forest) und ORF (Orthogonal Random Forest) schätzen den Interventionseffekt, ohne den Neigungswert zu berechnen. → Meta-Learner schätzt den Interventionseffekt aus dem geschätzten Wert anhand des Neigungsscores, nachdem der Effekt für jede Gruppe modelliert und geschätzt wurde.


Strukturelles Verständnis von Kausalzusammenhängen

Wenn eine Variable eine andere beeinflusst, kann sie direkt oder indirekt über eine Zwischenvariable wirken. Zu diesem Zeitpunkt ist es wichtig zu analysieren, wie direkt und indirekt die Auswirkungen auf die Variablen sind. Wenn Sie nicht nur die Beziehung zwischen Ursache und Wirkung verstehen, sondern auch den Mechanismus, der das Ergebnis verursacht hat, können Sie analysieren, welche Mediatorvariable geändert werden sollte, um eine hohe Wirkung zu erzielen.

→ Mediationsanalyse


Kausaler Rückschluss auf Beobachtungsdaten

Bei Beobachtungsdaten werden viele regelmäßig beobachtet. Zu diesem Zeitpunkt werden sie als Zeitreihendaten verwendet. Wenn es sich jedoch nicht um Zeitreihendaten handelt, werden andere Variablen als die Ursache- und Wirkungsvariablen definiert. Zu diesem Zeitpunkt sind ausreichende Kenntnisse über eine bestimmte Situation erforderlich. Darauf aufbauend muss die Kausalstruktur ermittelt werden.

Die Beobachtungsdaten sind wie folgt in Fälle unterteilt.

Heterogeneous Treatment Effects (HTE) Individuen unterscheiden sich nicht nur in ihren Hintergrundmerkmalen, sondern auch in ihrer Reaktion auf bestimmte Behandlungen, Interventionen oder Reize. Insbesondere können therapeutische Wirkungen je nach Behandlungstrends systematisch variieren (Xie et al., 2012). Und angesichts dieser Heterogenität der Effekte lieferte die Schätzung des durchschnittlichen Behandlungseffekts (Average Treatment Effect, ATE), eines klassischen kausalen Inferenzansatzes unter Verwendung der Haupteffekte, nicht immer eine ausreichende Schätzung. Unter Berücksichtigung der heterogenen Behandlungseffekte (HTE) als Schätzung von Interventionseffekten, die die Auswirkungen auf persönlicher Ebene wie dem Hintergrund berücksichtigen, ist es daher möglich, eine Schätzung vorzunehmen, die jeden dieser Effekte berücksichtigt. Zu diesem Zeitpunkt wird die kausale Folgerung durch maschinelles Lernen ausgeführt.

Analyse mit HTE

Es gibt Bibliotheken und Pakete in R und Python. Die typischen sind wie folgt.

R ・ Grf ・ Heben ・ Lerner

Python ・ EconML ・ CausalML ・ Pylift

Referenz

・ Eine Vogelperspektive der kausalen Argumentation, die beim Nobel Economics Award auffällt https://note.com/tak1/n/nf35b48502339 ・ Verwenden von Causal Inference zur Verbesserung der Uber-Benutzererfahrung https://eng.uber.com/causal-inference-at-uber/ ・ Zusammenfassung der Forschung zu X-Learner https://dev.classmethod.jp/articles/causal-metalearner-xlearner/ ・ Einführung des EconML-Pakets (Meta-Learners Edition) https://usaito.hatenablog.com/entry/2019/04/07/205756 ・ Yu Xie, Jennie E. Brand und Ben Jann (2012) Abschätzung heterogener Behandlungseffekte anhand von Beobachtungsdaten. Sociol Methodol 42 (1): 314-347.

Recommended Posts

Kausales Denken mit maschinellem Lernen (Organisation von Methoden des kausalen Denkens)
Vollständige Offenlegung der beim maschinellen Lernen verwendeten Methoden
[Kausalsuche / Kausalinferenz] Führen Sie mit Deep Learning eine Kausalsuche (SAM) durch
Versuchen Sie es mit dem Jupyter Notebook von Azure Machine Learning
Grundlagen des maschinellen Lernens (Denkmal)
Bedeutung von Datensätzen für maschinelles Lernen
[Maschinelles Lernen] Funktionsauswahl kategorialer Variablen mithilfe des Chi-Quadrat-Tests
Maschinelles Lernen ③ Zusammenfassung des Entscheidungsbaums
Anwendungsentwicklung mit Azure Machine Learning
[Python Machine Learning] Empfehlung zur Verwendung von Spyder für Anfänger (Stand August 2020)
Algorithmus für maschinelles Lernen (Verallgemeinerung der linearen Regression)
Aktienkursprognose mit maschinellem Lernen (Scikit-Learn)
[Maschinelles Lernen] LDA-Themenklassifizierung mit Scikit-Learn
[Maschinelles Lernen] FX-Vorhersage unter Verwendung des Entscheidungsbaums
2020 Empfohlen 20 Auswahlmöglichkeiten für einführende Bücher zum maschinellen Lernen
Algorithmus für maschinelles Lernen (Implementierung einer Klassifizierung mit mehreren Klassen)
[Maschinelles Lernen] Überwachtes Lernen mithilfe der Kernel-Dichteschätzung
Aktienkursprognose mit maschinellem Lernen (Return Edition)
[Maschinelles Lernen] Liste der häufig verwendeten Pakete
[Maschinelles Lernen] Regressionsanalyse mit Scicit Learn
[Super Einführung] Maschinelles Lernen mit Python - Von der Umgebungskonstruktion bis zur Implementierung von Simple Perceptron-
Maschinelles Lernen: Bilderkennung von MNIST mithilfe von PCA und Gaussian Native Bayes
Ich habe versucht, verschiedene Methoden für maschinelles Lernen (Vorhersagemodell) mithilfe von Scicit-Learn zu implementieren
Ein Memorandum über Methoden, die häufig beim maschinellen Lernen mit Scikit-Learn (für Anfänger) verwendet werden.
Maschinelles Lernen eines jungen Ingenieurs Teil 1
Klassifizierung von Gitarrenbildern durch maschinelles Lernen Teil 1
Eine Geschichte über einfaches maschinelles Lernen mit TensorFlow
Datenversorgungstricks mit deque beim maschinellen Lernen
Beginn des maschinellen Lernens (empfohlene Unterrichtsmaterialien / Informationen)
Maschinelles Lernen des Sports - Analyse der J-League als Beispiel - ②
Python & Machine Learning Study Memo ⑤: Klassifikation von Ayame
Numerai Turnier-Fusion von traditionellen Quants und maschinellem Lernen-
Python & Machine Learning Study Memo Introduction: Einführung in die Bibliothek
[Maschinelles Lernen] Überwachtes Lernen mithilfe der Kernel-Dichteschätzung Teil 2
Liste der Links, die Anfänger des maschinellen Lernens lernen
Über die Entwicklungsinhalte des maschinellen Lernens (Beispiel)
Analyse der gemeinsamen Raumnutzung durch maschinelles Lernen
[Übersetzung] scikit-learn 0.18 Einführung in maschinelles Lernen durch Tutorial scikit-learn
Maschinelles Lernen eines jungen Ingenieurs Teil 2
Angemessene Preisschätzung von Mercari durch maschinelles Lernen
Klassifizierung von Gitarrenbildern durch maschinelles Lernen Teil 2
Lassen Sie uns einen Teil des maschinellen Lernens mit Python berühren
Anordnung von selbst erwähnten Dingen im Zusammenhang mit maschinellem Lernen
[Maschinelles Lernen] Extrahieren Sie ähnliche Wörter mechanisch mit WordNet
Berechnung der Support Vector Machine (SVM) (mit cvxopt)
[Memo] Maschinelles Lernen
Klassifikation des maschinellen Lernens
Beispiel für maschinelles Lernen
Was ich über KI / maschinelles Lernen mit Python gelernt habe (1)
Wichtige Punkte von "Maschinelles Lernen mit Azure ML Studio"
[Empfohlenes Tagging beim maschinellen Lernen # 2.5] Änderung des Scraping-Skripts
Erstellen Sie maschinelle Lernprojekte mit explosiver Geschwindigkeit mithilfe von Vorlagen
Informationen zur Datenvorverarbeitung von Systemen, die maschinelles Lernen verwenden
Eindrücke vom Udacity Machine Learning Engineer Nano-Abschluss
Installation von TensorFlow, einer Bibliothek für maschinelles Lernen von Google
Über das Testen bei der Implementierung von Modellen für maschinelles Lernen
Prognostizieren Sie das Geschlecht von Twitter-Nutzern durch maschinelles Lernen
Was ich über KI / maschinelles Lernen mit Python gelernt habe (3)