Für Anfänger, die kausales Denken und kausale Erforschung lernen möchten, habe ich ein Buch geschrieben, um zu lernen, wie man ein Python-Programm für die kausale Analyse in Google Colaboratory implementiert.
Als einzelnes Buch ist es die erste neue Ausgabe seit ungefähr einem Jahr seit "Learn while make! Deep Learning von PyTorch".
In diesem Artikel werde ich einen Überblick über die Motivation geben, ein Buch über Kausalanalyse, Kausaldenken mit Python und Kausalsuche zu schreiben.
** "Lernen Sie beim Erstellen! Kausalanalyse mit Python ~ Einführung in das Kausaldenken und die Kausalsuche" ** ● Veröffentlicht am 30. Juni 2020 ● Autor: Yutaro Ogawa (Selbsteinführung, Twitter) @ Dentsu International Information Service (ISID) ● Herausgeber: My Navi Publishing
https://www.amazon.co.jp/dp/4839973571/
** Inhalt dieses Artikels **
● 0. Motivation zum Schreiben dieses Buches ● 1. Fälle, die kausales Denken erfordern ● 2. Daten, für die eine kausale Folgerung erwünscht ist ● 3. Methode des kausalen Denkens ● 4. Kausale Suchmethode ● 5. Deep Learning × Kausalsuche
DX ist heutzutage ein heißes Thema geworden, und die Bedeutung der Digitalisierung geschäftlicher und datengesteuerter Geschäftspraktiken nimmt zu.
Gleichzeitig ist es notwendig, die Ergebnisse der Implementierung verschiedener Maßnahmen für datengesteuertes Geschäft zu analysieren und die Auswirkungen ordnungsgemäß zu überprüfen.
Daher ist eine kausale Argumentation erforderlich.
Allerdings (meiner Meinung nach),
Es gibt keine Bücher, die sich sowohl mit kausalem Denken als auch mit kausaler Suche befassen (wenige).
Es gibt kein Buch für Anfänger, das Programme zur Analyse kausaler Inferenzen in Python implementiert und erklärt. (Klein, besonders für Geschäftsleute)
Auf dem Gebiet der kausalen Suche interessiert mich auch das basianische Netzwerk, aber es gibt kein Buch, das das basianische Netzwerk zusammen im kausalen Suchbuch erklärt (wenige).
Es gibt keine Bücher (wenige), die die jüngsten Methoden der kausalen Inferenz / kausalen Suchanalyse mithilfe von maschinellem Lernen / tiefem Lernen erklären.
Ich fühlte (obwohl es meine Subjektivität ist).
** Ich kann kausales Denken und kausale Suche bis zu einem gewissen Grad mit einem Buch verstehen, und es gibt kein Einführungsbuch, das die Implementierung und Analyse in Python ~ analysiert. ** Lass es uns selbst schreiben! Was ich dachte, war die Motivation, dieses Buch zu schreiben.
Auszug aus diesem Buch, ** Lernen beim Erstellen! Kausalanalyse mit Python ~ Einführung in die Praxis des kausalen Denkens und der kausalen Suche ** Ich werde jedoch das kausale Denken und die kausale Suche erklären.
Zunächst werde ich einen ** fiktiven Fall ** vorstellen, der einen kausalen Rückschluss erfordert.
Sie arbeiten für ein Unternehmen und sind Leiter der Personalabteilung.
Von Herrn A, der für die Durchführung der Mitarbeiterschulung verantwortlich ist
Durchführung für alle Mitarbeiter, die Untergebene haben und teilnehmen möchten ** "Für Chefs: Punktetraining für Karriereinterviews mit Untergebenen" **
Ich habe einen Bericht über die Wirksamkeit des Trainings erhalten.
Der erwartete Effekt ist, dass der Chef, der diese Schulung erhalten hat, gute Karriereinterviews mit seinen Untergebenen führen kann. Es soll die Zufriedenheit untergeordneter Mitarbeiter mit Karriereinterviews verbessern.
Ich habe den folgenden spezifischen Bericht von Herrn A. erhalten.
Aus untergeordneten Mitarbeitern (Chef hat das oben genannte Punktetraining für Karriereinterviews absolviert) und untergeordneten Mitarbeitern (Chef hat keine Schulung absolviert) werden 100 Personen nach dem Zufallsprinzip ausgewählt und [Zufriedenheit mit Karriereinterviews] Wurde befragt
Aufgrund der Berechnung des Durchschnitts von [Zufriedenheit mit Karriereinterviews] pro 100 Personen ist die durchschnittliche Zufriedenheit der Mitarbeiter, deren Chef diese Schulung absolviert hat, höher als die durchschnittliche Zufriedenheit der Mitarbeiter, deren Chef keine Schulung erhalten hat. War auch ein hoher Wert
100 untergeordnete Mitarbeiter, die diesmal die Fragebogenumfrage durchgeführt haben, werden zufällig ausgewählt. Der einzige Unterschied besteht darin, ob der Chef geschult wurde oder nicht
Daher hat "Für Vorgesetzte: Punktetraining für Karriereinterviews mit Untergebenen" den Effekt, die Zufriedenheit von Karriereinterviews mit Untergebenen zu verbessern.
Das Ausmaß der Auswirkung des Trainings ist die Differenz zwischen den Durchschnittswerten von [Zufriedenheit mit Karriereinterviews] der diesmal befragten Untergebenen.
Das Obige ist der Bericht, den ich von meinem Untergebenen Herrn A. erhalten habe.
Wenn Sie einen solchen Bericht erhalten, fühlen Sie sich möglicherweise ** unwohl **.
Und das folgende Gespräch wird fortgesetzt.
"Vielen Dank, Herr A., für das Training und die Überprüfung der Wirkung. Ich muss mir nur Sorgen machen.
Sie überprüfen die Auswirkung der Teilnahme an der Schulung auf [Zufriedenheit mit den Karriereinterviews der Untergebenen der Mitarbeiter].
Ich werde es bestätigen, aber diese Schulung wurde für alle Chefangestellten durchgeführt, die teilnehmen wollten, indem sie Bewerber anforderten, oder? ""
"Ja."
"Hmm ... Der Chef, der das machen will ** "Für Chefs: Punktetraining für Karriereinterviews mit Untergebenen" ** Erstens denke ich, dass er ein Chef ist, der eine hohe ** [Begeisterung für die Ausbildung von Untergebenen] ** hat.
Wenn Sie ein Mitarbeiter sind, der einen Chef hat, der von der Ausbildung solcher Untergebenen begeistert ist, ** "Auch wenn dieser Chef diese Schulung nicht erhalten hat" **, Ich bin der Meinung, dass der Zufriedenheitsgrad dieses Untergebenen höher ist als der Zufriedenheitsgrad eines Untergebenen, der einen Chef hat, der keine Ausbildung absolviert hat. ""
・ ・ ・
Vielleicht entwickelt sich ein solches Gespräch.
● Aus kausalen Gründen
Lassen Sie uns nun ein Bild des Inhalts dieses Gesprächs zeichnen, das Sie als Direktor der Personalabteilung gefragt haben (Abb. 1.1.1).
In Abbildung 1.1.1, ・ ** Pfeil ①: Je höher die [Begeisterung für die Ausbildung der Untergebenen des Chefs] ist, desto höher ist die Wahrscheinlichkeit, dass der Chef [für Chefs: Punktetraining für Karriereinterviews mit Untergebenen] nimmt **
・ ** Pfeil ②: [Zufriedenheit mit den Karriereinterviews der Untergebenen] steigt, wenn [Chef an der Schulung teilnimmt] **
Es gibt eine Beziehung. Dieser Pfeil (2) zeigt die Wirkung des diesmal verifizierten Trainings.
Wenn es nur zwei Pfeile (1) und (2) gibt, ist der Bericht von Herrn A korrekt, aber Sie, der Direktor der Personalabteilung, sind besorgt,
・ ** Pfeil ③: Je höher die [Begeisterung für die Ausbildung der Untergebenen des Chefs] ist, desto höher ist die [Zufriedenheit mit den Karriereinterviews der Untergebenen] **
Es scheint, dass Sie sich den Pfeil (Beziehung) vollständig vorstellen können.
Daher ist es in Abb. 1.1.1 nicht möglich, die Wirkung des Trainings genau abzuschätzen, es sei denn, die Wirkung des Pfeils ② wird unter Berücksichtigung der Existenz des Pfeils estimated geschätzt.
** Kausales Denken ist eine Methode zur Schätzung des direkten kausalen Effekts, den Sie erhalten möchten, während Sie den kausalen Effekt (Wirkung des Pfeils) aus anderen Variablen (Faktoren) auf diese Weise berücksichtigen **.
Lassen Sie uns die in diesem Beispiel angegebenen Daten zur Personalschulung überprüfen.
Daten wie diese gehen weiter. Die Variable Z zeigt die Teilnahme an Schulungen an, 1 zeigt die Teilnahme an Schulungen an und 0 zeigt die Nichtteilnahme an. Wenn diese Variable Z 1 ist, um wie viel verbessert sich die Zufriedenheit der Befragungen untergeordneter Mitarbeiter?
Überprüfen Sie als Nächstes die Daten in einem Diagramm.
Aus der Grafik
** "Dann finden Sie die Wirkung von Training Z anhand dieser Daten." **
Dies ist (ein Beispiel) die Herausforderung für Datenwissenschaftler, die im Unternehmen arbeiten.
Lassen Sie uns die obigen Daten kausal ableiten.
Es ist jedoch schwierig, alle Inhalte des kausalen Denkens in diesem Artikel zu erklären.
** Lernen Sie dabei! Kausalanalyse mit Python ~ Einführung in das Kausaldenken und die Kausalsuche **, Kapitel 1 bis 3 Erklärt die Vorkenntnisse, die für das kausale Denken erforderlich sind.
** In "Kapitel 1 Verstehen wir den Unterschied zwischen Korrelation und Kausaleffekt" ** wird einfach die Differenz des Durchschnittswerts zwischen der Gruppe, die die Maßnahme erhalten hat, und der Gruppe, die die Maßnahme nicht erhalten hat, am Beispiel der Personalschulung und des TV-CM berechnet. Ich werde den Punkt erklären, dass die Wirkung der Behandlung nicht erforderlich ist. Außerdem werde ich das Konzept der Pseudokorrelation erläutern, weshalb die Schätzung anhand der Differenz der Durchschnittswerte nicht funktioniert, und die drei Muster erläutern, in denen Pseudokorrelation auftritt. Und am Ende von Kapitel 1 in Google Colaboratory werden wir die drei Muster, die eine Pseudokorrelation erzeugen, tatsächlich programmimplementieren und bestätigen.
** "Kapitel 2 Verstehen der Arten von kausalen Effekten" ** führt anti-reale virtuelle, potenzielle Ergebnisvariablen und verschiedene kausale Effekte (ATE, ATT usw.) ein. Dann werde ich den do-Operator vorstellen, bei dem es sich um eine Interventionsoperation handelt, und erklären, dass kausales Denken schwierig ist, wenn eine Pseudokorrelation durch einen indirekten kausalen Effekt erzeugt wird, der kausale Pfeil jedoch durch die Interventionsoperation gelöscht werden kann. Abschließend werde ich die Anpassungsformel, die diese Interventionsoperation beschreibt, mit einer mathematischen Formel ohne Verwendung des Operators do erläutern.
** "Kapitel 3 Grundlegendes zu Diagrammdarstellungen und Backdoor-Kriterien" ** führt Strukturgleichungsmodelle, Kausaldiagramme und gerichtete nicht kreisförmige Diagramm-DAGs ein. Als nächstes erklären wir, um eine kausale Inferenz in der DAG durchzuführen, die d-Trennung, die den Hintertürpfad schließt, indem wir die Variablen organisieren, die berücksichtigt werden sollten, und die Variablen, die ignoriert werden sollten.
In den Kapiteln 1 bis 3 wird das Wissen erläutert, das für die Reihenfolge der kausalen Inferenz erforderlich ist, und in Kapitel 4 wird ein konkretes Programm zur Analyse der kausalen Inferenz implementiert und erläutert.
** "Kapitel 4 Implementieren wir das kausale Denken" ** erklärt und implementiert die grundlegende Methode des kausalen Denkens, die Regressionsanalyse, die IPTW-Methode unter Verwendung des Propensity Score und die DR-Methode, die die Regressionsanalyse und die IPTW-Methode kombiniert. halten.
Die in diesem Artikel vorgestellten Daten der Personalschulung stellen jedoch das Problem dar, dass der Effekt mit der in Kapitel 4 beschriebenen grundlegenden Methode des kausalen Denkens nicht genau geschätzt werden kann.
Insbesondere stellen wir das Problem ein, dass jede Variable (Faktor) nicht linear, sondern linear arbeitet und sich der Effekt des Trainings Z in Abhängigkeit vom Eifer des x: Boss-Trainings ändert.
Speziell,
Y = Z×t(x) + 0.3x + 2.0 + 0.1×noize
Ich erstelle Pseudodaten mit.
Erstens, da es einen 0,3-fachen Term gibt, ist die Zufriedenheit des Interviews mit Y: -Untergeordneten umso höher, je höher der x: Eifer für die Ausbildung von Untergebenen des Chefs ist.
Da es einen Abschnitt von Z × t (x) gibt, wird dem Chef, der an dem Training teilnimmt (Z = 1), der Effekt von t (x) hinzugefügt (** Dies ist der Effekt des Besuchs des Trainings **).
Dieses t (x) ist diesmal ・ Wenn der Eifer x des untergeordneten Trainings des Chefs kleiner als 0 ist, ist der Effekt gering und die Zufriedenheitsstufe Y steigt um 0,5. ・ Die Zufriedenheit Y steigt um 0,7, wenn x 0 oder mehr und weniger als 0,5 beträgt. ・ Die Zufriedenheit Y steigt um 1,0, wenn x 0,5 oder mehr beträgt.
Wird besorgt.
Mit anderen Worten, der Trainingseffekt ändert sich in Abhängigkeit von der Variablen x: dem Eifer, die Untergebenen des Chefs zu trainieren, was eine Interaktion und ein nichtlinearer Zustand ist, an dem Z und x beteiligt sind.
Ich denke, dass die Situation, in der der Chef, der mehr von der Ausbildung seiner Untergebenen begeistert ist, eine größere Wirkung hat, selbst wenn er dieselbe Ausbildung absolviert, eine vernünftige Situation als echtes Problem darstellt.
Schließlich ist das Z, ob man überhaupt trainieren soll oder nicht, dies ist
Z_prob=sigmoid(5.0x-5.0*noise)
Die Sigmoid-Funktion wird verwendet, um die Wahrscheinlichkeit Z_prob für die Teilnahme an Schulungen für jede Person zu ermitteln, und die Wahrscheinlichkeit Z_prob bestimmt, ob jede Person an der Schulung teilnehmen wird oder nicht. x: Je höher der Eifer der Untergebenen von Chefs ist, desto höher ist die Wahrscheinlichkeit, ** "Für Chefs: Punktetraining für Karriereinterviews mit Untergebenen" ** zu absolvieren.
Das Obige ist die Pseudodatengenerierungsregel.
Was wir jedoch tatsächlich als Daten erhalten können, sind die Werte der drei oben gezeigten Variablen.
x: Begeisterung für die Ausbildung der Untergebenen des Chefs Y: Zufriedenheit mit Interviews mit Untergebenen Z: Ob der Chef das Training genommen hat
nur.
Dieses Mal wollen wir einen kausalen Rückschluss auf ein nichtlineares Phänomen ziehen, daher müssen wir ein nichtlineares Regressionsmodell erstellen.
Hier kommt maschinelles Lernen heraus.
Meta-Lernende (T-Lernende, S-Lernende, X-Lernende) und doppelt robustes Lernen sind gängige Methoden für kausales Denken mit maschinellem Lernen. Diese Methoden werden in diesem Dokument erläutert und implementiert. Ich werde.
Das spezifische Verfahren kann in diesem Artikel nicht erläutert werden. Wenn Sie jedoch S-Learner und X-Learner verwenden, um den Trainingseffekt zu erzielen, werden die folgenden Ergebnisse erzielt.
X-Learner ist genauer als S-Learner. Bei beiden Methoden ist es richtig erwünscht, dass sich der Trainingseffekt in Abhängigkeit von x allmählich ändert: dem Eifer, die Untergebenen des Chefs zu trainieren.
Das Ergebnis dieser kausalen Argumentation ist
** "Die Wirkung von Training Z entnehmen Sie bitte den folgenden Daten." **
Es ist eine Lösung für das Geschäftsproblem.
Für einen in einem Unternehmen tätigen Datenwissenschaftler ist es wichtig, die Fähigkeit zu erwerben, diese Analyse des kausalen Denkens durchzuführen.
Aus Kapitel 1 dieses Buches, ** Lernen beim Erstellen! Kausalanalyse mit Python ~ Einführung in die Praxis des kausalen Denkens und der kausalen Suche ** Bis zu Kapitel 5 ist "Teil 1 Kausales Denken".
Ich werde die bisherige Methode des kausalen Denkens Schritt für Schritt erklären.
Die Kapitel 6 bis 8 sind "Teil 2 Kausalsuche".
Im kausalen Denken war der Zusammenhang zwischen kausalen Wirkungen und der Richtung der kausalen Wirkungen bekannt.
Dieser Kausalzusammenhang ist bei der Kausalsuche unbekannt, und der Zusammenhang wird geschätzt.
Zum Beispiel
● Großer Fragebogen zu Lebensstil und Krankheit ● Umfrage zur Einstellung der Mitarbeiter im Zusammenhang mit Reformen des Arbeitsstils, z. B. Arbeitsfreundlichkeit, Arbeitszufriedenheit und Zufriedenheit mit Organisationen und Vorgesetzten in Unternehmen Eine solche,
Dies ist eine Methode, um den Kausalzusammenhang zwischen den Umfrageelementen zu ermitteln, nachdem viele Elemente per Fragebogenumfrage gesammelt wurden.
** "Kapitel 6 Implementierung von LiNGAM" ** erklärt und implementiert die kausale Suche durch LiNGAM unter der Annahme eines Strukturgleichungsmodells mit linearem, nicht zirkulierendem und nicht Gaußschem Rauschen. Der Punkt von LiNGAM ist, dass es eng mit der unabhängigen Komponentenanalyse zusammenhängt und dass ein Strukturgleichungsmodell erhalten wird. Während wir diesen Punkt erklären, werden wir den Fluss des Algorithmus erklären, während wir ihn tatsächlich implementieren.
** "Kapitel 7 Implementieren des basischen Netzwerks" ** führt zunächst das Skelett, die PDAG und die bedingte Wahrscheinlichkeitstabelle CPT als Erklärung des basianischen Netzwerks ein. Dann werden wir BIC als Basian-Score aufgreifen, der die Güte der Beobachtungsdaten für das Basian-Netzwerk zeigt, und die Berechnung erklären und implementieren. Als nächstes werde ich die Methode zum Testen der Unabhängigkeit von zwei Variablen erklären und implementieren und drei Arten von Netzwerkschätzungsmethoden vorstellen. Schließlich wurde in Abschnitt 7.5 der PC-Algorithmus als Methode des strukturellen Lernens durch bedingte unabhängige Tests eingeführt und das Bayes'sche Netzwerk mit Daten geschätzt und geschätzt, die "Für Chefs: Punktetraining für Karriereinterviews mit Untergebenen" etwas kompliziert machten. Schätzen Sie den Wert nicht beobachteter Variablen aus.
Bei der Kausalanalyse und der Kausalsuche ist nicht nur maschinelles Lernen und tiefes Lernen wichtig, sondern auch das basianische Netzwerk. Ich bin jedoch der Meinung, dass es nur wenige Bücher gibt, die das basianische Netzwerk kurz beschreiben.
** Als Einführung in das Baysian Network habe ich versucht, es zu einer guten Einführung in die Welt des Basian Network zu machen **.
Der Inhalt dieses Kapitels ist wie folgt.
Am Ende dieses Buches befasst sich ** "Kapitel 8 Kausale Suche mit Deep Learning" ** mit der kausalen Suche auf der Grundlage der GAN-Technologie (Hostile Generation Network) für Deep Learning, deren Gliederung, Netzwerkstruktur und Wir werden die eigentliche kausale Suche erklären und implementieren.
Ab 2020 nimmt die Forschung mit Deep Learning in verschiedenen Bereichen zu, und die Forschung mit Deep Learning schreitet auch im Bereich der kausalen Suche voran.
Zum Beispiel ・ Kausale Suche mithilfe eines neuronalen Diagrammnetzwerks ・ Kausale Suche durch tiefes Verstärkungslernen ・ Kausale Suche mit GAN (Generative Adversarial Networks) Usw. wurden angekündigt.
Die kausale Suchmethode mit Deep Learning ist ein Bereich, in dem die Forschung gerade erst begonnen hat, und wir glauben, dass in Zukunft komplexere Methoden angekündigt werden.
Daher habe ich mich gefragt, ob ich die Kausalsuche mithilfe von Deep Learning in diesem Buch veröffentlichen soll, aber ich möchte, dass die Leser die Felder spüren, die sich in Zukunft voraussichtlich entwickeln werden, und werde sie am Ende dieses Buches erläutern und implementieren. Es wurde gemacht.
In diesem Buch werden wir ** SAM (Structural Agnostic Model) **, eine kausale Suchmethode mit GAN, unter den kausalen Suchmethoden mit Deep Learning erklären und implementieren.
Nachdem wir das Konzept von SAM und die Netzwerkkonfiguration mit dem folgenden Bild grafisch erklärt haben, werden wir den Code tatsächlich implementieren und eine kausale Suche durchführen.
Der gesamte Inhalt dieses Dokuments kann von Google Colaboratory ausgeführt werden, und die kausale Suche von SAM wird auch mithilfe der GPU in Google Colaboratory durchgeführt.
In Abschnitt 8.5 dieses Dokuments wird auch die Verwendung der GPU mit Google Colaboratory beschrieben.
Dies ist die Einführung in die Bücher zum kausalen Denken und zur kausalen Suche (für Anfänger) mit Python.
** "Lernen Sie beim Erstellen! Kausalanalyse mit Python ~ Einführung in das Kausaldenken und die Kausalsuche" ** ● Veröffentlicht am 30. Juni 2020 ● Autor: Yutaro Ogawa (Selbsteinführung, Twitter) @ Dentsu International Information Service Co., Ltd. (ISID) ) ● Herausgeber: My Navi Publishing
Vielen Dank für das Lesen der oben genannten.
[Kritische Verantwortung] AI Transformationszentrum des Dentsu International Information Service (ISID) Entwicklungsgruppe Yutaro Ogawa [Haftungsausschluss] Der Inhalt dieses Artikels selbst ist die Meinung / Übermittlung des Autors, nicht die offizielle Meinung des Unternehmens, zu dem der Autor gehört. [Anmerkungen] Das Entwicklungsteam der KI-Abteilung des Dentsu International Information Service (ISID) sucht nach Mitgliedern, die Anerkennung finden. Wenn Sie interessiert sind, klicken Sie bitte hier
Recommended Posts