[PYTHON] Üben Sie typische statistische Methoden (1)

"Statistik ist die stärkste Studie" und "Statistik ist die stärkste Studie von Kei Nishiuchi http://www.amazon.co.jp/dp/4478028230) “hat sich zu einem außergewöhnlichen Bestseller mit insgesamt über 370.000 Exemplaren in der Serie entwickelt. Ich denke, es gibt viele Leute, die es gelesen haben.

In den beiden Büchern davor und danach werden verschiedene Methoden, die in Statistiklehrbüchern erscheinen, in "[Generalisiertes lineares Modell](http://ja.wikipedia.org/wiki/%E4%B8%80%E8%88%AC%] beschrieben. E5% 8C% 96% E7% B7% 9A% E5% BD% A2% E3% 83% A2% E3% 83% 87% E3% 83% AB) “ist in einer Tabelle zusammengefasst.

Ich werde die Tabelle hier zitieren.

Eine Tabelle, die das p170-verallgemeinerte lineare Modell zusammenfasst, wobei Statistiken die stärkste Studie sind

1.png

Praktische Ausgabe, in der Statistik die stärkste Studie ist p344 Eine erweiterte Version einer Tabelle, die das Verständnis von Statistik dramatisch verbessert

1.png

Diese beiden Bücher erläutern die statistischen Methoden, die im Geschäftsleben häufig verwendet werden, was sie bedeuten, welche Ideen daraus entstehen und wie sie verwendet werden.

Darüber hinaus als drei Kenntnisse, die in diesem Buch in der oben genannten Practical Edition S. 357 nicht erhalten werden können

  1. Üben Sie mit Werkzeugen und realen Daten
  2. Tiefes Verständnis der mathematischen Methoden
  3. Fortgeschrittenere Methoden, die in den letzten Jahren geboren wurden Ist aufgelistet.

Ab diesem Zeitpunkt möchte ich 1. oben besondere Aufmerksamkeit schenken und ein Beispiel geben, das auf einfachen Daten basiert, wenn ich in der Analysesprache übe, die ich bisher verwendet habe.

Das heißt, es gibt einige, die bereits beschrieben wurden, also lassen Sie uns als eine Überprüfung dieser fortfahren.

Fallkontrollstudie und Chi-Quadrat-Test

Dies ist die Geschichte von Dole und Hills "Fallkontrollstudie", die als erste epidemiologische Schätzung gilt.

Eine Untersuchung der Daten von 1465 stationären Patienten mit Lungenkrebs aus Krankenhäusern im gesamten Vereinigten Königreich zwischen 1948 und 1952 als Zusammenhang zwischen Lungenkrebs und Rauchen war wie folgt.

Anzahl der Personen Raucher 非Raucher
Männlicher Lungenkrebspatient 1357 1350(99.5%) 7(0.5%)
Männlicher Nicht-Lungenkrebspatient 1357 1296(95.5%) 61(4.5%)
Weibliche Lungenkrebspatientin 108 68(63.0%) 40(37.0%)
Weibliche Lungenkrebspatientin 108 49(45.4%) 59(54.6%)

Ein Fall in der Epidemiologie ist ein Fall, dh ein Fall (Patient), der krank geworden ist, und eine Kontrolle ist ein Vergleich.

Wenn der Chi-Quadrat-Test mit diesen Daten durchgeführt wird, ist das Ergebnis wie folgt.

import scipy as sp
import scipy.stats as stats

#Männliche Daten(Lungenkrebspatienten und Nicht-Lungenkrebspatienten)
man = sp.array([[1350, 7], [1296, 61]])
#Frauendaten(Lungenkrebspatienten und Nicht-Lungenkrebspatienten)
female = sp.array([[68, 40], [49, 59]])

def chi_squared_test(data):
    """Funktion zur Durchführung eines Chi-Quadrat-Tests"""
    #Chi-Quadrat-Wert, p-Wert, Freiheitsgrad
    x2, p, dof, expected = stats.chi2_contingency(data)
    return x2, p, dof, expected

results = chi_squared_test(man)
results = chi_squared_test(female)

Infolgedessen beträgt für Männer der Chi-Quadrat-Wert 42,3704259482, der p-Wert 7,5523446617e-11 und der Freiheitsgrad 1, was einen signifikanten Unterschied darstellt. In ähnlicher Weise beträgt für Frauen der Chi-Quadrat-Wert 6,04195804196, der p-Wert 0,0139697819212 und der Freiheitsgrad 1, was einen signifikanten Unterschied darstellt.

Daraus lässt sich ableiten, dass das Vorhandensein oder Nichtvorhandensein von Rauchen die Fälle von Lungenkrebs nicht beeinflusst.

Es wird bis zum nächsten fortgesetzt.

Recommended Posts

Üben Sie typische statistische Methoden (1)
Deep Learning 1 Übung des Deep Learning
[Statistik] Multiprocessing von MCMC-Sampling
Verschiedene Möglichkeiten, Mnist zu importieren
Predictive Statistics (Übungsklassifizierung) Python
[Grundlagen der modernen mathematischen Statistik mit Python] Kapitel 3: Typische Wahrscheinlichkeitsverteilung
Vorhersagestatistik (einfache Regression üben) Python