Das Konfidenzintervall von ** der Differenz im Bevölkerungsverhältnis **, nicht das Konfidenzintervall des Bevölkerungsverhältnisses.
Eine ausführliche Erklärung wird hier weggelassen. Die folgende Seite ist leicht zu verstehen.
Zuverlässiges Intervall für Unterschiede im Bevölkerungsverhältnis
In der Wirtschaft führen wir häufig einen "Chi-Quadrat-Test" und einen "Test der Differenz im Bevölkerungsverhältnis" durch. Natürlich ist es wichtig, auf die Schlussfolgerung zu achten, dass es einen signifikanten Unterschied gibt **, aber wenn Sie nur darauf achten, ist es schwierig, das Ausmaß der Wirkung und Variation ** zu erfassen. Machen wir es etwas intuitiver! Der Fluss.
Es scheint, dass das Konfidenzintervall des Bevölkerungsverhältnisses in der Bibliothek gefunden werden kann, aber es scheint, dass das Konfidenzintervall der Differenz im Bevölkerungsverhältnis nicht durchgeführt wird (1-minütige Umfrage). Wie man das 95% -Konfidenzintervall des Bevölkerungsverhältnisses in Python schätzt und eine angemessene Stichprobengröße ermittelt
Die Berechnungsformel ist nicht kompliziert, implementieren Sie sie also schnell.
(\hat{p_1} - \hat{p_2}) - z_\frac{\alpha}{2} \times \sqrt{\frac{\hat{p_1}(1 - \hat{p_1})}{n_1} + \frac{\hat{p_2}(1 - \hat{p_2})}{n_2}} \leq \hat{p_1} - \hat{p_2} \leq \\ (\hat{p_1} - \hat{p_2}) + z_\frac{\alpha}{2} \times \sqrt{\frac{\hat{p_1}(1 - \hat{p_1})}{n_1} + \frac{\hat{p_2}(1 - \hat{p_2})}{n_2}}
Die ausführliche Erklärung wird auf der zuvor eingeführten Site erläutert. Der linke Ausdruck heißt Untergrenze und der rechte Ausdruck heißt Obergrenze.
Wenn die Untergrenze und die Obergrenze 0 nicht überschreiten, kann gesagt werden, dass es einen signifikanten Unterschied gibt. Wie finde ich das 95% -Konfidenzintervall? Beziehung mit signifikantem Unterschied und Bedeutung und Formel von 1,96
Es ist eine Religion, die sich nicht bewegt, deshalb bewundere ich die verschiedenen Dinge.
Ein Bild der Fütterung einer 2x2-Kreuztabelle mit CSV.
Kauf | Nicht gekauft | |
---|---|---|
Mann | 50 | 100 |
Frau | 40 | 120 |
main.py
import csv
import numpy as np
#Parameter
z = 1.96
#Testdaten lesen
with open('test.csv') as f:
reader = csv.reader(f, quoting=csv.QUOTE_NONNUMERIC)
d = [row for row in reader]
#Bevölkerungsverhältnis berechnen
p = [d[0][0]/sum(d[0]), d[1][0]/sum(d[1])]
# 95%Konfidenzintervall berechnen
lb = (p[0]- p[1]) - z * np.sqrt(p[0] * (1 - p[0]) / sum(d[0]) + p[1] * (1 - p[1]) / sum(d[1]))
ub = (p[0]- p[1]) + z * np.sqrt(p[0] * (1 - p[0]) / sum(d[0]) + p[1] * (1 - p[1]) / sum(d[1]))
#Ausgabeergebnis
print('95 der Differenz in der Bevölkerungsverhältnis%Konfidenzintervall: {:.3f} <= p1 - p2 <= {:.3f}'.format(lb, ub))
Es mag eine Nische gewesen sein, aber es sollte bequem sein ...
Recommended Posts