L'intervalle de confiance de ** la différence du ratio de population **, et non l'intervalle de confiance du ratio de population
L'explication détaillée est omise ici. Le site suivant est facile à comprendre.
Intervalle fiable de différence dans le ratio de population
En affaires, nous effectuons souvent un «test du chi carré» et un «test de différence de ratio de population». Bien sûr, il est important de prêter attention à la conclusion qu'il existe une différence significative **, mais si vous y prêtez simplement attention, il est difficile de saisir la quantité d'effet et de variation **. Rendons-le un peu plus intuitif! Le flux.
Il semble que l'intervalle de confiance du ratio de population puisse être trouvé dans la bibliothèque, mais il semble que l'intervalle de confiance de la différence du ratio de population ne soit pas fait (enquête d'une minute). Comment estimer l'intervalle de confiance à 95% du ratio de population en Python et déterminer une taille d'échantillon raisonnable
La formule de calcul n'est pas compliquée, alors implémentez-la rapidement.
(\hat{p_1} - \hat{p_2}) - z_\frac{\alpha}{2} \times \sqrt{\frac{\hat{p_1}(1 - \hat{p_1})}{n_1} + \frac{\hat{p_2}(1 - \hat{p_2})}{n_2}} \leq \hat{p_1} - \hat{p_2} \leq \\ (\hat{p_1} - \hat{p_2}) + z_\frac{\alpha}{2} \times \sqrt{\frac{\hat{p_1}(1 - \hat{p_1})}{n_1} + \frac{\hat{p_2}(1 - \hat{p_2})}{n_2}}
L'explication détaillée est expliquée dans le site présenté précédemment. L'expression de gauche est appelée borne inférieure et l'expression de droite est appelée borne supérieure.
Si la borne inférieure et la borne supérieure ne traversent pas 0, on peut dire qu'il y a une différence significative. Comment trouver l'intervalle de confiance à 95%? Relation avec différence significative et signification et formule de 1,96
C'est une religion qui ne bouge pas, alors j'admire les choses diverses.
Une image de l'alimentation d'une table de tabulation croisée 2x2 avec csv.
achat | Non acheté | |
---|---|---|
Homme | 50 | 100 |
femme | 40 | 120 |
main.py
import csv
import numpy as np
#Paramètres
z = 1.96
#Lire les données de test
with open('test.csv') as f:
reader = csv.reader(f, quoting=csv.QUOTE_NONNUMERIC)
d = [row for row in reader]
#Calculer le ratio de population
p = [d[0][0]/sum(d[0]), d[1][0]/sum(d[1])]
# 95%Calculer l'intervalle de confiance
lb = (p[0]- p[1]) - z * np.sqrt(p[0] * (1 - p[0]) / sum(d[0]) + p[1] * (1 - p[1]) / sum(d[1]))
ub = (p[0]- p[1]) + z * np.sqrt(p[0] * (1 - p[0]) / sum(d[0]) + p[1] * (1 - p[1]) / sum(d[1]))
#Résultat de sortie
print('95 de la différence du ratio de population%Intervalle de confiance: {:.3f} <= p1 - p2 <= {:.3f}'.format(lb, ub))
C'était peut-être une niche, mais ça devrait être pratique ...
Recommended Posts