«Les statistiques sont l'étude la plus solide» et «[Les statistiques sont l'étude la plus solide](édition pratique) par Kei Nishiuchi http://www.amazon.co.jp/dp/4478028230) »est devenu un best-seller exceptionnel avec un total cumulé de plus de 370 000 exemplaires dans la série. Je pense qu'il y a beaucoup de gens qui l'ont lu.
Dans les deux livres avant et après cela, diverses méthodes apparaissant dans les manuels de statistiques sont décrites dans "[Generalized Linear Model](http://ja.wikipedia.org/wiki/%E4%B8%80%E8%88%AC%]. E5% 8C% 96% E7% B7% 9A% E5% BD% A2% E3% 83% A2% E3% 83% 87% E3% 83% AB) »est résumé dans un tableau.
Je vais citer le tableau ici.
Un tableau résumant le modèle linéaire généralisé p170, où les statistiques sont l'étude la plus forte
Édition pratique où les statistiques sont l'étude la plus solide p344 Une version étendue d'un tableau qui fait progresser considérablement la compréhension des statistiques
Ces deux livres expliquent les méthodes statistiques souvent utilisées dans les affaires, leur signification, les idées qui en naissent et comment les utiliser.
De plus, comme trois connaissances qui ne peuvent être obtenues dans ce livre dans l'édition pratique p357 susmentionnée
À partir de ce moment, je voudrais accorder une attention particulière à 1. ci-dessus et donner un exemple basé sur des données simples lorsque je pratique le langage d'analyse que j'ai utilisé jusqu'à présent.
Cela dit, certains ont déjà été décrits jusqu'à présent, alors passons à un examen de ceux-ci.
C'est l'histoire de "Case Control Study" de Dole et Hill, qui serait la première estimation épidémiologique.
Une enquête sur les données de 1465 patients hospitalisés atteints d'un cancer du poumon provenant d'hôpitaux à travers le Royaume-Uni entre 1948 et 1952 comme lien entre le cancer du poumon et le tabagisme était la suivante.
Nombre de personnes | fumeur | 非fumeur | |
---|---|---|---|
Patient masculin du cancer du poumon | 1357 | 1350(99.5%) | 7(0.5%) |
Patient de sexe masculin non cancéreux du poumon | 1357 | 1296(95.5%) | 61(4.5%) |
Patiente du cancer du poumon | 108 | 68(63.0%) | 40(37.0%) |
Patiente du cancer du poumon | 108 | 49(45.4%) | 59(54.6%) |
Un cas en épidémiologie est un cas, c'est-à-dire un cas (patient) qui est tombé malade, et un témoin est une comparaison.
Lorsque le test du chi carré est effectué sur ces données, le résultat est le suivant.
import scipy as sp
import scipy.stats as stats
#Données masculines(Patients atteints d'un cancer du poumon et patients atteints d'un cancer non pulmonaire)
man = sp.array([[1350, 7], [1296, 61]])
#Données sur les femmes(Patients atteints d'un cancer du poumon et patients atteints d'un cancer non pulmonaire)
female = sp.array([[68, 40], [49, 59]])
def chi_squared_test(data):
"""Fonction pour effectuer le test du chi carré"""
#Valeur du chi carré, valeur p, degré de liberté
x2, p, dof, expected = stats.chi2_contingency(data)
return x2, p, dof, expected
results = chi_squared_test(man)
results = chi_squared_test(female)
En conséquence, pour les hommes, la valeur du chi carré est 42,3704259482, la valeur p est 7,5523446617e-11 et le degré de liberté est 1, ce qui est une différence significative. De même, pour les femmes, la valeur du chi carré est 6,04195804196, la valeur p est 0,0139697819212 et le degré de liberté est 1, ce qui représente une différence significative.
Cela montre qu'on ne peut pas dire que la présence ou l'absence de tabagisme n'a aucun effet sur les cas de cancer du poumon.
Il continuera au suivant.
Recommended Posts