[PYTHON] Organisation des procédures de base pour l'analyse des données et le traitement statistique (4)

Le deuxième des Trois points de statistiques sociales après Dernière fois C'est une histoire de deviner la population à partir du spécimen. C'est la partie que j'ai écrite plusieurs fois, alors passons en revue.

Échantillonnage

La population entière que vous souhaitez analyser et découvrir est appelée la ** population **.

J'ai déjà écrit sur Sampling from population et Sampling method. ..

En statistique, la moyenne et la variance de la population sont rarement connues à l'avance et des tests sont utilisés pour les estimer. La nature de la population peut être étudiée avec un certain degré de confiance en échantillonnant les échantillons extraits de la population.

Il est difficile de connaître complètement la population pour plusieurs raisons.

Estimation

Pour utiliser les données numériquement à des fins d'analyse économique réelle, d'évaluation de politiques, d'enquêtes clients, etc., vous devez connaître sa moyenne et sa diversification. La population est inconnue dans les problèmes du monde réel et sera ** estimée ** à partir de l'échantillon disponible.

** estimation d'intervalle ** estime la plage de valeurs qui inclut la population. Les principales informations requises à ce stade sont les suivantes.

En statistique, le degré de liberté est le nombre de valeurs qui peuvent être définies librement. Freedom and Test a expliqué la définition de la liberté et son application au test.

Indépendante signifie que si vous prenez la valeur attendue du montant estimé, ce sera la valeur de la population réelle. En d'autres termes, il n'y a pas de surestimation ou de sous-estimation en moyenne. Une estimation qui satisfait cela est l '** estimateur sans biais **.

L'impartialité de la moyenne et de la variance de l'échantillon est particulièrement importante. La moyenne de l'échantillon est toujours une estimation non biaisée de la moyenne de la population.

#Préparer des échantillons de données selon 500 distributions normales
data = np.random.normal(loc=100, scale=25, size=500)

#Trouvez la moyenne
mu = np.mean(data)
#=> 99.416556898424659

#Trouvez la variance
s2 = np.var(data, ddof=1) #Dispersion impartiale
#=> 685.08664455245321

# 90%Intervalle de confiance
from scipy.stats import norm
rv = norm()
z = rv.ppf(0.995)

# 100(1-σ)%Intervalle de confiance
r = np.array([-z, z]) * np.sqrt(25/500)
#=> array([-0.36780045,  0.36780045])
mu + r
#=> array([ 99.04875645,  99.78435735]) #Estimation de section

Dans l'exemple ci-dessus, N = 500, mais à mesure que ce N augmente, il s'approche de la valeur de la distribution normale basée sur la Loi des grands nombres. ..

Tester

Si vous faites des hypothèses sur la distribution de la population, testez l'adéquation de la distribution. Pour tester s'il y a une différence dans la moyenne de la population de chaque niveau, utilisez analyds of variance.

Dans Test de l'hypothèse de variance égale [Utilisez le test de Welch dans le test t, que les variances de population soient égales ou non] (http://qiita.com/ynakayama/items/b9ec31a296de48e62863) Devrait être.

En fait, le test t sur le R moderne aboutit par défaut au test de Welch. La même chose devrait être faite pour Python (SciPy) (avec l'option equal_var = False). Cependant, il est important de savoir si la variance de la population est connue, inconnue mais égale ou non égale.

La prochaine fois, je continuerai cette histoire pour étudier la relation entre les variables.

Recommended Posts

Organisation des procédures de base pour l'analyse des données et le traitement statistique (4)
Organisation des procédures de base pour l'analyse des données et le traitement statistique (2)
JupyterLab Basic Setting 2 pour l'analyse des données (pip)
Configuration de base de JupyterLab pour l'analyse des données (pip)
Introduction à la modélisation statistique pour l'analyse des données Test de rapport de ressemblance GLM et asymétrie de test
Introduction à la modélisation statistique pour l'analyse des données
Traitement et jugement de la collecte du plan d'analyse des données (partie 1)
Traitement et jugement de la collecte du plan d'analyse des données (partie 2)
Méthodes de traitement des données pour les ingénieurs mécaniciens et les ingénieurs non informaticiens (Introduction 2)
Méthodes de traitement des données pour les ingénieurs mécaniciens et les ingénieurs non informaticiens (Introduction 1)
[Français] didacticiel scikit-learn 0.18 Didacticiel d'apprentissage statistique pour le traitement des données scientifiques Apprentissage statistique: paramètres et objets d'estimation dans scikit-learn
Python pour l'analyse des données Chapitre 4
Python pour l'analyse des données Chapitre 2
Conseils et précautions lors de l'analyse des données
Python pour l'analyse des données Chapitre 3
Introduction à la modélisation statistique pour l'analyse des données Sélection du modèle GLM
[Français] scikit-learn 0.18 Tutorial Tutoriel d'apprentissage statistique pour le traitement des données scientifiques Sélection du modèle: sélection de l'estimateur et de ses paramètres
Notes de lecture (en Python et Stan) pour une introduction à la modélisation statistique pour l'analyse de données (Midorimoto)
Introduction à la modélisation statistique pour le modèle linéaire généralisé d'analyse de données (GLM)
Modèle de prétraitement pour l'analyse des données (Python)
Analyse de données pour améliorer POG 3 ~ Analyse de régression ~
[Français] didacticiel scikit-learn 0.18 Didacticiel d'apprentissage statistique pour le traitement des données scientifiques Mettre le tout ensemble
Visualisation et analyse des informations de localisation des données Twitter Stava
Outil de visualisation Python pour le travail d'analyse de données
Installation d'Elasticsearch et fonctionnement de base pour ubuntu
À propos du traitement d'expansion des données pour l'apprentissage en profondeur
[Français] scikit-learn 0.18 Tutorial Rechercher de l'aide pour des tutoriels d'apprentissage statistique pour le traitement des données scientifiques
Introduction à la modélisation statistique pour l'analyse des données Élargissement de la gamme d'applications de GLM
Pratique de création d'une plateforme d'analyse de données avec BigQuery et Cloud DataFlow (traitement de données)
[Explication pour les débutants] Syntaxe et concept de base de TensorFlow
Analyse des données pour améliorer POG 2 ~ Analyse avec le notebook jupyter ~
Préparer un environnement de langage de programmation pour l'analyse des données
[CovsirPhy] Package Python COVID-19 pour l'analyse des données: chargement des données
Comment utiliser les outils d'analyse de données pour les débutants
[Python / Chrome] Paramètres de base et opérations de scraping
[Français] didacticiel scikit-learn 0.18 Didacticiel d'apprentissage statistique pour le traitement des données scientifiques Apprentissage non supervisé: recherche de représentation des données
Jusqu'à ce que vous installiez Anaconda pour l'analyse des données sur votre Mac et que vous lanciez l'IDE