Statistiques avec python

Total et moyenne


numpy.sum(data) #total
numpy.mean(data) #moyenne

Maximum et minimum, et médian

numpy.amax(data)
numpy.amin(data)
numpy.median(data)

Distribué

Un index qui indique "l'écart entre les données et la valeur moyenne"

\sigma^2=\frac{1}{N}\sum_{i=1}^{n} (x_i-\mu)^2
numpy.var(data, ddof = 0)

Dispersion impartiale

La variance de l'échantillon est une valeur obtenue en calculant davantage la variance à l'aide de la moyenne de l'échantillon, mais cette valeur est biaisée pour être sous-estimée.
Par conséquent, celui sans biais devient la dispersion universelle.

\sigma^2=\frac{1}{N-1}\sum_{i=1}^{n} (x_i-\mu)^2
numpy.var(data, ddof = 1)

Ci-après, une dispersion non biaisée sera utilisée.

écart-type

La racine carrée de la dispersion

\begin{align}
\sigma&=\sqrt{\sigma^2}\\
&=\frac{1}{N-1}\sum_{i=1}^{n} (x_i-μ)^2
\end{align}
numpy.std(data, ddof=1)

Co-distribué

--Lorsque la covariance est supérieure à 0
→ Si une variable prend une grande valeur, l'autre augmente également
→ Il existe une corrélation positive. --Lorsque la covariance est inférieure à 0
→ Si une variable prend une grande valeur, l'autre devient plus petite
→ Il y a une corrélation négative.

Cov(x,y)=\frac{1}{N}\sum_{i=1}^{n-1} (x_i-\mu_x)(y_i-\mu_y)

print(cov_data) スクリーンショット 2020-01-25 17.37.23.png

#Récupération de données
x = cov_data["x"]
y = cov_data["y"]
#taille de l'échantillon
N = len(cov_data)
#Calcul de la valeur moyenne
mu_x = sp.mean(x)
mu_y = sp.mean(y)
#Co-distribué
cov = sum((x - mu_x) * (y - mu_y)) / (N - 1)

Matrice co-distribuée distribuée

Cov(x,y)=
\begin{bmatrix}
\sigma_x^2 & Cov(x,y) \\
Cov(x,y) & \sigma_y^2 
\end{bmatrix}
np.cov(x, y, ddof = 1)

Lors de la récupération d'une valeur à partir d'une matrice

hoge = np.cov(x, y, ddof = 1)
cov = hoge[1,0]

Coefficient de corrélation du facteur produit de Pearson

La covariance est normalisée à une valeur maximale de 1 et une valeur minimale de 1.

\rho_{xy}=\frac{Cov_{(x,y)}}{\sqrt{\sigma_x^2\sigma_y^2}}

#Calcul de la variance
sigma_2_x_sample = sp.var(x, ddof = 0)
sigma_2_y_sample = sp.var(y, ddof = 0)
#Coefficient de corrélation
cov_sample / sp.sqrt(sigma_2_x_sample * sigma_2_y_sample)

Matrice de corrélation

Cov_{(x,y)}=
\begin{bmatrix}
1 & \rho_{xy} \\
\rho_{xy} & 1
\end{bmatrix}

numpy.corrcoef(x,y)

Standardisation

Une conversion qui définit la moyenne des données sur 0 et l'écart type sur 1. Autrement dit, la valeur moyenne est soustraite de chaque donnée et divisée par l'écart type.

standerd = (data - numpy.mean(data)) / numpy.std(data, ddof=1)

Densité de probabilité

Probabilité en variable continue [^ 1]. Lorsqu'il s'agit d'une variable continue, la probabilité d'une valeur spécifique est toujours 0. En effet, certaines valeurs ont un nombre infini de valeurs après la virgule décimale. Par exemple, une personne ne peut pas mesurer exactement 160 centimètres. Cependant, la «probabilité d'une personne entre 159 cm et 160 cm» peut être calculée. Cette probabilité est la "densité de probabilité". Par exemple, la densité de probabilité de 0 à la valeur maximale est 1.

c.f. La probabilité de la variable discrète [^ 2] est la probabilité que de nombreuses personnes apprennent à l'école. (P (x) = 1/4)

En particulier, lorsqu'on considère la probabilité que la variable X qui prend une valeur réelle prenne x <= X <= x + ⊿x, lorsque ⊿x → 0, P (x) est appelée densité de probabilité de x.

Variable de probabilité

Lors du calcul de la probabilité, la variable à calculer est appelée variable de probabilité. Supposons que la probabilité que x = 2 soit 1/3. À ce stade, 2 est la variable d'établissement.

Fonction de densité de probabilité de distribution normale

N(x|\mu, \sigma^2)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-{\frac{(x-\mu)^2}{2\sigma^2}}}

Exemple: lorsque la variable de probabilité x = 3, moyenne = 4, écart type = 0,8

>>>x = 3
>>>mu = 4
>>>sigma = 0.8
>>>1 / (numpy.sqrt(2 * sp.pi * sigma**2)) * numpy.exp(- ((x - mu)**2) / (2 * sigma**2))
>>>0.228

Vous pouvez facilement le faire avec la fonction ci-dessous.

>>>stats.norm.pdf(loc = 4, scale = 0.8, x = 3)
>>>0.228

Fonction de distribution cumulative et probabilité inférieure, point de pourcentage

F(x)=P(X\leq x)

Une fonction exprimée comme. C'est-à-dire "une fonction qui calcule la probabilité de tomber en dessous d'une certaine valeur". La valeur obtenue ici est appelée la probabilité la plus faible. De plus, x à ce moment est appelé un point de pourcentage. Dans le cas d'une distribution normale, elle peut être obtenue par le calcul intégral ci-dessous. Utilisez également la fonction scipy.stats.hoge.cdf

P(X\leq x)=\int_{-\infty}^{x}\frac{1}{\sqrt{2\pi\sigma^2}}e^{-{\frac{(x-\mu)^2}{2\sigma^2}}}dx
>>>import scipy as sp
>>>from scipy import stats
>>>stats.norm.cdf(loc = 4, scale = 0.8, x = 3) #loc est moyen, l'échelle est l'écart type
>>>0.106

Fonction pour trouver la fonction points de pourcentage-ppf

Point de pourcentage où la probabilité la plus faible est de 2,5%

>>>stats.norm.ppf(loc = 4, scale = 0.8, q = 0.025)
>>>2.432

Distribution d'échantillons de valeur T et de valeur t

t=\frac{\hat{\mu}-\mu}{\frac{\hat{\sigma}}{\sqrt{N}}}

C'est,

valeur t=\frac{Moyenne de l'échantillon-Moyenne mère}{Erreur standard}

Sera. La distribution de la répétition de cet essai plusieurs fois est la distribution de l'échantillon de la valeur t.

distribution t

La distribution de l'échantillon des valeurs t lorsque la distribution de la population est une distribution normale est appelée distribution t.

test t

Pour vérifier si la valeur moyenne des données diffère d'une valeur spécifique. Cependant, la méthode spécifique du test t dépend de la correspondance des données. Voir la page suivante pour plus de détails. Fonctions du module Statistiques

Pearson résiduel

Il est interprété comme «résidu ordinaire divisé par l'écart type de la distribution». Exemple: lorsque la distribution binomiale --Lorsque p = 0,5, il devient 0 ou 1, mais cela signifie qu'il est de moitié, donc la probabilité de deviner est faible. L'écart à ce moment est reconnu comme un «petit écart» dans le résidu de Pearson. --Lorsque p = 0,9, il devrait y avoir une forte probabilité que la supposition soit correcte. Si la supposition est fausse à ce moment, elle est reconnue comme un «grand écart» dans le résidu de Pearson.

\begin{align}
Pearson \quad residuals &= \frac{y-N\hat{p}}{\sqrt{N\hat{p}\quad(1-\hat{p}\quad)}}\\
&=\frac{y-\hat{p}}{\sqrt{\hat{p}\quad(1-\hat{p}\quad)}}
\end{align}
\\
\hat{p}\quad représente le taux de réussite estimé.

La somme des carrés des résidus de Pearson est la statistique de Pearson Kai-square.

[^ 1]: valeur qui prend une valeur après la virgule décimale et change continuellement.
Exemple: x cm ← 3 cm, 4,5 cm [^ 2]: Ceux qui ne prennent que des entiers.
Exemple: un.

Recommended Posts

Statistiques avec python
FizzBuzz en Python3
Grattage avec Python
Grattage avec Python
Python avec Go
Twilio avec Python
Intégrer avec Python
Jouez avec 2016-Python
AES256 avec python
Testé avec Python
python commence par ()
avec syntaxe (Python)
1. Statistiques apprises avec Python 1-1. Statistiques de base (Pandas)
Bingo avec python
Zundokokiyoshi avec python
Excel avec Python
Micro-ordinateur avec Python
Cast avec python
1. Statistiques apprises avec Python 1-3. Calcul de diverses statistiques (statistiques)
Communication série avec Python
Zip, décompressez avec python
Django 1.11 a démarré avec Python3.6
Python avec eclipse + PyDev.
Communication de socket avec Python
Analyse de données avec python 2
Grattage en Python (préparation)
Essayez de gratter avec Python.
Apprendre Python avec ChemTHEATER 03
Recherche séquentielle avec Python
"Orienté objet" appris avec python
Manipuler yaml avec python
Résolvez AtCoder 167 avec python
Communication série avec python
[Python] Utiliser JSON avec Python
Apprendre Python avec ChemTHEATER 05-1
Apprenez Python avec ChemTHEATER
Exécutez prepDE.py avec python3
1.1 Premiers pas avec Python
Collecter des tweets avec Python
Binarisation avec OpenCV / Python
3. 3. Programmation IA avec Python
Méthode Kernel avec Python
Non bloquant avec Python + uWSGI
Grattage avec Python + PhantomJS
Publier des tweets avec python
Conduisez WebDriver avec python
Utiliser mecab avec Python 3
Statistiques de prédiction de fonctionnalités python
[Python] Redirection avec CGIHTTPServer
Analyse vocale par python
Pensez à yaml avec python
Utiliser Kinesis avec Python
Premiers pas avec Python
Utiliser DynamoDB avec Python
Getter Zundko avec python
Gérez Excel avec python
Loi d'Ohm avec Python
Jugement des nombres premiers avec python
Exécutez Blender avec python
Résoudre des maths avec Python
Python à partir de Windows 7