numpy.sum(data) #total
numpy.mean(data) #moyenne
numpy.amax(data)
numpy.amin(data)
numpy.median(data)
Un index qui indique "l'écart entre les données et la valeur moyenne"
\sigma^2=\frac{1}{N}\sum_{i=1}^{n} (x_i-\mu)^2
numpy.var(data, ddof = 0)
La variance de l'échantillon est une valeur obtenue en calculant davantage la variance à l'aide de la moyenne de l'échantillon, mais cette valeur est biaisée pour être sous-estimée.
Par conséquent, celui sans biais devient la dispersion universelle.
\sigma^2=\frac{1}{N-1}\sum_{i=1}^{n} (x_i-\mu)^2
numpy.var(data, ddof = 1)
Ci-après, une dispersion non biaisée sera utilisée.
La racine carrée de la dispersion
\begin{align}
\sigma&=\sqrt{\sigma^2}\\
&=\frac{1}{N-1}\sum_{i=1}^{n} (x_i-μ)^2
\end{align}
numpy.std(data, ddof=1)
--Lorsque la covariance est supérieure à 0
→ Si une variable prend une grande valeur, l'autre augmente également
→ Il existe une corrélation positive.
--Lorsque la covariance est inférieure à 0
→ Si une variable prend une grande valeur, l'autre devient plus petite
→ Il y a une corrélation négative.
Cov(x,y)=\frac{1}{N}\sum_{i=1}^{n-1} (x_i-\mu_x)(y_i-\mu_y)
print(cov_data)
#Récupération de données
x = cov_data["x"]
y = cov_data["y"]
#taille de l'échantillon
N = len(cov_data)
#Calcul de la valeur moyenne
mu_x = sp.mean(x)
mu_y = sp.mean(y)
#Co-distribué
cov = sum((x - mu_x) * (y - mu_y)) / (N - 1)
Cov(x,y)=
\begin{bmatrix}
\sigma_x^2 & Cov(x,y) \\
Cov(x,y) & \sigma_y^2
\end{bmatrix}
np.cov(x, y, ddof = 1)
hoge = np.cov(x, y, ddof = 1)
cov = hoge[1,0]
La covariance est normalisée à une valeur maximale de 1 et une valeur minimale de 1.
\rho_{xy}=\frac{Cov_{(x,y)}}{\sqrt{\sigma_x^2\sigma_y^2}}
#Calcul de la variance
sigma_2_x_sample = sp.var(x, ddof = 0)
sigma_2_y_sample = sp.var(y, ddof = 0)
#Coefficient de corrélation
cov_sample / sp.sqrt(sigma_2_x_sample * sigma_2_y_sample)
Cov_{(x,y)}=
\begin{bmatrix}
1 & \rho_{xy} \\
\rho_{xy} & 1
\end{bmatrix}
numpy.corrcoef(x,y)
Une conversion qui définit la moyenne des données sur 0 et l'écart type sur 1. Autrement dit, la valeur moyenne est soustraite de chaque donnée et divisée par l'écart type.
standerd = (data - numpy.mean(data)) / numpy.std(data, ddof=1)
Probabilité en variable continue [^ 1]. Lorsqu'il s'agit d'une variable continue, la probabilité d'une valeur spécifique est toujours 0. En effet, certaines valeurs ont un nombre infini de valeurs après la virgule décimale. Par exemple, une personne ne peut pas mesurer exactement 160 centimètres. Cependant, la «probabilité d'une personne entre 159 cm et 160 cm» peut être calculée. Cette probabilité est la "densité de probabilité". Par exemple, la densité de probabilité de 0 à la valeur maximale est 1.
c.f. La probabilité de la variable discrète [^ 2] est la probabilité que de nombreuses personnes apprennent à l'école. (P (x) = 1/4)
En particulier, lorsqu'on considère la probabilité que la variable X qui prend une valeur réelle prenne x <= X <= x + ⊿x, lorsque ⊿x → 0, P (x) est appelée densité de probabilité de x.
Lors du calcul de la probabilité, la variable à calculer est appelée variable de probabilité. Supposons que la probabilité que x = 2 soit 1/3. À ce stade, 2 est la variable d'établissement.
N(x|\mu, \sigma^2)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-{\frac{(x-\mu)^2}{2\sigma^2}}}
Exemple: lorsque la variable de probabilité x = 3, moyenne = 4, écart type = 0,8
>>>x = 3
>>>mu = 4
>>>sigma = 0.8
>>>1 / (numpy.sqrt(2 * sp.pi * sigma**2)) * numpy.exp(- ((x - mu)**2) / (2 * sigma**2))
>>>0.228
Vous pouvez facilement le faire avec la fonction ci-dessous.
>>>stats.norm.pdf(loc = 4, scale = 0.8, x = 3)
>>>0.228
F(x)=P(X\leq x)
Une fonction exprimée comme. C'est-à-dire "une fonction qui calcule la probabilité de tomber en dessous d'une certaine valeur". La valeur obtenue ici est appelée la probabilité la plus faible. De plus, x à ce moment est appelé un point de pourcentage. Dans le cas d'une distribution normale, elle peut être obtenue par le calcul intégral ci-dessous. Utilisez également la fonction scipy.stats.hoge.cdf
P(X\leq x)=\int_{-\infty}^{x}\frac{1}{\sqrt{2\pi\sigma^2}}e^{-{\frac{(x-\mu)^2}{2\sigma^2}}}dx
>>>import scipy as sp
>>>from scipy import stats
>>>stats.norm.cdf(loc = 4, scale = 0.8, x = 3) #loc est moyen, l'échelle est l'écart type
>>>0.106
Point de pourcentage où la probabilité la plus faible est de 2,5%
>>>stats.norm.ppf(loc = 4, scale = 0.8, q = 0.025)
>>>2.432
t=\frac{\hat{\mu}-\mu}{\frac{\hat{\sigma}}{\sqrt{N}}}
C'est,
valeur t=\frac{Moyenne de l'échantillon-Moyenne mère}{Erreur standard}
Sera. La distribution de la répétition de cet essai plusieurs fois est la distribution de l'échantillon de la valeur t.
La distribution de l'échantillon des valeurs t lorsque la distribution de la population est une distribution normale est appelée distribution t.
Pour vérifier si la valeur moyenne des données diffère d'une valeur spécifique. Cependant, la méthode spécifique du test t dépend de la correspondance des données. Voir la page suivante pour plus de détails. Fonctions du module Statistiques
Il est interprété comme «résidu ordinaire divisé par l'écart type de la distribution». Exemple: lorsque la distribution binomiale --Lorsque p = 0,5, il devient 0 ou 1, mais cela signifie qu'il est de moitié, donc la probabilité de deviner est faible. L'écart à ce moment est reconnu comme un «petit écart» dans le résidu de Pearson. --Lorsque p = 0,9, il devrait y avoir une forte probabilité que la supposition soit correcte. Si la supposition est fausse à ce moment, elle est reconnue comme un «grand écart» dans le résidu de Pearson.
\begin{align}
Pearson \quad residuals &= \frac{y-N\hat{p}}{\sqrt{N\hat{p}\quad(1-\hat{p}\quad)}}\\
&=\frac{y-\hat{p}}{\sqrt{\hat{p}\quad(1-\hat{p}\quad)}}
\end{align}
\\
\hat{p}\quad représente le taux de réussite estimé.
La somme des carrés des résidus de Pearson est la statistique de Pearson Kai-square.
[^ 1]: valeur qui prend une valeur après la virgule décimale et change continuellement.
Exemple: x cm ← 3 cm, 4,5 cm
[^ 2]: Ceux qui ne prennent que des entiers.
Exemple: un.
Recommended Posts