[PYTHON] Zusammenfassung der Wahrscheinlichkeitsverteilungen, die häufig in Statistiken und Datenanalysen vorkommen

In der Statistik werden die Folgen von Ereignissen auf der Welt als ** Zufallsvariablen ** bezeichnet. Und es ist die ** Wahrscheinlichkeitsverteilung **, die uns die Wahrscheinlichkeit jeder stochastischen Variablen gibt.

Die Form der Wahrscheinlichkeitsverteilung, zu der die Wahrscheinlichkeitsvariable gehört, ändert sich je nachdem, auf welche Art von Ereignis sie zurückzuführen ist. Unten finden Sie eine Zusammenfassung der in der Statistik häufig verwendeten Wahrscheinlichkeitsverteilungen mit Code in Python, der die Wahrscheinlichkeitsverteilung zeichnet.

Wenn die Wahrscheinlichkeitsvariable ein diskreter Wert ist

Das Ergebnis eines Ereignisses ist $ X $ mit diskreten Werten. Als Beispiel für jede Verteilung wird der Graph der ** Wahrscheinlichkeitsmassenfunktion ** gezeigt.

Die stochastische Massenfunktion ist eine Funktion, die jedem $ X $ eine Wahrscheinlichkeit gibt.

Bernoulli Distribution

Angenommen, ein Ereignis X kann nur zwei Ergebnisse haben: $ X = 0 $ oder $ X = 1 $. Wenn dann $ P (X = 1) = p $ ist, folgt die Wahrscheinlichkeitsvariable $ X $ der ** Bernoulli-Verteilung **.

Wenn die Wahrscheinlichkeitsvariable $ X $ die Wahrscheinlichkeit $ p $ [Bernouy-Verteilung] ist (https://ja.wikipedia.org/wiki/%E3%83%99%E3%83%AB%E3%83%8C%E3 Wenn Sie% 83% BC% E3% 82% A4% E5% 88% 86% E5% B8% 83) ($ X $ ~ $ B (p) $) folgen, dann:


\begin{align}
P(X=1) &= p \\
P(X=0) &= 1 - p \\
E[X] &= p \\
Var(X) &= p(1-p)
\end{align}

Zu diesem Zeitpunkt repräsentiert $ E [X] $ den Durchschnitt und $ Var (X) $ die Varianz.

Wenn Sie beispielsweise einen Test mit einer Erfolgsquote von 30% durchführen, wird die Wahrscheinlichkeitsmassenfunktion des Ergebnisses angezeigt.

bernoulli.py



## Bernoulli distribution ---------------------------------------------
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import bernoulli

# probability that X=1
p = 0.3

# possible outcomes
x = [0,1]

# visualize
fig, ax = plt.subplots(1,1)
ax.plot(x, bernoulli.pmf(x, p), 'bo', ms=8)
ax.vlines(x, 0, bernoulli.pmf(x,p), colors='b', lw=5, alpha=0.5)
ax.set_xlabel('X')
ax.set_ylabel('probability')
ax.set_title('bernoulli pmf')
ax.set_ylim((0,1))
ax.set_aspect('equal')

bernoulli.png

Binomialverteilung

Diagonale Verteilung verallgemeinerte die Bernoulli-Verteilung. Ding. Es ist nur die Summe von $ N $ Bernouy-Versuchen. Stellt eine Wahrscheinlichkeitsverteilung dar, bei der ein Ereignis $ X $ mit einer Wahrscheinlichkeit von $ p $ $ k $ mal aus $ N $ Versuchen auftritt.

Wenn $ X $ ~ $ Bin (N, p) $


\begin{align}
P(X=k|p) &= \binom{N}{k} p^{k}(1-p)^{N-k} \\
E[X] &= np \\
Var(X) &= np(1-p)
\end{align}

Als Beispiel ist hier eine probabilistische Massenfunktion aufgeführt, die die Wahrscheinlichkeit ausdrückt, einen Test mit einer Bestehensrate von 30% fünfmal zu bestehen.

binomial.py



## Binomial distribution ---------------------------------------------
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import binom

# probability that X=1
p = 0.3

# the number of trials
N = 5
 
# X=1 happens k times
k = np.arange(N+1)

# visualize
fig, ax = plt.subplots(1,1)
ax.plot(k, binom.pmf(k, N, p), 'bo', ms=8)
ax.vlines(k, 0, binom.pmf(k, N, p), colors='b', lw=5, alpha=0.5)
ax.set_xlabel('k')
ax.set_ylabel('probability (X=1)')
ax.set_title('binomial pmf')
ax.set_ylim((0,1))

binomial.png

Poisson-Verteilung

[Poisson-Verteilung](https://ja.wikipedia.org/wiki/%E3%83%9D%E3%82%A2%E3%82%BD%E3%83%B3%E5%88%86%E5% B8% 83) beschreibt die Häufigkeit, mit der ein Ereignis auftritt. Der einzige Parameter ist $ \ lambda $, der die durchschnittliche Häufigkeit des Ereignisses darstellt.

Wenn $ X \ sim Pois (\ lambda) $


\begin{align}
P(X=k|\lambda) &= \frac{\lambda^{k} e^{-\lambda}}{k!} \hspace{15pt}  for \hspace{10pt} k = 0, 1, 2, ...\\
E[X] &= \lambda \\
Var(X) &= \lambda 
\end{align}

Die Poisson-Verteilung ist gekennzeichnet durch Mittelwert = Varianz = $ \ Lambda $.

Ein Beispiel ist die Zündfrequenz von Nervenzellen. Es ist bekannt, dass die Feueraktivität von Nervenzellen ungefähr ein Poisson-Prozess ist, und unter der Annahme, dass die durchschnittliche Feuerungsrate einer bestimmten Nervenzelle 5 (Zeiten / s) beträgt, ist die Anzahl der Feuer dieser Nervenzelle pro Sekunde wie folgt. Die Wahrscheinlichkeitsverteilung ist wie folgt.

poisson.py



## Poisson distribution --------------------------------------------
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import poisson

# rate parameter
mu = 5

# possible counts
k = np.arange(poisson.ppf(0.01, mu), poisson.ppf(0.99, mu))

# visualize
fig, ax = plt.subplots(1,1)
ax.plot(k, poisson.pmf(k, mu), 'bo', ms=8)
ax.vlines(k, 0, poisson.pmf(k, mu), colors='b', lw=5, alpha=0.5)
ax.set_xlabel('k')
ax.set_ylabel('probability')
ax.set_title('poisson pmf')

poisson.png

Wenn die Wahrscheinlichkeitsvariable ein stetiger Wert ist

Das Ergebnis eines Ereignisses ist, dass $ X $ kontinuierliche Werte anstelle diskreter Werte annimmt. Als Beispiel für jede Verteilung wird der Graph der ** Wahrscheinlichkeitsdichtefunktion ** gezeigt.

Die Wahrscheinlichkeitsdichtefunktion unterscheidet sich von der Wahrscheinlichkeitsmassenfunktion darin, dass sie jedem $ X $ seine relative Wahrscheinlichkeit (relative Wahrscheinlichkeit) gibt. Die Wahrscheinlichkeit, dass $ X $ den Bereich $ a \ leq X \ leq b $ annimmt, wird durch die Fläche der Wahrscheinlichkeitsdichtefunktion in diesem Bereich berechnet, dh das Integral $ \ int_ {a} ^ {b} f (X) dX $. Kann gemacht werden. Per Definition der Wahrscheinlichkeit ist die Fläche des gesamten Bereichs der Wahrscheinlichkeitsdichtefunktion $ - \ inf \ leq X \ leq \ inf $ 1.

Exponentialverteilung

Exponentialverteilung zeigt, dass ein Ereignis häufig auftritt. Wenn Sie aufwachen, wird beschrieben, wie viel Zeit zwischen den Ereignissen vergangen ist. Der Punkt ist die Verteilung der Wartezeit.

Statistischer ausgedrückt repräsentiert es die Zeit zwischen Poisson-Prozessen. Daher ist der Parameter wie Poisson $ \ lambda $, was die durchschnittliche Frequenz darstellt.

Wenn $ X \ sim Exp (\ lambda) $


\begin{align}
f(x|\lambda) &= \lambda e^{-\lambda x} \hspace{15pt} (x \geq 0) \\
E[X] &= \frac{1}{\lambda} \\
Var(X) &= \frac{1}{\lambda^{2}} 
\end{align}

Mit anderen Worten, wenn ein Ereignis ein Poisson-Prozess ist, beträgt die durchschnittliche Wartezeit von einem Ereignis zum nächsten $ 1 / \ lambda $.

Das Folgende zeigt die Verteilung der Zeit vom Brennen der Nervenzelle bis zum nächsten Brennen als Exponentialverteilung.

exponential.py



## Exponential distribution --------------------------------------------
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import expon

# rate parameter
mu = 5

# possible waiting time
k = np.linspace(expon.ppf(0.01, loc=0, scale=1/mu), expon.ppf(0.99, loc=0, scale=1/mu), 100)

# visualize
fig, ax = plt.subplots(1,1)
ax.plot(k, expon.pdf(k, loc=0, scale=1/mu), 'r-', lw=5, alpha=0.5)
ax.set_xlabel('waiting time')
ax.set_ylabel('f(x)')
ax.set_title('exponential pdf')

exponential.png

Gleichmäßige Verteilung

Einheitliche Verteilung ist die einfachste Form der Verteilung. Da jedoch jede Wahrscheinlichkeitsvariable $ x $ innerhalb des angegebenen Bereichs den gleichen Wahrscheinlichkeitswert zurückgibt, ist dies eine wesentliche Wahrscheinlichkeitsverteilung, wenn das mögliche Ergebnis gleich wahrscheinlich ist.

Wenn $ X $ ~ $ U [a, b] $ gilt, gilt Folgendes.


\begin{align}
f(x) &= \frac{1}{b - a} \hspace{15pt} if \hspace{15pt} a \leq x \leq b \\
f(x) &= 0  \hspace{45pt} otherwise \\
E[X] &= \frac{a + b}{2} \\
Var(X) &= \frac{(b - a)^{2}}{12}
\end{align}

Für den Durchschnitt der gleichmäßigen Verteilung ist "die Summe der Durchschnittswerte der Durchschnitt der Summen" und "das Produkt der Durchschnittswerte ist der Durchschnitt der Produkte" (jedoch wenn die Ereignisse unabhängig sind).


\begin{align}
E[X+Y] &= E[X] + E[Y] \\
E[XY] &= E[X]E[Y] \hspace{20pt} (if \hspace{5pt} X \perp Y)
\end{align}

Als Beispiel ist hier eine Wahrscheinlichkeitsdichtefunktion, wenn ein experimentelles Ergebnis einen von drei bis vier aufeinanderfolgenden Werten annehmen sollte und jede Wahrscheinlichkeit gleich wahrscheinlich ist.

uniform.py



## Uniform distribution ---------------------------------------------
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import uniform

# range
a = 3
b = 4 - a
x = np.linspace(uniform.ppf(0.01, loc=a, scale=b), uniform.ppf(0.99, loc=a, scale=b), 100)

# visualize
fig, ax = plt.subplots(1,1)
ax.plot(x, uniform.pdf(x, loc=a, scale=b), 'r-', alpha=0.6, lw=5)
ax.set_xlabel('X')
ax.set_ylabel('P(X)')
ax.set_title('uniform pdf')

uniform.png

Gammaverteilung

Gamma-Verteilung Stellt die Verteilung der Gesamtlatenz dar, wenn ein Ereignis $ n $ Mal auftritt. Wenn also $ n = 1 $ ist, stimmt die Gammaverteilung mit der Exponentialverteilung überein. Es gibt zwei Parameter: $ \ alpha = n $, $ \ beta = \ lambda $. $ \ lambda $ ist die durchschnittliche Häufigkeit von Ereignissen wie Poisson und Exponentialverteilungen.

Für $ X \ sim Gamma (\ alpha, \ beta) $ gilt Folgendes.


\begin{align}
f(x|\alpha, \beta) &= \frac{\beta^{\alpha}}{\Gamma(\alpha)}x^{\alpha-1}e^{-\beta x} \hspace{20pt} (x \geq 0) \\
E[X] &= \frac{\alpha}{\beta} \\
Var[X] &= \frac{\alpha}{\beta^{2}} \\
\end{align}

Das in der Formel vorkommende ** $ \ Gamma (・) $ ** wird als ** Gammafunktion ** bezeichnet und ist eigentlich ein allgemeines System des Multiplikators $ (!) $. Die folgende Formel gilt.


if \hspace{10pt} n > 0 \\
\Gamma(n) = (n-1)!

Diese Gammafunktion wird verwendet, um eine rechtwinklige Verteilung zu modellieren, aber es ist auch eine Verteilung, die häufig in Statistiken gesehen wird, weil sie mit der Leistung zusammenhängt.

Unten ist die Gammaverteilung, wenn $ \ alpha = 7, \ beta = 5 $. Interpretieren Sie dies als die Verteilung der gesamten Wartezeit, bis die Beispielnervenzellen siebenmal ausgelöst haben.

gamma.py



## Gamma distribution --------------------------------------------
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import gamma

# total number of events
n = 7

# rate parameter
mu = 5

# possible waiting time
x = np.linspace(gamma.ppf(0.01, n, loc=0, scale=1/mu), gamma.ppf(0.99, n, loc=0, scale=1/mu), 100)

# visualize
fig, ax = plt.subplots(1,1)
ax.plot(x, gamma.pdf(x, n, loc=0, scale=1/mu), 'r-', lw=5, alpha=0.5)
ax.set_xlabel('total waiting time until the neuron fires 7 times')
ax.set_ylabel('f(x)')
ax.set_title('gamma pdf')

gamma.png

Beta-Distribution

Beta-Verteilung beträgt $ 0 \ leq X \ leq Wird verwendet, um die Variable $ X $ darzustellen, die 1 $ ist. Einer Mit anderen Worten kann die Wahrscheinlichkeit selbst modelliert werden.

Für $ X \ sim Beta (\ alpha, \ beta) $ gilt Folgendes.


\begin{align}
f(x|\alpha, \beta) &= \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha) \Gamma(\beta)}x^{\alpha-1}(1 - x)^{\beta - 1} \hspace{10pt} (0 \leq x \leq 1) \\
E[X] &= \frac{\alpha}{\alpha + \beta} \\
Var[X] &= \frac{\alpha \beta}{(\alpha + \beta)^{2}(\alpha + \beta + 1)}
\end{align}

Auf den ersten Blick ist dies eine komplizierte Formel, aber überraschenderweise entspricht die Beta-Verteilung bei $ \ alpha = \ beta = 1 $ der gleichmäßigen Verteilung $ U (0,1) $.

Schauen wir uns als Beispiel die Beta-Verteilung an, wenn $ \ alpha = \ beta = 0.5 $. Die Beta-Verteilung kann abhängig von den Parametern verschiedene Formen ausdrücken, wird jedoch in diesem Fall zu einer charakteristischen Verteilung wie ein Tal (?).

beta.py



## Beta distribution --------------------------------------------
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import beta

# parameters
a = 0.5
b = 0.5

# range
x = np.linspace(beta.ppf(0.01, a, b), beta.ppf(0.99, a, b), 100)

# visualize
fig, ax = plt.subplots(1,1)
ax.plot(x, beta.pdf(x, a, b), 'r-', lw=5, alpha=0.5)
ax.set_xlabel('X')
ax.set_ylabel('f(x)')
ax.set_title('beta pdf')

beta.png

Die Beta-Verteilung ist im Wesentlichen "wenn die Wahrscheinlichkeitsvariablen $ X (0 \ leq X \ leq 1) $, die einer gleichmäßigen Verteilung folgen, in absteigender Reihenfolge angeordnet sind, ist die Verteilung der $ p $ -ten Zahl von unten die Beta-Verteilung $ Beta (p ,, q) Es bedeutet "werde $". Zumindest die Hauptverwendung in der Statistik ist jedoch das Bayes'sche Update als natürliche Verteilung des gemeinsamen Nutzens. Wichtig ist also nicht das, sondern die Vielfalt der Formen, die die Beta-Verteilung annehmen kann. Unten habe ich eine Zeichnung der Beta-Verteilung mit einer Kombination verschiedener Parameter gezeichnet.

Diverse Beta-Distribution

Normalverteilung

Es ist schließlich Normalverteilung (Gaußsche Verteilung). ** Zentraler Grenzwertsatz ** (Unabhängig von der Verteilung der Population nähert sich die Verteilung des wahren mittleren Fehlers des Stichprobenmittelwerts der Normalverteilung an, wenn genügend Versuche vorliegen), aber auch Statistiken sind wichtig. Es ist eine Wahrscheinlichkeitsverteilung, die in der Wissenschaft nicht vermieden werden kann.

Wenn $ X \ sim N (\ mu, \ sigma ^ {2}) $, gilt Folgendes.


\begin{align}
f(X|\mu, \sigma^{2}) &= \frac{1}{\sqrt{2 \pi \sigma^{2}}} exp{^\frac{(x - \mu)^{2}}{2 \sigma^2}} \\
E[X] &= \mu \\
Var(X) &= \sigma^{2}
\end{align}

Die Normalverteilung enthält 99% oder mehr der Daten $ X $ innerhalb der dreifachen Standardabweichung $ \ sigma $. Wenn eine Variable außerhalb des Bereichs des 3-fachen der Standardabweichung $ \ sigma $ liegt, wird sie als ** Ausreißer ** bestimmt.

Für mehrere unabhängige Normalverteilungen gilt außerdem Folgendes.


if \hspace{10pt} X1 \sim N(\mu_1, \sigma_1^{2}) \perp X2 \sim N(\mu_2, \sigma_2^{2}) \\
\\
X1 + X2 \sim N(\mu_1 + \mu_2, \sigma_1^{2} + \sigma_2^{2})

Die Summe der aus unabhängigen Normalverteilungen erhaltenen Variablen folgt einer neuen Normalverteilung mit der ursprünglichen Summe der Mittelwerte und der Summe der Varianzen.

Als Beispiel für den Graphen gilt $ \ mu = 0, \ sigma ^ {2} = 1 $, dh ** Standardnormalverteilung (z-Verteilung) **.

normal.py



import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import norm

# mean
mu = 0

# standard deviation
sd = 1

# range
x = np.linspace(norm.ppf(0.01, loc=mu, scale=sd), norm.ppf(0.99, loc=mu, scale=sd), 100)

# visualize
fig, ax = plt.subplots(1,1)
ax.plot(x, norm.pdf(x, loc=mu, scale=sd), 'r-', lw=5, alpha=0.5)
ax.set_xlabel('X')
ax.set_ylabel('f(x)')
ax.set_title('normal pdf')

normal.png

Es ist zu beachten, dass in der Standardnormalverteilung der Wert am Ende des Bereichs, der 95% der Daten enthält, ** $ \ pm 1,96 $ ** beträgt. Werte, die diesen Wert überschreiten, sind seltene Zeichen (etwa 2,5% der Gesamtzahl), die einem Abweichungswert von 70 oder mehr auf der + Seite entsprechen.

Übrigens wird bei der Berechnung des Abweichungswerts das Testergebnis auf $ N (50, 10 ^ {2}) $ standardisiert. Unten finden Sie die Formel zum Konvertieren der Test $ x_i $ -Punkte in den Abweichungswert $ T_i $, wenn die Verteilung der Testergebnisse $ N (\ mu_x, \ sigma_x ^ {2}) $ ist.


T_i = \frac{10(x_i - \mu_x)}{\sigma_x} + 50

T-Verteilung

Die letzte ist T-Verteilung. Der T-Test ist eine bequeme Methode, um zu testen, ob die Mittelwerte der beiden Gruppen signifikant unterschiedlich sind, und er wird missbraucht, ohne gut verstanden zu werden ~~ insbesondere in der Biowelt ~~, also auch hier T. Ich möchte überprüfen, was die Verteilung ist.

Nehmen wir an, dass die experimentellen Daten $ X $ aus einer Population stammen, die der Normalverteilung $ N (\ mu, \ sigma ^ {2}) $ folgt.


X \sim N(\mu, \sigma^{2})

Zu diesem Zeitpunkt wurde der Durchschnittswert der experimentellen Daten $ X $ $ \ override {X} $ aus derselben Wahrscheinlichkeitsverteilung erhalten, in der $ X = X_1, X_2, ..., X_n $ ** unabhängig voneinander waren (unabhängig und). Aufgrund der Art der unabhängigen Normalverteilung wird sie als identisch verteilt betrachtet; iid) **


\begin{align}
\Sigma_{i=1}^{n} X_i &\sim N(n*\mu, n*\sigma^{2}) \\
\frac{1}{n}\Sigma_{i=1}^{n} X_i &\sim N(\mu, \frac{\sigma^{2}}{n}) \\
\overline{X} &\sim N(\mu, \frac{\sigma^{2}}{n}) \\
\frac{\overline{X} - \mu}{\sigma /\sqrt{n}} &\sim N(0,1)
\end{align}

Es kann transformiert werden. Wenn zu diesem Zeitpunkt der standardisierte Datenmittelwert größer als 1,96 $ oder kleiner als -1,96 $ ist, was der Kantenwert ist, der 95% der Daten in der Standardnormalverteilung enthält, ** Stichprobenmittelwert $ \ override {X. Es kann gesagt werden, dass} $ deutlich vom Durchschnitt der Bevölkerung entfernt ist ** ………… ist der ** Z-Test **.

In der Praxis ist die Populationsstandardabweichung $ \ sigma $ aus den Stichprobendaten häufig unbekannt (Z-Test ist nicht förderfähig) und stattdessen ** die aus der Stichprobe geschätzte Populationsstandardabweichung (unverzerrte Varianz) S. Verwenden **. Normalerweise wird die Standardabweichung berechnet, indem die Quadrate der Differenz zwischen den Daten und dem Mittelwert addiert, durch die Anzahl der Daten $ n $ dividiert und die Quadratwurzel gezogen werden. Bei der Berechnung der unverzerrten Verteilung wird jedoch $ n-1 anstelle von $ n $ verwendet. Teilen Sie durch $.


S = \sqrt{\Sigma_{i}(X_i - \overline{X})^{2}/(n-1)}

Mit diesem einfachen Verfahren können Sie ** den erwarteten Wert der aus der Stichprobe geschätzten Populationsstandardabweichung mit der Populationsstandardabweichung ** abgleichen.

Sobald Sie sich jedoch so weit damit beschäftigt haben, folgt die standardisierte $ \ override {X} $ nicht mehr einer Normalverteilung. Stattdessen folgt eine t-Verteilung mit ** Freiheitsgraden $ n-1 $ **.

Bei $ Y \ sim t_ {\ gamma} $ gilt Folgendes.


\begin{align}
f(y) &= \frac{\Gamma(\frac{\gamma + 1}{2})}{\Gamma(\frac{\gamma}{2})\sqrt{\gamma \pi}}(1 + \frac{y^{2}}{\gamma})^{-\frac{\gamma + 1}{2}} \\
E[Y] &= 0 \hspace{10pt} if \hspace{10pt} \gamma \geq 1 \\
Var[Y] &= \frac{\gamma}{\gamma-2} \hspace{10pt} if \hspace{10pt} \gamma \geq 2 \\
\end{align} 

Wenn der aus dem experimentellen Durchschnitt $ \ override {x} $ umgerechnete $ t $ -Wert größer oder kleiner als der Kantenwert ist, der 95% der Gesamtdaten in der T-Verteilung enthält, bestimmt durch den Grad der Datenfreiheit. Mit dem T-Test können Sie einen signifikanten Test für die Differenz zwischen dem Durchschnitt der Population und der Stichprobe durchführen.

Als Grafik werde ich eine T-Verteilung mit 15 Freiheitsgraden setzen. Die T-Verteilung hat ebenfalls eine Form nahe einer Normalverteilung, ist jedoch tendenziell etwas breiter. Mit zunehmendem Freiheitsgrad nähert es sich einer Normalverteilung.

t.py



## t distribution --------------------------------------------
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import t

# degree of freedom
df = 15

# range
x = np.linspace(t.ppf(0.01, df), t.ppf(0.99, df), 100)

# visualize
fig, ax = plt.subplots(1,1)
ax.plot(x, t.pdf(x, df), 'r-', lw=5, alpha=0.5)
ax.set_xlabel('y')
ax.set_ylabel('f(y)')
ax.set_title('t pdf')

t.png

abschließend

Wir haben die Wahrscheinlichkeitsverteilungen zusammengefasst, die häufig in Statistiken und Datenanalysen vorkommen, aber es gibt natürlich noch viel mehr Arten von Wahrscheinlichkeitsverteilungen. Wenn ich Zeit habe, möchte ich mehr hinzufügen.

Recommended Posts

Zusammenfassung der Wahrscheinlichkeitsverteilungen, die häufig in Statistiken und Datenanalysen vorkommen
Liste der wichtigsten Wahrscheinlichkeitsverteilungen, die beim maschinellen Lernen und in der Statistik verwendet werden, sowie Code in Python
Zusammenfassung der statistischen Datenanalysemethoden mit Python, die im Geschäftsleben verwendet werden können
[Einführung in Python] Zusammenfassung der Funktionen und Methoden, die häufig in Python vorkommen [Problemformat]
Zusammenfassung der häufig verwendeten Methoden bei Pandas
Trennung von Design und Daten in matplotlib
Zusammenfassung der Module und Klassen in Python-TensorFlow2-
Datenanalyse: Einfache Anwendung deskriptiver Statistiken und Schätzungsstatistiken auf CSV-Daten in Python
Python-E-Book-Zusammenfassung nützlich für die frei lesbare Datenanalyse
[Einführung in Datenwissenschaftler] Grundlagen der Wahrscheinlichkeit und Statistik ♬ Wahrscheinlichkeits- / Wahrscheinlichkeitsvariable und Wahrscheinlichkeitsverteilung
Python-Übungsdatenanalyse Zusammenfassung des Lernens, dass ich ungefähr 10 mit 100 Schlägen getroffen habe
Datenanalyse in Python Zusammenfassung der Quellen, die Anfänger zuerst betrachten sollten
Zusammenfassung der 2016 erstellten OSS-Tools und -Bibliotheken
Zusammenfassung der Scikit-Learn-Datenquellen, die beim Schreiben von Analyseartikeln verwendet werden können
Aufgezeichnete Umgebung für die Datenanalyse mit Python
Analyse von Finanzdaten durch Pandas und deren Visualisierung (2)
Zusammenfassung der Tools, die zum Analysieren von Daten in Python benötigt werden
Verarbeitung von CSV-Daten in voller und halber Breite in Python
Zusammenfassung der Linux (UNIX) -Befehle, die mit Progate ausgegeben wurden
Analyse von Finanzdaten durch Pandas und deren Visualisierung (1)
Geschichte der Bildanalyse von PDF-Dateien und Datenextraktion
Liste des Python-Codes, der bei der Big-Data-Analyse verwendet wird
Analyse der Messdaten (2) -Hydrobacter und Anpassung, lmfit Empfehlung-
Zusammenfassung der Datumsverarbeitung in Python (Datum / Uhrzeit und Datum)
Zusammenfassung der von Pandas 2 häufig ausgeführten Prozesse (Datenreferenz, Bearbeitungsvorgang)
Grundlegende Zusammenfassung der Datenoperationen in Python Pandas - Zweite Hälfte: Datenaggregation
[Einführung in Data Scientists] Deskriptive Statistik und einfache Regressionsanalyse ♬
Lassen Sie uns die Analyse der sinkenden Daten der Titanic so durchführen
[Statistik für Programmierer] Wahrscheinlichkeitsvariablen, Wahrscheinlichkeitsverteilungen und Wahrscheinlichkeitsdichtefunktionen
Wahrscheinlichkeitsvorhersage von unausgeglichenen Daten
Beginn der Niko Niko Encyclopedia Analysis ~ JSON und berühren Sie die bereitgestellten Daten ~
Empfohlene Bücher und Quellen für die Datenanalyseprogrammierung (Python oder R)
Eine einfache Datenanalyse von Bitcoin, die von CoinMetrics in Python bereitgestellt wird
Über Boxplot und Violinplot, die die Variation unabhängiger Daten visualisieren
Praxis der Datenanalyse durch Python und Pandas (Tokyo COVID-19 Data Edition)
Wahrscheinlichkeitsstatistik in Pokemon (Nichtkorrelationstest) - Gibt es eine Korrelation zwischen CP, Gewicht und Größe von Koiking?