Letztes Mal Ich habe verschiedene Dinge über Hadoop unter der Voraussetzung erklärt, dass die Bevölkerung vollständig befragt wird, aber als ich einige Annahmen über die Verteilung der Populationen getroffen habe. Eine Konformitätsprüfung ist erforderlich.
Lassen Sie uns darüber nachdenken, was anhand des Tests beurteilt werden kann.
Test des Unterschieds im Verhältnis → Gibt es einen Unterschied im Bevölkerungsverhältnis zwischen zwei verschiedenen Populationen? Dies wird dadurch bestimmt, ob das Populationsverhältnis P gleich einem bestimmten Wert P_0 ist.
Test der Differenz im Mittelwert → Gibt es einen Unterschied im Populationsmittel zwischen zwei verschiedenen Populationen? Dies wird dadurch bestimmt, ob der Durchschnittswert μ der Population einem bestimmten Wert μ_0 entspricht.
Test des Varianzunterschieds → Gibt es einen Varianzunterschied zwischen zwei verschiedenen Normalpopulationen? Dies wird dadurch bestimmt, ob die Varianz σ ^ 2 der Normalbevölkerung gleich einem bestimmten Wert σ ^ 2_0 ist.
Können wir sagen, dass die beobachteten Daten mit einer bestimmten Verteilung übereinstimmen? Ob die Wahrscheinlichkeitsverteilungen der beiden Populationen unterschiedlich sind.
Die Poisson-Verteilung ist wie zuvor in Hypothesentest und Wahrscheinlichkeitsverteilung erläutert.
Wenn die möglichen Werte der stochastischen Variablen diskret und unendlich sind, ist es die Wahrscheinlichkeit, dass ein Ereignis, das durchschnittlich λ-mal pro Zeiteinheit auftritt, X-mal pro Zeiteinheit auftritt.
{P(X = k) = \frac {{\lambda}^xe^{-\lambda}} {k!} \\
jedoch\\
\lambda \gt 0
}
Berücksichtigen Sie die Anzahl der Beobachtungen terminalspezifischer Informationen in einer bestimmten Positionsinformation. Angenommen, Sie haben 100 Einheiten untersucht, um festzustellen, ob jede terminalspezifische Information in einem bestimmten Bereich beobachtet wird, und folgen Sie der nachstehenden Tabelle für jede terminalspezifische Information.
Anzahl der Beobachtungen | Anzahl der Terminals |
---|---|
0 | 43 |
1 | 31 |
2 | 14 |
3 | 8 |
4 | 3 |
5 | 1 |
Man kann sagen, dass diese Anzahl von Beobachtungen der Poisson-Verteilung folgt oder bei einem Signifikanzniveau (= P-Wert) von 5% getestet wird.
λ = unbekannte Population (geschätzt aus Daten) X = Klasse k
Daher wird der Stichprobenmittelwert als Schätzwert der unbekannten Population λ der Poisson-Verteilung verwendet.
\hat{\lambda} = \frac 1 {100} (0 x 43 + 1 x 31 + 2 x 14 + ... ) = 1
Daher ist die erwartete Frequenz
Klasse k | Beobachtungsfrequenz | Erwartete Frequenz |
---|---|---|
0 | 43 | 36.8 |
1 | 31 | 36.8 |
2 | 14 | 18.4 |
3 | 8 | 6.13 |
4 | 3 | 1.53 |
5 | 1 | 0.307 |
6 | 0 | 0.0330 |
\chi^2 = \frac {(43-36.8)^2} {36.8} + \frac {(31-36.8)^2} {36.8} + ... = 5.011
Die auf diese Weise erhaltenen Werte werden mit der Tabelle der Chi-Quadrat-Verteilung verglichen.
Der Freiheitsgrad beträgt 7 -1 -1 = 5, da die Anzahl unbekannter Populationen von der Anzahl der Klassen -1 abgezogen wird. Wenn k = 3 und höher zusammengefasst sind und die Anzahl der Klassen 4 beträgt, ist 4-1 -1 = 2. Ich werde. Wenn Sie sich die Spalte mit einem P-Wert von 0,05 und einem Freiheitsgrad von 2 ansehen, heißt es 5,99146, liegt also innerhalb dieses Werts und die Nullhypothese wird nicht zurückgewiesen. Mit anderen Worten, es stellt sich heraus, dass ** nicht gesagt werden kann, dass es nicht der Poisson-Verteilung folgt **.
Simulieren wir, dass wenn n gegen unendlich geht, während λ der Normalverteilung mit den Parametern n und p = λ / n konstant gehalten wird, es sich der Poisson-Verteilung annähert.
Früher habe ich die Simulation der Zentralpolbegrenzung auf Brute-Force-Weise simuliert, aber es ist einfacher.
import numpy as np
import matplotlib.pyplot as plt
fig = plt.figure()
ax = fig.add_subplot(1,1,1)
M = 1000
for N in [10,30,50,100]:
data = [np.average(np.random.poisson(3, N)) for i in range(M)]
hist, key = np.histogram(data, bins=np.arange(1,5,0.1), density=True)
ax.plot(hist, label=str(N))
plt.legend(loc='best')
plt.show()
plt.savefig("image.png ")
Wenn N = 100 ist, wird beobachtet, dass es nahe an einer Normalverteilung liegt.
Recommended Posts