[PYTHON] Organisation grundlegender Verfahren zur Datenanalyse und statistischen Verarbeitung (4)

Der zweite von Drei Punkte der Sozialstatistik nach Letztes Mal Es ist eine Geschichte, in der die Population anhand des Exemplars erraten wird. Dies ist der Teil, den ich schon oft geschrieben habe.

Probenahme

Die gesamte Population, die Sie analysieren und herausfinden möchten, wird als ** Population ** bezeichnet.

Ich habe bereits über Stichproben aus der Bevölkerung und Stichprobenmethode geschrieben. ..

In der Statistik sind der Mittelwert und die Varianz der Bevölkerung selten im Voraus bekannt, und Tests werden verwendet, um sie abzuschätzen. Die Art der Bevölkerung kann mit einem gewissen Maß an Sicherheit untersucht werden, indem die aus der Bevölkerung entnommenen Proben entnommen werden.

Es gibt mehrere Gründe, warum es schwierig ist, die Bevölkerung vollständig zu kennen.

Die Bevölkerung ist ein sehr großes Thema, wie die ganzen Japaner und die ganze Welt.
Obwohl die Anzahl der Populationen nicht groß ist, ist eine 100% ige Umfrage nicht realistisch, da es schwierig ist, alle geplanten oder versendeten Produkte zu überprüfen.
Da es zukünftige Faktoren wie die Wirtschaftswachstumsrate des nächsten Jahres enthält, kann es derzeit nicht gemessen werden und muss geschätzt werden. Und so weiter.

Schätzen

Um die Daten numerisch für reale Wirtschaftsanalysen, Richtlinienbewertungen, Kundenumfragen usw. zu verwenden, müssen Sie den Durchschnitt und die Diversifikation kennen. Die Bevölkerung ist in realen Problemen unbekannt und wird anhand der vorliegenden Stichprobe ** geschätzt **.

** Intervallschätzung ** schätzt den Wertebereich, der die Grundgesamtheit enthält. Die zu diesem Zeitpunkt erforderlichen Hauptinformationen lauten wie folgt.

Beispieldurchschnitt
Probenverhältnis
Geschätzter Standardfehler
Um wie viel muss der Schätzfehler (Standardfehler) unterdrückt werden?

In der Statistik ist der Freiheitsgrad die Anzahl der Werte, die frei eingestellt werden können. Freiheit und Test erläuterte die Definition von Freiheit und ihre Anwendung auf den Test.

Unvoreingenommen bedeutet, dass wenn Sie den erwarteten Wert der geschätzten Menge nehmen, dies der Wert der tatsächlichen Bevölkerung ist. Mit anderen Worten, es gibt im Durchschnitt keine Über- oder Unterschätzung. Eine Schätzung, die dies erfüllt, ist ** unverzerrter Schätzer **.

Die Unparteilichkeit des Stichprobenmittelwerts und der Stichprobenvarianz ist besonders wichtig. Der Stichprobenmittelwert ist immer eine unvoreingenommene Schätzung des Populationsmittelwerts.

#Bereiten Sie die Probendaten gemäß 500 Normalverteilungen vor
data = np.random.normal(loc=100, scale=25, size=500)

#Finden Sie den Durchschnitt
mu = np.mean(data)
#=> 99.416556898424659

#Finden Sie die Varianz
s2 = np.var(data, ddof=1) #Unvoreingenommene Dispersion
#=> 685.08664455245321

# 90%Konfidenzintervall
from scipy.stats import norm
rv = norm()
z = rv.ppf(0.995)

# 100(1-σ)%Konfidenzintervall
r = np.array([-z, z]) * np.sqrt(25/500)
#=> array([-0.36780045,  0.36780045])
mu + r
#=> array([ 99.04875645,  99.78435735]) #Abschnittsschätzung

Im obigen Beispiel ist N = 500, aber wenn dieses N zunimmt, nähert es sich dem Wert der Normalverteilung basierend auf dem Gesetz über große Zahlen. ..

Prüfung

Wenn Sie Annahmen über die Verteilung der Bevölkerung treffen, testen Sie die Eignung der Verteilung. Verwenden Sie Varianzanalysen, um zu testen, ob es einen Unterschied im Populationsmittelwert der einzelnen Ebenen gibt.

In Hypothese der Hypothese der gleichen Varianz [Verwenden Sie den Welch-Test im t-Test, unabhängig davon, ob die Populationsvarianzen gleich sind] (http://qiita.com/ynakayama/items/b9ec31a296de48e62863) Sollte sein.

Tatsächlich führt der T-Test für moderne R standardmäßig zu Welchs Test. Das gleiche sollte für Python (SciPy) gemacht werden (mit der Option gleich_var = False). Es ist jedoch wichtig zu wissen, ob die Populationsvarianz bekannt, unbekannt, aber gleich oder nicht gleich ist.

Das nächste Mal werde ich mit dieser Geschichte fortfahren, um die Beziehung zwischen Variablen zu untersuchen.