[PYTHON] Organisation grundlegender Verfahren zur Datenanalyse und statistischen Verarbeitung (4)

Der zweite von Drei Punkte der Sozialstatistik nach Letztes Mal Es ist eine Geschichte, in der die Population anhand des Exemplars erraten wird. Dies ist der Teil, den ich schon oft geschrieben habe.

Probenahme

Die gesamte Population, die Sie analysieren und herausfinden möchten, wird als ** Population ** bezeichnet.

Ich habe bereits über Stichproben aus der Bevölkerung und Stichprobenmethode geschrieben. ..

In der Statistik sind der Mittelwert und die Varianz der Bevölkerung selten im Voraus bekannt, und Tests werden verwendet, um sie abzuschätzen. Die Art der Bevölkerung kann mit einem gewissen Maß an Sicherheit untersucht werden, indem die aus der Bevölkerung entnommenen Proben entnommen werden.

Es gibt mehrere Gründe, warum es schwierig ist, die Bevölkerung vollständig zu kennen.

Schätzen

Um die Daten numerisch für reale Wirtschaftsanalysen, Richtlinienbewertungen, Kundenumfragen usw. zu verwenden, müssen Sie den Durchschnitt und die Diversifikation kennen. Die Bevölkerung ist in realen Problemen unbekannt und wird anhand der vorliegenden Stichprobe ** geschätzt **.

** Intervallschätzung ** schätzt den Wertebereich, der die Grundgesamtheit enthält. Die zu diesem Zeitpunkt erforderlichen Hauptinformationen lauten wie folgt.

In der Statistik ist der Freiheitsgrad die Anzahl der Werte, die frei eingestellt werden können. Freiheit und Test erläuterte die Definition von Freiheit und ihre Anwendung auf den Test.

Unvoreingenommen bedeutet, dass wenn Sie den erwarteten Wert der geschätzten Menge nehmen, dies der Wert der tatsächlichen Bevölkerung ist. Mit anderen Worten, es gibt im Durchschnitt keine Über- oder Unterschätzung. Eine Schätzung, die dies erfüllt, ist ** unverzerrter Schätzer **.

Die Unparteilichkeit des Stichprobenmittelwerts und der Stichprobenvarianz ist besonders wichtig. Der Stichprobenmittelwert ist immer eine unvoreingenommene Schätzung des Populationsmittelwerts.

#Bereiten Sie die Probendaten gemäß 500 Normalverteilungen vor
data = np.random.normal(loc=100, scale=25, size=500)

#Finden Sie den Durchschnitt
mu = np.mean(data)
#=> 99.416556898424659

#Finden Sie die Varianz
s2 = np.var(data, ddof=1) #Unvoreingenommene Dispersion
#=> 685.08664455245321

# 90%Konfidenzintervall
from scipy.stats import norm
rv = norm()
z = rv.ppf(0.995)

# 100(1-σ)%Konfidenzintervall
r = np.array([-z, z]) * np.sqrt(25/500)
#=> array([-0.36780045,  0.36780045])
mu + r
#=> array([ 99.04875645,  99.78435735]) #Abschnittsschätzung

Im obigen Beispiel ist N = 500, aber wenn dieses N zunimmt, nähert es sich dem Wert der Normalverteilung basierend auf dem Gesetz über große Zahlen. ..

Prüfung

Wenn Sie Annahmen über die Verteilung der Bevölkerung treffen, testen Sie die Eignung der Verteilung. Verwenden Sie Varianzanalysen, um zu testen, ob es einen Unterschied im Populationsmittelwert der einzelnen Ebenen gibt.

In Hypothese der Hypothese der gleichen Varianz [Verwenden Sie den Welch-Test im t-Test, unabhängig davon, ob die Populationsvarianzen gleich sind] (http://qiita.com/ynakayama/items/b9ec31a296de48e62863) Sollte sein.

Tatsächlich führt der T-Test für moderne R standardmäßig zu Welchs Test. Das gleiche sollte für Python (SciPy) gemacht werden (mit der Option gleich_var = False). Es ist jedoch wichtig zu wissen, ob die Populationsvarianz bekannt, unbekannt, aber gleich oder nicht gleich ist.

Das nächste Mal werde ich mit dieser Geschichte fortfahren, um die Beziehung zwischen Variablen zu untersuchen.

Recommended Posts

Organisation grundlegender Verfahren zur Datenanalyse und statistischen Verarbeitung (4)
Organisation grundlegender Verfahren zur Datenanalyse und statistischen Verarbeitung (2)
JupyterLab Grundeinstellung 2 für die Datenanalyse (pip)
JupyterLab Basic Setup für die Datenanalyse (pip)
Einführung in die statistische Modellierung für die Datenanalyse GLM-Ähnlichkeitsverhältnis-Test und Testasymmetrie
Eine Einführung in die statistische Modellierung für die Datenanalyse
Verarbeitung und Beurteilung des Datenanalyseplans (Teil 1)
Verarbeitung und Beurteilung des Datenanalyseplans (Teil 2)
Datenverarbeitungsmethoden für Maschinenbauingenieure und Nicht-Computeringenieure (Einführung 2)
Datenverarbeitungsmethoden für Maschinenbauingenieure und Nicht-Computeringenieure (Einführung 1)
[Übersetzung] scikit-learn 0.18 Tutorial Statistisches Lernen Tutorial für die wissenschaftliche Datenverarbeitung Statistisches Lernen: Einstellungen und Schätzobjekte in scikit-learn
Python für die Datenanalyse Kapitel 4
Python für die Datenanalyse Kapitel 2
Tipps und Vorsichtsmaßnahmen bei der Datenanalyse
Python für die Datenanalyse Kapitel 3
Einführung in die statistische Modellierung für die Datenanalyse GLM-Modellauswahl
[Übersetzung] scikit-learn 0.18 Tutorial Statistisches Lernen Tutorial für die wissenschaftliche Datenverarbeitung Modellauswahl: Auswahl des Schätzers und seiner Parameter
Lesen von Notizen (in Python und Stan) zur Einführung in die statistische Modellierung für die Datenanalyse (Midorimoto)
Einführung in die statistische Modellierung für die Datenanalyse Generalized Linear Model (GLM)
Vorverarbeitungsvorlage für die Datenanalyse (Python)
Datenanalyse zur Verbesserung von POG 3 ~ Regressionsanalyse ~
[Übersetzung] scikit-learn 0.18 Tutorial Statistisches Lern-Tutorial für die wissenschaftliche Datenverarbeitung Alles zusammen
Visualisierung und Analyse von Stava Twitter-Datenstandortinformationen
Python-Visualisierungstool für die Datenanalyse
Elasticsearch-Installation und Grundbedienung für Ubuntu
Informationen zur Datenerweiterungsverarbeitung für tiefes Lernen
[Übersetzung] scikit-learn 0.18 Tutorial Suchen Sie nach Hilfe zum statistischen Lernen für die wissenschaftliche Datenverarbeitung
Einführung in die statistische Modellierung für die Datenanalyse Erweiterung des Anwendungsbereichs von GLM
Praxis der Erstellung einer Datenanalyseplattform mit BigQuery und Cloud DataFlow (Datenverarbeitung)
[Erklärung für Anfänger] Grundlegende Syntax und Konzept von TensorFlow
Datenanalyse zur Verbesserung von POG 2 ~ Analyse mit Jupiter-Notebook ~
Bereiten Sie eine Programmiersprachenumgebung für die Datenanalyse vor
[CovsirPhy] COVID-19 Python-Paket für die Datenanalyse: Laden von Daten
Verwendung von Datenanalysetools für Anfänger
[Python / Chrome] Grundeinstellungen und Operationen zum Scraping
[Übersetzung] scikit-learn 0.18 Tutorial Statistisches Lernen Tutorial für die wissenschaftliche Datenverarbeitung Unbeaufsichtigtes Lernen: Suche nach Datendarstellung
Bis Sie Anaconda für die Datenanalyse auf Ihrem Mac installieren und die IDE starten