[PYTHON] [Statistiken für Programmierer] Durchschnitt, Median und am häufigsten

Inhaltsverzeichnis

Statistik für Programmierer - Inhaltsverzeichnis

Überblick

Wenn numerische Daten vorhanden sind, wird der Wert, der diese Daten darstellt, als repräsentativer Wert bezeichnet. Es gibt die folgenden drei typischen Werte. Welcher der repräsentative Wert ist, hängt von der Form der Datenverteilung ab.

Durchschnittswert

Der Durchschnittswert ist der Gesamtwert aller Daten geteilt durch die Anzahl der Daten.

\bar{x} = \frac{(x_1+x_2+x_3+・ ・ ・+x_n)}{n}

Bei einer Häufigkeitsverteilungstabelle können Sie den Durchschnittswert mit "Klassenwert" und "Häufigkeit" berechnen. Wenn Sie n Klassen haben, der Klassenwert "v" und die Häufigkeit "f" ist, können Sie mit der folgenden Formel berechnen.

\bar{X} = \frac{(f_1v_1 + f_2v_2+・ ・ ・+ f_3v_3)}{(f_1 + f_2 +・ ・ ・+ f_n)}

Berechnen wir als Beispiel den Durchschnittswert basierend auf der Häufigkeitsverteilungstabelle der Testergebnisse von 10 Schülern.

Klasse Klassenwert Frequenz
0 Punkte oder mehr und weniger als 25 Punkte 12.5 1
25 Punkte oder mehr und weniger als 50 Punkte 37.5 3
50 Punkte oder mehr und weniger als 75 Punkte 62.5 4
75 Punkte oder mehr 87.5 2

Die durchschnittliche Punktzahl für diesen Test wird unten berechnet.

\bar{X}=\frac{({1\times12.5}) + ({3\times37.5}) + ({4\times62.5}) + ({2\times87.5})}{(1+3+4+2)}

Übrigens, obwohl es ein wenig vom Thema abweicht, gibt es mehrere Methoden zur Berechnung des Durchschnittswerts je nach Anwendung. Bitte beachten Sie auch dies. ** In Verbindung stehender Artikel: Es gibt mehr als eine Möglichkeit, den Durchschnittswert zu berechnen **

Median

Der Medianwert ist der Wert, der in der Mitte liegt, wenn die Daten in aufsteigender oder absteigender Reihenfolge angeordnet sind. Wenn die Anzahl der Daten gerade ist, beträgt der Medianwert zwei, und die Summe von ihnen und geteilt durch zwei ist der Medianwert.

Wenn die Anzahl der Daten ungerade ist

1, 3, 4, 5, 7

In diesem Fall ist der Medianwert "4".

Wenn die Anzahl der Daten gerade ist

1, 3, 4, 5, 7, 10

In diesem Fall ist der Medianwert "4" und "5", sodass er nach der folgenden Formel berechnet werden kann, und der Medianwert ist "4,5".

4.5 = \frac{4+5}{2}

Häufigster Wert (Modus)

Der häufigste Wert ist der Wert mit der größten Anzahl von Daten.

1, 3, 4, 5, 7, 7, 10

Zum Beispiel wäre der häufigste Wert im obigen Fall "7".

Bei der Häufigkeitsverteilungstabelle ist der Klassenwert mit der höchsten Häufigkeit der häufigste Wert. Im Fall der Häufigkeitsverteilungstabelle der Ergebnisse des vorherigen Tests ist die mit der höchsten Häufigkeit "4" von "50 Punkten oder mehr und weniger als 75 Punkten", so dass der häufigste Wert der Klassenwert "62,5" ist. ..

Klasse Klassenwert Frequenz
0 Punkte oder mehr und weniger als 25 Punkte 12.5 1
25 Punkte oder mehr und weniger als 50 Punkte 37.5 3
50 Punkte oder mehr und weniger als 75 Punkte 62.5 4
75 Punkte oder mehr 87.5 2

Wenn es die gleiche Anzahl von "5" und "7" gibt, sind die häufigsten Werte "5" und "7", wie unten gezeigt.

1, 3, 4, 5, 5, 7, 7, 10

In den folgenden Fällen bedeutet dies auch, dass der häufigste Wert nicht vorhanden ist.

1, 3, 4, 5, 7, 10

Beziehung zwischen der Verteilung des Histogramms und dem Mittelwert, dem Median und den häufigsten Werten

Wenn bei der Verteilung des Histogramms ein Peak im Peak vorhanden ist, trifft dies häufig zu. Dies nennt man Pearsons empirische Regel.

Von den folgenden drei gilt es immer, wenn es symmetrisch ist, aber die anderen beiden sind empirische Regeln und gelten nicht immer.

Wenn die Verteilung symmetrisch ist

Wenn die Verteilung des Histogramms wie unten gezeigt symmetrisch ist, sind der Durchschnittswert, der Medianwert und der häufigste Wert an der Position der roten Linie alle gleich.

graph_1.png

Wenn die Verteilung nach links vorgespannt ist

Wenn die Verteilung nicht symmetrisch ist, sondern nach links vorgespannt ist (nach rechts gerichtet) Wie unten gezeigt, sind der häufigste Wert, der Medianwert und der Durchschnittswert häufig in dieser Reihenfolge angeordnet. (Die Linie wird an der ungefähren Position gezeichnet.)

graph_2.png

Wenn die Verteilung nach rechts voreingenommen ist

Wenn die Verteilung nicht symmetrisch, sondern nach rechts vorgespannt ist (nach links gerichtet) Wie unten gezeigt, sind der Durchschnittswert, der Medianwert und der häufigste Wert häufig in dieser Reihenfolge angeordnet. (Die Linie wird an der ungefähren Position gezeichnet.)

graph_3.png

Welches sollte der repräsentative Wert sein

Welcher der Durchschnitts-, Median- und häufigsten Werte der repräsentative Wert sein sollte, hängt von der Verteilung der Daten ab. Die Vor- und Nachteile der einzelnen sind zusammengefasst.

Repräsentativer Wert verdienen Fehler
Durchschnittswert Kann alle Daten widerspiegeln Wird gezogen, wenn ein Extremwert vorliegt
Median Weniger anfällig für Extremwerte Andere als der Mittelwert sind kaum zu bemerken
Häufigster Wert Weniger anfällig für Extremwerte Es ist schwierig, sich darauf zu beziehen, wenn die Anzahl der Daten gering ist

Welcher als repräsentativer Wert verwendet werden soll, hängt davon ab, wie die Daten verteilt werden. Wenn die Differenz zwischen dem Durchschnittswert und dem Medianwert gering ist, ist es meiner Meinung nach besser, den Durchschnittswert als repräsentativen Wert zu verwenden. Wenn der Unterschied zwischen den beiden groß ist, ist es meiner Meinung nach sicher, auch den Median und die häufigsten Werte zu betrachten.

Im Histogramm im obigen Beispiel hatten alle einen Berg, aber es können mehrere Berge vorhanden sein. In einem solchen Fall ist es schwierig, den repräsentativen Wert zu bestimmen, es kann jedoch erforderlich sein, zunächst die Methode zur Datenerfassung zu entwickeln.

das ist alles

In Verbindung stehender Artikel

Referenz

Recommended Posts

[Statistiken für Programmierer] Durchschnitt, Median und am häufigsten
[Statistik für Programmierer] Bayes-Theorem
[Statistik für Programmierer] Box Whisker
[Algorithmus x Python] Berechnung der Basisstatistik Teil2 (Mittelwert, Median, am häufigsten)
[Statistik für Programmierer] Was ist ein Ereignis?
[Statistik für Programmierer] Inhaltsverzeichnis-Data Science
[Statistik für Programmierer] Bedingter Wahrscheinlichkeits- und Multiplikatorsatz
[Statistik für Programmierer] Lorenzkurve und Gini-Koeffizient
Programm zum Studium der Statistik
Berechnen Sie den Mittelwert, den Median, die häufigste Varianz und die Standardabweichung in Python
[Statistik für Programmierer] Dispersion, Standardabweichung und Fluktuationskoeffizient
[Statistik für Programmierer] Wahrscheinlichkeitsvariablen, Wahrscheinlichkeitsverteilungen und Wahrscheinlichkeitsdichtefunktionen