[PYTHON] [Statistik für Programmierer] Dispersion, Standardabweichung und Fluktuationskoeffizient

Inhaltsverzeichnis

Statistik für Programmierer - Inhaltsverzeichnis

Was ist Verteilung?

Ich habe die folgenden Daten für A und B. In beiden Fällen betragen die Gesamtdaten 15 und der Durchschnitt 3, aber die Variabilität der Daten in A und B ist nicht ähnlich.

A B
1 3
2 3
3 3
4 3
5 3

Um diese Datenvariabilität zu überprüfen, verwenden wir eine sogenannte Verteilung.

Um die Varianz zu verstehen, ist es auch notwendig, die Abweichung und die mittlere Abweichung zu verstehen. Vor der Verteilung werde ich die beiden erklären.

Abweichung

Die Abweichung ist der Durchschnitt des Durchschnittswerts zuzüglich aller Unterschiede zwischen den Daten. Im Fall des obigen Beispiels wäre es:

A Unterschied zum Durchschnitt B Unterschied zum Durchschnitt
1 2 3 0
2 1 3 0
3 0 3 0
4 -1 3 0
5 -2 3 0
gesamt 0 - 0
durchschnittlich 0 - 0

Die Gesamtabweichung beträgt immer 0. Daher ist der Durchschnitt auch 0, so dass es nicht möglich ist, die Variation der Daten durch die Abweichung zu überprüfen.

Durchschnittliche Abweichung

Die durchschnittliche Abweichung ist der Durchschnitt aus der Summe des Durchschnittswerts und des Absolutwerts der Differenz zwischen den einzelnen Daten. Im Fall des obigen Beispiels wäre es:

A Unterschied zum Durchschnitt B Unterschied zum Durchschnitt
1 2 3 0
2 1 3 0
3 0 3 0
4 1 3 0
5 2 3 0
gesamt 6 - 0
durchschnittlich 1.2 - 0

Da es sich um den Durchschnitt der gesamten absoluten Werte der Unterschiede zwischen den einzelnen Daten handelt, beträgt der Durchschnittswert 0 oder mehr, und Sie können sehen, wie sich die Daten ändern. Es ist jedoch problematisch, wenn die Anzahl der Daten zunimmt, da alle Werte vor der Berechnung durch absolute Werte ersetzt werden müssen.

Verteilt

Die Varianz ist der Durchschnitt aus der Summe des Mittelwerts und des Quadrats der Differenz zwischen den einzelnen Daten.

V =Verteilt
n =Anzahl der Daten
\bar{x} =Durchschnittswert

Dann gilt Folgendes.

V = \frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2

Ich werde es tatsächlich berechnen.

2 = \frac{1}{5} \{(1-3)^2 + (2-3)^2 + (3-3)^2 + (4-3)^2 + (5-3)^2\}

In einer Tabelle

A Unterschied zum Durchschnitt Quadratische Differenz zum Durchschnitt
1 2 4
2 1 1
3 0 0
4 -1 1
5 -2 4
gesamt 0 10
durchschnittlich 0 Verteilter Wert=2
B Unterschied zum Durchschnitt Quadratische Differenz zum Durchschnitt
1 0 0
2 0 0
3 0 0
4 0 0
5 0 0
gesamt 0 0
durchschnittlich 0 Verteilter Wert=0

In diesem Fall ist die Verteilung von A "2" und B ist "0".

V_A = 2
V_B = 0

Was Sie am Verteilungswert sehen können

Sie können sehen, dass je kleiner der Varianzwert ist, desto näher die Daten am Mittelwert liegen, desto geringer die Variation und je größer der Wert, desto größer die Variation. Die Verteilung in diesem Beispiel ist "2" für A und "0" für B, daher hat A eine größere Variation.

Standardabweichung

Die Standardabweichung ist ebenso wie die Varianz ein Indikator für die Datenvariation. Dies ist die Varianz, die durch die Quadratwurzel berechnet wird.

Warum Standardabweichung benötigt wird

Da der Verteilungswert berechnet wird, nachdem alle Daten quadriert wurden, Sie können Abweichungen vergleichen, aber Sie können Abweichungen und Durchschnittswerte nicht vergleichen oder berechnen.

Wenn Sie beispielsweise Daten mit Zählern in Einheiten verteilen möchten, Da die Einheit auch quadratisch ist, ist es möglich, die Varianzen zu vergleichen und zu berechnen, aber nicht die Varianz und den Durchschnitt zu vergleichen und zu berechnen.

Die Einheit der Originaldaten ist Meter,

m

Weil die Dispersion das Quadrat des Meters ist

m^2

Kann nicht mit den Originaldaten oder dem Durchschnitt verglichen werden.

So berechnen Sie die Standardabweichung

Daher wird durch Verwendung der Quadratwurzel für die Varianz auch die quadratische Einheit wiederhergestellt, und es wird möglich, mit dem Durchschnitt zu vergleichen und zu berechnen. Die Standardabweichung kann nach folgender Formel berechnet werden.

\sigma = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2}

Berechnen wir die Standardabweichung der Daten von A. Da die Daten von A "1, 2, 3, 4, 5" sind und der Durchschnittswert "3" ist, kann die Standardabweichung durch die folgende Formel berechnet werden.

\sqrt{2} = \sqrt{\frac{1}{5} \{(1-3)^2 + (2-3)^2 + (3-3)^2 + (4-3)^2 + (5-3)^2\}} 

In einer Tabelle

A Unterschied zum Durchschnitt Quadratische Differenz zum Durchschnitt
1 2 4
2 1 1
3 0 0
4 -1 1
5 -2 4
gesamt 0 10
durchschnittlich 0 Verteilter Wert=2
- - Standardabweichung=√2

Die Lösung ist "√2", daher beträgt die Standardabweichung "ungefähr 1,4". B ist "0", ohne dass eine Berechnung erforderlich ist.

Mit anderen Worten

\sigma_A \simeq 1.4
\sigma_B = 0

Es ist ersichtlich, dass A eine größere Variation in den Daten aufweist.

Schwankungskoeffizient

Dies ist der Wert, der durch Teilen der Standardabweichung durch den Durchschnittswert erhalten wird.

Beispiel

Überprüfen Sie die Preise für 500-ml-PET-Flaschen mit Wasser und Autos (gleiches Modell), indem Sie 10 Geschäfte besuchen. Ich habe versucht herauszufinden, wie stark jeder Preis von Geschäft zu Geschäft variiert. Nachfolgend finden Sie eine Tabelle, in der die Durchschnittswerte und Standardabweichungen zusammengefasst sind.

Produkt Durchschnittlicher Preis(Kreis) Standardabweichung(Kreis)
Wasser 89 9
Wagen 3,136,500 284,869

Da der Standardabweichungswert für Autos überwiegend größer ist, bedeutet dies, dass der Preis für Autos variabler ist. Da jedoch der Stückpreis von Wasser und Auto zu unterschiedlich ist, ist es natürlich, dass die Standardabweichung für Autos größer ist und es sich nicht um einen Vergleich der Preisschwankungsrate handelt.

Daher verwenden wir einen Schwankungskoeffizienten.

Fluktuationskoeffizientenformel

Mit Fluktuationskoeffizienten können Sie die Variabilität eher nach relativen als nach absoluten Werten vergleichen. Der Schwankungskoeffizient wird berechnet, indem die Standardabweichung durch den Mittelwert dividiert wird.

Die Formel lautet wie folgt.

CV = \frac{\sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2}}{\bar{x}}

Ich werde es tatsächlich berechnen.

Produkt Durchschnittlicher Preis(Kreis) Standardabweichung(Kreis)
Wasser 89 14
Wagen 3,136,500 284,869

Teilen Sie für jeden die Standardabweichung durch den Durchschnittspreis. Dann

Schwankungskoeffizient von Wasser

0.15 = 14 \div 89

Fahrzeugvariationskoeffizient

0.09 = 284,869 \div 3,136,500

Der Schwankungskoeffizient von Wasser beträgt "0,15" Der Schwankungskoeffizient des Autos beträgt "0,09"

Sie sehen also, dass der Wasserpreis relativ variabler ist.

das ist alles

Referenz

Recommended Posts

[Statistik für Programmierer] Dispersion, Standardabweichung und Fluktuationskoeffizient
[Algorithmus x Python] Berechnung der Basisstatistik Teil 3 (Bereich, Varianz, Standardabweichung, Fluktuationskoeffizient)
[Statistik für Programmierer] Lorenzkurve und Gini-Koeffizient
Berechnung der Standardabweichung und des Korrelationskoeffizienten in Python
Statistiken bis zur Streuung und Standardabweichung
[Statistik für Programmierer] Inhaltsverzeichnis-Data Science
Aktienkurs und Statistik (Mittelwert, Standardabweichung)
[Statistik für Programmierer] Bedingter Wahrscheinlichkeits- und Multiplikatorsatz
[Statistik für Programmierer] Bayes-Theorem
[Statistik für Programmierer] Wahrscheinlichkeitsvariablen, Wahrscheinlichkeitsverteilungen und Wahrscheinlichkeitsdichtefunktionen
[Statistiken für Programmierer] Durchschnitt, Median und am häufigsten
[Statistik für Programmierer] Was ist ein Ereignis?
2. Mittelwert und Standardabweichung beim neuronalen Netz!