Statistik für Programmierer - Inhaltsverzeichnis
Ich habe die folgenden Daten für A und B. In beiden Fällen betragen die Gesamtdaten 15 und der Durchschnitt 3, aber die Variabilität der Daten in A und B ist nicht ähnlich.
A | B |
---|---|
1 | 3 |
2 | 3 |
3 | 3 |
4 | 3 |
5 | 3 |
Um diese Datenvariabilität zu überprüfen, verwenden wir eine sogenannte Verteilung.
Um die Varianz zu verstehen, ist es auch notwendig, die Abweichung und die mittlere Abweichung zu verstehen. Vor der Verteilung werde ich die beiden erklären.
Die Abweichung ist der Durchschnitt des Durchschnittswerts zuzüglich aller Unterschiede zwischen den Daten. Im Fall des obigen Beispiels wäre es:
A | Unterschied zum Durchschnitt | B | Unterschied zum Durchschnitt |
---|---|---|---|
1 | 2 | 3 | 0 |
2 | 1 | 3 | 0 |
3 | 0 | 3 | 0 |
4 | -1 | 3 | 0 |
5 | -2 | 3 | 0 |
gesamt | 0 | - | 0 |
durchschnittlich | 0 | - | 0 |
Die Gesamtabweichung beträgt immer 0. Daher ist der Durchschnitt auch 0, so dass es nicht möglich ist, die Variation der Daten durch die Abweichung zu überprüfen.
Die durchschnittliche Abweichung ist der Durchschnitt aus der Summe des Durchschnittswerts und des Absolutwerts der Differenz zwischen den einzelnen Daten. Im Fall des obigen Beispiels wäre es:
A | Unterschied zum Durchschnitt | B | Unterschied zum Durchschnitt |
---|---|---|---|
1 | 2 | 3 | 0 |
2 | 1 | 3 | 0 |
3 | 0 | 3 | 0 |
4 | 1 | 3 | 0 |
5 | 2 | 3 | 0 |
gesamt | 6 | - | 0 |
durchschnittlich | 1.2 | - | 0 |
Da es sich um den Durchschnitt der gesamten absoluten Werte der Unterschiede zwischen den einzelnen Daten handelt, beträgt der Durchschnittswert 0 oder mehr, und Sie können sehen, wie sich die Daten ändern. Es ist jedoch problematisch, wenn die Anzahl der Daten zunimmt, da alle Werte vor der Berechnung durch absolute Werte ersetzt werden müssen.
Die Varianz ist der Durchschnitt aus der Summe des Mittelwerts und des Quadrats der Differenz zwischen den einzelnen Daten.
V =Verteilt
n =Anzahl der Daten
\bar{x} =Durchschnittswert
Dann gilt Folgendes.
V = \frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2
Ich werde es tatsächlich berechnen.
2 = \frac{1}{5} \{(1-3)^2 + (2-3)^2 + (3-3)^2 + (4-3)^2 + (5-3)^2\}
In einer Tabelle
A | Unterschied zum Durchschnitt | Quadratische Differenz zum Durchschnitt |
---|---|---|
1 | 2 | 4 |
2 | 1 | 1 |
3 | 0 | 0 |
4 | -1 | 1 |
5 | -2 | 4 |
gesamt | 0 | 10 |
durchschnittlich | 0 | Verteilter Wert=2 |
B | Unterschied zum Durchschnitt | Quadratische Differenz zum Durchschnitt |
---|---|---|
1 | 0 | 0 |
2 | 0 | 0 |
3 | 0 | 0 |
4 | 0 | 0 |
5 | 0 | 0 |
gesamt | 0 | 0 |
durchschnittlich | 0 | Verteilter Wert=0 |
In diesem Fall ist die Verteilung von A "2" und B ist "0".
V_A = 2
V_B = 0
Sie können sehen, dass je kleiner der Varianzwert ist, desto näher die Daten am Mittelwert liegen, desto geringer die Variation und je größer der Wert, desto größer die Variation. Die Verteilung in diesem Beispiel ist "2" für A und "0" für B, daher hat A eine größere Variation.
Die Standardabweichung ist ebenso wie die Varianz ein Indikator für die Datenvariation. Dies ist die Varianz, die durch die Quadratwurzel berechnet wird.
Da der Verteilungswert berechnet wird, nachdem alle Daten quadriert wurden, Sie können Abweichungen vergleichen, aber Sie können Abweichungen und Durchschnittswerte nicht vergleichen oder berechnen.
Wenn Sie beispielsweise Daten mit Zählern in Einheiten verteilen möchten, Da die Einheit auch quadratisch ist, ist es möglich, die Varianzen zu vergleichen und zu berechnen, aber nicht die Varianz und den Durchschnitt zu vergleichen und zu berechnen.
Die Einheit der Originaldaten ist Meter,
m
Weil die Dispersion das Quadrat des Meters ist
m^2
Kann nicht mit den Originaldaten oder dem Durchschnitt verglichen werden.
Daher wird durch Verwendung der Quadratwurzel für die Varianz auch die quadratische Einheit wiederhergestellt, und es wird möglich, mit dem Durchschnitt zu vergleichen und zu berechnen. Die Standardabweichung kann nach folgender Formel berechnet werden.
\sigma = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2}
Berechnen wir die Standardabweichung der Daten von A. Da die Daten von A "1, 2, 3, 4, 5" sind und der Durchschnittswert "3" ist, kann die Standardabweichung durch die folgende Formel berechnet werden.
\sqrt{2} = \sqrt{\frac{1}{5} \{(1-3)^2 + (2-3)^2 + (3-3)^2 + (4-3)^2 + (5-3)^2\}}
In einer Tabelle
A | Unterschied zum Durchschnitt | Quadratische Differenz zum Durchschnitt |
---|---|---|
1 | 2 | 4 |
2 | 1 | 1 |
3 | 0 | 0 |
4 | -1 | 1 |
5 | -2 | 4 |
gesamt | 0 | 10 |
durchschnittlich | 0 | Verteilter Wert=2 |
- | - | Standardabweichung=√2 |
Die Lösung ist "√2", daher beträgt die Standardabweichung "ungefähr 1,4". B ist "0", ohne dass eine Berechnung erforderlich ist.
Mit anderen Worten
\sigma_A \simeq 1.4
\sigma_B = 0
Es ist ersichtlich, dass A eine größere Variation in den Daten aufweist.
Dies ist der Wert, der durch Teilen der Standardabweichung durch den Durchschnittswert erhalten wird.
Überprüfen Sie die Preise für 500-ml-PET-Flaschen mit Wasser und Autos (gleiches Modell), indem Sie 10 Geschäfte besuchen. Ich habe versucht herauszufinden, wie stark jeder Preis von Geschäft zu Geschäft variiert. Nachfolgend finden Sie eine Tabelle, in der die Durchschnittswerte und Standardabweichungen zusammengefasst sind.
Produkt | Durchschnittlicher Preis(Kreis) | Standardabweichung(Kreis) |
---|---|---|
Wasser | 89 | 9 |
Wagen | 3,136,500 | 284,869 |
Da der Standardabweichungswert für Autos überwiegend größer ist, bedeutet dies, dass der Preis für Autos variabler ist. Da jedoch der Stückpreis von Wasser und Auto zu unterschiedlich ist, ist es natürlich, dass die Standardabweichung für Autos größer ist und es sich nicht um einen Vergleich der Preisschwankungsrate handelt.
Daher verwenden wir einen Schwankungskoeffizienten.
Mit Fluktuationskoeffizienten können Sie die Variabilität eher nach relativen als nach absoluten Werten vergleichen. Der Schwankungskoeffizient wird berechnet, indem die Standardabweichung durch den Mittelwert dividiert wird.
Die Formel lautet wie folgt.
CV = \frac{\sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2}}{\bar{x}}
Ich werde es tatsächlich berechnen.
Produkt | Durchschnittlicher Preis(Kreis) | Standardabweichung(Kreis) |
---|---|---|
Wasser | 89 | 14 |
Wagen | 3,136,500 | 284,869 |
Teilen Sie für jeden die Standardabweichung durch den Durchschnittspreis. Dann
Schwankungskoeffizient von Wasser
0.15 = 14 \div 89
Fahrzeugvariationskoeffizient
0.09 = 284,869 \div 3,136,500
Der Schwankungskoeffizient von Wasser beträgt "0,15" Der Schwankungskoeffizient des Autos beträgt "0,09"
Sie sehen also, dass der Wasserpreis relativ variabler ist.
das ist alles
Recommended Posts