In der Statistik werden verschiedene Begriffe verwendet. Es gibt viele Dinge, die sehr vertraut sind, wie Durchschnittswerte und Abweichungen, zu Dingen, mit denen Sie nicht vertraut sind. Zunächst möchte ich die Bedeutung der Grundbegriffe richtig verstehen. (Schreiben Sie in der Regel den Code und überprüfen Sie das Ergebnis in Google Colaboratory.)
import numpy as np
import pandas as pd
df = pd.read_csv("https://raw.githubusercontent.com/karaage0703/machine-learning-study/master/data/karaage_data.csv")
Die in ("Dateiname") angegebene CSV-Datei wird mit der Funktion "read_csv" von Pandas gelesen und in der Variablen df gespeichert.
df.head()
Es werden nur die ersten 5 Datenzeilen angezeigt, die von der Funktion head
in der Variablen df gespeichert wurden.
Sie können sehen, dass die Daten aus zwei Variablen bestehen, x und y.
df.describe()
Die Pandas-Funktion "beschreiben" erhält eine Liste der grundlegenden Statistiken.
Der Begriff ** Statistik ** ist nun der aggregierte Wert der Daten. Anhand der Statistiken können Sie die Merkmale der Stichprobe ermitteln. Lassen Sie uns die Bedeutung jeder der acht Statistiken überprüfen, die als Basisstatistik angezeigt werden.
Statistiken | Variante x | Variante y | Bedeutung der Begriffe | |
---|---|---|---|---|
count | Anzahl von Beispielen | 6 | 6 | n=Enthält insgesamt 6 oder 6 Datenzeilen |
mean | Durchschnittswert | 14.33 | 3.33 | Wird als sogenannter repräsentativer Wert verwendet (Wert, der eine Stichprobe darstellt) |
std | Standardabweichung | 16.01 | 1.51 | Abkürzung für Standardabweichung, eine der Statistiken, die zeigt, wie stark die Daten variieren. |
min | Mindestwert | 1.00 | 2.00 | Der kleinste Wert in der Variablen |
25% | 1. Quadrant | 2.75 | 2.25 | Wenn die Daten in aufsteigender Reihenfolge sortiert werden, wird die Anzahl der Daten vom kleinsten bis zum ersten Quartal gezählt. |
50% | Zweiter Quadrant | 7.50 | 3.00 | Wenn die Daten in aufsteigender Reihenfolge sortiert werden, ist die Anzahl der Daten das zweite Quartal vom kleinsten. |
75% | Dritter Quadrant | 23.50 | 3.75 | Wenn die Daten in aufsteigender Reihenfolge sortiert werden, ist die Anzahl der Daten das dritte Quartal vom kleinsten. |
max | Maximalwert | 40.00 | 6.00 | Größter Wert in der Variante |
Berechnen wir zunächst den Durchschnitt.
df.describe().loc['mean']
Berechnen Sie als Nächstes die Standardabweichung und den ersten Quadranten, indem Sie die Statistik in "loc ['xxx']" angeben.
df.describe().loc['std']
df.describe().loc['25%']
Bisher haben wir uns grundlegende Statistiken mit Pandas angesehen. Als nächstes versuchen wir, verschiedene Statistiken mit Numpy zu berechnen und die grundlegende Berechnungsmethode und die Eigenschaften der Statistiken zu betrachten.
Recommended Posts