1. Mit Python 1-1 gelernte Statistiken. Grundlegende Statistiken (Pandas)

In der Statistik werden verschiedene Begriffe verwendet. Es gibt viele Dinge, die sehr vertraut sind, wie Durchschnittswerte und Abweichungen, zu Dingen, mit denen Sie nicht vertraut sind. Zunächst möchte ich die Bedeutung der Grundbegriffe richtig verstehen. (Schreiben Sie in der Regel den Code und überprüfen Sie das Ergebnis in Google Colaboratory.)

** ⑴ Importieren Sie die für die numerische Berechnung verwendete Bibliothek **

import numpy as np
import pandas as pd

** ⑵ Datensatz lesen **

df = pd.read_csv("https://raw.githubusercontent.com/karaage0703/machine-learning-study/master/data/karaage_data.csv")

Die in ("Dateiname") angegebene CSV-Datei wird mit der Funktion "read_csv" von Pandas gelesen und in der Variablen df gespeichert.

** ⑶ Überprüfen Sie den Inhalt der Daten **

df.head()

Es werden nur die ersten 5 Datenzeilen angezeigt, die von der Funktion head in der Variablen df gespeichert wurden. 001_001_001.PNG

Sie können sehen, dass die Daten aus zwei Variablen bestehen, x und y.

** ⑷ Grundstatistik berechnen **

df.describe()

Die Pandas-Funktion "beschreiben" erhält eine Liste der grundlegenden Statistiken. 001_001_002.PNG

Der Begriff ** Statistik ** ist nun der aggregierte Wert der Daten. Anhand der Statistiken können Sie die Merkmale der Stichprobe ermitteln. Lassen Sie uns die Bedeutung jeder der acht Statistiken überprüfen, die als Basisstatistik angezeigt werden.

Statistiken Variante x Variante y Bedeutung der Begriffe
count Anzahl von Beispielen 6 6 n=Enthält insgesamt 6 oder 6 Datenzeilen
mean Durchschnittswert 14.33 3.33 Wird als sogenannter repräsentativer Wert verwendet (Wert, der eine Stichprobe darstellt)
std Standardabweichung 16.01 1.51 Abkürzung für Standardabweichung, eine der Statistiken, die zeigt, wie stark die Daten variieren.
min Mindestwert 1.00 2.00 Der kleinste Wert in der Variablen
25% 1. Quadrant 2.75 2.25 Wenn die Daten in aufsteigender Reihenfolge sortiert werden, wird die Anzahl der Daten vom kleinsten bis zum ersten Quartal gezählt.
50% Zweiter Quadrant 7.50 3.00 Wenn die Daten in aufsteigender Reihenfolge sortiert werden, ist die Anzahl der Daten das zweite Quartal vom kleinsten.
75% Dritter Quadrant 23.50 3.75 Wenn die Daten in aufsteigender Reihenfolge sortiert werden, ist die Anzahl der Daten das dritte Quartal vom kleinsten.
max Maximalwert 40.00 6.00 Größter Wert in der Variante

** ⑸ Grundstatistik individuell berechnen **

Berechnen wir zunächst den Durchschnitt.

df.describe().loc['mean']

001_001_003.PNG

Berechnen Sie als Nächstes die Standardabweichung und den ersten Quadranten, indem Sie die Statistik in "loc ['xxx']" angeben.

df.describe().loc['std']

001_001_004.PNG

df.describe().loc['25%']

001_001_005.PNG


Bisher haben wir uns grundlegende Statistiken mit Pandas angesehen. Als nächstes versuchen wir, verschiedene Statistiken mit Numpy zu berechnen und die grundlegende Berechnungsmethode und die Eigenschaften der Statistiken zu betrachten.

Recommended Posts

1. Mit Python 1-1 gelernte Statistiken. Grundlegende Statistiken (Pandas)
Statistik mit Python
1. Mit Python 1-3 gelernte Statistiken. Berechnung verschiedener Statistiken (Statistiken)
Python Basic - Pandas, Numpy -
1. Mit Python 1-2 gelernte Statistiken. Berechnung verschiedener Statistiken (Numpy)
(Hinweis) Grundlegende Statistiken zu Python und Pandas unter IBM DSX
1. Mit Python 2-1 gelernte Statistiken. Wahrscheinlichkeitsverteilung [diskrete Variable]
Lesen Sie CSV mit Python-Pandas
Python-Anwendung: Pandas Teil 1: Basic
BASIC-Authentifizierung mit Python-Flasche
[Python] Verwenden von OpenCV mit Python (Basic)
[Python] Ändere den Typ mit Pandas
[Python] [SQLite3] Betreiben Sie SQLite mit Python (Basic)
Ich habe die grundlegende Python-Grammatik gelernt
Scraping mit Selen in Python (Basic)
[Python] Mit Pokemon erlernte objektorientierte Programmierung
[Python] Verbinde zwei Tabellen mit Pandas
Perceptron-Lernexperiment mit Python
Python-Datenstruktur mit Chemoinfomatik gelernt
Effiziente Netzaufnahme mit Python
1. Mit Python gelernte Statistiken 2. Wahrscheinlichkeitsverteilung [Gründliches Verständnis von scipy.stats]
[Python] Format, wenn to_csv mit Pandas
Grundlegendes Studium von OpenCV mit Python
[Python] Mit RxPY (3.0.1) gelernte reaktive Erweiterungen [Rx]
Erste Schritte mit Python3 # 1 Grundkenntnisse erlernen
Python lernen! Vergleich mit Java (Grundfunktion)
[Easy Python] Lesen von Excel-Dateien mit Pandas
FizzBuzz in Python3
Scraping mit Python
RF Python Basic_01
Meine Pandas (Python)
Scraping mit Python
Python mit Go
Twilio mit Python
Spielen Sie mit 2016-Python
Getestet mit Python
Python-Grundschrift
mit Syntax (Python)
Grundlegende Grammatik von Python3
Bingo mit Python
Zundokokiyoshi mit Python
RF Python Basic_02
Python Pandas Memo
Excel mit Python
Mikrocomputer mit Python
Mit Python besetzen