[PYTHON] Schauen wir uns das Streudiagramm vor der Datenanalyse an

Wenn Sie mit der Datenanalyse beginnen, werden [zusammenfassende Statistiken] wie Datenmittelwert und Varianz (https://ja.wikipedia.org/wiki/%E8%A6%81%E7%B4%84%E7%B5%B1%) angezeigt Ich denke, Sie sollten E8% A8% 88% E9% 87% 8F) überprüfen. Manchmal reicht es jedoch nicht aus, nur die Zusammenfassungsstatistik zu überprüfen.

Zum Beispiel im Fall von solchen Daten [^ 1]

import pandas as pd
import seaborn as sns

#Daten lesen
df = pd.read_csv('https://git.io/vD7ui')

#Streudiagramm
sns.lmplot(x='x', y='y', col='data', hue='data', col_wrap=2, fit_reg=False, data=df)

散布図

Wenn Sie sich das Streudiagramm ansehen, können Sie sehen, dass die Daten unterschiedlich sind, aber der Mittelwert und die Standardabweichung den gleichen Wert annehmen.

#durchschnittlich
df.groupby('data').mean()
data x y
0 9 7.500909
1 9 7.500909
2 9 7.500000
3 9 7.500909
#Standardabweichung
df.groupby('data').std()
data x y
0 3.316625 2.031568
1 3.316625 2.031657
2 3.316625 2.030424
3 3.316625 2.030579

Sie können sehen, dass die Feinwerte unterschiedlich sind, aber fast gleich.

Auch die Regressionsgerade ist genau gleich.

#Streudiagramm+Gerade zurückgeben
sns.lmplot(x='x', y='y', col='data', hue='data', col_wrap=2, fit_reg=True, data=df)

散布図 + 回帰直線

In Pandas können Sie zusammenfassende Statistiken gemeinsam mit der Methode "beschreiben" anzeigen.

#Zusammengefasste Statistiken
df.groupby('data').describe()
x	y
data			
0	count	11.000000	11.000000
mean	9.000000	7.500909
std	3.316625	2.031568
min	4.000000	4.260000
25%	6.500000	6.315000
50%	9.000000	7.580000
75%	11.500000	8.570000
max	14.000000	10.840000
1	count	11.000000	11.000000
mean	9.000000	7.500909
std	3.316625	2.031657
min	4.000000	3.100000
25%	6.500000	6.695000
50%	9.000000	8.140000
75%	11.500000	8.950000
max	14.000000	9.260000
2	count	11.000000	11.000000
mean	9.000000	7.500000
std	3.316625	2.030424
min	4.000000	5.390000
25%	6.500000	6.250000
50%	9.000000	7.110000
75%	11.500000	7.980000
max	14.000000	12.740000
3	count	11.000000	11.000000
mean	9.000000	7.500909
std	3.316625	2.030579
min	8.000000	5.250000
25%	8.000000	6.170000
50%	8.000000	7.040000
75%	8.000000	8.190000
max	19.000000	12.500000

Der Mittelwert und die Standardabweichung sind wie zuvor gesehen, aber Sie können sehen, dass die Quadranten leicht unterschiedlich sind. Insbesondere data3 ist sehr unterschiedlich.

Auf diese Weise werden Daten mit unterschiedlichen Streudiagrammen, aber derselben Statistik und Regressionslinie Anscom-Beispiel angezeigt Es heißt B3% E3% 82% B9% E3% 82% B3% E3% 83% A0% E3% 81% AE% E4% BE% 8B). Daher ist es wichtig, ein Streudiagramm sowie Statistiken zu zeichnen.

In tatsächlichen Daten denke ich jedoch, dass es selten zweidimensional ist. In diesem Fall [Primäranalyse (PCA)](https://ja.wikipedia.org/wiki/%E4%B8%BB%E6%88%90%E5%88%86%E5%88%86%E6 Es ist erforderlich, beispielsweise% 9E% 90) zu verwenden, um die Dimension auf 2 Dimensionen zu reduzieren und zu visualisieren.

[^ 1]: Zeilen mit demselben Wert in der Datenspalte repräsentieren dieselben Daten

Recommended Posts

Schauen wir uns das Streudiagramm vor der Datenanalyse an
Lassen Sie uns die Daten der Fragebogenumfrage analysieren [4 .: Emotionsanalyse]
Lassen Sie uns die Analyse der sinkenden Daten der Titanic so durchführen
Fordern Sie die Bildklassifizierung mit TensorFlow2 + Keras 2 heraus ~ Schauen wir uns die Eingabedaten genauer an ~
Werfen wir einen Blick auf die Feature-Map von YOLO v3
Spielen wir mit dem von TIS erstellten Unternehmensanalysedatensatz "CoARiJ"
Zeichnen Sie mit Pythons Matplotlib mehrere Karten und Daten gleichzeitig
Datenanalyse vor der Erzeugung der Titanic-Features von Kaggle
[Datenanalyse] Lassen Sie uns die US-Automobilbestände analysieren
Datenanalyse in Python Zusammenfassung der Quellen, die Anfänger zuerst betrachten sollten
Werfen wir einen Blick auf den Scapy-Code. Wie bearbeiten Sie die Struktur?
Beschriften Sie jeden Punkt im Streudiagramm des Meeresgeborenen
[Python] Farbiges Kartenplot auf der Ebene von Stadt / Gemeinde / Stadt / Dorf
Ich habe zuerst die SARS-Analyse vor dem Corona-Virus versucht
[Datenanalyse] Soll ich die Harumi-Flagge kaufen?