Wenn Sie mit der Datenanalyse beginnen, werden [zusammenfassende Statistiken] wie Datenmittelwert und Varianz (https://ja.wikipedia.org/wiki/%E8%A6%81%E7%B4%84%E7%B5%B1%) angezeigt Ich denke, Sie sollten E8% A8% 88% E9% 87% 8F) überprüfen. Manchmal reicht es jedoch nicht aus, nur die Zusammenfassungsstatistik zu überprüfen.
Zum Beispiel im Fall von solchen Daten [^ 1]
import pandas as pd
import seaborn as sns
#Daten lesen
df = pd.read_csv('https://git.io/vD7ui')
#Streudiagramm
sns.lmplot(x='x', y='y', col='data', hue='data', col_wrap=2, fit_reg=False, data=df)
Wenn Sie sich das Streudiagramm ansehen, können Sie sehen, dass die Daten unterschiedlich sind, aber der Mittelwert und die Standardabweichung den gleichen Wert annehmen.
#durchschnittlich
df.groupby('data').mean()
data | x | y |
---|---|---|
0 | 9 | 7.500909 |
1 | 9 | 7.500909 |
2 | 9 | 7.500000 |
3 | 9 | 7.500909 |
#Standardabweichung
df.groupby('data').std()
data | x | y |
---|---|---|
0 | 3.316625 | 2.031568 |
1 | 3.316625 | 2.031657 |
2 | 3.316625 | 2.030424 |
3 | 3.316625 | 2.030579 |
Sie können sehen, dass die Feinwerte unterschiedlich sind, aber fast gleich.
Auch die Regressionsgerade ist genau gleich.
#Streudiagramm+Gerade zurückgeben
sns.lmplot(x='x', y='y', col='data', hue='data', col_wrap=2, fit_reg=True, data=df)
In Pandas können Sie zusammenfassende Statistiken gemeinsam mit der Methode "beschreiben" anzeigen.
#Zusammengefasste Statistiken
df.groupby('data').describe()
x y
data
0 count 11.000000 11.000000
mean 9.000000 7.500909
std 3.316625 2.031568
min 4.000000 4.260000
25% 6.500000 6.315000
50% 9.000000 7.580000
75% 11.500000 8.570000
max 14.000000 10.840000
1 count 11.000000 11.000000
mean 9.000000 7.500909
std 3.316625 2.031657
min 4.000000 3.100000
25% 6.500000 6.695000
50% 9.000000 8.140000
75% 11.500000 8.950000
max 14.000000 9.260000
2 count 11.000000 11.000000
mean 9.000000 7.500000
std 3.316625 2.030424
min 4.000000 5.390000
25% 6.500000 6.250000
50% 9.000000 7.110000
75% 11.500000 7.980000
max 14.000000 12.740000
3 count 11.000000 11.000000
mean 9.000000 7.500909
std 3.316625 2.030579
min 8.000000 5.250000
25% 8.000000 6.170000
50% 8.000000 7.040000
75% 8.000000 8.190000
max 19.000000 12.500000
Der Mittelwert und die Standardabweichung sind wie zuvor gesehen, aber Sie können sehen, dass die Quadranten leicht unterschiedlich sind. Insbesondere data3 ist sehr unterschiedlich.
Auf diese Weise werden Daten mit unterschiedlichen Streudiagrammen, aber derselben Statistik und Regressionslinie Anscom-Beispiel angezeigt Es heißt B3% E3% 82% B9% E3% 82% B3% E3% 83% A0% E3% 81% AE% E4% BE% 8B). Daher ist es wichtig, ein Streudiagramm sowie Statistiken zu zeichnen.
In tatsächlichen Daten denke ich jedoch, dass es selten zweidimensional ist. In diesem Fall [Primäranalyse (PCA)](https://ja.wikipedia.org/wiki/%E4%B8%BB%E6%88%90%E5%88%86%E5%88%86%E6 Es ist erforderlich, beispielsweise% 9E% 90) zu verwenden, um die Dimension auf 2 Dimensionen zu reduzieren und zu visualisieren.
[^ 1]: Zeilen mit demselben Wert in der Datenspalte repräsentieren dieselben Daten
Recommended Posts