Heute, ohne zu schwer zu denken Zur Zeit mit "Titanic-Daten", Wir werden eine statistische Analyse durchführen.
Microsoft Windows Version:10.0 Python Version:3.8.1
↓ (Referenz) Überprüfen Sie die Version von Windows
C:\Users\Nutzername>ver
↓ (Referenz) Python-Versionsprüfung
C:\Users\Nutzername>python
Python scheint praktisch zu sein, um in einer virtuellen Umgebung ausgeführt zu werden Ich benutze auch eine virtuelle Umgebung.
↓ (Referenz) Starten einer virtuellen Umgebung
C:\Users\Nutzername>Name der virtuellen Umgebung\scripts\activate
↓ (Referenz) Wenn die virtuelle Umgebung gestartet wird, wird sie wie folgt angezeigt
(Name der virtuellen Umgebung)C:\Users\Nutzername>
Das diesmal verwendete Paket ist ・ Numpy ・ Pandas ・ Matplotlib ・ Seaborn ist.
↓ Installation
(Name der virtuellen Umgebung)C:\Users\Nutzername>Name des Pip-Installationspakets
↓ Liste der installierten Pakete
(Name der virtuellen Umgebung)C:\Users\Nutzername>pip list
↓ Das Ergebnis sieht so aus.
(Name der virtuellen Umgebung)C:\Users\Nutzername>python
↓ (Referenz) Wenn Python gestartet wird, wird es so angezeigt (Nur >>> wird angezeigt ...)
>>>
Dieses Mal werden wir "Titanic-Daten" verwenden, die vom globalen Datenwettbewerb "Kaggle" erhältlich sind.
Ich selbst bin ein super Anfänger und habe es nicht gut verstanden, also Einmal wurden die Daten direkt im Ordner "C: \ Benutzer \ Benutzername" gespeichert. (Ich habe absolute und relative Pfade ausprobiert, aber aus irgendeinem Grund hat es nicht funktioniert ... (TT))
↓ Paket importieren
import pandas as pd
↓ Verwenden Sie die Klasse "read_csv" von "pandas (pd)" für "train.csv". In "df" speichern.
df = pd.read_csv("train.csv")
Sobald Sie so weit gekommen sind, können Sie die Daten nach Belieben anzeigen.
Nach dem Import der erforderlichen Pakete Lassen Sie uns das in "df" gespeicherte Datenelement "Überlebt (Überlebender = 1, tot = 0)" in einem Balkendiagramm anzeigen.
import seaborn as sns
import matplotlib.pyplot as plt
sns.countplot("Survived",data=df,palette='rainbow')
plt.show()
↓ Ausführungsergebnis "plt.show ()" Es war praktisch, die vertikalen und horizontalen Abweichungen anpassen und Bilder von hier aus speichern zu können!
sns.heatmap(df.corr(),annot=True,cmap='RdYlGn',vmin=-1,vmax=1,fmt=".2f",square=True)
plt.show()
sns.pairplot(df)
plt.show()
Vielen Dank für das Lesen heute. Dieser Beitrag war der erste Beitrag, und ich denke, es gab einige Dinge, die schwer zu verstehen waren. Bitte entschuldigen Sie. Wenn Sie Vorschläge haben, werden wir diese akzeptieren (ich weiß nicht, wie ich sie annehmen soll ...) Vielen Dank. Wenn ich selbst einen Fehler finde, werde ich ihn jedes Mal korrigieren. Ich werde so viele Fragen wie möglich beantworten (ich weiß auch nicht, wie ich das akzeptieren soll ...) Bitte zögern Sie nicht, Fragen zu stellen. Wir sehen uns wieder irgendwo ~ (^^) ♪
Recommended Posts