Ich habe Python ausprobiert! ] Titanic data edition_vol.1 (Balkendiagramm, Streudiagramm, Korrelationskoeffizient)

Heute, ohne zu schwer zu denken Zur Zeit mit "Titanic-Daten", Wir werden eine statistische Analyse durchführen.

■ Einführung


Meine Ausführungsumgebung

Microsoft Windows Version:10.0 Python Version:3.8.1

↓ (Referenz) Überprüfen Sie die Version von Windows

C:\Users\Nutzername>ver

↓ (Referenz) Python-Versionsprüfung

C:\Users\Nutzername>python


Über die virtuelle Umgebung

Python scheint praktisch zu sein, um in einer virtuellen Umgebung ausgeführt zu werden Ich benutze auch eine virtuelle Umgebung.

↓ (Referenz) Starten einer virtuellen Umgebung

C:\Users\Nutzername>Name der virtuellen Umgebung\scripts\activate

↓ (Referenz) Wenn die virtuelle Umgebung gestartet wird, wird sie wie folgt angezeigt

(Name der virtuellen Umgebung)C:\Users\Nutzername>

■ Installation der erforderlichen Pakete

Das diesmal verwendete Paket ist ・ Numpy ・ Pandas ・ Matplotlib ・ Seaborn ist.

↓ Installation

(Name der virtuellen Umgebung)C:\Users\Nutzername>Name des Pip-Installationspakets

↓ Liste der installierten Pakete

(Name der virtuellen Umgebung)C:\Users\Nutzername>pip list

↓ Das Ergebnis sieht so aus. インストール済ライブラリ.PNG

■ Starten Sie Python

(Name der virtuellen Umgebung)C:\Users\Nutzername>python

↓ (Referenz) Wenn Python gestartet wird, wird es so angezeigt (Nur >>> wird angezeigt ...)

>>>

■ Daten lesen

Dieses Mal werden wir "Titanic-Daten" verwenden, die vom globalen Datenwettbewerb "Kaggle" erhältlich sind.


Datenspeicherordner

Ich selbst bin ein super Anfänger und habe es nicht gut verstanden, also Einmal wurden die Daten direkt im Ordner "C: \ Benutzer \ Benutzername" gespeichert. (Ich habe absolute und relative Pfade ausprobiert, aber aus irgendeinem Grund hat es nicht funktioniert ... (TT))


Lesen von Daten

↓ Paket importieren

import pandas as pd

↓ Verwenden Sie die Klasse "read_csv" von "pandas (pd)" für "train.csv". In "df" speichern.

df = pd.read_csv("train.csv")

■ Versuchen Sie es endlich mit der Datenanalyse!

Sobald Sie so weit gekommen sind, können Sie die Daten nach Belieben anzeigen.


Anzahl der Überlebenden und Todesfälle

Nach dem Import der erforderlichen Pakete Lassen Sie uns das in "df" gespeicherte Datenelement "Überlebt (Überlebender = 1, tot = 0)" in einem Balkendiagramm anzeigen.

import seaborn as sns
import matplotlib.pyplot as plt
sns.countplot("Survived",data=df,palette='rainbow')
plt.show()

↓ Ausführungsergebnis "plt.show ()" Es war praktisch, die vertikalen und horizontalen Abweichungen anpassen und Bilder von hier aus speichern zu können! Figure1イメージ.PNG


Korrelationskoeffizientenmatrix (Wärmekarte)

sns.heatmap(df.corr(),annot=True,cmap='RdYlGn',vmin=-1,vmax=1,fmt=".2f",square=True)
plt.show()

ヒートマップイメージ.png


Paarplotdiagramm

sns.pairplot(df)
plt.show()

ペアプロットイメージ.png

■ Endlich

Vielen Dank für das Lesen heute. Dieser Beitrag war der erste Beitrag, und ich denke, es gab einige Dinge, die schwer zu verstehen waren. Bitte entschuldigen Sie. Wenn Sie Vorschläge haben, werden wir diese akzeptieren (ich weiß nicht, wie ich sie annehmen soll ...) Vielen Dank. Wenn ich selbst einen Fehler finde, werde ich ihn jedes Mal korrigieren. Ich werde so viele Fragen wie möglich beantworten (ich weiß auch nicht, wie ich das akzeptieren soll ...) Bitte zögern Sie nicht, Fragen zu stellen. Wir sehen uns wieder irgendwo ~ (^^) ♪

Recommended Posts

Ich habe Python ausprobiert! ] Titanic data edition_vol.1 (Balkendiagramm, Streudiagramm, Korrelationskoeffizient)
Ich habe versucht, Faktoren mit Titanic-Daten zu analysieren!
Ich habe versucht, die Hauptkomponenten mit Titanic-Daten zu analysieren!
Ich habe versucht, CloudWatch-Daten mit Python abzurufen
Ich habe ein gestapeltes Balkendiagramm mit matplotlib von Python erstellt und eine Datenbeschriftung hinzugefügt
Ich habe versucht, die in Python installierten Pakete grafisch darzustellen
[Python] Ich habe versucht, die Top 10 der Lidschatten grafisch darzustellen
Ich habe versucht, das Problem mit Python Vol.1 zu lösen
Ich habe Python> autopep8 ausprobiert
Ich habe Python> Decorator ausprobiert
Ich habe versucht, mit Python faker verschiedene "Dummy-Daten" zu erstellen
[Python] Ich habe versucht, Daten mit der API von Wikipedia zu sammeln
Ich habe fp-Wachstum mit Python versucht
Ich habe versucht, mit Python zu kratzen
Ich habe die C-Erweiterung von Python ausprobiert
[Python] Zeichnen Sie Zeitreihendaten
Ich habe gRPC mit Python ausprobiert
Ich habe versucht, mit Python zu kratzen
[Pandas] Ich habe versucht, Verkaufsdaten mit Python zu analysieren. [Für Anfänger]
[Python] Analysieren Sie Splatoon 2-Ligaspieldaten mithilfe einer Korrelationskoeffiziententabelle
[Python] Ich habe versucht, mithilfe der YouTube-Daten-API verschiedene Informationen abzurufen!