[PYTHON] Datenanalyse Titanic 1

Aidemy 2020/10/30

Einführung

Hallo, es ist ja! Ich bin eine knusprige Literaturschule, aber ich war an den Möglichkeiten der KI interessiert, also ging ich zur KI-Fachschule "Aidemy", um zu studieren. Ich möchte das hier gewonnene Wissen mit Ihnen teilen und habe es in Qiita zusammengefasst. Ich freue mich sehr, dass viele Menschen den vorherigen zusammenfassenden Artikel gelesen haben. Vielen Dank! Dies ist der erste Beitrag von "Data Analysis Titanic". Freut mich, dich kennenzulernen.

Was diesmal zu lernen ・ Bestätigung des Flusses des Überlebensvorhersagemodells der Titanic ・ ② Erfassung von Trainingsdaten / Testdaten ・ ③ Daten gestalten, erstellen, bereinigen ・ ④ Musteranalyse, Datenanalyse (einige werden beim nächsten Mal durchgeführt)

Vorhersage der Überlebenden der Titanic

Prognosefluss

① Frage, die Sie klären möchten, __Definition des Problems __ ② __ Erfassung von Trainingsdaten / Testdaten __ ③ __ Daten gestalten, erstellen, bereinigen __ ④ __ Musteranalyse __, spezifische und explorative __ Datenanalyse __ ⑤ Problem Modell, Vorhersage, Lösung ⑥ Berichten Sie über die Schritte zur Problemlösung und die endgültige Lösung visualisierung

① Zu klärende Fragen, Definition von Problemen

・ Dieses Mal werden wir ein Vorhersagemodell für __ "Titanic Survivor Prediction" __ erstellen. Eine Seite namens "Kaggle" veranstaltet so etwas wie __ "Wettbewerb" __ "Modellauktion" __, was eine der Herausforderungen ist. -In Kaggle werden __ Aufgabentrainingsdaten übergeben __. Ich werde es auch dieses Mal verwenden.

・ Über die Definition des Problems -Die Trainingsdaten sind diesmal mit den Bezeichnungen __ "Passagierdaten" __ und __ "Überleben / Tod" __ versehen, und die Testdaten sind nicht gekennzeichnet. ・ Durch Anwendung des auf diese Testdaten erstellten Modells kann der Zustand der Passagiere vorhergesagt werden.

② Erfassung von Trainingsdaten / Testdaten

-Datenerfassung wird mit __ "pd.read_csv ()" __ durchgeführt.

·Code スクリーンショット 2020-10-21 16.45.43.png

・ Ausgabeergebnis (nur Teil) スクリーンショット 2020-10-21 16.48.21.png

・ Über jede Funktionsmenge ・ Survived: Hast du überlebt? "0" ist Ja / "1" ist Nein ・ Plasse: Sitzklasse "1"> "2"> "3" ・ Sex: Geschlecht ・ Alter: Alter ・ Sibsp: Anzahl der Brüder / Ehepartner an Bord ・ Parch: Anzahl der Eltern / Kinder / Enkelkinder an Bord ・ Ticket: Boarding-Nummer ・ Farif: Boarding-Gebühr ・ Cabin: Zimmernummer ・ Embarked: Name des Abfahrtshafens

③ Daten gestalten, erstellen, bereinigen

Arten von Funktionen

Kategoriewert

-__ Kategoriewert __ ist eine Feature-Menge, die nur __ 'Zeichenfolge' __ oder __ 'fester numerischer Wert' __ akzeptiert. Sie werden als __ "Nenndaten" __ bzw. __ "Bestelldaten" __ bezeichnet.

Numerischer Wert

-Numerische Daten werden in __ "diskrete Daten" __ und __ "kontinuierliche Daten" __ unterteilt. -In diesen Daten sind die diskreten Daten __ "Sibsp" "Parch" __ und die kontinuierlichen Daten sind __ "Alter" "Tarif" __.

Anzahl fehlender Werte

-Nächste, um den fehlenden Wert zu verarbeiten, wird bestätigt, ob in den __- Daten ein Wert fehlt und in welcher Feature-Menge er sich in __ befindet. -Überprüfen Sie mit __ "info ()" __, ob in den Daten Werte fehlen.

・ Ergebnis (nur Teil)![Screenshot 2020-10-22 12.03.57.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/698700/6cbc8d9a -4d5c-9690-66d5-dc011ea9c77b.png)

Suchen Sie nach doppelten Daten

-__ Wenn die Daten dupliziert werden, müssen sie gelöscht werden __. Überprüfen Sie, ob Duplikate mit __ "description ()" __ vorhanden sind.

・ Ergebnis![Screenshot 2020-10-22 12.00.45.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/698700/f76f4fba-d6ae-5533- 74a9-f7d167454090.png)

③ Nachträgliche Richtlinien

・ Von hier aus werden wir ein Modell mit diesen Daten erstellen, aber wir werden die damalige Richtlinie anhand der Daten betrachten, die wir bisher gesehen haben __. ・ Es gibt __7 __ Dinge, die zu diesem Zeitpunkt die Richtlinie (das Ziel) sein werden. __ "Kategorie" "Korrelation" "Konvertierung" "Ergänzung" "Ändern" "Erstellen" "Diagramm" __. In Bezug auf diese werden wir überlegen, "wie für welche Feature-Menge zu tun ist".

-__ Korrelation __: Das Modell sagt voraus, ob der Passagier überlebt hat oder nicht, dh __ "überlebt" __. _ Untersuchen Sie die Korrelation __, um zu analysieren, wie sich andere Funktionen auf Survived auswirken.

-__ Vervollständigung __: Die Datenvervollständigung wird von der mit der stärksten Korrelation __ priorisiert (für die mit der schwächsten Interphase ist es besser, die folgende Korrektur durchzuführen). Dieses Mal wird es ergänzt von __ "Alter" "Eingeschifft" __.

-__ Änderung __: Überlebt und __ Schließen Sie diejenigen aus, bei denen es offensichtlich nicht wahrscheinlich ist, dass sie korrelieren __. __ "Passenerld" und "Name" __ sind Daten zur Identifizierung von Passagieren. Daher ist es unerheblich, ob sie überlebt haben oder nicht, daher werden sie ausgeschlossen. Außerdem kann __ "Ticket" __ ausgeschlossen werden, da es eine hohe __ Duplikatrate aufweist und möglicherweise nicht mit Survived korreliert. __ "Kabine" __ hat eine große Anzahl fehlender Werte __, daher kann es gelöscht werden.

-__ Erstellen __: Erstellen Sie einen neuen Feature-Betrag, indem Sie __ den Feature-Betrag teilen oder extrahieren. Dieses Mal erstellen wir einen neuen Funktionsbetrag mit dem Namen __ "Familiengröße" __ für die Funktionsbeträge "Parch" und "Sibsp" desselben Systems. Da es einfacher ist, die fortlaufenden Daten "Alter" und "Tarif" vorherzusagen, wenn sie zu __diskreten Daten verarbeitet werden, erstellen Sie eine neue Merkmalsmenge __ geteilt durch Angabe des __-Bereichs.

-__ Klassifizierung __: Die Lebensfähigkeit der Titanic wird für "Kinder", "Frauen" und "Obergeschosse (Oberschicht)" als hoch angesehen. Betrachtet man die auf dieser Hypothese basierenden Daten, so ist __ "Geschlecht = weiblich" "Alter <?" "P-Klasse = 1" __ wahrscheinlich __ "überlebt = 1" __.

④ Musteranalyse, Datenanalyse

Aggregation von Merkmalsgrößen (Korrelation)

-Verwenden Sie __ "Pivot-Tabelle" __, wenn Sie eine große Datenmenge wie diese zusammenfassen und analysieren. -Pivot-Tabelle kann nur mit Daten erstellt werden, die keine fehlenden Werte enthalten __Sonstiges, __ "Kategoriewert, Bestelldaten, diskrete Daten" __ Es ist wünschenswert, dies zu tun.

Pclass (Auftragsdaten) und Survived Pivot Table-Erstellung

・ Zunächst die Codebeschreibung スクリーンショット 2020-10-22 13.18.20.png

-In dem Teil von "__train_df [[" Pclass "," Survived "]] __" wird das __ -Element der Tabelle, die dieses Mal erstellt werden soll, in der Spalte train_df __ angegeben.

-Eusgabeergebnis![Screenshot 2020-10-22 13.34.53.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/698700/acedde96-9196-039e -a1a4-7787402d5c26.png)

・ Machen Sie dasselbe für __ "Sex", "Parch" und "SibSp" __.

Zusammenfassung

-Das erste, was Sie tun müssen, um ein Modell zur Vorhersage der Überlebensrate der Titanic zu erstellen, ist die Datenerfassung.

Diese Zeit ist vorbei. Vielen Dank für das Lesen bis zum Ende.

Recommended Posts

Datenanalyse Titanic 2
Datenanalyse Titanic 1
Datenanalyse Titanic 3
Datenanalyse Python
Ich habe versucht, Faktoren mit Titanic-Daten zu analysieren!
Datenanalyse vor der Erzeugung der Titanic-Features von Kaggle
Datenanalyse mit Python 2
Datenanalyse mit xarray
Datenanalyse Übersicht Python
Python-Datenanalysevorlage
Datenanalyse mit Python
Ich habe versucht, die Hauptkomponenten mit Titanic-Daten zu analysieren!
Mein Python-Datenanalyse-Container
Mehrdimensionale Datenanalysebibliothek xarray
Python für die Datenanalyse Kapitel 4
[Python] Hinweise zur Datenanalyse
Lernnotizen zur Python-Datenanalyse
Python für die Datenanalyse Kapitel 2
Wrap-Analyse Teil1 (Datenaufbereitung)
Datenanalyse mit Python-Pandas
Tipps und Vorsichtsmaßnahmen bei der Datenanalyse
Python für die Datenanalyse Kapitel 3
Twitter-Daten analysieren | Trendanalyse
Lassen Sie uns die Analyse der sinkenden Daten der Titanic so durchführen
Erste Satellitendatenanalyse von Tellus
Python: Zeitreihenanalyse: Vorverarbeitung von Zeitreihendaten
Datenvorhersagewettbewerb in 3 Schritten (titanisch)
Vorverarbeitungsvorlage für die Datenanalyse (Python)
November 2020 Version Datenanalyse Test bestanden Erfahrung
Datenanalyse zur Verbesserung von POG 3 ~ Regressionsanalyse ~
Empfehlung zur Datenanalyse mit MessagePack
Zeitreihenanalyse 3 Vorverarbeitung von Zeitreihendaten
Datenanalyse beginnend mit Python (Datenvisualisierung 1)
Datenanalyse beginnend mit Python (Datenvisualisierung 2)
Datenverarbeitung 2 Analyse verschiedener Datenformate
Mehrdimensionale Datenanalysebibliothek xarray Teil 2
Visualisierung und Analyse von Stava Twitter-Datenstandortinformationen
Python-Visualisierungstool für die Datenanalyse
Überprüfen Sie die Rohdaten mit Kaggles Titanic (kaggle ⑥)
Datenanalyse, was machen Sie denn?
Datenverarbeitung
[Python] Erste Datenanalyse / maschinelles Lernen (Kaggle)
Erstellen einer Datenanalyseanwendung mit Streamlit
Parabolische Analyse
Datenanalyse beginnend mit Python (Datenvorverarbeitung - maschinelles Lernen)
[Datenanalyse] Lassen Sie uns die US-Automobilbestände analysieren
Ich habe ein Python-Datenanalysetraining aus der Ferne durchgeführt
Datenanalyseumgebung mit Schwerpunkt auf Datalab (+ GCP)
Vorbereitung auf die von Python 3 Engineer zertifizierte Datenanalyseprüfung
Vorverarbeitung beim maschinellen Lernen 1 Datenanalyseprozess
JupyterLab Grundeinstellung 2 für die Datenanalyse (pip)
JupyterLab Basic Setup für die Datenanalyse (pip)
Datenanalyse zur Verbesserung von POG 2 ~ Analyse mit Jupiter-Notebook ~
Bereiten Sie eine Programmiersprachenumgebung für die Datenanalyse vor
[CovsirPhy] COVID-19 Python-Paket für die Datenanalyse: Laden von Daten
Python3 Engineer Zertifizierungsdatenanalyse Test selbst erstellte Problemerfassung
Python 3 Engineer Zertifizierungsdatenanalyse Prüfung Pre-Exam Learning