[PYTHON] Tag 66 [Einführung in Kaggle] Die einfachste Titanic-Vorhersage

Ich habe Kaggles "Titanic: Maschinelles Lernen aus Katastrophen" ausprobiert.

Kaggle ist wie eine Kampfgruppe, die um die Fähigkeit des maschinellen Lernens kämpft. Als ich eintrat, gab es Inhalte für Anfänger, daher werde ich mir das Anleitungsvideo sofort ansehen.

How to Get Started with Kaggle’s Titanic Competition | Kaggle

Super schnelles Englisch! !! !! Der Inhalt enthielt eine Übersicht über den Titanic-Unfall, Erläuterungen zum Datensatz, Tutorials und die Verwendung von Kaggle.

Ich kann es nicht hören, weil es zu schnell ist, um es zu hören, also das japanische Wiki [Titanic Sinking Unfall](https://ja.wikipedia.org/wiki/%E3%82%BF%E3%82%A4%E3%82%BF%E3 % 83% 8B% E3% 83% 83% E3% 82% AF% E5% 8F% B7% E6% B2% 88% E6% B2% A1% E4% BA% 8B% E6% 95% 85) Stellen.

Grob zusammengefasst

・ Da es sich um einen Unfall handelte, während ich um Mitternacht schlief, verzögerte sich die erste Aktion. ・ Es gab nicht genügend lebensrettende Werkzeuge. (Es wurde für sicher gehalten) ・ Die Überlebensraten unterscheiden sich stark zwischen Aristokraten und einfachen Menschen, Männern und Frauen sowie dem Alter.

Wenn ich mir die Abbildung anschaue, denke ich, dass die Sterblichkeitsrate in dem Gebiet hoch ist, in dem sich ein Loch in der Eismine befand.

Ein Anhänger, der Ihnen einen Panoramablick auf das Schiff bietet. Obwohl es sich um einen Film handelt, kann man die Größe des Schiffes, die Anzahl der Personen und die Atmosphäre zu dieser Zeit erfassen. (Diese Leute sind im Begriff ...)

Titanic (synchronisierte Version) --Trailer Titanic (synchronisierte Version) --Trailer

Zur Vorhersage verwendete Daten

Es gab 891 für das Training und 418 für Testdaten. Die Datendefinition lautet wie folgt:

Variable Definition Bemerkungen
Survived Ob es überlebt hat 0 = No, 1 = Yes
Pclass Ticketklasse 1 = 1st, 2 = 2nd, 3 = 3rd
Name Name
Sex Sex
Age Alter
SibSp Anzahl der Brüder, Schwestern und Ehepartner an Bord
Parch Anzahl der Eltern / Kinder an Bord
Ticket Ticketnummer
Fare Ticket Preis
Cabin Kabinennummer
embarked Hafen an Bord C = Cherbourg, Q = Queenstown, S = Southampton

Gut programmieren!

Es gibt viele Beispiele für Programme, die auf "Notebook" veröffentlicht sind. Schauen Sie sich also einige der beliebtesten an.

Es gab auch ein japanisches Tutorial. Kaggle Titanic First Step \ (1. Schritt für Kaggle Titanic )

Ich las es grob und mein Kopf war durcheinander, also machte ich zuerst ein Überlebensmodell für alle, um die Geschichte einfacher zu machen. Alles was Sie tun müssen, ist eine Reihe von "Survived" zu erstellen und sie auf Kaggle hochzuladen.

Titanic All Survival Model ["Überlebt"] = 1

00.py


import pandas as pd

#Lesen Sie CSV
test = pd.read_csv('test.csv')

#Spalte "Überlebt" hinzugefügt.
test["Survived"] = 1

#Bestätigung
print(test["Survived"])

#Nur PassengerId und Survived zur Einreichung.
test = test.loc[:,['PassengerId','Survived']]

#Ausgabe an CSV (kein Index erforderlich)
test.to_csv('titanic1-1.csv',index=False)

Überprüfen Sie die erstellte CSV und verpflichten Sie sich zu Kaggle.

Public Score 0.37320 lederbord 15 800 ..

Der "Public Score" liegt nahe an der tatsächlichen Überlebensrate (31,9%). lederbord scheint nach der höchsten Punktzahl der Person eingestuft zu sein, und ich kannte die genaue Rangfolge nicht, aber 0.37320 lag bei 15800. Es gibt so viele Menschen auf der Welt, die die gleiche Punktzahl haben, das heißt, die über das Gleiche nachdenken ... das ist ein bisschen ... Ich war beeindruckt.

スクリーンショット 2020-01-19 19.08.26.png

Der Boden war 0 und der 70. von unten. Eine Punktzahl von 0 bedeutet, dass alle richtigen Antworten auf den Kopf gestellt werden. Dies ist die Punktzahl, die Sie interessiert.

Alles Todesmodell

Laden Sie die CSV mit [" Survived "] = 0 nach Kaggle hoch. Da 1 --0.37320 = 0.6268, habe ich den gleichen Wert erwartet, aber es war Public Score: 0.62679. Es ist fast richtig.

Männlicher Tod, weibliches Überlebensmodell

Dieses Mal werde ich es einfach als tot für Männer und lebendig für Frauen zuordnen. Die Titanic hatte eine hohe Sterblichkeitsrate bei Männern und eine hohe Überlebensrate bei Frauen, daher sollte dies immer noch prädiktiv sein.

01.py


#Verwenden Sie Pandas
import pandas as pd

#Lesen Sie CSV
test = pd.read_csv('test.csv')

#Spalte "Überlebt" hinzugefügt
test["Survived"] = 0

#1 für Frauen(Überleben)Ersetzen mit
test.loc[test["Sex"] == 'female', "Survived"] = 1

#Nur PassengerId und Survived zur Einreichung.
test = test.loc[:,['PassengerId','Survived']]

#Ausgabe an CSV (kein Index erforderlich)
test.to_csv('titanic1.csv',index=False)

Public Score:0.76555 lederbord: 12457. platz / ca. 15.000 menschen?

Es scheint, dass der Inhalt der CSV von "Gender Based Model" entspricht. スクリーンショット 2020-01-19 19.41.28.png

Sogar ein sehr einfaches Modell ist "0,76555". Wie man die Genauigkeit der Vorhersage von hier aus verbessert, ist ein Beispiel für Geschicklichkeit.

Zunächst geht es darum, die Regeln zu überprüfen.

Recommended Posts

Tag 66 [Einführung in Kaggle] Die einfachste Titanic-Vorhersage
[Einführung in Python3 Tag 20] Kapitel 9 Enträtseln des Webs (9.1-9.4)
Kaggle Tutorial Titanic Know-how, um in den Top 2% zu sein
Tag 67 [Einführung in Kaggle] Haben Sie versucht, Random Forest zu verwenden?
Tag 68 [Einführung in Kaggle] Random Forest war einfach.
[Einführung in Python3 Tag 1] Programmierung und Python
[Einführung in Python3 Tag 13] Kapitel 7 Zeichenfolgen (7.1-7.1.1.1)
[Einführung in Python3 Tag 14] Kapitel 7 Zeichenfolgen (7.1.1.1 bis 7.1.1.4)
[Einführung in Python3 Tag 15] Kapitel 7 Zeichenfolgen (7.1.2-7.1.2.2)
Der einfachste Weg, eine Flasche herzustellen
Der einfachste Weg, PyQtGraph auszuprobieren
[Einführung in Python3 Tag 21] Kapitel 10 System (10.1 bis 10.5)
Annäherungserklärung für Anfänger, um in Kaggle Titanic_3 unter den besten 1,5% (0,83732) zu sein
[Einführung in Python3, Tag 17] Kapitel 8 Datenziele (8.1-8.2.5)
[Einführung in Python3, Tag 17] Kapitel 8 Datenziele (8.3-8.3.6.1)
Herausforderungen des Titanic-Wettbewerbs für Kaggle-Anfänger
[Einführung in Python3 Tag 19] Kapitel 8 Datenziele (8.4-8.5)
[Einführung in Python3 Tag 18] Kapitel 8 Datenziele (8.3.6.2 bis 8.3.6.3)
Wahrscheinlich die einfachste Einführung in TensorFlow
Einführung in discord.py (1. Tag) -Preparation for discord.py-
Annäherungserklärung für Anfänger, um in Kaggle Titanic_1 unter den besten 1,5% (0,83732) zu sein
Annäherungserklärung für Anfänger, um in Kaggle Titanic_2 unter den besten 1,5% (0,83732) zu sein
Kaggle: Einführung in das manuelle Feature Engineering Teil 1
Es ist okay, über die Titanic zu stolpern! Einführung in die Kaggle-Strategie für Super-Anfänger
Der einfachste Weg, um mit Django zu beginnen
[Einführung in Python3 Tag 12] Kapitel 6 Objekte und Klassen (6.3-6.15)
[Einführung in AWS] Das erste Lambda ist Transcribe ♪
Der einfachste Weg, um Stimme mit Python zu synthetisieren
[Einführung in Python3, Tag 22] Kapitel 11 Parallele Verarbeitung und Vernetzung (11.1 bis 11.3)
[Einführung in Python3, Tag 23] Kapitel 12 Werden Sie Paisonista (12.1 bis 12.6)
Einführung in Python mit Atom (unterwegs)
[Einführung in den Algorithmus] Finden Sie den kürzesten Weg [Python3]
Einführung in MQTT (Einführung)
Einführung in Scrapy (1)
Einführung in Scrapy (3)
Erste Schritte mit Supervisor
Einführung in Tkinter 1: Einführung
Einführung in PyQt
Einführung in Scrapy (2)
Fordern Sie die Kaggle Titanic heraus
[Linux] Einführung in Linux
Einführung in Scrapy (4)
Einführung in discord.py (2)
[Einführung in Python3 Tag 8] Kapitel 4 Py Skin: Codestruktur (4.1-4.13)
Der einfachste Weg, um Last-Modified in Flask einzurichten
Eine grobe Einführung in die neuronale maschinelle Übersetzungsbibliothek
[Einführung in Python] Wie iteriere ich mit der Bereichsfunktion?
[Einführung in die Udemy Python3 + -Anwendung] 30. Verwendung des Sets
[Einführung in Python] Wie stoppe ich die Schleife mit break?
Der einfachste Linienbot der Welt, um Gewicht zu verlieren
[Einführung in Python] Grundlegende Verwendung der Bibliothek matplotlib
Schauen Sie sich das Kaggle / Titanic-Tutorial genauer an