Kaggle ist wie eine Kampfgruppe, die um die Fähigkeit des maschinellen Lernens kämpft. Als ich eintrat, gab es Inhalte für Anfänger, daher werde ich mir das Anleitungsvideo sofort ansehen.
Super schnelles Englisch! !! !! Der Inhalt enthielt eine Übersicht über den Titanic-Unfall, Erläuterungen zum Datensatz, Tutorials und die Verwendung von Kaggle.
Ich kann es nicht hören, weil es zu schnell ist, um es zu hören, also das japanische Wiki [Titanic Sinking Unfall](https://ja.wikipedia.org/wiki/%E3%82%BF%E3%82%A4%E3%82%BF%E3 % 83% 8B% E3% 83% 83% E3% 82% AF% E5% 8F% B7% E6% B2% 88% E6% B2% A1% E4% BA% 8B% E6% 95% 85) Stellen.
Grob zusammengefasst
・ Da es sich um einen Unfall handelte, während ich um Mitternacht schlief, verzögerte sich die erste Aktion. ・ Es gab nicht genügend lebensrettende Werkzeuge. (Es wurde für sicher gehalten) ・ Die Überlebensraten unterscheiden sich stark zwischen Aristokraten und einfachen Menschen, Männern und Frauen sowie dem Alter.
Wenn ich mir die Abbildung anschaue, denke ich, dass die Sterblichkeitsrate in dem Gebiet hoch ist, in dem sich ein Loch in der Eismine befand.
Ein Anhänger, der Ihnen einen Panoramablick auf das Schiff bietet. Obwohl es sich um einen Film handelt, kann man die Größe des Schiffes, die Anzahl der Personen und die Atmosphäre zu dieser Zeit erfassen. (Diese Leute sind im Begriff ...)
Titanic (synchronisierte Version) --Trailer
Es gab 891 für das Training und 418 für Testdaten. Die Datendefinition lautet wie folgt:
Variable | Definition | Bemerkungen |
---|---|---|
Survived | Ob es überlebt hat | 0 = No, 1 = Yes |
Pclass | Ticketklasse | 1 = 1st, 2 = 2nd, 3 = 3rd |
Name | Name | |
Sex | Sex | |
Age | Alter | |
SibSp | Anzahl der Brüder, Schwestern und Ehepartner an Bord | |
Parch | Anzahl der Eltern / Kinder an Bord | |
Ticket | Ticketnummer | |
Fare | Ticket Preis | |
Cabin | Kabinennummer | |
embarked | Hafen an Bord | C = Cherbourg, Q = Queenstown, S = Southampton |
Es gibt viele Beispiele für Programme, die auf "Notebook" veröffentlicht sind. Schauen Sie sich also einige der beliebtesten an.
Es gab auch ein japanisches Tutorial. Kaggle Titanic First Step \ (1. Schritt für Kaggle Titanic )
Ich las es grob und mein Kopf war durcheinander, also machte ich zuerst ein Überlebensmodell für alle, um die Geschichte einfacher zu machen. Alles was Sie tun müssen, ist eine Reihe von "Survived" zu erstellen und sie auf Kaggle hochzuladen.
00.py
import pandas as pd
#Lesen Sie CSV
test = pd.read_csv('test.csv')
#Spalte "Überlebt" hinzugefügt.
test["Survived"] = 1
#Bestätigung
print(test["Survived"])
#Nur PassengerId und Survived zur Einreichung.
test = test.loc[:,['PassengerId','Survived']]
#Ausgabe an CSV (kein Index erforderlich)
test.to_csv('titanic1-1.csv',index=False)
Überprüfen Sie die erstellte CSV und verpflichten Sie sich zu Kaggle.
Public Score 0.37320 lederbord 15 800 ..
Der "Public Score" liegt nahe an der tatsächlichen Überlebensrate (31,9%).
lederbord
scheint nach der höchsten Punktzahl der Person eingestuft zu sein, und ich kannte die genaue Rangfolge nicht, aber 0.37320
lag bei 15800. Es gibt so viele Menschen auf der Welt, die die gleiche Punktzahl haben, das heißt, die über das Gleiche nachdenken ... das ist ein bisschen ... Ich war beeindruckt.
Der Boden war 0 und der 70. von unten. Eine Punktzahl von 0 bedeutet, dass alle richtigen Antworten auf den Kopf gestellt werden. Dies ist die Punktzahl, die Sie interessiert.
Laden Sie die CSV mit [" Survived "] = 0
nach Kaggle hoch.
Da 1 --0.37320 = 0.6268
, habe ich den gleichen Wert erwartet, aber es war Public Score: 0.62679
. Es ist fast richtig.
Dieses Mal werde ich es einfach als tot für Männer und lebendig für Frauen zuordnen. Die Titanic hatte eine hohe Sterblichkeitsrate bei Männern und eine hohe Überlebensrate bei Frauen, daher sollte dies immer noch prädiktiv sein.
01.py
#Verwenden Sie Pandas
import pandas as pd
#Lesen Sie CSV
test = pd.read_csv('test.csv')
#Spalte "Überlebt" hinzugefügt
test["Survived"] = 0
#1 für Frauen(Überleben)Ersetzen mit
test.loc[test["Sex"] == 'female', "Survived"] = 1
#Nur PassengerId und Survived zur Einreichung.
test = test.loc[:,['PassengerId','Survived']]
#Ausgabe an CSV (kein Index erforderlich)
test.to_csv('titanic1.csv',index=False)
Public Score:0.76555 lederbord: 12457. platz / ca. 15.000 menschen?
Es scheint, dass der Inhalt der CSV von "Gender Based Model" entspricht.
Sogar ein sehr einfaches Modell ist "0,76555". Wie man die Genauigkeit der Vorhersage von hier aus verbessert, ist ein Beispiel für Geschicklichkeit.
Zunächst geht es darum, die Regeln zu überprüfen.
Recommended Posts