[PYTHON] Kaggle Tutorial Titanic Genauigkeit 80,9% (Top 7% 0,80861)

Kaggle Tutorial "Titanic"

image.png

Kaggle ist die weltweit größte Website für maschinelles Lernen. Die Titanic ist eine Tutorial-ähnliche Aufgabe.

Dieser Wettbewerb sagt Leben und Tod von Passagieren auf der Titanic voraus. https://www.kaggle.com/c/titanic/overview

Vorerst habe ich versucht und mich geirrt, bis ich die 80% -Grenze überschritten habe. Ich werde es diesmal kurz vorstellen. Am Ende steht ein Code (Github)

Datenübersicht

image.png

Sagen Sie voraus, dass dies überlebt hat. Zugdaten sind 892 Stück. Die Anzahl der Testdaten (zu übermittelnde Daten) beträgt 417.

Was Sie in den Top 7% getan haben

Ich habe mir andere Kernel und Artikel angesehen und verschiedene Dinge ausprobiert.

Datenvervollständigung

Erstellte Feature-Menge

Zusammenfassung der Funktionen

Verwenden Sie die obigen 31 Variablen. 1 Pclass 2 Sex 3 Fare 4 n_same_ticket 5 Embarked_C 6 Embarked_Q 7 Embarked_S 8 Ticket_ini_1 9 Ticket_ini_2 10 Ticket_ini_3 11 Ticket_ini_A 12 Ticket_ini_C 13 Ticket_ini_Others 14 Ticket_ini_P 15 Ticket_ini_S 16 Ticket_ini_W 17 Title_Master. 18 Title_Miss. 19 Title_Mr. 20 Title_Mrs. 21 Title_Others 22 Cabin_Initial_B 23 Cabin_Initial_C 24 Cabin_Initial_D 25 Cabin_Initial_E 26 Cabin_Initial_N 27 Cabin_Initial_Others 28 IsAlone 29 Family_size_small 30 Family_size_mid 31 Family_size_big

Modell des maschinellen Lernens

Verwenden Sie Random Forest. Die Hyperparameter wurden entsprechend angepasst und die vorhergesagten Werte wurden durch 10 10-fache Formeln gemittelt. Die Division verwendete eine geschichtete k-Division.

Ich habe auch versucht, LightGBM, XGBoost und Catboost zu verwenden. Die öffentliche Punktzahl war jedoch für Random Forest besser. (Ist es Überlernen?) Ich habe einige Modelle gemacht und versucht, ein Ensemble zu bekommen, aber am Ende war Random Forest allein das BESTE Ich bin damit gegangen.

Wichtige Variablen

Übrigens waren die wichtigen Variablen von Random Forest so. image.png

Github Ich habe es gepostet. Wenn Sie die Details sehen möchten, überprüfen Sie bitte hier. Bewegen Sie es einfach und es sollte ** 80,861% ** genau sein. https://github.com/taruto1215/Kaggle_Titanic

Die Gelegenheit für diese Zeit

Eigentlich nehme ich an einem datenwissenschaftlichen Kurs im Matsuo Laboratory der Universität Tokio teil, der GCI2020summer heißt. Zu dieser Zeit entschied ich mich, am Titanic-Wettbewerb teilzunehmen. Ich denke, dass es in ungefähr 2 Tagen ungefähr 80% sein wird, und ich denke, dass es bis zum Stichtag mit einer Genauigkeit von 78-9% fertig sein wird. .. ..

Ich war enttäuscht, also forderte ich weiter heraus und erreichte 80%. Ich bin noch ein Anfänger. Wenn Sie also einen Rat haben, zögern Sie bitte nicht, mich zu kontaktieren.

Recommended Posts

Kaggle Tutorial Titanic Genauigkeit 80,9% (Top 7% 0,80861)
Kaggle Tutorial Titanic Know-how, um in den Top 2% zu sein
Fordern Sie die Kaggle Titanic heraus
Probieren Sie Kaggles Titanic-Tutorial aus
Untersuchen Sie die Parameter von RandomForestClassifier im Kaggle / Titanic-Tutorial
Schauen Sie sich das Kaggle / Titanic-Tutorial genauer an
[Für Kaggle-Anfänger] Titanic (LightGBM)
[Kaggle] Ich habe mit dem Titanic-Tutorial eine Sammlung von Problemen erstellt
Wählen Sie Modelle von Kaggles Titanic (kaggle ④)
Annäherungserklärung für Anfänger, um in Kaggle Titanic_1 unter den besten 1,5% (0,83732) zu sein
Annäherungserklärung für Anfänger, um in Kaggle Titanic_2 unter den besten 1,5% (0,83732) zu sein