Kaggle ist die weltweit größte Website für maschinelles Lernen. Die Titanic ist eine Tutorial-ähnliche Aufgabe.
Dieser Wettbewerb sagt Leben und Tod von Passagieren auf der Titanic voraus. https://www.kaggle.com/c/titanic/overview
Vorerst habe ich versucht und mich geirrt, bis ich die 80% -Grenze überschritten habe. Ich werde es diesmal kurz vorstellen. Am Ende steht ein Code (Github)
Sagen Sie voraus, dass dies überlebt hat. Zugdaten sind 892 Stück. Die Anzahl der Testdaten (zu übermittelnde Daten) beträgt 417.
Ich habe mir andere Kernel und Artikel angesehen und verschiedene Dinge ausprobiert.
** Geschlecht **, ** Eingeschifft **: Dies sind einfach Dummy-Variablen. e.x.) Male -> 0, Female -> 1
** P-Klasse **: Als 1, 2 und 3 verwenden.
** FamilySize **: Berechnen Sie die Anzahl der Familienmitglieder mit SibSp + Parch. Mit FamilySize haben wir Dummy-Variablen in Form von einzelnen (IsAlone), kleinen, mittleren und großen Familien erstellt.
** Titel ** (Titel): Extrahieren Sie Informationen wie Herr, Fräulein, Frau usw. aus dem Namen. Ich dachte, dass nicht nur das Alter, sondern auch die Heiratsinformationen genau extrahiert werden könnten. Dieser Titel wurde der Feature-Menge als Dummy-Variable hinzugefügt.
** Ticket_ini **: Extrahieren Sie das Akronym des Tickets. Mit diesem Akronym wurde eine Dummy-Variable erstellt.
** n_same_ticket **: Wie viele Personen haben dieselbe Ticketnummer? Personen mit derselben Ticketnummer kaufen möglicherweise gleichzeitig mit Familie oder Freunden Tickets. Daher erwartete er, dass die Ticketnummern gleich sein würden. Persönliche Gedanken) Mit SibSp und Parch kann ich nur Informationen über die Familie erhalten, von der ich begleitet wurde, aber ich dachte, dass dies ein Vorteil wäre, da ich auch Informationen über Freunde erhalten könnte, die begleitet wurden. Referenz) https://yolo-kiyoshi.com/2018/12/16/post-951/
** Cabin_ini **: Extrahieren Sie das Akronym für Cabin. Konvertieren Sie diese Akronyminformationen in eine Dummy-Variable.
Verwenden Sie die obigen 31 Variablen. 1 Pclass 2 Sex 3 Fare 4 n_same_ticket 5 Embarked_C 6 Embarked_Q 7 Embarked_S 8 Ticket_ini_1 9 Ticket_ini_2 10 Ticket_ini_3 11 Ticket_ini_A 12 Ticket_ini_C 13 Ticket_ini_Others 14 Ticket_ini_P 15 Ticket_ini_S 16 Ticket_ini_W 17 Title_Master. 18 Title_Miss. 19 Title_Mr. 20 Title_Mrs. 21 Title_Others 22 Cabin_Initial_B 23 Cabin_Initial_C 24 Cabin_Initial_D 25 Cabin_Initial_E 26 Cabin_Initial_N 27 Cabin_Initial_Others 28 IsAlone 29 Family_size_small 30 Family_size_mid 31 Family_size_big
Verwenden Sie Random Forest. Die Hyperparameter wurden entsprechend angepasst und die vorhergesagten Werte wurden durch 10 10-fache Formeln gemittelt. Die Division verwendete eine geschichtete k-Division.
Ich habe auch versucht, LightGBM, XGBoost und Catboost zu verwenden. Die öffentliche Punktzahl war jedoch für Random Forest besser. (Ist es Überlernen?) Ich habe einige Modelle gemacht und versucht, ein Ensemble zu bekommen, aber am Ende war Random Forest allein das BESTE Ich bin damit gegangen.
Übrigens waren die wichtigen Variablen von Random Forest so.
Github Ich habe es gepostet. Wenn Sie die Details sehen möchten, überprüfen Sie bitte hier. Bewegen Sie es einfach und es sollte ** 80,861% ** genau sein. https://github.com/taruto1215/Kaggle_Titanic
Eigentlich nehme ich an einem datenwissenschaftlichen Kurs im Matsuo Laboratory der Universität Tokio teil, der GCI2020summer heißt. Zu dieser Zeit entschied ich mich, am Titanic-Wettbewerb teilzunehmen. Ich denke, dass es in ungefähr 2 Tagen ungefähr 80% sein wird, und ich denke, dass es bis zum Stichtag mit einer Genauigkeit von 78-9% fertig sein wird. .. ..
Ich war enttäuscht, also forderte ich weiter heraus und erreichte 80%. Ich bin noch ein Anfänger. Wenn Sie also einen Rat haben, zögern Sie bitte nicht, mich zu kontaktieren.
Recommended Posts