[PYTHON] [Umfrage] Kaggle --Quora 4. Platz Lösungszusammenfassung
Kaggle --Quora Question Pairs [^ 1] 4. Platz Lösung [^ 2] Forschungsartikel.
Titel: [4.] Überblick über die Lösung für den 4. Platz
Author: HouJP
Discussion URL: https://www.kaggle.com/c/quora-question-pairs/discussion/34349
Code: https://github.com/HouJP/kaggle-quora-question-pairs
fließen
- Vorverarbeitung
- Merkmalsextraktion
- Modellbau
- Nachbearbeitung
Zitiert aus HouJP / Kaggle-Quora-Frage-Paaren [^ 4]
Vorverarbeitung
- Textreinigung: Korrektur von Tippfehlern, Verarbeitung von Symbolen, Wiederherstellung von Akronymen usw.
- Wortstamm: Schneeballstemmer [^ 3] usw.
- Entfernen von gemeinsam genutzten Wörtern: Entfernen von Wörtern, die in beiden vorkommen
Merkmalsextraktion
- Mehr als 1400 Funktionen
--Statistik: Verhältnis der gebräuchlichen Wörter, Satzlänge, Anzahl der Wörter usw.
- Verarbeitung natürlicher Sprache: Analysieren von Syntaxbäumen, Anzahl negativer Wörter usw.
- Grafikstruktur: PageRank, Treffer, kürzester Weg, Bachgröße usw.
Modellbau
- Neuronales Netz, XGBoost, LightGBM, LogisticRegression (LB = 0,122 bis 0,124 ist das Beste für ein einzelnes Modell)
- 140 Modell Modellstapelung (0,007 Verbesserung gegenüber LB)
Nachbearbeitung
- Da die Tendenz der Daten zwischen den Trainingsdaten und den Testdaten unterschiedlich war, mussten die Gewichte angepasst werden.
- Aufteilen der Daten nach der Größe des Baches und Anpassen des Gewichts (dieser Vorgang verbessert 0,001 bei LB)
References