[PYTHON] [Umfrage] Kaggle --Quora 3. Platz Lösungszusammenfassung
Kaggle --Quora Question Pairs [^ 1] 3. Platz Lösung [^ 2] Forschungsartikel.
[3. Platz] Übersicht über die 3. Platzlösung
Author: Jared Turkewitz
Discussion URL: https://www.kaggle.com/c/quora-question-pairs/discussion/34288
die Architektur
- Mit Neural Net, LightGBM, XGBoost
- Die erste Schicht der Modellstapelung umfasst 1300 Funktionen
- Verwenden Sie LightGBM (5-mal schneller als XGboost, etwas weniger genau)
- Stapeln von 15 Modellen
--XGBoost ist das Beste für ein einzelnes Modell (CV = 0,185)
Funktionen in der Verarbeitung natürlicher Sprache
- Funktionen zur Verarbeitung natürlicher Sprachen: Wortübereinstimmung, ähnliche Wortübereinstimmung usw.
- Abstand zwischen TI-ID F und LDA
- gleichzeitiges Auftreten von Wörtern (Menge der gegenseitigen Information [^ 4]) [^ 7]
- Anzahl der Wortübereinstimmungen
- Fuzzy-Wort-Matching-Skala (Bearbeitungsabstand, Zeichen-N-Gramm-Abstand)
- LDA
--Word2Vec Entfernung
- Eigenschaften nach Teiltexten und einzigartigen Ausdrücken [^ 5]
- mirror features
- Eine solche
Funktionen in der Diagrammstruktur
- Häufige Anzahl von Wörtern, Häufigkeit, Fragehäufigkeit nur für Frage 1, Fragehäufigkeit nur für Frage 2 usw.
- Page Rank
--Auftrag
--Kürzester Weg
--Creak Größe
Neuronales Netz
- Bidirektionales LSTM
- Verteilter Ausdruck
- Gelerntes Glück
- Teil der Spracheinbettung
- Named Entity Embedding
--dependency parse einbetten [^ 6]
- siamesisches Netzwerk [^ 3]
- Aufmerksamkeitsteil
- Softmax Matching
- Maxpool Matching
Andere Ideen
- Passen Sie die Prognose selektiv an die Häufigkeit der Fragen an
References