[PYTHON] [Umfrage] Kaggle --Quora 2. Platz Lösungszusammenfassung
Kaggle --Quora Question Pairs [^ 1] 2. Platz Lösung [^ 2] Forschungsartikel.
Author: Silogram
Title: Overview of 2nd-Place Solution
Discussion URL: https://www.kaggle.com/c/quora-question-pairs/discussion/34310
Summary
- Zusammenstellung von 6 LightGBM [^ 3] und 1 neuronalen Netz
- Kalibrierung unter Verwendung der grafischen Struktureigenschaften (ähnlich der Jared-Methode (3. Platz) [^ 4])
- Tausende von Merkmalen (einschließlich spärlicher N-Gramm-Vektoren)
- Der Punktestand für LB in einem einzelnen Modell beträgt 0,116 bis 0,117
- Was bei der NLP-Verarbeitung nützlich war, ist die Textverarbeitung auf viele verschiedene Arten
(z. B. Änderung in Kleinbuchstaben und keine Änderung, unterschiedlich konvertierte Interpunktion, Entfernen und Nichtentfernen von Stoppwörtern mit und ohne Stemming usw.)
Probleme im Wettbewerb
- Da es ein Problem mit der Fragemethode gab, war das Problem mit der Diagrammstruktur, die mit dem Fragenpaar erstellt werden kann, wichtig.
- Es gab viele Fragen in Bezug auf Indien, die TFIDF und TF betrafen (Ist es nicht besser, wenn es keinen regionalen Einfluss gibt?)
- Unzureichendes Etikett war erkennbar
Über spärliches N-Gramm
- Verwenden Sie binäre tf. Entfernen Sie die oberen 2000 1 Gramm und 2 Gramm
- Die Vektoren der Fragen 1 und 2 werden addiert und für jedes N-Gramm in 3 Bezeichnungen umgewandelt (0: Keine. 1: Nur eine existiert, 2: Existiert in beiden)
References