Kaggle - Dies ist ein Forschungsartikel über die 5. Platzlösung [^ 2] von Quora Question Pairs [^ 1].
Titel: [5.] 5. Platz Lösungszusammenfassung Author: Faron, KazAnova Discussion URL: https://www.kaggle.com/c/quora-question-pairs/discussion/34349 Code (an das Forum angehängt): https://kaggle2.blob.core.windows.net/forum-message-attachments/190488/6625/mark_dodgie_qs_in_test.py
Summary
--Lernen Sie mehr als 600 Funktionen mit XGBoost
NLP
Extrahieren Sie Merkmalsmengen mit verschiedenen Methoden
Aus vorverarbeitetem Text extrahiert --Original --Frage --Stemming-Prozess
Textreinigung
Stoppt nur das Wort
Stoppt das Entfernen von Wörtern
Durch Aggregation von Token extrahiert
Gelegentliche / nicht übliche Token
Anzahl der Token
Die längste Teilzeichenfolge, die beiden Fragen gemeinsam ist
Falsche Grammatik und Interpunktion
Gelerntes Glück
Word2Vec
Spacy --Doc2Vec hat nicht geholfen
PyLucene [^ 3] war ebenfalls nutzlos
Die Rechtschreibprüfung hat dazu beigetragen, zufällige Wörter in den Testdaten zu entfernen (bereit, es schwierig zu machen, festzustellen, ob es sich um Duplikate handelt?)
Der Satz mit diesem zufälligen Wort war grammatikalisch und logisch falsch.
Die Eigenschaften des Diagramms mit jeder Frage als Knoten und den Fragen 1 und 2 als Kanten waren wertvoll.
Da die Methode zur Herstellung negativer Beispiele künstlich war, führten die folgenden Merkmalsmengen ebenfalls zu einer Verbesserung.
References
Recommended Posts