Kaggle --Il s'agit d'un article de recherche sur la solution de 5e place [^ 2] des paires de questions Quora [^ 1].
Titre: [5th] 5th Place Solution Summary Author: Faron, KazAnova Discussion URL: https://www.kaggle.com/c/quora-question-pairs/discussion/34349 Code (attaché au forum): https://kaggle2.blob.core.windows.net/forum-message-attachments/190488/6625/mark_dodgie_qs_in_test.py
Summary
NLP
Extraire les quantités de caractéristiques par diverses méthodes
--Extrait du texte prétraité --Original --Question
Processus de tige --Nettoyage de texte
Arrêter le mot uniquement
Arrêter la suppression des mots --Extrait par agrégation de jetons
Jetons communs / non communs --Nombre de jetons
La plus longue sous-chaîne commune aux deux questions
Erreur de grammaire et de ponctuation
GloVe appris
Word2Vec
Spacy --Doc2Vec n'a pas aidé --PyLucene [^ 3] était également inutile
La vérification orthographique a aidé à supprimer les mots aléatoires dans les données de test (préparé pour qu'il soit difficile de déterminer s'il s'agit de doublons?)
La phrase avec ce mot aléatoire était grammaticalement et logiquement erronée.
Les caractéristiques du graphique avec chaque question comme nœud et les questions 1 et 2 comme arêtes étaient précieuses.
--Nombre de questions communes aux deux questions --Nombre de questions uniques --Nombre de chemins de longueur n entre les questions 1 et 2 --Nombre maximum de ruisseaux --Nombre d'ingrédients --Si y (q1, q3) = y (q2, q3) = a, alors y (q1, q2) = a
Puisque la méthode de fabrication d'exemples négatifs était artificielle, les quantités de caractéristiques suivantes ont également conduit à une amélioration.
References
Recommended Posts