[PYTHON] [Enquête] Kaggle - Récapitulatif de la solution Quora 2nd place
Kaggle --Quora Question Pairs [^ 1] 2e place solution [^ 2] article de recherche.
Author: Silogram
Title: Overview of 2nd-Place Solution
Discussion URL: https://www.kaggle.com/c/quora-question-pairs/discussion/34310
Summary
--Ensemble de 6 LightGBM [^ 3] et 1 réseau neuronal
--Calibration utilisant les propriétés structurelles du graphe (similaire à la méthode Jared (3e place) [^ 4])
- Des milliers de fonctionnalités (y compris des vecteurs N-gramme clairsemés)
- Le score sur LB dans un seul modèle est de 0,116 à 0,117
- Ce qui était utile dans le traitement PNL est le traitement de texte de nombreuses manières différentes
(par exemple, changement en minuscules et sans changement, ponctuation convertie différemment, suppression et non-suppression de mots vides, avec et sans radical, etc.)
Problèmes dans le concours
- Puisqu'il y avait un problème avec la méthode de questionnement, le problème avec la structure du graphe qui peut être créée avec la paire de questions était important.
- Il y avait de nombreuses questions liées à l'Inde, qui ont affecté le TFIDF et le TF (N'est-il pas préférable qu'il n'y ait pas d'influence régionale?)
- L'étiquette insuffisante était perceptible
À propos du N-gramme clairsemé
--Utilisez tf binaire. Retirez les 2000 premiers grammes et 2 grammes
- Les vecteurs des questions 1 et 2 sont additionnés et convertis en 3 étiquettes pour chaque N-gramme (0: aucun. 1: un seul existe, 2: existe dans les deux)
References