[PYTHON] [Enquête] Kaggle - Résumé de la solution Quora 3e place
        
      
      
   
      
Kaggle --Quora Question Pairs [^ 1] Solution de 3e place [^ 2] article de recherche.
[3e place] Présentation de la solution 3e place
Author: Jared Turkewitz
Discussion URL: https://www.kaggle.com/c/quora-question-pairs/discussion/34288
architecture
--Utilisation de Neural Net, LightGBM, XGBoost
- La première couche d'empilement de modèles comprend 1300 fonctionnalités
--Utilisez LightGBM (5 fois plus rapide que XGboost, légèrement moins précis)
 
- Empilement de 15 modèles
--XGBoost est le meilleur pour un seul modèle (CV = 0,185)
 
Fonctionnalités du traitement du langage naturel
- Fonctionnalités de traitement du langage naturel: correspondance de mots, correspondance de mots similaire, etc.
--Distance entre TI-ID F et LDA
--Cooccurrence de mots (quantité d'informations mutuelles personnelles [^ 4]) [^ 7]
--Nombre de correspondances de mots
 
- Échelle de correspondance des mots flous (distance d'édition, distance N-gramme de caractères)
 
- LDA
--Word2Vec distance
--Caractéristiques par paroles de partie et expressions uniques [^ 5]
 
- mirror features
 
- Tel
 
Caractéristiques de la structure graphique
- Nombre commun de mots, fréquence, fréquence des questions uniquement pour la question 1, fréquence des questions uniquement pour la question 2, etc.
 
- Page Rank
--Commande
--Le plus court chemin
-Creak taille
 
Réseau neuronal
- LSTM bidirectionnel
--Expression distribuée
 
- GloVe appris
 
- partie de l'intégration de la parole
 
- incorporation d'entité nommée
--dependency parse incorporation [^ 6]
--siamese réseau [^ 3]
--Partie d'attention
- Softmax Matching
 
- Maxpool Matching
 
 
D'autres idées
- Ajuster sélectivement les prévisions en fonction de la fréquence des questions
 
References