[PYTHON] [Enquête] Kaggle - Résumé de la solution Quora 3e place
Kaggle --Quora Question Pairs [^ 1] Solution de 3e place [^ 2] article de recherche.
[3e place] Présentation de la solution 3e place
Author: Jared Turkewitz
Discussion URL: https://www.kaggle.com/c/quora-question-pairs/discussion/34288
architecture
--Utilisation de Neural Net, LightGBM, XGBoost
- La première couche d'empilement de modèles comprend 1300 fonctionnalités
--Utilisez LightGBM (5 fois plus rapide que XGboost, légèrement moins précis)
- Empilement de 15 modèles
--XGBoost est le meilleur pour un seul modèle (CV = 0,185)
Fonctionnalités du traitement du langage naturel
- Fonctionnalités de traitement du langage naturel: correspondance de mots, correspondance de mots similaire, etc.
--Distance entre TI-ID F et LDA
--Cooccurrence de mots (quantité d'informations mutuelles personnelles [^ 4]) [^ 7]
--Nombre de correspondances de mots
- Échelle de correspondance des mots flous (distance d'édition, distance N-gramme de caractères)
- LDA
--Word2Vec distance
--Caractéristiques par paroles de partie et expressions uniques [^ 5]
- mirror features
- Tel
Caractéristiques de la structure graphique
- Nombre commun de mots, fréquence, fréquence des questions uniquement pour la question 1, fréquence des questions uniquement pour la question 2, etc.
- Page Rank
--Commande
--Le plus court chemin
-Creak taille
Réseau neuronal
- LSTM bidirectionnel
--Expression distribuée
- GloVe appris
- partie de l'intégration de la parole
- incorporation d'entité nommée
--dependency parse incorporation [^ 6]
--siamese réseau [^ 3]
--Partie d'attention
- Softmax Matching
- Maxpool Matching
D'autres idées
- Ajuster sélectivement les prévisions en fonction de la fréquence des questions
References