[PYTHON] [Enquête] Kaggle - Résumé de la solution Quora 4e place
Kaggle --Quora Question Pairs [^ 1] Solution de 4e place [^ 2] article de recherche.
Titre: [4th] Overview of 4th-Place Solution
Author: HouJP
Discussion URL: https://www.kaggle.com/c/quora-question-pairs/discussion/34349
Code: https://github.com/HouJP/kaggle-quora-question-pairs
couler
- Prétraitement
- Extraction de fonctionnalités
- Construction de modèles
- Post-traitement
Cité de HouJP / kaggle-quora-question-pairs [^ 4]
Prétraitement
- Nettoyage du texte: correction des erreurs typographiques, traitement des symboles, restauration des acronymes, etc.
- Racine de mots: Snowball Stemmer [^ 3], etc.
--Suppression de mots partagés: suppression des mots qui apparaissent
Extraction de caractéristiques
--Plus de 1400 fonctionnalités
--Statistiques: ratio de mots communs, longueur de phrase, nombre de mots, etc.
--Traitement du langage naturel: analyse des arbres de syntaxe, nombre de mots négatifs, etc.
- Structure du graphique: PageRank, hits, chemin le plus court, taille du ruisseau, etc.
Construction de modèles
--Neural net, XGBoost, LightGBM, LogisticRegression (LB = 0,122 à 0,124 est le meilleur pour un seul modèle)
--140 empilement de modèles de modèles (amélioration de 0,007 sur LB)
Post-traitement
- Étant donné que la tendance des données était différente entre les données d'apprentissage et les données de test, il était nécessaire d'ajuster les poids.
- Diviser les données en fonction de la taille du ruisseau et ajuster le poids (cette opération améliore 0,001 sur LB)
References