[PYTHON] Fiche d'apprentissage 11 (15e jour) Participation de Kaggle

Dossier d'apprentissage (15e jour)

Début des études: samedi 7 décembre

Matériel pédagogique, etc.: ・ Miyuki Oshige "Détails! Note d'introduction à Python3 »(Sotech, 2017): 19/12 (jeudi) Terminé ・ Cours Progate Python (5 cours au total): se termine le samedi 21 décembre ・ Andreas C. Müller, Sarah Guido "(titre japonais) Apprentissage automatique à partir de Python" (O'Reilly Japon, 2017): Terminé le samedi 23 décembre

Première participation de Kaggle

Concours de participation: Real or Not? NLP with Disaster Tweets 24/12 (mar.) ~

Le problème est de trier les tweets qui affichent des informations sur les catastrophes et ceux qui ne le font pas. En tant que champ, il correspond au traitement du langage naturel.

Il se tiendra jusqu'en mars de l'année prochaine, mais je voudrais soumettre une fois d'ici le 10 janvier (vendredi), environ deux semaines après aujourd'hui, au plus tard.

J'ai eu la chance de pouvoir former une équipe avec les gens du laboratoire d'une certaine université qui me sont redevables maintenant, c'est donc une situation très encourageante, mais je la sortirai fermement pour qu'elle ne soit pas fiable.

Prétraitement des données

・ Obtenez un aperçu des données avec head (), shape, describe () ・ Comprendre les valeurs manquantes et le nombre de données d'entraînement -Couper les pièces inutiles (éventuellement) avec drop ('nom de l'étiquette de données', axe = 1) -Extraire la partie de texte pertinente avec df ["nom de l'étiquette de données"] et la lister avec tolist ()

Extraction de données / création de corpus

-Définissez un mot d'arrêt (et ou ou) et divisez-le avec split () -Split en mots en utilisant des minuscules () à toutes les minuscules, et fractionné à utiliser pour la syntaxe -Output avec pprint () (Avec pprint, des sauts de ligne sont insérés pour chaque élément, ce qui le rend plus facile à voir.) ・ Comptez le nombre de fois qu'un mot apparaît et excluez celles qui sont inférieures au nombre de fois spécifié -La chaîne de mots complétée est convertie en dictionnaire en utilisant corpora.dictionary () de gensim (corpus terminé) ・ Convertir en modèle LDA

Bien que nous ayons réussi à vectoriser jusqu'à présent, nous avons remarqué que le nombre de dimensions a atteint plusieurs milliers car il vient d'être converti, et que la cible indiquant si les informations sur la catastrophe ou non n'est pas liée et les informations extraites ne sont pas liées. ..

Pour l'instant, je n'ai pas réfléchi à la manière de les connecter, mais je continuerai à défier demain.

Recommended Posts

Fiche d'apprentissage 11 (15e jour) Participation de Kaggle
Fiche d'apprentissage 13 (17e jour) Kaggle3
Fiche d'apprentissage 12 (16e jour) Kaggle2
Dossier d'apprentissage n ° 14 (18e jour) Kaggle4
Dossier d'apprentissage n ° 15 (19e jour) Kaggle5
Fiche d'apprentissage 4 (8e jour)
Fiche d'apprentissage 9 (13e jour)
Fiche d'apprentissage 3 (7e jour)
Fiche d'apprentissage 5 (9e jour)
Fiche d'apprentissage 6 (10e jour)
Fiche d'apprentissage 1 (4e jour)
Fiche d'apprentissage 7 (11e jour)
Fiche d'apprentissage 2 (6e jour)
Fiche d'apprentissage 16 (20e jour)
Dossier d'apprentissage 22 (26e jour)
Dossier d'apprentissage n ° 10 (14e jour)
Dossier d'apprentissage n ° 24 (28e jour)
Dossier d'apprentissage n ° 25 (29e jour)
Dossier d'apprentissage n ° 26 (30e jour)
Dossier d'apprentissage n ° 20 (24e jour)
Enregistrement d'apprentissage de la programmation 2ème jour
Dossier d'apprentissage n ° 17 (21e jour)
Dossier d'apprentissage n ° 18 (22e jour)
Dossier d'apprentissage n ° 19 (23e jour)
Dossier d'apprentissage n ° 28 (32e jour)
Dossier d'apprentissage n ° 27 (31e jour)
Dossier d'apprentissage
Dossier d'apprentissage n ° 3
Dossier d'apprentissage n ° 1
Fiche d'apprentissage (2ème jour) Scraping par #BeautifulSoup
Fiche d'apprentissage (4e jour) #Comment obtenir le chemin absolu à partir du chemin relatif
AtCoder 6th Challenge de Dwango Entrée préliminaire
Dossier d'apprentissage jusqu'à présent
concours yukicoder 266 Record de participation
yukicoder contest 263 Record de participation
concours yukicoder 243 Record de participation
yukicoder contest 273 Record de participation
concours yukicoder 252 Record de participation
concours yukicoder 259 Record de participation
concours yukicoder 249 Record de participation
yukicoder contest 242 Record de participation
concours yukicoder 241 Record de participation
yukicoder contest 257 Record de participation
yukicoder contest 246 Record de participation
concours yukicoder 275 Record de participation
Concours yukicoder 274 Record de participation
concours yukicoder 247 Record de participation
yukicoder contest 261 Record de participation
Fiche d'apprentissage Linux ① Planifier
yukicoder contest 248 Record de participation
Enregistrement d'apprentissage (6ème jour) #Set type #Dictionary type #Conversion automatique de l'ensemble de taples de liste #ndarray type #Pandas (type DataFrame)
Fiche d'apprentissage (3e jour) Méthode de description du sélecteur #CSS #Scraping avec BeautifulSoup
<Cours> Apprentissage en profondeur: Day2 CNN
yukicoder contest 270 (concours de mathématiques) Record de participation