Début des études: samedi 7 décembre
Matériel pédagogique, etc.: ・ Miyuki Oshige "Détails! Note d'introduction à Python3 »(Sotech, 2017): 19/12 (jeudi) Terminé ・ Cours Progate Python (5 cours au total): se termine le samedi 21 décembre ・ Andreas C. Müller, Sarah Guido "(titre japonais) Apprentissage automatique à partir de Python" (O'Reilly Japon, 2017): Terminé le samedi 23 décembre
Concours de participation: Real or Not? NLP with Disaster Tweets 24/12 (mar.) ~
Le problème est de trier les tweets qui affichent des informations sur les catastrophes et ceux qui ne le font pas. En tant que champ, il correspond au traitement du langage naturel.
Il se tiendra jusqu'en mars de l'année prochaine, mais je voudrais soumettre une fois d'ici le 10 janvier (vendredi), environ deux semaines après aujourd'hui, au plus tard.
J'ai eu la chance de pouvoir former une équipe avec les gens du laboratoire d'une certaine université qui me sont redevables maintenant, c'est donc une situation très encourageante, mais je la sortirai fermement pour qu'elle ne soit pas fiable.
・ Obtenez un aperçu des données avec head (), shape, describe () ・ Comprendre les valeurs manquantes et le nombre de données d'entraînement -Couper les pièces inutiles (éventuellement) avec drop ('nom de l'étiquette de données', axe = 1) -Extraire la partie de texte pertinente avec df ["nom de l'étiquette de données"] et la lister avec tolist ()
-Définissez un mot d'arrêt (et ou ou) et divisez-le avec split () -Split en mots en utilisant des minuscules () à toutes les minuscules, et fractionné à utiliser pour la syntaxe -Output avec pprint () (Avec pprint, des sauts de ligne sont insérés pour chaque élément, ce qui le rend plus facile à voir.) ・ Comptez le nombre de fois qu'un mot apparaît et excluez celles qui sont inférieures au nombre de fois spécifié -La chaîne de mots complétée est convertie en dictionnaire en utilisant corpora.dictionary () de gensim (corpus terminé) ・ Convertir en modèle LDA
Bien que nous ayons réussi à vectoriser jusqu'à présent, nous avons remarqué que le nombre de dimensions a atteint plusieurs milliers car il vient d'être converti, et que la cible indiquant si les informations sur la catastrophe ou non n'est pas liée et les informations extraites ne sont pas liées. ..
Pour l'instant, je n'ai pas réfléchi à la manière de les connecter, mais je continuerai à défier demain.
Recommended Posts