Début des études: samedi 7 décembre
Matériel pédagogique, etc.: ・ Miyuki Oshige "Détails! Note d'introduction à Python3 »(Sotech, 2017): 12/7 (sam) -12/19 (jeu) lu ・ Progate Python course (5 cours au total): 12/19 (jeudi) -12/21 (samedi) fin ・ Andreas C. Müller, Sarah Guido "(titre japonais) Apprentissage automatique à partir de Python" (O'Reilly Japon, 2017): 21/12 (sam) -23 décembre (sam) ・ Kaggle: Real or Not? NLP with Disaster Tweets: Publié du samedi 28 décembre au vendredi 3 janvier Ajustement ・ Wes Mckinney "(titre japonais) Introduction à l'analyse de données par Python" (O'Reilly Japon, 2018): 1/4 (mercredi) à 1/13 (lundi) lire ・ Yasuki Saito "Deep Learning from Zero" (O'Reilly Japan, 2016): 1/15 (mer) -1/20 (lun) ・ ** François Chollet «Deep Learning avec Python et Keras» (Queep, 2018): 1/21 (mar.) ~ **
p.244 Terminez la lecture jusqu'au Chapitre 6 Apprentissage profond des textes et des séquences.
-Réseau formé (intégration de mots): un réseau formé et enregistré sur un grand ensemble de données. ** Si l'ensemble de données utilisé est volumineux et polyvalent, la hiérarchie spatiale des entités entraînées est effectivement un modèle à usage général dans le même monde. ** **
Similaire à CNN (Pattern Movement Invariance, Spatial Hierarchy Learning) dans la classification d'images, si les fonctionnalités requises sont assez générales et ont des caractéristiques visuelles ou sémantiques générales, alors le langage naturel L'incorporation de mots appris est également avantageuse en traitement.
Le modèle entraîné est appliqué à la couche d'incorporation. La couche intégrée peut être facilement considérée comme un «dictionnaire qui mappe l'index d'un entier représentant un mot particulier à un vecteur dense». (Index des mots → ** Couche intégrée ** → Vecteur de mots correspondant)
Kaggle (Real or Not? NLP with Disaster Tweets) que j'ai essayé auparavant était un problème de traitement du langage naturel, alors maintenant ces Essai et erreur en essayant d'appliquer un modèle entraîné (gensim: glove-twitter) à l'ensemble de données.
Construire l'index sur la carte(Embedding)
gensim = '/Users/***/gensim-data/glove-twitter-100' #Extrayez le fichier ZIP à l'avance.
embedding_index = {}
f = open(os.path.join(gensim, 'glove-twitter-100'))
for line in f:
values = line.split()
word = values[0]
coefs = np.asarray(values[1:], dtype = 'float32')
embedding_index[word] = coefs
f.close()
print('Found %s word vectors.' % len (embedding_index))
#Found 1193515 word vectors.
・ Tokenisation de train.csv ['text'] La dernière fois, j'ai pu effectuer une conversion par lots avec tfidf_vectorizer, mais cette fois, je dois le tokeniser à l'avance car il passe par la couche Embedding ... mais pour une raison quelconque, cela ne fonctionne pas. Dans le livre, il est traité par Tokenizer intégré dans les keras, j'ai donc essayé la même procédure, mais l'erreur suivante.
Utilisation complète de Google
Recommended Posts