[PYTHON] Dossier d'apprentissage n ° 28 (32e jour)

Dossier d'apprentissage (32e jour)

Début des études: samedi 7 décembre

Matériel pédagogique, etc.: ・ Miyuki Oshige "Détails! Note d'introduction à Python3 »(Sotech, 2017): 12/7 (sam) -12/19 (jeu) lu ・ Progate Python course (5 cours au total): 12/19 (jeudi) -12/21 (samedi) fin ・ Andreas C. Müller, Sarah Guido "(titre japonais) Apprentissage automatique à partir de Python" (O'Reilly Japon, 2017): 21/12 (sam) -23 décembre (sam) ・ Kaggle: Real or Not? NLP with Disaster Tweets: Publié du samedi 28 décembre au vendredi 3 janvier Ajustement ・ Wes Mckinney "(titre japonais) Introduction à l'analyse de données par Python" (O'Reilly Japon, 2018): 1/4 (mercredi) à 1/13 (lundi) lire ・ Yasuki Saito "Deep Learning from Zero" (O'Reilly Japan, 2016): 1/15 (mer) -1/20 (lun) ・ ** François Chollet «Deep Learning avec Python et Keras» (Queep, 2018): 1/21 (mar.) ~ **

"Apprentissage en profondeur avec Python et Keras"

p.244 Terminez la lecture jusqu'au Chapitre 6 Apprentissage profond des textes et des séquences.

Intégration de mots appris

-Réseau formé (intégration de mots): un réseau formé et enregistré sur un grand ensemble de données. ** Si l'ensemble de données utilisé est volumineux et polyvalent, la hiérarchie spatiale des entités entraînées est effectivement un modèle à usage général dans le même monde. ** **

Similaire à CNN (Pattern Movement Invariance, Spatial Hierarchy Learning) dans la classification d'images, si les fonctionnalités requises sont assez générales et ont des caractéristiques visuelles ou sémantiques générales, alors le langage naturel L'incorporation de mots appris est également avantageuse en traitement.

Le modèle entraîné est appliqué à la couche d'incorporation. La couche intégrée peut être facilement considérée comme un «dictionnaire qui mappe l'index d'un entier représentant un mot particulier à un vecteur dense». (Index des mots → ** Couche intégrée ** → Vecteur de mots correspondant)

Kaggle (Real or Not? NLP with Disaster Tweets) que j'ai essayé auparavant était un problème de traitement du langage naturel, alors maintenant ces Essai et erreur en essayant d'appliquer un modèle entraîné (gensim: glove-twitter) à l'ensemble de données.

Construire l'index sur la carte(Embedding)


gensim = '/Users/***/gensim-data/glove-twitter-100' #Extrayez le fichier ZIP à l'avance.

embedding_index = {}
f = open(os.path.join(gensim, 'glove-twitter-100'))
for line in f:
    values = line.split()
    word = values[0]
    coefs = np.asarray(values[1:], dtype = 'float32')
    embedding_index[word] = coefs
f.close()

print('Found %s word vectors.' % len (embedding_index))

#Found 1193515 word vectors.

Lutte

・ Tokenisation de train.csv ['text'] La dernière fois, j'ai pu effectuer une conversion par lots avec tfidf_vectorizer, mais cette fois, je dois le tokeniser à l'avance car il passe par la couche Embedding ... mais pour une raison quelconque, cela ne fonctionne pas. Dans le livre, il est traité par Tokenizer intégré dans les keras, j'ai donc essayé la même procédure, mais l'erreur suivante.

a.png

Utilisation complète de Google

Recommended Posts

Dossier d'apprentissage n ° 28 (32e jour)
Dossier d'apprentissage n ° 21 (25e jour)
Dossier d'apprentissage n ° 10 (14e jour)
Dossier d'apprentissage n ° 17 (21e jour)
Dossier d'apprentissage n ° 24 (28e jour)
Dossier d'apprentissage n ° 19 (23e jour)
Dossier d'apprentissage n ° 29 (33e jour)
Dossier d'apprentissage n ° 23 (27e jour)
Dossier d'apprentissage n ° 25 (29e jour)
Dossier d'apprentissage n ° 26 (30e jour)
Dossier d'apprentissage n ° 20 (24e jour)
Dossier d'apprentissage n ° 27 (31e jour)
Dossier d'apprentissage n ° 14 (18e jour) Kaggle4
Dossier d'apprentissage n ° 15 (19e jour) Kaggle5
Fiche d'apprentissage 4 (8e jour)
Fiche d'apprentissage 3 (7e jour)
Fiche d'apprentissage 5 (9e jour)
Fiche d'apprentissage 6 (10e jour)
Enregistrement d'apprentissage de la programmation 2ème jour
Fiche d'apprentissage 8 (12e jour)
Fiche d'apprentissage 1 (4e jour)
Fiche d'apprentissage 7 (11e jour)
Fiche d'apprentissage 2 (6e jour)
Fiche d'apprentissage 16 (20e jour)
Dossier d'apprentissage 22 (26e jour)
Fiche d'apprentissage (2ème jour) Scraping par #BeautifulSoup
Fiche d'apprentissage 13 (17e jour) Kaggle3
Fiche d'apprentissage 12 (16e jour) Kaggle2
Dossier d'apprentissage
Dossier d'apprentissage n ° 3
Dossier d'apprentissage n ° 1
Dossier d'apprentissage n ° 2
Fiche d'apprentissage 11 (15e jour) Participation de Kaggle
Apprentissage Python jour 4
Dossier d'apprentissage jusqu'à présent
Fiche d'apprentissage Linux ① Planifier
<Cours> Apprentissage en profondeur: Day2 CNN
Fiche d'apprentissage (3e jour) Méthode de description du sélecteur #CSS #Scraping avec BeautifulSoup
<Cours> Apprentissage en profondeur: Jour 1 NN
Sujets> Deep Learning: Day3 RNN
Étudiez en profondeur le Deep Learning [DW Day 0]
Fiche d'apprentissage (4e jour) #Comment obtenir le chemin absolu à partir du chemin relatif