Beginn des Studiums: Samstag, 7. Dezember
Unterrichtsmaterialien usw.: ・ Miyuki Oshige "Details! Python3 Introductory Note ”(Sotech, 2017): 12/7 (Sa) -12/19 (Do) gelesen ・ Progate Python-Kurs (insgesamt 5 Kurse): Ende 12/19 (Donnerstag) -12/21 (Samstag) ・ Andreas C. Müller, Sarah Guido "(japanischer Titel) Maschinelles Lernen ab Python" (O'Reilly Japan, 2017): 21.12. (Sa) - 23. Dezember (Sa) ・ Kaggle: Real or Not? NLP mit Katastrophen-Tweets: Veröffentlicht am Samstag, 28. Dezember, bis Freitag, 3. Januar Einstellung ・ Wes Mckinney "(japanischer Titel) Einführung in die Datenanalyse von Python" (O'Reilly Japan, 2018): 1/4 (Mittwoch) bis 1/13 (Montag) gelesen ・ Yasuki Saito "Tiefes Lernen von Null" (O'Reilly Japan, 2016): 1/15 (Mi) -1/20 (Mo) ・ ** François Chollet „Tiefes Lernen mit Python und Keras“ (Queep, 2018): 1/21 (Di) ~ **
S.244 Lesen Sie weiter bis Kapitel 6 Deep Learning für Texte und Sequenzen.
Ähnlich wie bei CNN (Pattern Movement Invariance, Spatial Hierarchy Learning) bei der Bildklassifizierung, wenn die erforderlichen Merkmale ziemlich allgemein sind und allgemeine visuelle oder semantische Merkmale aufweisen, dann natürliche Sprache Das Einbetten des gelernten Wortes ist auch bei der Verarbeitung vorteilhaft.
Das trainierte Modell wird auf die Einbettungsschicht angewendet. Die eingebettete Schicht kann leicht als "Wörterbuch" betrachtet werden, das den Index einer Ganzzahl, die ein bestimmtes Wort darstellt, einem dichten Vektor zuordnet. (Wortindex → ** Eingebettete Ebene ** → Entsprechender Wortvektor)
Kaggle (Real or Not? NLP mit Katastrophen-Tweets), das ich zuvor ausprobiert habe, war ein Problem bei der Verarbeitung natürlicher Sprache Versuch und Irrtum beim Versuch, ein trainiertes Modell (gensim: glove-twitter) auf den Datensatz anzuwenden.
Index zur Zuordnung erstellen(Embedding)
gensim = '/Users/***/gensim-data/glove-twitter-100' #Extrahieren Sie die ZIP-Datei im Voraus.
embedding_index = {}
f = open(os.path.join(gensim, 'glove-twitter-100'))
for line in f:
values = line.split()
word = values[0]
coefs = np.asarray(values[1:], dtype = 'float32')
embedding_index[word] = coefs
f.close()
print('Found %s word vectors.' % len (embedding_index))
#Found 1193515 word vectors.
・ Tokenisierung von train.csv ['text'] Das letzte Mal konnte ich eine Stapelkonvertierung mit tfidf_vectorizer durchführen, aber dieses Mal muss ich sie im Voraus tokenisieren, da sie die Einbettungsschicht durchläuft ... aber aus irgendeinem Grund funktioniert sie nicht. In dem Buch wird es von Tokenizer verarbeitet, der in Keras eingebaut ist, daher habe ich das gleiche Verfahren versucht, aber den folgenden Fehler.
Volle Nutzung von Google
Recommended Posts