Beginn des Studiums: Samstag, 7. Dezember
Unterrichtsmaterialien usw.: ・ Miyuki Oshige "Details! Python3 Introductory Note ”(Sotech, 2017): 12/7 (Sa) -12/19 (Do) gelesen ・ Progate Python-Kurs (insgesamt 5 Kurse): Ende 12/19 (Donnerstag) -12/21 (Samstag) ・ Andreas C. Müller, Sarah Guido "(japanischer Titel) Maschinelles Lernen ab Python" (O'Reilly Japan, 2017): 21.12. (Sa) - 23. Dezember (Sa) ・ Kaggle: Real or Not? NLP mit Katastrophen-Tweets: Veröffentlicht am Samstag, 28. Dezember, bis Freitag, 3. Januar Einstellung ・ Wes Mckinney "(japanischer Titel) Einführung in die Datenanalyse von Python" (O'Reilly Japan, 2018): 1/4 (Mittwoch) bis 1/13 (Montag) gelesen ・ Yasuki Saito "Tiefes Lernen von Null" (O'Reilly Japan, 2016): 1/15 (Mi) -1/20 (Mo) ・ ** François Chollet „Tiefes Lernen mit Python und Keras“ (Queep, 2018): 1/21 (Di) ~ **
S.261 Kapitel 6 Deep Learning für Texte und Sequenzen Das Lesen ist zur Hälfte abgeschlossen.
Die Tokenisierung, mit der gestern zu kämpfen hatte, wurde abgeschlossen.
Datenvorverarbeitung (Verarbeitung natürlicher Sprache)
#type : pandas.core.series.Series
#In Kleinbuchstaben konvertieren
X_l = X.str.lower()
#Ersetzen Sie unnötige Zeichen durch Leerzeichen halber Breite.
X_r = X_l.replace(',', ' ').replace('.', ' ').replace('#', ' ').replace('#', ' ').replace('!', ' ').replace('!', ' ').replace(' ', ' ')
#Teilen Sie jedes Wort durch ein Leerzeichen halber Breite als Trennzeichen
X_s = X_r.str.split(' ')
#Gemeinsam definiert
def make_vector(df):
X_l = df.str.lower()
X_r = X_r = X_l.replace(',', ' ').replace('.', ' ').replace('#', ' ').replace('#', ' ').replace('!', ' ').replace('!', ' ').replace(' ', ' ')
X_s = X_r.str.split(' ')
return X_s
Nachdem wir den aus dem Datensatz abgerufenen Text mit einem Token versehen haben, müssen wir nur noch das definierte Modell trainieren. (Unter der Umsetzung)
Übrigens habe ich zuerst versucht, eins nach dem anderen herauszunehmen und es mit einer for-Anweisung wie folgt zu drehen, aber es funktioniert nicht. Ich fragte mich, ob es in Ordnung wäre, die Serie so wie sie ist vorzuverarbeiten, ohne sie herausnehmen zu müssen, also sah ich nach und stellte fest, dass es immer noch möglich war. Schreiben Sie unter Bezugnahme auf den Pandas-Beamten (API-Referenz, Serie) für die Vorverarbeitung Erfolgreich.
Recommended Posts