Beginn des Studiums: Samstag, 7. Dezember
Unterrichtsmaterialien usw.: ・ Miyuki Oshige "Details! Python3 Introductory Note ”(Sotech, 2017): 19.12. (Donnerstag) Abgeschlossen ・ Progate Python-Kurs (insgesamt 5 Kurse): Endet am Samstag, den 21. Dezember ・ Andreas C. Müller, Sarah Guido "(japanischer Titel) Maschinelles Lernen ab Python" (O'Reilly Japan, 2017): Abschluss am Samstag, 23. Dezember
Teilnahmewettbewerb: Real or Not? NLP mit Katastrophen-Tweets 24.12. (Di) ~
Das Problem besteht darin, Tweets zu sortieren, die Informationen zu Katastrophen enthalten, und solche, die dies nicht tun. Als Feld entspricht es der Verarbeitung natürlicher Sprache.
Es wird bis März nächsten Jahres stattfinden, aber ich möchte es bis zum 10. Januar (Freitag), spätestens zwei Wochen nach dem heutigen Tag, einmal einreichen.
Ich hatte das Glück, mit den Leuten im Labor einer bestimmten Universität, die mir jetzt zu Dank verpflichtet sind, ein Team bilden zu können. Es ist also eine sehr ermutigende Situation, aber ich werde sie nachdrücklich ausgeben, damit sie nicht zuverlässig ist.
・ Verschaffen Sie sich mit head (), shape, description () einen Überblick über die Daten ・ Verstehen Sie die fehlenden Werte und die Anzahl der Trainingsdaten -Schneiden Sie unnötige (möglicherweise) Teile mit Tropfen ('Datenetikettenname', Achse = 1) -Extrahieren Sie den relevanten Textteil mit df ["Datenbezeichnungsname"] und listen Sie ihn mit tolist () auf.
-Definieren Sie ein Stoppwort (und oder oder) und teilen Sie es mit split ()
Obwohl die Vektorisierung bisher erfolgreich war, habe ich festgestellt, dass die Anzahl der Dimensionen mehrere Tausend erreicht hat, weil sie gerade konvertiert wurde, und dass das Ziel angibt, ob die Informationen über die Katastrophe nicht mit den extrahierten Informationen verknüpft sind. ..
Im Moment habe ich nicht darüber nachgedacht, wie ich sie verbinden soll, aber ich werde morgen weiter herausfordern.
Recommended Posts