Wir haben die Dokumentklassifizierung mit dem Microsoft Cognitive Toolkit (CNTK) zusammengefasst.
In Teil 1 bereiten wir die Dokumentklassifizierung mit CNTK vor.
Ich werde sie in der folgenden Reihenfolge vorstellen.
Livedoor News Corpus
・ Deutsche Kommunikation ・ IT-Life-Hack ・ Haushaltsgerätekanal ・ Livedoor HOMME ・ FILM EINGABE ・ Pfirsichfarben ・ Esmax ・ Sportuhr ・ Themennachrichten
Dies ist ein Korpus, der aus 9 Arten von Artikeln besteht. Jede Artikeldatei unterliegt einer Creative Commons-Lizenz, deren Anzeige oder Änderung untersagt ist.
Rufen Sie die obige Seite auf und laden Sie ldcc-20140209.tar.gz herunter / entpacken Sie es.
Die Verzeichnisstruktur ist diesmal wie folgt.
Doc2Vec |―text |―... doc2vec_corpus.py Word2Vec
Bei der Vorverarbeitung von Textdaten werden die in Natürliche Sprache: Word2Vec Part1 - Japanischer Korpus implementierten Funktionen wiederverwendet.
Verwenden Sie zum Aufteilen von Wörtern Mecab, das auf dem NEologd-Wörterbuch basiert, um das Entfernen von Stoppwörtern durchzuführen.
Für die Bewertung der Modellleistung werden außerdem 10 Dokumente als Verifizierungsdaten von jeder Kategorie getrennt.
Diesmal wurden nach Computer Vision: Bildunterschrift Teil1 - STAIR-Untertitel Wörter, die nicht mehr als einmal vorkamen, durch UNK ersetzt.
Während des Trainings werden wir CTFDeserializer verwenden, einen der in CNTK integrierten Führungskräfte. Dieses Mal wird einem Dokument, das aus vielen Wörtern besteht, eine Kategoriebeschriftung zugewiesen.
Der allgemeine Verarbeitungsablauf des Programms, das sich auf Doc2Vec vorbereitet, ist wie folgt.
・ CPU Intel (R) Core (TM) i7-6700K 4,00 GHz
・ Windows 10 Pro 1909 ・ Python 3.6.6 ・ Mecab 0,996
Das implementierte Programm wird auf [GitHub] veröffentlicht (https://github.com/sho-watari/NaturalLanguage/tree/master/Doc2Vec).
doc2vec_corpus.py
Ich werde einige Teile des auszuführenden Programms extrahieren und ergänzen.
Der Inhalt des CTFDeserializers, der für diese Schulung verwendet wird, lautet wie folgt.
0 |word 346:1 |label 0:1
0 |word 535:1
0 |word 6880:1
...
1 |word 209:1 |label 0:1
1 |word 21218:1
1 |word 6301:1
...
Die Zahl ganz links steht für ein Dokument mit vielen Wörtern|Ein Kategorielabel für Dokumente, die aus Wörtern bestehen|Label ist vergeben.
Wenn das Programm ausgeführt wird, wird das Wortwörterbuch wie folgt erstellt und gespeichert.
Number of total words: 73794
Number of words: 45044
Saved word2id.
Saved id2word.
Now 1000 samples...
Now 2000 samples...
...
Now 7000 samples...
Number of training samples 7277
Number of validation samples 90
Jetzt, da wir bereit sind zu trainieren, wird Teil 2 CNTK verwenden, um Doc2Vec zu trainieren.
Computer Vision : Image Caption Part1 - STAIR Captions Natural Language : Word2Vec Part1 - Japanese Corpus
Recommended Posts