Verteilte Wortausdrücke werden üblicherweise in der modernen Verarbeitung natürlicher Sprache verwendet. In letzter Zeit wurden viele trainierte Modelle veröffentlicht, und es ist weniger notwendig, Zeit und Geld aufzuwenden, um selbst zu lernen. Obwohl es für die Öffentlichkeit zugänglich ist, dauert es viel Zeit, es zu finden und herunterzuladen.
Um dieses Problem zu beheben, habe ich einen Downloader für Wortverteilungsausdrücke erstellt. Der Name ist ** chakin **. chakki-works/chakin (Ich fühle mich motiviert, wenn Sie mir einen Stern geben m (__) m)
Das Merkmal von Chakin ist, dass es in Python geschrieben ist, mit pip installiert werden kann, von der Suche bis zum Download aus einer Hand ausgeführt werden kann und 23 Vektoren unterstützt (Stand: 29. Mai 2017). .. Wir planen, die Anzahl der unterstützten Vektoren in Zukunft zu erhöhen.
Mal sehen, wie man es benutzt.
Die Installation ist einfach. Verwenden Sie pip, um den folgenden Befehl auszuführen:
$ pip install chakin
Sie können es nach der Installation verwenden. Sie müssen drei Codezeilen schreiben, um den Datensatz herunterzuladen. Versuchen wir diesmal, einen japanischen Datensatz für verteilte Darstellungen herunterzuladen. Starten Sie zunächst Python:
$ python
Importieren Sie nach dem Start von Python das installierte Chakin. Nach dem Import können Sie nach vorab trainierten Modellen suchen, indem Sie die Sprache (in diesem Fall Japanisch) in der Suchmethode angeben:
>>> import chakin
>>> chakin.search(lang='Japanese')
Name Dimension Corpus VocabularySize Method Language
6 fastText(ja) 300 Wikipedia 580K fastText Japanese
22 word2vec.Wiki-NEologd.50d 50 Wikipedia 335K word2vec + NEologd Japanese
Derzeit kann nur die Zielsprache gesucht werden. Dieser Bereich ist einer der Orte, an denen wir die Benutzerfreundlichkeit in Zukunft verbessern möchten.
Wenn Sie den Datensatz gefunden haben, den Sie herunterladen möchten, geben Sie dessen Index in der Download-Methode an, um ihn herunterzuladen. Dieses Mal habe ich ** 22 ** angegeben, was der Index von "word2vec.Wiki-NEologd.50d" ist:
>>> chakin.download(number=22, save_dir='./')
Test: 100% || | Time: 0:00:02 60.7 MiB/s
'./latest-ja-word2vec-gensim-model.zip'
Das ist alles für die Verwendung.
Derzeit werden die folgenden Vektoren unterstützt. Wir werden auch in Zukunft entsprechende Vektoren hinzufügen. Bitte verwenden Sie diese.
Name | Dimension | Corpus | VocabularySize | Method | Language |
---|---|---|---|---|---|
fastText(ar) | 300 | Wikipedia | 610K | fastText | Arabic |
fastText(de) | 300 | Wikipedia | 2.3M | fastText | German |
fastText(en) | 300 | Wikipedia | 2.5M | fastText | English |
fastText(es) | 300 | Wikipedia | 985K | fastText | Spanish |
fastText(fr) | 300 | Wikipedia | 1.2M | fastText | French |
fastText(it) | 300 | Wikipedia | 871K | fastText | Italian |
fastText(ja) | 300 | Wikipedia | 580K | fastText | Japanese |
fastText(ko) | 300 | Wikipedia | 880K | fastText | Korean |
fastText(pt) | 300 | Wikipedia | 592K | fastText | Portuguese |
fastText(ru) | 300 | Wikipedia | 1.9M | fastText | Russian |
fastText(zh) | 300 | Wikipedia | 330K | fastText | Chinese |
GloVe.6B.50d | 50 | Wikipedia+Gigaword 5 (6B) | 400K | GloVe | English |
GloVe.6B.100d | 100 | Wikipedia+Gigaword 5 (6B) | 400K | GloVe | English |
GloVe.6B.200d | 200 | Wikipedia+Gigaword 5 (6B) | 400K | GloVe | English |
GloVe.6B.300d | 300 | Wikipedia+Gigaword 5 (6B) | 400K | GloVe | English |
GloVe.42B.300d | 300 | Common Crawl(42B) | 1.9M | GloVe | English |
GloVe.840B.300d | 300 | Common Crawl(840B) | 2.2M | GloVe | English |
GloVe.Twitter.25d | 25 | Twitter(27B) | 1.2M | GloVe | English |
GloVe.Twitter.50d | 50 | Twitter(27B) | 1.2M | GloVe | English |
GloVe.Twitter.100d | 100 | Twitter(27B) | 1.2M | GloVe | English |
GloVe.Twitter.200d | 200 | Twitter(27B) | 1.2M | GloVe | English |
word2vec.GoogleNews | 300 | Google News(100B) | 3.0M | word2vec | English |
word2vec.Wiki-NEologd.50d | 50 | Wikipedia | 335K | word2vec + NEologd | Japanese |
Verteilte Darstellungen von vorgelernten Wörtern sind in der Verarbeitung natürlicher Sprache häufig und wichtig. Es ist jedoch überraschend mühsam, sie selbst zu finden. In diesem Artikel habe ich einen Downloader vorgestellt, den ich erstellt habe, um die Probleme zu beheben. Wir hoffen, Sie finden diesen Artikel hilfreich.
Ich twittere auch Informationen über maschinelles Lernen und die Verarbeitung natürlicher Sprachen in meinem Twitter-Konto. @Hironsan
Wir freuen uns auf Ihr Follow-up, wenn Sie an diesem Bereich interessiert sind.