[PYTHON] Ich habe einen Downloader für wortverteilte Ausdrücke erstellt

Verteilte Wortausdrücke werden üblicherweise in der modernen Verarbeitung natürlicher Sprache verwendet. In letzter Zeit wurden viele trainierte Modelle veröffentlicht, und es ist weniger notwendig, Zeit und Geld aufzuwenden, um selbst zu lernen. Obwohl es für die Öffentlichkeit zugänglich ist, dauert es viel Zeit, es zu finden und herunterzuladen.

Um dieses Problem zu beheben, habe ich einen Downloader für Wortverteilungsausdrücke erstellt. Der Name ist ** chakin **. chakki-works/chakin (Ich fühle mich motiviert, wenn Sie mir einen Stern geben m (__) m)

Das Merkmal von Chakin ist, dass es in Python geschrieben ist, mit pip installiert werden kann, von der Suche bis zum Download aus einer Hand ausgeführt werden kann und 23 Vektoren unterstützt (Stand: 29. Mai 2017). .. Wir planen, die Anzahl der unterstützten Vektoren in Zukunft zu erhöhen.

Mal sehen, wie man es benutzt.

Wie man Chakin benutzt

Die Installation ist einfach. Verwenden Sie pip, um den folgenden Befehl auszuführen:

$ pip install chakin

Sie können es nach der Installation verwenden. Sie müssen drei Codezeilen schreiben, um den Datensatz herunterzuladen. Versuchen wir diesmal, einen japanischen Datensatz für verteilte Darstellungen herunterzuladen. Starten Sie zunächst Python:

$ python

Importieren Sie nach dem Start von Python das installierte Chakin. Nach dem Import können Sie nach vorab trainierten Modellen suchen, indem Sie die Sprache (in diesem Fall Japanisch) in der Suchmethode angeben:

>>> import chakin
>>> chakin.search(lang='Japanese')
                         Name  Dimension     Corpus VocabularySize               Method  Language
6                fastText(ja)        300  Wikipedia           580K             fastText  Japanese
22  word2vec.Wiki-NEologd.50d         50  Wikipedia           335K   word2vec + NEologd  Japanese

Derzeit kann nur die Zielsprache gesucht werden. Dieser Bereich ist einer der Orte, an denen wir die Benutzerfreundlichkeit in Zukunft verbessern möchten.

Wenn Sie den Datensatz gefunden haben, den Sie herunterladen möchten, geben Sie dessen Index in der Download-Methode an, um ihn herunterzuladen. Dieses Mal habe ich ** 22 ** angegeben, was der Index von "word2vec.Wiki-NEologd.50d" ist:

>>> chakin.download(number=22, save_dir='./')
Test: 100% ||               | Time: 0:00:02  60.7 MiB/s
'./latest-ja-word2vec-gensim-model.zip'

Das ist alles für die Verwendung.

Unterstützte Vektoren

Derzeit werden die folgenden Vektoren unterstützt. Wir werden auch in Zukunft entsprechende Vektoren hinzufügen. Bitte verwenden Sie diese.

Name Dimension Corpus VocabularySize Method Language
fastText(ar) 300 Wikipedia 610K fastText Arabic
fastText(de) 300 Wikipedia 2.3M fastText German
fastText(en) 300 Wikipedia 2.5M fastText English
fastText(es) 300 Wikipedia 985K fastText Spanish
fastText(fr) 300 Wikipedia 1.2M fastText French
fastText(it) 300 Wikipedia 871K fastText Italian
fastText(ja) 300 Wikipedia 580K fastText Japanese
fastText(ko) 300 Wikipedia 880K fastText Korean
fastText(pt) 300 Wikipedia 592K fastText Portuguese
fastText(ru) 300 Wikipedia 1.9M fastText Russian
fastText(zh) 300 Wikipedia 330K fastText Chinese
GloVe.6B.50d 50 Wikipedia+Gigaword 5 (6B) 400K GloVe English
GloVe.6B.100d 100 Wikipedia+Gigaword 5 (6B) 400K GloVe English
GloVe.6B.200d 200 Wikipedia+Gigaword 5 (6B) 400K GloVe English
GloVe.6B.300d 300 Wikipedia+Gigaword 5 (6B) 400K GloVe English
GloVe.42B.300d 300 Common Crawl(42B) 1.9M GloVe English
GloVe.840B.300d 300 Common Crawl(840B) 2.2M GloVe English
GloVe.Twitter.25d 25 Twitter(27B) 1.2M GloVe English
GloVe.Twitter.50d 50 Twitter(27B) 1.2M GloVe English
GloVe.Twitter.100d 100 Twitter(27B) 1.2M GloVe English
GloVe.Twitter.200d 200 Twitter(27B) 1.2M GloVe English
word2vec.GoogleNews 300 Google News(100B) 3.0M word2vec English
word2vec.Wiki-NEologd.50d 50 Wikipedia 335K word2vec + NEologd Japanese

abschließend

Verteilte Darstellungen von vorgelernten Wörtern sind in der Verarbeitung natürlicher Sprache häufig und wichtig. Es ist jedoch überraschend mühsam, sie selbst zu finden. In diesem Artikel habe ich einen Downloader vorgestellt, den ich erstellt habe, um die Probleme zu beheben. Wir hoffen, Sie finden diesen Artikel hilfreich.

Ich twittere auch Informationen über maschinelles Lernen und die Verarbeitung natürlicher Sprachen in meinem Twitter-Konto. @Hironsan

Wir freuen uns auf Ihr Follow-up, wenn Sie an diesem Bereich interessiert sind.

Recommended Posts

Ich habe einen Downloader für wortverteilte Ausdrücke erstellt
Ich habe eine Bibliothek für versicherungsmathematische Versicherungen erstellt
Ich habe eine Python-Wörterbuchdatei für Neocomplete erstellt
〇✕ Ich habe ein Spiel gemacht
Ich habe einen Ersatz2-Algorithmus für uWSGI billiger gemacht
Ich habe ein nützliches Tool für Digital Ocean erstellt
[Python] Ich habe mit Tkinter einen Youtube Downloader erstellt.
Wir haben ein Peeping-Prevention-Produkt für die Telearbeit entwickelt.
Lassen Sie uns Chat-Benutzerverwaltungstool gemacht
Ich habe mit Tkinter ein Fenster für die Protokollausgabe erstellt
Ich habe ein Reinigungstool für Google Container Registry erstellt
Ich habe eine VM erstellt, auf der OpenCV für Python ausgeführt wird
[Python] Ich habe einen Klassifikator für Iris erstellt [Maschinelles Lernen]
Ich habe einen Python-Text gemacht
Befehl für FizzBuzz erstellt
Ich habe einen Zwietrachtbot gemacht
[VSCode] Ich habe ein Benutzer-Snippet für Python-Druck-F-String erstellt
Ich habe ein Tool erstellt, um eine Wortwolke aus Wikipedia zu erstellen
Ich habe einen Ressourcenmonitor für Raspberry Pi mit einer Tabelle erstellt
Ich habe ein Lernkit für word2vec / doc2vec / GloVe / fastText erstellt
Ich habe versucht, eine Gesichtsdiagnose-KI für professionelle Golferinnen zu erstellen ③
Ich habe eine C ++ - Lernseite erstellt
Ich berührte PyAutoIt für einen Moment
Ich habe einen Line-Bot mit Python gemacht!
Ich habe ein CUI-basiertes Übersetzungsskript erstellt (2)
Ich habe einen Wikipedia Gacha Bot gemacht
Ich habe mit Python eine Lotterie gemacht.
Ich habe ein CUI-basiertes Übersetzungsskript erstellt
Ich habe mit Python einen Daemon erstellt
Python> Ich habe einen Testcode für meine eigene externe Datei erstellt
Erstelltes WebSocket Client / Server-CLI-Tool (wie WebSocket Version Netcat)
Ich habe viele Dateien für die RDP-Verbindung mit Python erstellt
Ich habe eine Entwicklungsumgebung für Django 3.0 mit Docker, Docker-Compose und Poetry erstellt
Ich habe versucht, ein Gerüstwerkzeug für Python Web Framework Bottle zu erstellen
Ich habe eine Python-Wrapper-Bibliothek für die Docomo-Bilderkennungs-API erstellt.
Ich habe einen Docker-Container erstellt, um JUMAN ++, KNP, Python (für pyKNP) zu verwenden.
Ich habe einen neuen AWS S3-Eimer hergestellt
Ich habe ein Pay-Management-Programm in Python erstellt!
Ich berührte "Orator" und machte mir eine Notiz
[Ver1.3.1 Update] Ich habe DataLiner erstellt, eine Datenvorverarbeitungsbibliothek für maschinelles Lernen.
Ich habe ein alternatives Modul für japandas.DataReader erstellt
Anfänger: Ich habe einen Launcher mit dem Wörterbuch erstellt
Ich habe einen Gesprächspartner wie Siri gemacht
Ich habe ein Skript erstellt, um Piktogramme anzuzeigen
Ich habe mit Python eine Hex-Map erstellt
Ich habe ein Lebensspiel mit Numpy gemacht
Ich habe einen Hanko-Generator mit GAN gemacht
Ich habe ein automatisches Stempelwerkzeug für den Browser erstellt.
Nachdem ich Python3 studiert hatte, machte ich einen Slackbot
Ich habe mit Python ein schurkenhaftes Spiel gemacht
Ich habe mit Python einen einfachen Blackjack gemacht
Ich habe mit Python eine Einstellungsdatei erstellt
Ich habe eine WEB-Bewerbung bei Django gemacht
Ein Lehrbuch für Anfänger von Python-Anfängern
Ich habe mit Python einen Neuronensimulator erstellt
[Für Anfänger] Ich habe mit Raspberry Pi einen menschlichen Sensor erstellt und LINE benachrichtigt!
Ich habe einen Stempelersatzbot mit Linie gemacht
Ich habe mit Python eine Bot-Wettervorhersage gemacht.
Ich habe eine GUI-App mit Python + PyQt5 erstellt
Ich habe versucht, mit Python einen Twitter-Blocker für faule Mädchen zu machen