Les expressions distribuées de mots sont couramment utilisées dans le traitement moderne du langage naturel. Récemment, de nombreux modèles formés ont été publiés et il est moins nécessaire de dépenser du temps et de l'argent pour apprendre par soi-même. Cependant, même s'il est ouvert au public, il faut beaucoup de temps pour le trouver et le télécharger.

Pour éliminer ce problème, j'ai créé un téléchargeur d'expression de distribution de mots. Le nom est ** chakin **. chakki-works/chakin (Je me sens motivé si vous me donnez une étoile m (__) m)

La caractéristique de chakin est qu'il est écrit en Python et peut être installé avec pip, cela peut être fait de la recherche au téléchargement en un seul arrêt, et il prend en charge 23 vecteurs (au 29 mai 2017). .. Nous prévoyons d'augmenter le nombre de vecteurs pris en charge à l'avenir.

Voyons comment l'utiliser.

Comment utiliser chakin

L'installation est simple. Utilisez pip pour exécuter la commande suivante:

$ pip install chakin

Vous pouvez l'utiliser après l'installation. Vous devez écrire trois lignes de code pour télécharger l'ensemble de données. Cette fois, essayons de télécharger un jeu de données de représentation distribué japonais. Tout d'abord, lancez Python:

$ python

Après avoir lancé Python, importez le [chakin] installé (https://github.com/chakki-works/chakin). Après l'importation, vous pouvez rechercher des modèles pré-entraînés en spécifiant la langue (japonais dans ce cas) dans la méthode de recherche:

>>> import chakin
>>> chakin.search(lang='Japanese')
                         Name  Dimension     Corpus VocabularySize               Method  Language
6                fastText(ja)        300  Wikipedia           580K             fastText  Japanese
22  word2vec.Wiki-NEologd.50d         50  Wikipedia           335K   word2vec + NEologd  Japanese

Actuellement, seule la langue cible peut être recherchée. Ce domaine est l'un des endroits où nous voulons améliorer la convivialité à l'avenir.

Une fois que vous avez trouvé l'ensemble de données que vous souhaitez télécharger, spécifiez son index dans la méthode de téléchargement pour le télécharger. Cette fois, j'ai spécifié ** 22 **, qui est l'index de "word2vec.Wiki-NEologd.50d":

>>> chakin.download(number=22, save_dir='./')
Test: 100% ||               | Time: 0:00:02  60.7 MiB/s
'./latest-ja-word2vec-gensim-model.zip'

C'est tout pour savoir comment l'utiliser.

Vecteurs pris en charge

Il prend actuellement en charge les vecteurs suivants. Nous continuerons d'ajouter des vecteurs correspondants à l'avenir, veuillez donc les utiliser.

Name	Dimension	Corpus	VocabularySize	Method	Language
fastText(ar)	300	Wikipedia	610K	fastText	Arabic
fastText(de)	300	Wikipedia	2.3M	fastText	German
fastText(en)	300	Wikipedia	2.5M	fastText	English
fastText(es)	300	Wikipedia	985K	fastText	Spanish
fastText(fr)	300	Wikipedia	1.2M	fastText	French
fastText(it)	300	Wikipedia	871K	fastText	Italian
fastText(ja)	300	Wikipedia	580K	fastText	Japanese
fastText(ko)	300	Wikipedia	880K	fastText	Korean
fastText(pt)	300	Wikipedia	592K	fastText	Portuguese
fastText(ru)	300	Wikipedia	1.9M	fastText	Russian
fastText(zh)	300	Wikipedia	330K	fastText	Chinese
GloVe.6B.50d	50	Wikipedia+Gigaword 5 (6B)	400K	GloVe	English
GloVe.6B.100d	100	Wikipedia+Gigaword 5 (6B)	400K	GloVe	English
GloVe.6B.200d	200	Wikipedia+Gigaword 5 (6B)	400K	GloVe	English
GloVe.6B.300d	300	Wikipedia+Gigaword 5 (6B)	400K	GloVe	English
GloVe.42B.300d	300	Common Crawl(42B)	1.9M	GloVe	English
GloVe.840B.300d	300	Common Crawl(840B)	2.2M	GloVe	English
GloVe.Twitter.25d	25	Twitter(27B)	1.2M	GloVe	English
GloVe.Twitter.50d	50	Twitter(27B)	1.2M	GloVe	English
GloVe.Twitter.100d	100	Twitter(27B)	1.2M	GloVe	English
GloVe.Twitter.200d	200	Twitter(27B)	1.2M	GloVe	English
word2vec.GoogleNews	300	Google News(100B)	3.0M	word2vec	English
word2vec.Wiki-NEologd.50d	50	Wikipedia	335K	word2vec + NEologd	Japanese

en conclusion

Les représentations distribuées de mots pré-appris sont courantes et importantes dans le traitement du langage naturel. Cependant, il est étonnamment difficile de les trouver par vous-même. Dans cet article, j'ai présenté un téléchargeur que j'ai créé pour éliminer le problème. Nous espérons que vous trouverez cet article utile.

Je tweet également des informations sur l'apprentissage automatique et le traitement du langage naturel dans mon compte Twitter. @Hironsan

Nous nous réjouissons de votre suivi si vous êtes intéressé par ce domaine.

[PYTHON] J'ai créé un téléchargeur pour l'expression distribuée par mot

Comment utiliser chakin

Vecteurs pris en charge

en conclusion