[PYTHON] Publication d'un modèle entraîné de fastText

Nous avons publié un modèle entraîné de fastText. Vous pouvez télécharger le modèle entraîné à partir de:

Les informations sur le vecteur intégré sont résumées dans le référentiel suivant, veuillez donc également les consulter. awesome-embedding-models

Motivation Dans l'article suivant, j'ai collé le lien que icoxfog417 a publié sur GitHub.

Liste des vecteurs d'incorporation de mots prêts à l'emploi

Cependant, il y avait un problème en ce que Git LFS devait télécharger le vecteur publié et l'emplacement était difficile à comprendre. Par conséquent, cette fois, nous l'avons appris et publié afin qu'il puisse être facilement téléchargé.

How to make Je me suis référé à l'article suivant pour savoir comment utiliser fastText. C'est un bon article qui explique la théorie et l'utilisation de fastText.

Obtenez une expression distribuée de mots en Fast avec fastText sur Facebook

Les données utilisées pour l'apprentissage sont wikipedia 01/01/2017.

jawiki 20170101

Les paramètres Hyper sont définis comme suit. D'autres hyper paramètres utilisent le paramètre par défaut.

dim: 300
epoch: 10
minCount: 20

How to use Après avoir téléchargé les données, vous pouvez les charger comme suit. (Pour gensim)

import gensim

model = gensim.models.KeyedVectors.load_word2vec_format('model.vec', binary=False)

Les mots apparentés peuvent être trouvés comme suit.

>>> model.most_similar(positive=['Japonais'])
[('coréen', 0.7338133454322815),
 ('chinois', 0.717720627784729),
 ('américain', 0.6725355982780457),
 ('Femme japonaise', 0.6723321676254272),
 ('Étranger', 0.6420464515686035),
 ('Philippin', 0.6264426708221436),
 ('Occidentaux', 0.621786892414093),
 ('asiatique', 0.6192302703857422),
 ('Taïwanais', 0.6034690141677856),
 ('Nikkei', 0.5906497240066528)]

Good NLP Life!