[PYTHON] Veröffentlichung eines geschulten Modells von fastText

Wir haben ein geschultes Modell von fastText veröffentlicht. Sie können das trainierte Modell herunterladen von:

Die Informationen zum eingebetteten Vektor sind im folgenden Repository zusammengefasst. Überprüfen Sie sie daher auch. awesome-embedding-models

Motivation Im folgenden Artikel habe ich den Link eingefügt, den icoxfog417 auf GitHub veröffentlicht hat.

Liste der gebrauchsfertigen Worteinbettungsvektoren

Es gab jedoch ein Problem, dass Git LFS zum Herunterladen des veröffentlichten Vektors erforderlich war und der Speicherort schwer zu verstehen war. Daher haben wir es dieses Mal gelernt und veröffentlicht, damit es leicht heruntergeladen werden kann.

How to make Ich habe auf den folgenden Artikel verwiesen, um zu erfahren, wie man fastText verwendet. Dies ist ein guter Artikel, der die Theorie und Verwendung von fastText erklärt.

Mit fastText auf Facebook einen verteilten Ausdruck von Wörtern in Fast erhalten

Die zum Lernen verwendeten Daten sind Wikipedia 2017/01/01.

jawiki 20170101

Hyperparameter werden wie folgt eingestellt. Andere Hyperparameter verwenden die Standardeinstellung.

dim: 300
epoch: 10
minCount: 20

How to use Nach dem Herunterladen der Daten können Sie diese wie folgt laden. (Für Gensim)

import gensim

model = gensim.models.KeyedVectors.load_word2vec_format('model.vec', binary=False)

Verwandte Wörter können wie folgt gefunden werden.

>>> model.most_similar(positive=['japanisch'])
[('Koreanisch', 0.7338133454322815),
 ('Chinesisch', 0.717720627784729),
 ('amerikanisch', 0.6725355982780457),
 ('Japanerin', 0.6723321676254272),
 ('Ausländer', 0.6420464515686035),
 ('Philippinisch', 0.6264426708221436),
 ('Westler', 0.621786892414093),
 ('asiatisch', 0.6192302703857422),
 ('Taiwanese', 0.6034690141677856),
 ('Nikkei', 0.5906497240066528)]

Good NLP Life!