Wir haben ein geschultes Modell von fastText veröffentlicht. Sie können das trainierte Modell herunterladen von:
Die Informationen zum eingebetteten Vektor sind im folgenden Repository zusammengefasst. Überprüfen Sie sie daher auch. awesome-embedding-models
Motivation Im folgenden Artikel habe ich den Link eingefügt, den icoxfog417 auf GitHub veröffentlicht hat.
Es gab jedoch ein Problem, dass Git LFS zum Herunterladen des veröffentlichten Vektors erforderlich war und der Speicherort schwer zu verstehen war. Daher haben wir es dieses Mal gelernt und veröffentlicht, damit es leicht heruntergeladen werden kann.
How to make Ich habe auf den folgenden Artikel verwiesen, um zu erfahren, wie man fastText verwendet. Dies ist ein guter Artikel, der die Theorie und Verwendung von fastText erklärt.
Die zum Lernen verwendeten Daten sind Wikipedia 2017/01/01.
Hyperparameter werden wie folgt eingestellt. Andere Hyperparameter verwenden die Standardeinstellung.
How to use Nach dem Herunterladen der Daten können Sie diese wie folgt laden. (Für Gensim)
import gensim
model = gensim.models.KeyedVectors.load_word2vec_format('model.vec', binary=False)
Verwandte Wörter können wie folgt gefunden werden.
>>> model.most_similar(positive=['japanisch'])
[('Koreanisch', 0.7338133454322815),
('Chinesisch', 0.717720627784729),
('amerikanisch', 0.6725355982780457),
('Japanerin', 0.6723321676254272),
('Ausländer', 0.6420464515686035),
('Philippinisch', 0.6264426708221436),
('Westler', 0.621786892414093),
('asiatisch', 0.6192302703857422),
('Taiwanese', 0.6034690141677856),
('Nikkei', 0.5906497240066528)]
Good NLP Life!
Recommended Posts