Ich habe nicht viele einfache Möglichkeiten gefunden, um Synonyme auf Japanisch zu erhalten, wenn ich die Verarbeitung natürlicher Sprache mit Python durchführe, daher werde ich es zusammenfassen.
Dieses Mal werden wir das Wordnet von NLTK und die Funktion Open Multilingual Wordnet für den Umgang mit Japanisch verwenden.
pip install nltk
python -c "import nltk;nltk.download('wordnet')"
python -c "import nltk;nltk.download('omw)"
Synset ist eine in Wordnet definierte Konzepteinheit. Lassen Sie uns versuchen, ein Synset für das Wort "Reis" zu erhalten und die Definition zu sehen.
from nltk.corpus import wordnet
synsets = wordnet.synsets("Reis",lang='jpn')
for syn in synsets:
print(syn,":",syn.definition())
# Synset('rice.n.01') : grains used as food either unpolished or more often polished
# Synset('united_states.n.01') : North American republic containing 50 states - 48 conterminous states in North America plus Alaska in northwest North America and the Hawaiian Islands in the Pacific Ocean; achieved independence in 1776
# Synset('meter.n.01') : the basic unit of length adopted under the Systeme International d'Unites (approximately 1.094 yards)
Es kann bestätigt werden, dass "Lebensmittel", "Amerika" und "Meter" als Konzept für "Reis" registriert sind.
Da Wörter, die zum Konzept gehören, in Synset registriert sind, können sie als Synonyme erhalten werden. Versuchen Sie, ein Synonym für "Reis" als "Lebensmittel" zu erhalten.
rice_synset=synsets[0]
synonyms=rice_synset.lemma_names("jpn")
print(synonyms)
# ['Reis', 'Reis', 'Omanma', 'USA.', 'Reis angehoben', 'Reis einem Gott angeboten', 'Yagi', 'Reis', 'Kissenreis', 'Reisproduktion', 'Frucht des Reisfeldes', 'weißer Reis', 'Gott Reis', 'Korn', 'Reis', 'Reis孫', 'Korn', 'Reis', 'ReisKorn', 'ReisLebensmittel', '粮Reis', '糧Reis', 'Sari', '褻Reis', 'Silberreis', 'Reis', 'Lebensmittel', 'LebensmittelReis']
Ich konnte gute Synonyme wie "Reis" und "Reis" erwerben.
Mit dem Open Multilingual Wordnet von NLTK konnte ich problemlos nach Synonymen aus Python suchen. Als Einschränkung werden für einige Wörter mehrere Konzepte registriert, sodass es notwendig erscheint, ein geeignetes Synset auszuwählen, um keine Synonyme zu erhalten, die sich von den beabsichtigten unterscheiden.
das ist alles
Recommended Posts