https://cloud.google.com/sdk/docs/quickstart-mac-os-x?hl=ja
https://cloud.google.com/natural-language/docs/common/auth?hl=ja#set_up_a_service_account
export GOOGLE_APPLICATION_CREDENTIALS="/Users/users/hoge/key.json"
https://cloud.google.com/natural-language/docs/getting-started?hl=ja
https://github.com/GoogleCloudPlatform/google-cloud-python python3.6 wird ebenfalls unterstützt
pip install --upgrade google-cloud
gcloud auth application-default login
https://googlecloudplatform.github.io/google-cloud-python/stable/language-responses.html#google.cloud.language.entity.Entity
https://googlecloudplatform.github.io/google-cloud-python/stable/language-usage.html Erstellen Sie eine praktische Klasse wie folgt:
from google.cloud import language
class GCNaturalLanguage(object):
def __init__(self, upper=10000):
# Instantiates a client
self.client = language.Client()
self.upper = upper
def get_entity(self, text):
length = len(text)
if length > self.upper:
print("{} .. too long".format(length))
return {}
document = self.client.document_from_text(text, language='ja')
# Detects the sentiment of the text
res = document.analyze_entities()
print("{} characters => done!".format(len(text)))
dic = {}
for entity in res.entities:
for m in entity.mentions:
dic.update({m.text.begin_offset: m.text.content})
return dic
Beispiel)
import GCNaturalLanguage
gcn = GCNaturalLanguage()
dic = gcn.get_entity("Ich habe versucht, in der Zugriffsanalyse eine domänenübergreifende Einstellung festzulegen")
print(dic)
# 21 characters => done!
# {0: 'Zugriffsanalyse', 7: 'Domänenübergreifend'}
Übrigens in MeCab,
#Mecab, das als erweitertes Wörterbuch beliebt ist-ipadic-Ich benutze neologd
$ mecab -d /usr/local/lib/mecab/dic/mecab-ipadic-neologd
Ich habe versucht, in der Zugriffsanalyse eine domänenübergreifende Einstellung festzulegen
Nomenklatur der Zugriffsanalyse,Proprietäre Nomenklatur,Allgemeines,*,*,*,Zugriffsanalyse,Zugang zu Kaiseki,Zugang zu Kaiseki
Hilfs,Fallassistent,Allgemeines,*,*,*,damit,De,De
Kreuz Nomen,Verbindung ändern,*,*,*,*,Kreuz,Kreuz,Kreuz
Domain-Nomenklatur,Allgemeines,*,*,*,*,Domain,Domain,Domain
Hilfs,Fallassistent,Allgemeines,*,*,*,Zu,Wo,Wo
Substantiv einstellen,Verbindung ändern,*,*,*,*,Aufbau,Rahmen,Rahmen
Shi Verb,Unabhängigkeit,*,*,Sahen / Suru,Kontinuierlicher Typ,Machen,Shi,Shi
Der Assistent,Verb verbinden,*,*,*,*,Hand,Te,Te
Mi Verb,Nicht unabhängig,*,*,Ein Schritt,Kontinuierlicher Typ,Aussicht,Mi.,Mi.
Hilfsverb,*,*,*,Besondere,Grundform,Ta,Ta,Ta
EOS
ist geworden. Sie können sehen, dass "Zugriffsanalyse" sowohl für die erstere als auch für die letztere gut gesagt wird. (Übrigens, wenn Sie die morphologische Analyse direkt als "Mecab" durchführen, ohne "Mecab-ipadic-neologd" als Argument zu verwenden, werden "Zugriff" und "Analyse" getrennt.)
Wenn Sie beispielsweise den Fachbegriff "domänenübergreifend" extrahieren möchten, können Sie ihn nicht direkt mit MeCab extrahieren. Wenn Sie also das externe Tool GCP Natural Language API verwenden, wird der Zweck erreicht. Um es in Zukunft verwenden zu können, empfiehlt es sich, das von GCP extrahierte Wort als neues Wort im Benutzerwörterbuch zu registrieren und es so zu verwenden, als ob Sie MeCab erneut verwenden möchten [^ add].
[^ add]: Ich habe die Details unter http://qiita.com/knknkn1162/items/8c12f42dd167aae01c02#_reference-aa421a94c959d84ff7fb geschrieben.
Recommended Posts