Es ist fast immer notwendig, morphologische Analysen zu verwenden, wenn Dinge im Zusammenhang mit der Verarbeitung natürlicher Sprache ausgeführt werden. Morphologische Analysatoren, die Japanisch verwenden können, sind "MeCab" und "JUMAN ++. jp / index.php? JUMAN ++) "ist berühmt. Dieses Mal werden wir JUMAN ++ einführen und morphologische Analysen durchführen.
Der Inhalt dieses Artikels ist wie folgt.
Die Verarbeitung natürlicher Sprache (Englisch: Verarbeitung natürlicher Sprache, Abkürzung: NLP) ist eine Reihe von Technologien, mit denen ein Computer die natürliche Sprache verarbeiten kann, die Menschen täglich verwenden. Sie wird in der künstlichen Intelligenz und Linguistik verwendet. Es ist ein Feld. [Verarbeitung natürlicher Sprache | Wikipedia](https://ja.wikipedia.org/wiki/Natürliche Sprachverarbeitung)
** "Auf den Punkt gebracht" **: Technologie, die die Sprache verarbeitet, die Menschen normalerweise auf einem Computer verwenden
Die morphologische Analyse reicht von Textdaten (Sätzen) in natürlicher Sprache ohne Anmerkungen zu grammatikalischen Informationen bis zu Informationen wie der Grammatik der Zielsprache und den Teiltexten von Wörtern, die als Wörterbücher bezeichnet werden. Ursprünglich ist es die Arbeit, morphologische Elemente in Spalten zu unterteilen (Morpheme, grob gesagt, die kleinste Einheit, die in der Sprache eine Bedeutung hat) und den Teil jedes morphologischen Elements zu unterscheiden.
** "In einem Wort" **: Ein Prozess, der einen bestimmten Satz in die kleinsten aussagekräftigen Wörter unterteilt und Informationen zu Teiltexten usw. hinzufügt. Was ist JUMAN ++? JUMAN ++ ist vom Kurohashi / Kawahara-Labor der Universität Kyoto. Es ist ein entwickeltes morphologisches Hochleistungsanalysesystem. Unter Verwendung von RNNLM als Sprachmodell wird eine Analyse unter Berücksichtigung der semantischen Natürlichkeit der Wortsequenz durchgeführt. Die grundlegende Genauigkeit ändert sich nicht, aber zusätzlich zu der guten Wortverbindung scheint in einigen Punkten eine höhere Genauigkeit als bei MeCab bestätigt worden zu sein. Es scheint jedoch langsamer zu sein als andere. Wenn Sie also Echtzeitleistung benötigen, sollten Sie MeCab verwenden.
** "Auf den Punkt gebracht" **: Ein leistungsstarker morphologischer Analysator auf Japanisch, der möglicherweise genauer als MeCab ist.
Betriebsumgebung
Beginnen wir nun mit der Einführung von JUMAN ++. Dieses Mal werden wir JUMAN ++ in Linux einführen.
Informationen zu Mac-Benutzern finden Sie unter hier.
Dies sind die beiden Websites, auf die ich mich bezogen habe.
Installieren Sie zunächst zwei vorausgesetzte Pakete für die Verwendung von JUMAN ++.
gcc (4,9 oder höher)
Boost C ++ Libraries (1.57 oder höher)
Es gibt viele Leute, die gcc bereits installiert haben. Machen Sie sich also keine Sorgen, aber seien Sie vorsichtig, da ein Fehler auftritt, es sei denn, Boost ist 1.57 oder höher.
Installieren Sie als Nächstes JUMAN ++ selbst.
$ wget http://lotus.kuee.kyoto-u.ac.jp/nl-resource/jumanpp/jumanpp-1.01.tar.xz
$ tar xJvf jumanpp-1.01.tar.xz
$ cd jumanpp-1.01
$ ./configure
$ make
$ make install
JUMAN ++ ist jetzt installiert! Standardmäßig wird es in / usr / local / installiert. Wenn Sie also das Installationsziel angeben möchten, klicken Sie auf ./configure Fügen Sie die Option --prefix = / path hinzu.
Versuchen Sie es sofort.
$ jumanpp
Ich begann morphologische Analyse zu studieren
Form Keitai Form Nase 6 Gewöhnliche Nase 1* 0 * 0 "Repräsentative Notation:bilden/Keitai Kategorie:Form / Muster"
Elementare Nase 6 Gewöhnliche Nase 1* 0 * 0 "Repräsentative Notation:Grundstufe/Also Kanji lesen:Klangkategorie:Abstrakt"
Analyse Kaiseki Analyse Nominal 6 Sahen Nomen 2* 0 * 0 "Repräsentative Notation:Analyse/Kaiseki Kategorie:Abstrakte Domain:Bildung / Lernen;Wissenschaft und Technik"
Nono kein Assistent 9 Verbindungsassistent 3* 0 * 0 NIL
Studie Benkyo Studie Nomen 6 Sahen Nomen 2* 0 * 0 "Repräsentative Notation:Studie/Benkyo Kategorie:Abstrakte Domain:Bildung / Lernen"
Zu Hilfs 9 Fall Hilfs 1* 0 * 0 NIL
Begin Begin Begin Verb 2*0 Vokalverb 1 Grundform 8"Repräsentative Notation:Start/Anfang Angehängter Verbkandidat (grundlegend) Selbst-anderes Verb:Selbst:Start/Rebellion, die beginnt:Verb:Fertig/Ja"
Masu Masu Suffix 14 Verb Sex Suffix 7 Verb Sex Suffix Typ 31 ta Form 7"Repräsentative Notation:Masu/Masu"
.. .. .. Spezial 1 Satz 1* 0 * 0 NIL
EOS
Die ausführbare Datei für JUMAN ++ ist jumanpp. In meiner Umgebung befand es sich in / bin im Zielordner. Die morphologische Analyse war mit JUMAN ++ erfolgreich!
Als nächstes werden wir JUMAN ++ aus Python verwenden.
JUMAN ++ ist in Python mit PyKNP verfügbar. Wenn Sie bei Verwendung von PyKNP JUMAN und KNP nicht in der aktuellen Umgebung enthalten sind, müssen Sie beide installieren.
Ich habe auf die folgende Seite verwiesen. Verwenden von JUMAN ++ aus Python
Bitte verwenden Sie die Referenzseite für die oben genannten drei Installationsmethoden.
Rufen wir endlich JUMAN ++ aus Python auf!
python_jumanpp.py
#-*- encoding: utf-8 -*-
from pyknp import Jumanpp
import sys
import codecs
sys.stdin = codecs.getreader('utf_8')(sys.stdin)
sys.stdout = codecs.getwriter('utf_8')(sys.stdout)
# Use Juman++ in subprocess mode
jumanpp = Jumanpp()
result = jumanpp.analysis(u"Ich fing an, natürliche Sprache zu verarbeiten.")
for mrph in result.mrph_list():
print u"Überschrift:%s" % (mrph.midasi)
$ python python_jumanpp.py
Überschrift:Natur
Überschrift:Sprache
Überschrift:wird bearbeitet
Überschrift:Start
Überschrift:War
Überschrift:。
Sie haben JUMAN ++ von Python erfolgreich verwendet!
das ist alles
Recommended Posts