[PYTHON] Versuchen Sie es mit Jieba, einer chinesischen morphologischen Analyse-Engine

Chinesische morphologische Analyse-Engine Jieba

Ich habe versucht, es mit der Python-Version von jieba zu verwenden. [Andere Programmiersprachenversionen sind ebenfalls verfügbar](https://github.com/fxsjy/jieba#%E5%85%B6%E4%BB%96%E8%AF%AD%E8%A8%80%E5% AE% 9E% E7% 8E% B0).

Installation

$ pip install jieba

Textsegmentierung

>>> import jieba
>>> text = "Ich bin Absolvent der Universität Tokio. Hayagami 10 Punkte gestartet."
#"Ich werde morgen eine Klasse an der Universität von Tokio besuchen. Ab 10 Uhr morgens."

Der Rückgabewert von jieba.cut ist ein Generator Der Rückgabewert von jieba.lcut ist eine Liste Der Rückgabewert von jieba.cut_for_search ist ein Generator Der Rückgabewert von jieba.lcut_for_search ist eine Liste

Accurate Mode

>>> segments = jieba.cut(text)
>>> list(segments)
['ich', 'Mingten', 'Verlassen', 'Universität Tokio', 'Obere 课', '。', 'Hayagami', 'Zehn Punkte', 'Start', '。']
>>> segments = jieba.lcut(text)
>>> segments
['ich', 'Mingten', 'Verlassen', 'Universität Tokio', 'Obere 课', '。', 'Hayagami', 'Zehn Punkte', 'Start', '。']

** Tokyo University ** ist ein Wort, schön! Full Mode Auf cut_all = True setzen.

>>> segments = jieba.cut(text, cut_all=True)
>>> list(segments)
['ich', 'Mingten', 'Verlassen', 'Tokio', 'TokioUniversität', 'Universität', 'Wissenschaftlich', 'Obere 课', '。', 'Hayagami', 'Zehn Punkte', 'Start', '。']
>>> segments = jieba.lcut(text, cut_all=True)
>>> segments
['ich', 'Mingten', 'Verlassen', 'Tokio', 'TokioUniversität', 'Universität', 'Wissenschaftlich', 'Obere 课', '。', 'Hayagami', 'Zehn Punkte', 'Start', '。']

Search Engine Mode

>>> segments = jieba.cut_for_search(text)
>>> list(segments)
['ich', 'Mingten', 'Verlassen', 'Tokio', 'Universität', 'TokioUniversität', 'Obere 课', '。', 'Hayagami', 'Zehn Punkte', 'Start', '。']
>>> segments = jieba.lcut_for_search(text)
>>> segments
['ich', 'Mingten', 'Verlassen', 'Tokio', 'Universität', 'TokioUniversität', 'Obere 课', '。', 'Hayagami', 'Zehn Punkte', 'Start', '。']

Schlüsselwortextraktion

>>> import jieba.analyse
>>> text = '''
...Der Fortschritt der Globalisierung beschleunigt sich ständig und die Front des Rennens beschleunigt sich ständig. Anpassung dieser trivialen Herausforderung, jede Art von Talent erfordert Kommunikation, Stromerzeugung, Engagement-Widmungsplan, gemeinsame Eroberung dieses trivialen Globalisierungsproblems. Vor dem Hintergrund dieser Art war er ein talentierter Mensch, und er wurde widerstrebend der Schulter der Universität Tokio zugewiesen. Unendlicher Mut nach unserem General, Weisheit und Verantwortung, direkter Widerstand gegen diese triviale Herausforderung.
...Gakuseisei, and 赀 driving. 跅 巅 寋 庸 庸 Misstrauen und wissenschaftliche treibende Kraft. Gegenstipendium unterwegs, Gelehrter des Jahres, Gelehrter der Universität, Stipendium, Stipendium, Stipendium, Stipendium und Stipendium. Das skrupellose nationale Büro der Universität Tokio ist ein trivialer Student, ein von Wissenschaftlern bereitgestellter langfristiger Boden, ein guter Ort für die Wohlfahrtsgesellschaft.
...Die Universität von Tokio, die sich jetzt in einer einfachen Position befindet, ist ein einzigartiges Flaggschiff auf der Vorder- und Rückseite der Ost- und Westkulturen. 秉 踉 輠 觉 识 识 识 识 识 识 识 识 识 识 识 识 识 识 虛 Universität Tokio, nationale Welt, Kultur, Mauerbruch des Jahres, transzendentale literarische Weltgrenze der neuen wissenschaftlichen Forschung, Ausstellung für die Zusammenarbeit zwischen Industrie, Regierung und Wissenschaft. Dies ist das erste Ziel, die Nachfrage nach Hälsen, Exzellenz, Internationalität, Forschungsinstitut für duale Forschung, parallele Extremausstellung, interdisziplinäre Ausstellung zur Entwicklung neuer Wissenschaftsbereiche....Das Dekret der Universität Tokio, die Macht der Universität Tokio, der Weltfrieden, die Produktion des menschlichen Wohlergehens und das zeitlose Angebot. Moderne soziale Entwicklung, Eigenbedarf, Nachfrage, allgemeine wissenschaftliche Forschung, neue Zeit. Gleichzeitig mit dem ansässigen Vormund ist eine Systemreform unmöglich oder unmöglich. Gleichzeitig mit der Reform der Ausbildung der Studenten im Grundstudium, der institutionellen grundlegenden Transformation des Forschungsstudenten, dem Wissen des Boten und der Unabhängigkeit der Studenten. Hinzu kommen die Förderung der Nachfrage, die Reform des Personalsystems, die Gleichstellung von Männern und Frauen, die Gleichstellung von Männern und Frauen sowie der qualitative Charakter der Dynamik der Humanressourcen. Unangemessenes Problem mit einem Problem, Beförderung Die oben erwähnte Reformprämisse, die oben erwähnte Reformprämisse, die soziale Glaubwürdigkeit, die Sympathie des Stipendiums, das Stipendium des Stipendiums, das Stipendium des Forschers
...Der sich ständig ändernde Slogan, die Macht unserer selbst, die Universität Tokio, die Entwicklung des japanischen Volksbüros oder die Universität der Welt.
... '''

Der Text lautet Chinesische Version des Präsidenten des Dialogs der Universität Tokio.

Extraktion durch tf-idf-Wert

>>> keywords = jieba.analyse.extract_tags(text, topK=20, withWeight=False, allowPOS=())
>>> keywords
['Universität Tokio', 'Hartnäckig', 'Vertrauen', 'Wissenschaft', 'Herausforderung', 'Menschliches Talent', 'Physik', 'Weisheit', 'Forschungsstudenteninstitut', '爱', 'Wissenschaft研究', 'Shinshin', 'Beförderung', 'Globalisierung', 'Reform', 'Kaken', 'Das ist trivial', 'Kraftvoll', 'Gefühl der Freude', 'Ritsu']

Hört sich gut an. Es ist ein bisschen anders als japanisches Kanji, aber es ist fast lesbar.

Extraktion basierend auf TextRank

>>> keywords = jieba.analyse.textrank(text, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))
>>> keywords
['Strategie', 'Weisheit', 'Shinshin', 'Wissenschaft', 'Ausstellung', 'Nachfrage', 'Reform', 'Menschliches Talent', 'Beförderung', 'Kaken', 'Herausforderung', 'Tatsächlich', 'Bereich', 'Wille', 'Gesellschaft', 'Wissenschaft研究', 'Menschheit', 'Kultur', 'Physik', 'Yuga']

Andere

Es hat viele andere Funktionen, Sie können mit dem Wörterbuch, den Tag-Teilen usw. spielen. Weitere Informationen finden Sie unter Offiziell. Die erste Hälfte von README.md ist auf Chinesisch, aber die zweite Hälfte ist ins Englische übersetzt.

Der Autor hat nichts mit der Universität Tokio zu tun.

Recommended Posts

Versuchen Sie es mit Jieba, einer chinesischen morphologischen Analyse-Engine
Versuchen Sie die Clusteranalyse mit K-Mitteln
Japanische morphologische Analyse mit Janome
Versuchen Sie es mit der Twitter-API
Versuchen Sie es mit der Twitter-API
Versuchen Sie es mit der PeeringDB 2.0-API
Versuchen Sie es mit dem Python Cmd-Modul
Aktivieren Sie die morphologische Analyse-Engine MeCab in Python 3 (Version März 2016).
Versuchen Sie es mit dem Webanwendungsframework Flask
Versuchen Sie, die Kraken-API mit Python zu verwenden
Versuchen Sie, das HL-Band der Reihe nach zu verwenden
Versuchen Sie, die Kamera mit Pythons OpenCV zu verwenden
Verkürzung der Analysezeit von Openpose mithilfe von Sound
Versuchen Sie es mit der BitFlyer Ligntning API in Python
Python: Versuchen Sie, die Benutzeroberfläche von Pythonista 3 auf dem iPad zu verwenden
Versuchen Sie es mit dem Python-Webframework Tornado Part 1
Versuchen Sie es vorerst mit LINE Notify
Versuchen Sie es mit dem Sammlungsmodul (ChainMap) von python3
Versuchen Sie es mit dem Python-Webframework Tornado Part 2
Versuchen Sie, die DropBox Core-API mit Python zu verwenden
Die erste künstliche Intelligenz. Ich wollte die Verarbeitung natürlicher Sprache ausprobieren, daher werde ich die morphologische Analyse mit MeCab mit Python3 versuchen.
Versuchen Sie es mit Docker-Py
Versuchen Sie es mit einem Ausstecher
Versuchen Sie es mit PDFMiner
[Für Anfänger] Sprachanalyse mit dem Verarbeitungswerkzeug "GiNZA" (von der morphologischen Analyse bis zur Vektorisierung)
Versuchen Sie es mit Geopandas
Versuchen Sie es mit Selen
Versuchen Sie es mit scipy
Versuchen Sie es mit pandas.DataFrame
Versuchen Sie es mit Django-Swiftbrowser
Versuchen Sie es mit matplotlib
Versuchen Sie es mit tf.metrics
Versuchen Sie es mit PyODE
Erläuterung des Konzepts der Regressionsanalyse mit Python Teil 2
Big-Data-Analyse mit dem Datenflusskontroll-Framework Luigi
Versuchen Sie es mit dem Temperatursensor (LM75B) mit Raspeye.
Erläuterung des Konzepts der Regressionsanalyse mit Python Teil 1
100 Sprachverarbeitung Knock-30 (unter Verwendung von Pandas): Lesen der Ergebnisse der morphologischen Analyse
Erläuterung des Konzepts der Regressionsanalyse mit Python Extra 1