Ich habe versucht, es mit der Python-Version von jieba zu verwenden. [Andere Programmiersprachenversionen sind ebenfalls verfügbar](https://github.com/fxsjy/jieba#%E5%85%B6%E4%BB%96%E8%AF%AD%E8%A8%80%E5% AE% 9E% E7% 8E% B0).
$ pip install jieba
>>> import jieba
>>> text = "Ich bin Absolvent der Universität Tokio. Hayagami 10 Punkte gestartet."
#"Ich werde morgen eine Klasse an der Universität von Tokio besuchen. Ab 10 Uhr morgens."
Der Rückgabewert von jieba.cut
ist ein Generator
Der Rückgabewert von jieba.lcut
ist eine Liste
Der Rückgabewert von jieba.cut_for_search
ist ein Generator
Der Rückgabewert von jieba.lcut_for_search
ist eine Liste
Accurate Mode
>>> segments = jieba.cut(text)
>>> list(segments)
['ich', 'Mingten', 'Verlassen', 'Universität Tokio', 'Obere 课', '。', 'Hayagami', 'Zehn Punkte', 'Start', '。']
>>> segments = jieba.lcut(text)
>>> segments
['ich', 'Mingten', 'Verlassen', 'Universität Tokio', 'Obere 课', '。', 'Hayagami', 'Zehn Punkte', 'Start', '。']
** Tokyo University ** ist ein Wort, schön!
Full Mode
Auf cut_all = True
setzen.
>>> segments = jieba.cut(text, cut_all=True)
>>> list(segments)
['ich', 'Mingten', 'Verlassen', 'Tokio', 'TokioUniversität', 'Universität', 'Wissenschaftlich', 'Obere 课', '。', 'Hayagami', 'Zehn Punkte', 'Start', '。']
>>> segments = jieba.lcut(text, cut_all=True)
>>> segments
['ich', 'Mingten', 'Verlassen', 'Tokio', 'TokioUniversität', 'Universität', 'Wissenschaftlich', 'Obere 课', '。', 'Hayagami', 'Zehn Punkte', 'Start', '。']
Search Engine Mode
>>> segments = jieba.cut_for_search(text)
>>> list(segments)
['ich', 'Mingten', 'Verlassen', 'Tokio', 'Universität', 'TokioUniversität', 'Obere 课', '。', 'Hayagami', 'Zehn Punkte', 'Start', '。']
>>> segments = jieba.lcut_for_search(text)
>>> segments
['ich', 'Mingten', 'Verlassen', 'Tokio', 'Universität', 'TokioUniversität', 'Obere 课', '。', 'Hayagami', 'Zehn Punkte', 'Start', '。']
>>> import jieba.analyse
>>> text = '''
...Der Fortschritt der Globalisierung beschleunigt sich ständig und die Front des Rennens beschleunigt sich ständig. Anpassung dieser trivialen Herausforderung, jede Art von Talent erfordert Kommunikation, Stromerzeugung, Engagement-Widmungsplan, gemeinsame Eroberung dieses trivialen Globalisierungsproblems. Vor dem Hintergrund dieser Art war er ein talentierter Mensch, und er wurde widerstrebend der Schulter der Universität Tokio zugewiesen. Unendlicher Mut nach unserem General, Weisheit und Verantwortung, direkter Widerstand gegen diese triviale Herausforderung.
...Gakuseisei, and 赀 driving. 跅 巅 寋 庸 庸 Misstrauen und wissenschaftliche treibende Kraft. Gegenstipendium unterwegs, Gelehrter des Jahres, Gelehrter der Universität, Stipendium, Stipendium, Stipendium, Stipendium und Stipendium. Das skrupellose nationale Büro der Universität Tokio ist ein trivialer Student, ein von Wissenschaftlern bereitgestellter langfristiger Boden, ein guter Ort für die Wohlfahrtsgesellschaft.
...Die Universität von Tokio, die sich jetzt in einer einfachen Position befindet, ist ein einzigartiges Flaggschiff auf der Vorder- und Rückseite der Ost- und Westkulturen. 秉 踉 輠 觉 识 识 识 识 识 识 识 识 识 识 识 识 识 识 虛 Universität Tokio, nationale Welt, Kultur, Mauerbruch des Jahres, transzendentale literarische Weltgrenze der neuen wissenschaftlichen Forschung, Ausstellung für die Zusammenarbeit zwischen Industrie, Regierung und Wissenschaft. Dies ist das erste Ziel, die Nachfrage nach Hälsen, Exzellenz, Internationalität, Forschungsinstitut für duale Forschung, parallele Extremausstellung, interdisziplinäre Ausstellung zur Entwicklung neuer Wissenschaftsbereiche....Das Dekret der Universität Tokio, die Macht der Universität Tokio, der Weltfrieden, die Produktion des menschlichen Wohlergehens und das zeitlose Angebot. Moderne soziale Entwicklung, Eigenbedarf, Nachfrage, allgemeine wissenschaftliche Forschung, neue Zeit. Gleichzeitig mit dem ansässigen Vormund ist eine Systemreform unmöglich oder unmöglich. Gleichzeitig mit der Reform der Ausbildung der Studenten im Grundstudium, der institutionellen grundlegenden Transformation des Forschungsstudenten, dem Wissen des Boten und der Unabhängigkeit der Studenten. Hinzu kommen die Förderung der Nachfrage, die Reform des Personalsystems, die Gleichstellung von Männern und Frauen, die Gleichstellung von Männern und Frauen sowie der qualitative Charakter der Dynamik der Humanressourcen. Unangemessenes Problem mit einem Problem, Beförderung Die oben erwähnte Reformprämisse, die oben erwähnte Reformprämisse, die soziale Glaubwürdigkeit, die Sympathie des Stipendiums, das Stipendium des Stipendiums, das Stipendium des Forschers
...Der sich ständig ändernde Slogan, die Macht unserer selbst, die Universität Tokio, die Entwicklung des japanischen Volksbüros oder die Universität der Welt.
... '''
Der Text lautet Chinesische Version des Präsidenten des Dialogs der Universität Tokio.
>>> keywords = jieba.analyse.extract_tags(text, topK=20, withWeight=False, allowPOS=())
>>> keywords
['Universität Tokio', 'Hartnäckig', 'Vertrauen', 'Wissenschaft', 'Herausforderung', 'Menschliches Talent', 'Physik', 'Weisheit', 'Forschungsstudenteninstitut', '爱', 'Wissenschaft研究', 'Shinshin', 'Beförderung', 'Globalisierung', 'Reform', 'Kaken', 'Das ist trivial', 'Kraftvoll', 'Gefühl der Freude', 'Ritsu']
Hört sich gut an. Es ist ein bisschen anders als japanisches Kanji, aber es ist fast lesbar.
>>> keywords = jieba.analyse.textrank(text, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))
>>> keywords
['Strategie', 'Weisheit', 'Shinshin', 'Wissenschaft', 'Ausstellung', 'Nachfrage', 'Reform', 'Menschliches Talent', 'Beförderung', 'Kaken', 'Herausforderung', 'Tatsächlich', 'Bereich', 'Wille', 'Gesellschaft', 'Wissenschaft研究', 'Menschheit', 'Kultur', 'Physik', 'Yuga']
Es hat viele andere Funktionen, Sie können mit dem Wörterbuch, den Tag-Teilen usw. spielen. Weitere Informationen finden Sie unter Offiziell. Die erste Hälfte von README.md ist auf Chinesisch, aber die zweite Hälfte ist ins Englische übersetzt.
Der Autor hat nichts mit der Universität Tokio zu tun.
Recommended Posts