[PYTHON] Essayez d'utiliser jieba, un moteur d'analyse morphologique chinois

Moteur d'analyse morphologique chinois Jieba

J'ai essayé de l'utiliser avec la version Python de jieba. [D'autres versions de langage de programmation sont également disponibles](https://github.com/fxsjy/jieba#%E5%85%B6%E4%BB%96%E8%AF%AD%E8%A8%80%E5% AE% 9E% E7% 8E% B0).

Installation

$ pip install jieba

Segmentation de texte

>>> import jieba
>>> text = "Je suis diplômé de l'Université de Tokyo. Hayagami 10 points a commencé."
#"J'assisterai demain à un cours à l'Université de Tokyo. A partir de 10 heures du matin."

La valeur de retour de jieba.cut est un générateur La valeur de retour de jieba.lcut est une liste La valeur de retour de jieba.cut_for_search est un générateur La valeur de retour de jieba.lcut_for_search est une liste

Accurate Mode

>>> segments = jieba.cut(text)
>>> list(segments)
['je', 'Mingten', 'En quittant', 'Université de Tokyo', 'Supérieur', '。', 'Hayagami', 'Dix points', 'Début', '。']
>>> segments = jieba.lcut(text)
>>> segments
['je', 'Mingten', 'En quittant', 'Université de Tokyo', 'Supérieur', '。', 'Hayagami', 'Dix points', 'Début', '。']

** Université de Tokyo ** est un mot, sympa! Full Mode Défini sur cut_all = True.

>>> segments = jieba.cut(text, cut_all=True)
>>> list(segments)
['je', 'Mingten', 'En quittant', 'Tokyo', 'TokyoUniversité', 'Université', 'Académiquement', 'Supérieur', '。', 'Hayagami', 'Dix points', 'Début', '。']
>>> segments = jieba.lcut(text, cut_all=True)
>>> segments
['je', 'Mingten', 'En quittant', 'Tokyo', 'TokyoUniversité', 'Université', 'Académiquement', 'Supérieur', '。', 'Hayagami', 'Dix points', 'Début', '。']

Search Engine Mode

>>> segments = jieba.cut_for_search(text)
>>> list(segments)
['je', 'Mingten', 'En quittant', 'Tokyo', 'Université', 'TokyoUniversité', 'Supérieur', '。', 'Hayagami', 'Dix points', 'Début', '。']
>>> segments = jieba.lcut_for_search(text)
>>> segments
['je', 'Mingten', 'En quittant', 'Tokyo', 'Université', 'TokyoUniversité', 'Supérieur', '。', 'Hayagami', 'Dix points', 'Début', '。']

Extraction de mots-clés

>>> import jieba.analyse
>>> text = '''
...Les progrès de la mondialisation s'accélèrent constamment et le front de la course s'accélère constamment. Adaptation à ce défi trivial, chaque type de talent demande la production de puissance de communication, le plan de dévouement, la conquête conjointe de ce problème de mondialisation trivial. Dans ce contexte, c'est une personne talentueuse qui travaille comme guide, et est affectée à contrecœur aux épaules de l'Université de Tokyo. Un courage infini après notre général, notre sagesse et notre mission, opposition directe à ce défi insignifiant.
...Gakusei Seisuke, 攀 贵 赀 跅 巅 巋 寋 庸 躸 En face de la bourse d'études sur la route, boursier de l'année, boursier de l'université, bourse, bourse, bourse, bourse, bourse, bourse, bourse et bourse. Bureau national sans scrupules de l'Université de Tokyo, il s'agit d'un étudiant insignifiant, d'une terre à long terme fournie par un érudit, d'une société de construction de terrains conviviale pour les messagers.
...L'Université de Tokyo, désormais dans une position simple, est un fleuron unique à l'avant et à l'arrière des cultures de l'Est et de l'Ouest. 秉 踉 輠, avenir prospectif, achèvement de l'aspiration de l'Université de Tokyo à chaque cérémonie talent humain 汇 汇 汇 汇 汇 汇 汇 汇 汇 汇 觛, Université de Tokyo, monde national, culture, abattre le mur de l'année, limite du monde littéraire transcendantal de la recherche scientifique d'un nouveau domaine, exposition de collaboration industrie-gouvernement-université. C'est le premier objectif, la demande pour le cou, l'excellence, l'internationalité, l'institut d'étudiant de recherche à double usage et l'exposition parallèle....Bourse de l'Université de Tokyo, puissance de l'Université de Tokyo, paix mondiale, production de bien-être humain, offre intemporelle. Développement social moderne, demande pour nous-mêmes, demande de développement, recherche scientifique générale et temps nouveau. En même temps que le tuteur résident, la réforme du système est impossible ou impossible. Parallèlement à la réforme de la formation des étudiants de premier cycle, la transformation fondamentale de l'institut de recherche, les connaissances du messager et l'indépendance des étudiants. En plus de cela, la promotion de la demande, la réforme du système du personnel, l'égalité des hommes et des femmes, l'égalité des hommes et des femmes, et le caractère qualitatif de la dynamique des ressources humaines. Problème déraisonnable à un problème, promotion La prémisse de réforme mentionnée ci-dessus, la prémisse de réforme susmentionnée, la crédibilité sociale, la sympathie de la bourse, la bourse de la bourse, la bourse du chercheur
...La poussée continue du nouveau, le pouvoir de nous-mêmes, le développement de l'Université de Tokyo, le développement du bureau du peuple japonais ou de l'université du monde.
... '''

Le texte sera The University of Tokyo President's Dialogue Chinese Version.

Extraction par valeur tf-idf

>>> keywords = jieba.analyse.extract_tags(text, topK=20, withWeight=False, allowPOS=())
>>> keywords
['Université de Tokyo', 'Persistant', 'Confiance', 'Science', 'Défi', 'Talent humain', 'La physique', 'Sagesse', 'Institut étudiant de recherche', '爱', 'Science研究', 'Shinshin', 'Promotion', 'Globalisation', 'réforme', 'Kaken', 'Ce trivial', 'Puissant', 'Sentiment de joie', 'Ritsu']

Ça m'a l'air bien. C'est un peu différent des kanji japonais, mais c'est presque lisible.

Extraction basée sur TextRank

>>> keywords = jieba.analyse.textrank(text, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))
>>> keywords
['Stratégie', 'Sagesse', 'Shinshin', 'Science', 'Exposition', 'demande', 'réforme', 'Talent humain', 'Promotion', 'Kaken', 'Défi', 'Réel', 'Zone', 'Volonté', 'société', 'Science研究', 'Humanité', 'culture', 'La physique', 'Yuga']

Autre

Il a de nombreuses autres fonctionnalités, Vous pouvez jouer avec le dictionnaire, les parties de balises, etc., il semble donc préférable de regarder Officiel pour plus de détails. La première moitié de README.md est en chinois, mais la seconde moitié est traduite en anglais.

L'auteur n'a rien à voir avec l'Université de Tokyo.

Recommended Posts

Essayez d'utiliser jieba, un moteur d'analyse morphologique chinois
Essayez l'analyse de cluster par K-means
Analyse morphologique japonaise avec Janome
Essayez d'utiliser l'API Twitter
Essayez d'utiliser l'API Twitter
Essayez d'utiliser l'API PeeringDB 2.0
Essayez d'utiliser le module Python Cmd
Activer le moteur d'analyse morphologique MeCab en Python3 (version mars 2016)
Essayez d'utiliser le framework d'application Web Flask
Essayez d'utiliser l'API Kraken avec Python
Essayez d'utiliser la bande HL dans l'ordre
Essayez d'utiliser l'appareil photo avec OpenCV de Python
Raccourcir le temps d'analyse d'Openpose à l'aide du son
Essayez d'utiliser l'API BitFlyer Ligntning en Python
Python: essayez d'utiliser l'interface utilisateur sur Pythonista 3 sur iPad
Essayez d'utiliser le framework Web Python Tornado Partie 1
Essayez d'utiliser LINE Notify pour le moment
Essayez d'utiliser le module de collections (ChainMap) de python3
Essayez d'utiliser le framework Web Python Tornado Partie 2
Essayez d'utiliser l'API DropBox Core avec Python
La première intelligence artificielle. Je voulais essayer le traitement du langage naturel, donc je vais essayer l'analyse morphologique en utilisant MeCab avec python3.
Essayez d'utiliser docker-py
Essayez d'utiliser Cookiecutter
Essayez d'utiliser PDFMiner
[Pour les débutants] Analyse du langage à l'aide de l'outil de traitement du langage naturel "GiNZA" (de l'analyse morphologique à la vectorisation)
Essayez d'utiliser des géopandas
Essayez d'utiliser Selenium
Essayez d'utiliser scipy
Essayez d'utiliser pandas.DataFrame
Essayez d'utiliser django-swiftbrowser
Essayez d'utiliser matplotlib
Essayez d'utiliser tf.metrics
Essayez d'utiliser PyODE
Explication du concept d'analyse de régression à l'aide de python Partie 2
Analyse de Big Data à l'aide du framework de contrôle de flux de données Luigi
Essayez d'utiliser le capteur de température (LM75B) avec Raspeye.
Explication du concept d'analyse de régression à l'aide de Python Partie 1
100 Language Processing Knock-30 (en utilisant des pandas): lecture des résultats de l'analyse morphologique
Explication du concept d'analyse de régression à l'aide de Python Extra 1