[Jouons avec Python] Viser la génération automatique de phrases ~ Effectuer une analyse morphologique ~

introduction

Il y a une histoire où AI a écrit des phrases, et récemment, un manga réalisé après avoir appris le manga de Tezuka Osamu a été réalisé. Un tel niveau est difficile, mais j'ai pu générer automatiquement des phrases en regardant le livre, je vais donc le résumer. Cela s'étendra plusieurs fois, mais je pense que je vais le faire lentement.

Image pour générer des phrases

Lors de la génération d'une phrase, l'image ressemble à ce qui suit.

--Préparer les données d'origine --Format les données proprement

En gros, je pense que ça ressemble à ça. Cette fois, je vais essayer de décomposer le texte.

Essayez l'analyse morphologique

L'analyse morphologique est basée sur des informations telles que la grammaire de la langue cible et la partie des mots des mots appelés dictionnaires, à partir de données textuelles (phrases) en langage naturel sans notes d'informations grammaticales. , Morpheme (en général, la plus petite unité qui a un sens dans la langue) est divisée en colonnes, et la partie de chaque morphologie est déterminée. Source: Encyclopédie gratuite "Wikipedia" Il paraît que. Regardez le code et les résultats pour l'instant!

from janome.tokenizer import Tokenizer
t = Tokenizer()
t

Nous utilisons ce "Tokenizer".

text = 'Kongo Dace a été construit par Vickers au Royaume-Uni en tant que cuirassé super-dreadnought pour introduire la technologie de construction! Attendez-le!'
tokens = t.tokenize(text)#Analyse de phrase
len(tokens) #Nombre de mots

Saisissez le texte que vous souhaitez rechercher et analysez-le. (Le contenu arrive)

for token in tokens:
    print(token)

Lorsqu'il est affiché, il ressemble à ceci. Il semble qu'une nomenclature appropriée et des terminaisons caractéristiques ne fonctionnent pas. Il semble que de telles fluctuations dans les phrases doivent être corrigées. 2020-02-09.png Enfin, faites une liste de mots.

texts = t.tokenize(text, wakati=True)
words_list =[] #Faites une liste de mots
for text in texts:
    words_list.append(t.tokenize(text, wakati=True))
words_list

Bavarder

Vous pouvez facilement décomposer des phrases en utilisant "Tokenize". Bien sûr, une phrase aussi courte ne suffit pas pour la génération de phrases, nous avons donc besoin de plus de mots. J'aimerais pouvoir faire des phrases intéressantes.

Recommended Posts

[Jouons avec Python] Viser la génération automatique de phrases ~ Effectuer une analyse morphologique ~
[Jouons avec Python] Viser la génération automatique de phrases ~ Achèvement de la génération automatique de phrases ~
[Jouons avec Python] Viser la génération automatique de phrases ~ Lisez .txt et faites-en une unité de phrase ~
[Python] Analyse morphologique avec MeCab
Analyse morphologique japonaise avec Python
Text mining avec Python ① Analyse morphologique
Jouons avec Excel avec Python [Débutant]
Python: analyse morphologique simplifiée avec des expressions régulières
De la préparation à l'analyse morphologique avec python en utilisant polyglotte au marquage des mots partiels
Jeu à la main en Python (commençons avec AtCoder?)
Déplacer la scène automatique THORLABS avec Python [pour recherche]
Jouez avec 2016-Python
[Python3] Génération automatique de texte avec janome et markovify
Essayons l'analyse! Chapitre 8: Environnement d'analyse pour Windows créé avec Python et Eclipse (PyDev)
Text mining avec Python ① Analyse morphologique (re: version Linux)
Analyse de données pour améliorer POG 1 ~ Web scraping avec Python ~
Collecte d'informations sur Twitter avec Python (analyse morphologique avec MeCab)
[Jouons avec Python] Créer un livre de comptes de ménage
[Pour jouer] Essayez de faire de Yuma un robot LINE (Python)
[Piyopiyokai # 1] Jouons avec Lambda: création d'un script Python
Analyse de données avec python 2
Analyse vocale par python
Analyse vocale par python
Analyse de données avec Python
J'ai écrit le code pour la génération de phrases japonaises avec DeZero
Effectuer une analyse isocurrent des canaux en eau libre avec Python et matplotlib
[Jouons avec Python] Traitement d'image en monochrome et points
Analyse morphologique avec Igo + mecab-ipadic-neologd en Python (avec bonus Ruby)
Génération automatique de quiz avec COTOHA
Jouons avec la 4e dimension 4e
Jouons avec les données Amedas - Partie 1
Python pour l'analyse des données Chapitre 4
Python: texte japonais: analyse morphologique
Analyse des émotions par Python (word2vec)
Génération de phrases avec GRU (keras)
Jouons avec les données Amedas - Partie 4
[Python] Jouez avec le Webhook de Discord.
Analyse de squelette planaire avec Python
Écrivons python avec cinema4d.
Python pour l'analyse des données Chapitre 2
Jouons avec les données Amedas - Partie 3
Jouons avec les données Amedas - Partie 2
Construisons git-cat avec Python
Analyse des secousses musculaires avec Python
[PowerShell] Analyse morphologique avec SudachiPy
Python pour l'analyse des données Chapitre 3
Mécanisme de vérification automatique des peluches avec flake8 lors de la validation du code python
De l'introduction de JUMAN ++ à l'analyse morphologique du japonais avec Python
Créer un Ubuntu de démarrage USB avec un environnement Python pour l'analyse des données