[Lass uns mit Python spielen] Ziel ist die automatische Satzgenerierung ~ Morphologische Analyse durchführen ~

Einführung

Es gibt eine Geschichte, in der KI Sätze schrieb, und kürzlich wurde ein Manga hergestellt, der nach dem Erlernen von Tezuka Osamus Manga hergestellt wurde. Ein solches Level ist schwierig, aber ich konnte beim Betrachten des Buches automatisch Sätze generieren, also werde ich es zusammenfassen. Es wird mehrere Male dauern, aber ich denke, ich werde es langsam machen.

Bild, um Sätze zu erzeugen

Beim Generieren eines Satzes sieht das Bild wie folgt aus.

Grob gesagt denke ich, dass es so aussieht. Dieses Mal werde ich versuchen, den Text aufzuschlüsseln.

Versuchen Sie es mit einer morphologischen Analyse

Die morphologische Analyse basiert auf Informationen wie der Grammatik der Zielsprache und dem Teil von Wörtern von Wörtern, die Wörterbücher genannt werden, aus Textdaten (Sätzen) in natürlicher Sprache ohne Anmerkungen zu grammatikalischen Informationen. , Morphem (im Allgemeinen die kleinste Einheit, die in der Sprache eine Bedeutung hat) wird in Spalten unterteilt und der Teil jeder Morphologie wird bestimmt. Quelle: Freie Enzyklopädie "Wikipedia" Es scheint, dass. Schauen Sie sich jetzt den Code und die Ergebnisse an!

from janome.tokenizer import Tokenizer
t = Tokenizer()
t

Wir benutzen diesen "Tokenizer".

text = 'Kongo Dace wurde von Vickers in Großbritannien als Super-Dreadnought-Schlachtschiff gebaut, um die Bautechnologie einzuführen! Erwarte es!'
tokens = t.tokenize(text)#Phrasenanalyse
len(tokens) #Anzahl der Wörter

Geben Sie den Text ein, den Sie nachschlagen und analysieren möchten. (Der Inhalt kommt)

for token in tokens:
    print(token)

Wenn es angezeigt wird, sieht es so aus. Es scheint, dass die richtige Nomenklatur und die charakteristischen Endungen nicht funktionieren. Es scheint, dass solche Schwankungen in Sätzen korrigiert werden müssen. 2020-02-09.png Erstellen Sie schließlich eine Wortliste.

texts = t.tokenize(text, wakati=True)
words_list =[] #Machen Sie eine Wortliste
for text in texts:
    words_list.append(t.tokenize(text, wakati=True))
words_list

Plaudern

Mit "Tokenize" können Sie Sätze leicht zerlegen. Natürlich reicht ein so kurzer Satz nicht für die Satzgenerierung aus, also brauchen wir tatsächlich mehr Wörter. Ich wünschte, ich könnte interessante Sätze machen.

Recommended Posts

[Lass uns mit Python spielen] Ziel ist die automatische Satzgenerierung ~ Morphologische Analyse durchführen ~
[Lass uns mit Python spielen] Ziel ist die automatische Satzgenerierung ~ Abschluss der automatischen Satzgenerierung ~
[Lass uns mit Python spielen] Ziel ist die automatische Satzgenerierung ~ Lies .txt und mache daraus eine Satzeinheit ~
[Python] Morphologische Analyse mit MeCab
Japanische morphologische Analyse mit Python
Text Mining mit Python ① Morphologische Analyse
Lass uns mit Python mit Python spielen [Anfänger]
Python: Vereinfachte morphologische Analyse mit regulären Ausdrücken
Von der Vorbereitung der morphologischen Analyse mit Python unter Verwendung von Polyglot bis zur Teilwortmarkierung
Python-Handspiel (Beginnen wir mit AtCoder?)
Bewegen Sie die automatische Stufe von THORLABS mit Python [für Forschungszwecke]
Spielen Sie mit 2016-Python
[Python3] Automatische Texterzeugung mit janome und markovify
Versuchen wir es mit der Analyse! Kapitel 8: Analyseumgebung für Windows Erstellt mit Python und Eclipse (PyDev)
Text Mining mit Python ① Morphologische Analyse (re: Linux-Version)
Datenanalyse zur Verbesserung von POG 1 ~ Web Scraping mit Python ~
Sammeln von Informationen von Twitter mit Python (morphologische Analyse mit MeCab)
[Lass uns mit Python spielen] Ein Haushaltsbuch erstellen
[Zum Spielen] Versuche Yuma zu einem LINE Bot zu machen (Python)
[Piyopiyokai # 1] Spielen wir mit Lambda: Erstellen eines Python-Skripts
Datenanalyse mit Python 2
Sprachanalyse mit Python
Sprachanalyse mit Python
Datenanalyse mit Python
Ich habe den Code für die japanische Satzgenerierung mit DeZero geschrieben
Führen Sie mit Python und Matplotlib eine Isostromanalyse offener Wasserkanäle durch
[Lass uns mit Python spielen] Bildverarbeitung zu Monochrom und Punkten
Morphologische Analyse mit Igo + mecab-ipadic-neologd in Python (mit Ruby-Bonus)
Automatische Quizgenerierung mit COTOHA
Spielen wir mit der 4. Dimension der 4. Dimension
Spielen wir mit Amedas Daten - Teil 1
Python für die Datenanalyse Kapitel 4
Python: Japanischer Text: Morphologische Analyse
Emotionsanalyse von Python (word2vec)
Satzerzeugung mit GRU (Keras)
Spielen wir mit Amedas Daten - Teil 4
[Python] Spielen Sie mit Discords Webhook.
Planare Skelettanalyse mit Python
Schreiben wir Python mitinema4d.
Python für die Datenanalyse Kapitel 2
Spielen wir mit Amedas Daten - Teil 3
Spielen wir mit Amedas Daten - Teil 2
Lassen Sie uns Git-Cat mit Python bauen
Muskel-Ruck-Analyse mit Python
[PowerShell] Morphologische Analyse mit SudachiPy
Python für die Datenanalyse Kapitel 3
Mechanismus zur automatischen Flusenprüfung mit flake8 beim Festschreiben von Python-Code
Von der Einführung von JUMAN ++ bis zur morphologischen Analyse von Japanisch mit Python
Erstellen Sie ein USB-Boot-Ubuntu mit einer Python-Umgebung für die Datenanalyse