Dies ist das zweite Mal, dass eine automatische Satzgenerierung angestrebt wird. Letztes Mal habe ich eine morphologische Analyse durchgeführt, um die Struktur von Sätzen zu untersuchen. Dieses Mal werde ich .txt lesen und es nacheinander in Sätze unterteilen.
Bereiten Sie die zuvor erstellten Textdaten mit einem Notizblock oder ähnlichem vor. Seien Sie vorsichtig mit der Codierungsmethode. (Im Beispiel ist es 'utf-8'.) Lassen Sie uns den Text lesen und anzeigen.
import re
a = open('test.txt', 'r', encoding = "utf-8")
original_text = a.read()
print(original_text) #Text anzeigen
Ich fühle mich so.
Als nächstes organisieren Sie die Textdaten. Abhängig davon, wie Sie den Originaltext schreiben, müssen Sie Ihre eigenen Anpassungen vornehmen. Der Code ist für meine Textdaten. (Im Fall von Frigana wie 'Text' muss es beispielsweise gelöscht werden.)
first_sentence = '"Erklärung von Python."'
last_sentence = 'Das Reptil Nishiki Snake, was das englische Wort Python bedeutet, wird als Maskottchen und Symbol der Python-Sprache verwendet.'
#Textdaten organisieren.
_, text = original_text.split(first_sentence)
text, _ = text.split(last_sentence)
text = first_sentence + text + last_sentence
text = text.replace('!', '。') #!! Was? Zu. Ändern. Achten Sie auf volle und halbe Winkel
text = text.replace('?', '。')
text = text.replace('(', '').replace(')', '') #Löschen ().
text = text.replace('\r', '').replace('\n', '') #Wird mit Zeilenumbrüchen in Textdaten angezeigt\Löschen n
text = re.sub('[、「」?]', '', text)
sentences = text.split('。') #.. Teile Sätze in Sätze mit
print('Wortzahl:', len(sentences))
sentences[:10] #10 Sätze anzeigen
Das konnte ich tun
Das war's für diesen Code. Jetzt haben Sie eine Satz-für-Satz-Liste! Ich habe vor, dies durch morphologische Analyse in einen Satz zu fassen.
Ich bin persönlich auf einige von ihnen gestoßen, deshalb werde ich sie vorstellen.
Ist es so ein Ort? Es hat lange gedauert, weil ich es nicht bemerkt habe, obwohl es relativ einfach war. Nachdem ich darüber nachgedacht hatte, was mit den Beispielsätzen im Artikel zu tun ist, wurde es sicher (Wikipedia's Erklärung von Python).
Recommended Posts