Versuchen Sie, ** Ryunosuke Akutagawas "Nase" ** von Aozora Bunko zu lesen Der Zeichencode der Datei lautet ** shift_jis **
#Lesen und Schreiben von Textdateien in Python (Eingabe / Ausgabe)
with open('/hana.txt', mode='r', encoding='shift_jis') as f:
nose_hana = f.read()
print(nose_hana)
#Datenvorverarbeitung
import re
import pickle
nose = re.sub('《[^》]+》', '', nose_hana) #Rubin löschen
nose = re.sub('[|― 「」\n]', '', nose) # |- Und Leerzeichen in voller Breite, "" und Löschen von Zeilenumbrüchen
nose = re.sub('[ ]', '', nose) #Raum mit halber Breite löschen
nose = re.sub('[\u3000]', '', nose) #\u3000 gelöscht
sentense_end = '。'
nose_list = nose.split(sentense_end)
nose_list.pop()
nose_list = [x+sentense_end for x in nose_list]
print(nose_list)
from janome import tokenizer
s = Tokenizer()
t = nose_list
for _ in nose_list:
print(s.tokenize(_, wakati=True))
#Sie können die Häufigkeit des Auftretens in Sammlungen zählen
import collections
s = Tokenizer() #Instanziierung
words = []
for _ in nose_list:
words += s.tokenize(_, wakati=True)
c = collections.Counter(words)
print(c)
Reference
Recommended Posts