pip install gensim
pip install janome
#Importieren Sie die erforderlichen Bibliotheken
from janome.tokenizer import Tokenizer
from gensim.models import word2vec
import re
#Lesen Sie nach dem Öffnen der txt-Datei
binarydata = open("kazeno_matasaburo.txt").read()
#Übrigens derjenige, der eins nach dem anderen gedruckt und überprüft hat
binarydata = open("kazeno_matasaburo.txt")
print(type(binarydata))
Ausführungsergebnis <class'_io.BufferedReader '>
binarydata = open("kazeno_matasaburo.txt").read()
print(type(binarydata))
Ausführungsergebnis <class'bytes '>
#Konvertieren Sie den Datentyp in einen Zeichenfolgentyp (wie man Python schreibt)
text = binarydata.decode('shift_jis')
#Schneiden Sie unnötige Daten ab
text = re.split(r'\-{5,}',text)[2]
text = re.split(r'Unteres Buch:',text)[0]
text = text.strip()
#Führen Sie eine morphologische Analyse durch
t = Tokenizer()
results = []
lines = text.split("\r\n") #Durch Linie getrennt
for line in lines:
s = line
s = s.replace('|','')
s = re.sub(r'《.+?》','',s)
s = re.sub(r'[#.+?]','',s)
tokens = t.tokenize(s) #Enthält die analysierte
r = []
#Nehmen Sie sie einzeln heraus.base_bilden.Sie können auf der Oberfläche darauf zugreifen
for token in tokens:
if token.base_form == "*":
w = token.surface
else:
w = token.base_form
ps = token.part_of_speech
hinshi = ps.split(',')[0]
if hinshi in ['Substantiv','Adjektiv','Verb','Symbol']:
r.append(w)
rl = (" ".join(r)).strip()
results.append(rl)
print(rl)
#Schreiben Sie die analysierte Datei gleichzeitig mit der Generierung der Datei
wakachigaki_file = "matasaburo.wakati"
with open(wakachigaki_file,'w', encoding='utf-8') as fp:
fp.write('\n'.join(results))
#Analyse starten
data = word2vec.LineSentence(wakachigaki_file)
model = word2.Word2Vec(data,size=200,window=10,hs=1,min_count=2,sg=1)
model.save('matasaburo.model')
#versuche es mit model
model.most_similar(positive=['Schule'])
① Holen Sie sich den Satz, den Sie analysieren möchten. ② Verarbeiten Sie so, dass es sich nur um Sätze handelt. Dinge wie die letzte Referenz loswerden ③ Nehmen Sie Zeile für Zeile mit der for-Anweisung heraus und entfernen Sie unnötige Teile. ④ Führen Sie eine morphologische Analyse mit dem Tokenizer durch. Setzen Sie es in die Liste. ⑤ Schreiben Sie die erstellte Liste in eine Datei ⑥ Erstellen Sie ein Modell mit der morphologisch analysierten Datei
Recommended Posts