pip install gensim
pip install janome
#Importer les bibliothèques requises
from janome.tokenizer import Tokenizer
from gensim.models import word2vec
import re
#Lire après avoir ouvert le fichier txt
binarydata = open("kazeno_matasaburo.txt").read()
#Au fait, celui qui a imprimé et vérifié un par un
binarydata = open("kazeno_matasaburo.txt")
print(type(binarydata))
Résultat de l'exécution <class'_io.BufferedReader '>
binarydata = open("kazeno_matasaburo.txt").read()
print(type(binarydata))
Résultat de l'exécution <class'bytes '>
#Convertir le type de données en type chaîne (comment écrire en python)
text = binarydata.decode('shift_jis')
#Coupez les données inutiles
text = re.split(r'\-{5,}',text)[2]
text = re.split(r'Livre du bas:',text)[0]
text = text.strip()
#Effectuer une analyse morphologique
t = Tokenizer()
results = []
lines = text.split("\r\n") #Séparé par ligne
for line in lines:
s = line
s = s.replace('|','')
s = re.sub(r'《.+?》','',s)
s = re.sub(r'[#.+?]','',s)
tokens = t.tokenize(s) #Contient celui analysé
r = []
#Sortez-les un par un.base_forme.Vous pouvez y accéder en surface
for token in tokens:
if token.base_form == "*":
w = token.surface
else:
w = token.base_form
ps = token.part_of_speech
hinshi = ps.split(',')[0]
if hinshi in ['nom','adjectif','verbe','symbole']:
r.append(w)
rl = (" ".join(r)).strip()
results.append(rl)
print(rl)
#Ecrire l'analysé en même temps que le fichier est généré
wakachigaki_file = "matasaburo.wakati"
with open(wakachigaki_file,'w', encoding='utf-8') as fp:
fp.write('\n'.join(results))
#Début de l'analyse
data = word2vec.LineSentence(wakachigaki_file)
model = word2.Word2Vec(data,size=200,window=10,hs=1,min_count=2,sg=1)
model.save('matasaburo.model')
#essayez d'utiliser le modèle
model.most_similar(positive=['école'])
① Obtenez la phrase que vous souhaitez analyser. ② Traitez pour qu'il ne s'agisse que de phrases. Débarrassez-vous des choses comme la dernière référence ③ Retirez ligne par ligne avec l'instruction for et supprimez les parties inutiles. ④ Effectuer une analyse morphologique avec tokenizer. Mettez-le dans la liste. ⑤ Ecrire la liste créée dans un fichier ⑥ Créer un modèle à l'aide du fichier analysé morphologiquement
Recommended Posts