Führen Sie den im folgenden Artikel beschriebenen Janome in der lokalen Umgebung aus. Ich werde versuchen, das Tagebuch, das ich geschrieben habe, per Text abzubauen. https://mocobeta.github.io/janome/
-PYthon 3.7.4
-Janome 0.30.10 -wordcloud 1.7.0
Aus der Installation des Moduls
pip install Janome
pip install wordcloud
Vergessen Sie nicht, in den Modulordner zu cd und gehen Sie wie folgt vor (ich habe vergessen)
Python setup.py install
Bearbeitungsauftrag
from janome.tokenizer import Tokenizer
from janome.analyzer import Analyzer
from janome.charfilter import *
from janome.tokenfilter import *
from wordcloud import WordCloud
#Eine Funktion, die die Teilwörter angibt, die gefiltert oder durch nicht erkannte Zeichen ersetzt werden sollen
def create_analyzer():
tokenizer=Tokenizer()
char_filters=[RegexReplaceCharFilter('《.*?》', '')] #Filter, der Zeichenfolgen ersetzt
token_filters=[POSKeepFilter(['Substantiv','Adjektiv','Adjektiv Verb','Beeindruckende Worte']),POSStopFilter(['Substantiv,Nicht unabhängig','Substantiv,代Substantiv']),ExtractAttributeFilter('base_form')]
#Behalten Sie Zielwörter bei, schließen Sie sie aus, extrahieren Sie Ziele nur in Grundformen
#Dieses Mal haben wir Nomenklatur, Adjektive, Adjektivverben und emotionale Verben ins Visier genommen.
return Analyzer(char_filters,tokenizer,token_filters=token_filters)
#Eine Funktion, die einen Satz in Wörter unterteilt und als Textdatei zurückgibt
def split_text(src, out): #Wenden Sie Benutzerwörterbuchinformationen auf Vorverarbeitungssätze an, indem Sie sie in Wörter unterteilen
#Liest die in src übergebene Datei, teilt Wörter und schreibt nach out.
a=create_analyzer()
with open(src,encoding='utf-8') as f1:
with open(out, mode='w', encoding='utf-8') as f2:
for line in f1:
tokens=list(a.analyze(line))
f2.write('%s\n' % ' '.join(tokens))
split_text('data/diary.txt', 'words.txt')
with open("words.txt",encoding='utf-8')as f:
text=f.read()
wc = WordCloud(width=1920, height=1080,
font_path="fonts/ipagp.ttf", #Schriftart herunterladen
max_words=100,#Anzahl der Wörter in der Wortwolke
background_color="white",#Hintergrundfarbe
stopwords={"mich selber","Abwesend","Gut","Gut"}) #Setze verbotene Wörter
wc.generate(text)
wc.to_file('data/test_wordcloud.png')
Sie können eine CSV-Datei eines Wörterbuchs hinzufügen, das technische Begriffe mit der allerersten Funktion create_analyzer beschreibt, aber diesmal habe ich sie weggelassen. Auch hier können Sie auf der folgenden Seite studieren https://mocobeta.github.io/janome/
Die folgende PNG-Datei wird erstellt. In Zukunft möchte ich aus JSON-Dateien in Kombination mit den Informationen und APIs lesen, die durch Web Scraping erfasst wurden.
Recommended Posts