[PYTHON] Ich habe versucht, morphologische Analyse und Wortvektorisierung

Versuchen Sie es mit Word2vec

pip install gensim
pip install janome
#Importieren Sie die erforderlichen Bibliotheken

from janome.tokenizer import Tokenizer
from gensim.models import word2vec
import re

#Lesen Sie nach dem Öffnen der txt-Datei
binarydata = open("kazeno_matasaburo.txt").read()

#Übrigens derjenige, der eins nach dem anderen gedruckt und überprüft hat
binarydata = open("kazeno_matasaburo.txt")
print(type(binarydata))

Ausführungsergebnis <class'_io.BufferedReader '>

binarydata = open("kazeno_matasaburo.txt").read()
print(type(binarydata))

Ausführungsergebnis <class'bytes '>


#Konvertieren Sie den Datentyp in einen Zeichenfolgentyp (wie man Python schreibt)
text = binarydata.decode('shift_jis')
#Schneiden Sie unnötige Daten ab
text = re.split(r'\-{5,}',text)[2]
text = re.split(r'Unteres Buch:',text)[0]
text = text.strip()

#Führen Sie eine morphologische Analyse durch
t = Tokenizer()
results = []
lines = text.split("\r\n")  #Durch Linie getrennt

for line in lines:
    s = line
    s = s.replace('|','')
    s = re.sub(r'《.+?》','',s)
    s = re.sub(r'[#.+?]','',s)
    tokens = t.tokenize(s)  #Enthält die analysierte
    r = []
  #Nehmen Sie sie einzeln heraus.base_bilden.Sie können auf der Oberfläche darauf zugreifen
    for token in tokens:
        if token.base_form == "*":
            w = token.surface
        else:
            w = token.base_form
        ps = token.part_of_speech
        hinshi = ps.split(',')[0]
        if hinshi in ['Substantiv','Adjektiv','Verb','Symbol']:
            r.append(w)
    rl = (" ".join(r)).strip()
    results.append(rl)
    print(rl)

#Schreiben Sie die analysierte Datei gleichzeitig mit der Generierung der Datei
wakachigaki_file = "matasaburo.wakati"
with open(wakachigaki_file,'w', encoding='utf-8') as fp:
    fp.write('\n'.join(results))

#Analyse starten
data = word2vec.LineSentence(wakachigaki_file)
model = word2.Word2Vec(data,size=200,window=10,hs=1,min_count=2,sg=1)
model.save('matasaburo.model')

#versuche es mit model
model.most_similar(positive=['Schule'])

Zusammenfassung

① Holen Sie sich den Satz, den Sie analysieren möchten. ② Verarbeiten Sie so, dass es sich nur um Sätze handelt. Dinge wie die letzte Referenz loswerden ③ Nehmen Sie Zeile für Zeile mit der for-Anweisung heraus und entfernen Sie unnötige Teile. ④ Führen Sie eine morphologische Analyse mit dem Tokenizer durch. Setzen Sie es in die Liste. ⑤ Schreiben Sie die erstellte Liste in eine Datei ⑥ Erstellen Sie ein Modell mit der morphologisch analysierten Datei

Recommended Posts

Ich habe versucht, morphologische Analyse und Wortvektorisierung
Ich habe versucht, den allgemeinen Kommentar des verdammten Spiels des Jahres morphologisch zu analysieren
Ich habe versucht, die Wetterkarte einer Clusteranalyse zu unterziehen
Ich habe mit Python verschiedene Dinge ausprobiert: Schaben (Beautiful Soup + Selenium + PhantomJS) und morphologische Analyse
Ich habe den Chat von YouTube Live angezeigt und versucht zu spielen
Ich habe versucht, GrabCut von OpenCV zu verwenden
Ich habe mit Mecab gespielt (morphologische Analyse)!
Morphologische Analyse von Sätzen mit aktuellen Wörtern in der Windows10 64-Bit-Umgebung
Ich habe versucht, in 3 Jahren 5 Muster der Analysebasis zu erstellen
Ich habe eine multiple Regressionsanalyse mit Polypoly-Regression versucht
Ich habe den asynchronen Server von Django 3.0 ausprobiert
Ich habe versucht, die Altersgruppe und die Ratenverteilung von Atcoder zu visualisieren
Ich habe DSX Desktop installiert und ausprobiert
Ich habe versucht, Zeitreihen zu analysieren! (AR-Modell)
Ich habe versucht, Faktoren mit Titanic-Daten zu analysieren!
Ich habe versucht, PyEZ und JSNAPy zu verwenden. Teil 2: Ich habe versucht, PyEZ zu verwenden
Ich habe versucht, die Beschleunigung von Python durch Cython zu verifizieren und zu analysieren
Umwandlung zwischen Singular- und Pluralwörtern
Ich habe versucht, eine Clusteranalyse von Kunden anhand von Kaufdaten durchzuführen
Ich habe versucht, ein Auto in 3D zu erkennen
Ich habe versucht, Stoff, Küche und Jinja2 zu kombinieren
Ich habe versucht, das Update von "Hameln" mit "Beautiful Soup" und "IFTTT" zu benachrichtigen.
[Python] Von der morphologischen Analyse von CSV-Daten bis zur CSV-Ausgabe und Diagrammanzeige [GiNZA]
Ich habe versucht, Runenfiguren mit Scikit-Learn handschriftlich zu erkennen
Ich habe versucht, PyEZ und JSNAPy zu verwenden. Teil 1: Übersicht
Ich habe Hunderte Millionen SQLite mit Python ausprobiert
Ich habe die Pivot-Table-Funktion von Pandas ausprobiert
Ich habe versucht, Bilder mit CIFAR-10 mit Keras-Learning- zu erkennen.
Ich habe versucht, Web-Scraping mit Python und Selen
Ich habe versucht, Bilder von CIFAR-10 mit Keras-Bilderkennung zu erkennen.
Ich habe versucht, Slack über das Update von Redmine zu informieren
Ich habe versucht, Objekte mit Python und OpenCV zu erkennen
Ich habe versucht, das Umfangsverhältnis mit 100 Millionen Stellen zu ermitteln
Ich habe Flask mit Remote-Containern von VS Code ausprobiert
Ich habe zuerst die SARS-Analyse vor dem Corona-Virus versucht
Ich habe versucht, mit PartiQL und MongoDB verbunden zu spielen
Ich habe versucht, die Hauptkomponenten mit Titanic-Daten zu analysieren!
Ich habe Jacobian und teilweise Differenzierung mit Python versucht
Ich habe versucht, FX technische Analyse von AI "scikit-learn"
Ich habe Funktionssynthese und Curry mit Python versucht
Ich habe versucht, die Trapezform des Bildes zu korrigieren
Gründlicher Vergleich von drei morphologischen Python-Analysebibliotheken
E / A-bezogene Zusammenfassung von Python und Fortan
Ich habe die Varianten von UKR gelesen und implementiert
Ich habe versucht, den Bildfilter von OpenCV zu verwenden
[Einführung in PID] Ich habe versucht, ♬ zu steuern und zu spielen
Ich habe versucht, die Texte von Hinatazaka 46 zu vektorisieren!
Ich habe versucht, "Grundlagen der Zeitreihenanalyse und des Zustandsraummodells" (Hayamoto) mit Pystan zu implementieren
Ich habe versucht, das Update von "Werde ein Romanautor" mit "IFTTT" und "Werde ein Romanautor API" zu benachrichtigen.
Ich habe PyQ ausprobiert
Ich habe versucht, das Artikel-Update des Livedoor-Blogs mit Python und Selen zu automatisieren.
Ich habe AutoKeras ausprobiert
Ich habe es mit Papiermühle versucht
Bildverarbeitung mit Python (ich habe versucht, es in 0 und 1 Mosaikkunst zu binarisieren)
Ich habe versucht, Django-Slack
Ich habe es mit Django versucht