[PYTHON] Ich habe einen Korpusleser geschrieben, der die Ergebnisse der MeCab-Analyse liest

Imitieren von chasen.py, geschrieben von mhagiwara für das Studium von mecab. py wurde geschrieben.

mecab.py

Es wird davon ausgegangen, dass NLTK und nltk_data installiert und heruntergeladen wurden. Platzieren Sie die Daten unter nltk_data / corpora oder erstellen Sie einen symbolischen Link.

import nltk
corpora_path = nltk.data.find('corpora/test')
"""
your data must be stored or linked in nltk/corpora
"""

fileids = r'.*\.mecab'
"""
:param corpus name: regular expression or list of corpus name.
:type corpus: list or strings
"""

reader = MeCabCorpusReader(corpora_path, fileids, encoding='utf8')
print reader.raw()
print ', '.join(reader.words())
for w, t in reader.tagged_words():
    print w, t
for para in reader.paras():
    for sent in para:
        for word in sent:
            print word
for para in reader.tagged_paras():
    for sent in para:
        for (word, pos) in sent:
            print word, pos   

corpora / test ist ein Verzeichnis mit Dateien, die von MeCab analysiert wurden und die Erweiterung mecab haben. Der Inhalt der Datei sieht folgendermaßen aus.

Sumomo Substantiv,Allgemeines,*,*,*,*,Sumomo,Sumomo,Sumomo
Auch Assistent,Hilfe,*,*,*,*,Ebenfalls,Mo.,Mo.
Oberschenkel Nomen,Allgemeines,*,*,*,*,Pfirsiche,Pfirsich,Pfirsich
Auch Assistent,Hilfe,*,*,*,*,Ebenfalls,Mo.,Mo.
Oberschenkel Nomen,Allgemeines,*,*,*,*,Pfirsiche,Pfirsich,Pfirsich
Hilfswörter,Union,*,*,*,*,von,Nein,Nein
Davon Nomenklatur,Nicht unabhängig,Anwalt möglich,*,*,*,Zuhause,Uchi,Uchi
EOS

Die Ausgabe ist

raw()
Sumomo Substantiv,Allgemeines,*,*,*,*,Sumomo,Sumomo,Sumomo
Auch Assistent,Hilfe,*,*,*,*,Ebenfalls,Mo.,Mo.
Oberschenkel Nomen,Allgemeines,*,*,*,*,Pfirsiche,Pfirsich,Pfirsich
Auch Assistent,Hilfe,*,*,*,*,Ebenfalls,Mo.,Mo.
Oberschenkel Nomen,Allgemeines,*,*,*,*,Pfirsiche,Pfirsich,Pfirsich
Hilfswörter,Union,*,*,*,*,von,Nein,Nein
Davon Nomenklatur,Nicht unabhängig,Anwalt möglich,*,*,*,Zuhause,Uchi,Uchi
EOS

words()
Sumomo,Ebenfalls,Ebenfallsも,Ebenfalls,Ebenfallsも,von,Zuhause

tagged_words()
Sumomo info:Substantiv,Allgemeines,*,*,*,*,Sumomo,Sumomo,Sumomo
Auch Infos:Partikel,Hilfe,*,*,*,*,Ebenfalls,Mo.,Mo.
Oberschenkel info:Substantiv,Allgemeines,*,*,*,*,Pfirsiche,Pfirsich,Pfirsich
Auch Infos:Partikel,Hilfe,*,*,*,*,Ebenfalls,Mo.,Mo.
Oberschenkel info:Substantiv,Allgemeines,*,*,*,*,Pfirsiche,Pfirsich,Pfirsich
Die Info:Partikel,Union,*,*,*,*,von,Nein,Nein
Von Infos:Substantiv,Nicht unabhängig,Anwalt möglich,*,*,*,Zuhause,Uchi,Uchi

paras()
Sumomo
Ebenfalls
Pfirsiche
Ebenfalls
Pfirsiche
von
Zuhause

tagged_paras()
Sumomo info:Substantiv,Allgemeines,*,*,*,*,Sumomo,Sumomo,Sumomo
Auch Infos:Partikel,Hilfe,*,*,*,*,Ebenfalls,Mo.,Mo.
Oberschenkel info:Substantiv,Allgemeines,*,*,*,*,Pfirsiche,Pfirsich,Pfirsich
Auch Infos:Partikel,Hilfe,*,*,*,*,Ebenfalls,Mo.,Mo.
Oberschenkel info:Substantiv,Allgemeines,*,*,*,*,Pfirsiche,Pfirsich,Pfirsich
Die Info:Partikel,Union,*,*,*,*,von,Nein,Nein
Von Infos:Substantiv,Nicht unabhängig,Anwalt möglich,*,*,*,Zuhause,Uchi,Uchi

Recommended Posts

Ich habe einen Korpusleser geschrieben, der die Ergebnisse der MeCab-Analyse liest
Ich habe ein Skript geschrieben, das das Bild in zwei Teile teilt
Erstellen Sie mit MeCab mit Discord einen Bot, der nur das Ergebnis der morphologischen Analyse zurückgibt
Ich habe einen schlaffen Bot gemacht, der mich über die Temperatur informiert
Ich habe versucht, das Bild des Bogenschießen-Bewertungsbuchs (eine Broschüre, in der die Ergebnisse von Treffern aufgezeichnet werden) zu analysieren. (Google Colaboratory)
Ich habe einen Kalender erstellt, der den Verteilungsplan von Vtuber automatisch aktualisiert
Die Geschichte der Entwicklung einer WEB-Anwendung, die automatisch Fangkopien generiert [MeCab]
Ich habe versucht, die Wetterkarte einer Clusteranalyse zu unterziehen
Ein Memo, das ich schnell in Python geschrieben habe
Die Geschichte der IPv6-Adresse, die ich auf ein Minimum beschränken möchte
Ich habe ein PyPI-Modul geschrieben, das den Parameterstil in Pythons sqlite3-Modul erweitert
Ich habe ein Skript geschrieben, um die Schluckuhr wiederzubeleben, die bald sterben wird
[Bot dekodieren] Ich habe versucht, einen Bot zu erstellen, der mir den Rassenwert von Pokemon angibt
Ich habe eine Twitter-App erstellt, die die Zeichen der Vorverbindung mit Heroku entschlüsselt (Fehler).
Das Vertauschen von random.randint (a, b) und np.random.randint (a, b) führte zum genauen Gegenteil der Analyseergebnisse!
[Python / C] Ich habe versucht, ein Gerät zu erstellen, das den Bildschirm eines PCs drahtlos aus der Ferne scrollt.
Ich habe einen Kalender erstellt, der den Verteilungsplan von Vtuber automatisch aktualisiert (Google Kalender Edition).
Eine Geschichte, die den Aufwand für Betrieb / Wartung reduziert
[Python] Ein Programm, das die Anzahl der Täler zählt
#Eine Funktion, die den Zeichencode einer Zeichenfolge zurückgibt
Erzeugen Sie diese Form des Bodens einer Haustierflasche
Ein Memo, dass ich den Datenspeicher mit Python berührt habe
Eine Geschichte, die die Lieferung von Nico Nama analysierte.
[Python] Ein Programm, das die Positionen von Kängurus vergleicht.
Das Ende der Programmieranfänger (mein Muster), die Code geschrieben haben, der durch die Ergebnisse motiviert ist, die das Programmieren bringen, nicht aus technischer Sicht
Ich habe eine Klasse geschrieben, die das Schreiben erleichtert, indem ich die Teiltexte spezifiziere, wenn ich Mecab mit Python verwende
Ich habe ein Python-Skript geschrieben, das alle meine Beiträge mit der Qiita API v2 exportiert
Ich habe eine Klasse erstellt, um das Analyseergebnis von MeCab in ndarray mit Python zu erhalten
[Python] Ich habe einen Test von "Streamlit" geschrieben, der das Erstellen von Visualisierungsanwendungen erleichtert.
Ich schrieb einen Test in "Ich habe versucht, die Wahrscheinlichkeit eines Bingospiels mit Python zu simulieren".
Ein Werkzeug, das die Gacha von Soshage automatisch dreht
Lassen Sie uns die Analyse der sinkenden Daten der Titanic so durchführen
Ich habe die grundlegende Grammatik von Python in Jupyter Lab geschrieben
Ich habe ein Demo-Programm zur linearen Transformation einer Matrix geschrieben
Ich habe die Grundoperation von Seaborn im Jupyter Lab geschrieben
Ich habe versucht, den allgemeinen Kommentar des verdammten Spiels des Jahres morphologisch zu analysieren
Ich habe eine Funktion erstellt, um das Modell von DCGAN zu überprüfen
Datenanalyse basierend auf den Wahlergebnissen der Gouverneurswahl von Tokio (2020)
Ich habe ein Punktbild des Bildes von Irasutoya gemacht. (Teil 1)
Ich habe ein wenig versucht, das Verhalten der Zip-Funktion
Ich habe die Grundoperation von Numpy im Jupyter Lab geschrieben.
Ich habe ein Punktbild des Bildes von Irasutoya gemacht. (Teil 2)
Ich habe die Grundoperation von matplotlib in Jupyter Lab geschrieben
Python-Skript, das den Inhalt zweier Verzeichnisse vergleicht
Ich habe versucht, eine Site zu erstellen, mit der die aktualisierten Informationen von Azure einfach angezeigt werden können
Eine Geschichte über das Schreiben von AWS Lambda und ein wenig Abhängigkeit von den Standardwerten von Python-Argumenten
Ich habe einen Linienbot erstellt, der das Geschlecht und das Alter einer Person anhand des Bildes errät
Gibt das Ergebnis der morphologischen Analyse mit Mecab an einen WEB-Browser aus, der mit Sakura Server / UTF-8 kompatibel ist
Verwenden Sie die Clustering-Ergebnisse erneut
Beim Inkrementieren des Werts eines Schlüssels, der nicht vorhanden ist
pandas Ruft den Namen einer Spalte ab, die ein bestimmtes Zeichen enthält
[Python] Ich habe die Route des Taifuns mit Folium auf die Karte geschrieben
Eine Formel, die einfach das Alter ab dem Geburtsdatum berechnet
[Einführung in StyleGAN] Ich habe mit "The Life of a Man" ♬ gespielt
Ich habe den Code geschrieben, um den Brainf * ck-Code in Python zu schreiben
Eine Funktion, die die Verarbeitungszeit einer Methode in Python misst