[PYTHON] [Verarbeitung natürlicher Sprache] Vorverarbeitung mit Japanisch

Ich möchte einige japanische Vorverarbeitungen mit der Verarbeitung natürlicher Sprache zusammenfassen. (Geplant, jederzeit aktualisiert zu werden)

Volle Breite-> halbe Breite

>>> import unicodedata
>>> 
>>> text =u '1994'
>>> print unicodedata.normalize(‘NFKC’, text)
1994

Wolke = richtige Nomenklatur? ??

Ich denke, die meisten Leute analysieren Japanisch mit Mecab.

Und ich denke, dass es viele Leute gibt, die neologd als Wörterbuch verwenden, aber es gibt eine, die ich mit diesem Wörterbuch gefunden habe.

$ mecab -d /usr/local/lib/mecab/dic/mecab-ipadic-neologd
Wolke
Wolke Nomen,Proprietäre Nomenklatur,Allgemeines,*,*,*,Wolke~,Kumonomukouyakusokunobasho,Kumonomukouyakusokunobasho
EOS

Kumonomukouyakusokunobasho ...? Als ich es nachgeschlagen habe, war es ein Anime-Film von Makoto Shinkai.

Recommended Posts

[Verarbeitung natürlicher Sprache] Vorverarbeitung mit Japanisch
3. Verarbeitung natürlicher Sprache durch Python 2-1. Netzwerk für das gleichzeitige Auftreten
[WIP] Vorverarbeiten von Notizen in der Verarbeitung natürlicher Sprache
3. Verarbeitung natürlicher Sprache durch Python 1-1. Word N-Gramm
Ich habe versucht, natürliche Sprache mit Transformatoren zu verarbeiten.
Python: Verarbeitung natürlicher Sprache
RNN_LSTM2 Verarbeitung natürlicher Sprache
3. Verarbeitung natürlicher Sprache durch Python 2-2. Koexistenznetzwerk [mecab-ipadic-NEologd]
[Python] Ich habe mit der Verarbeitung natürlicher Sprache ~ Transformatoren ~ gespielt
Lassen Sie uns die Verarbeitung natürlicher Sprache mit der COTOHA-API genießen
100 Sprachverarbeitungsklopfen mit Python 2015
Verarbeitung natürlicher Sprache 1 Morphologische Analyse
Verarbeitung natürlicher Sprache 3 Wortkontinuität
Verarbeitung natürlicher Sprache 2 Wortähnlichkeit
Leistungsüberprüfung der Datenvorverarbeitung in der Verarbeitung natürlicher Sprache
Erstellen einer Umgebung für die Verarbeitung natürlicher Sprache mit Python
Überblick über die Verarbeitung natürlicher Sprache und ihre Datenvorverarbeitung
100 Klicks in der Verarbeitung natürlicher Sprache Kapitel 4 Kommentar
100 Sprachverarbeitungsklopfen mit Python (Kapitel 1)
Natürliche Sprache: Word2Vec Part1 - Japanischer Korpus
100 Sprachverarbeitungsklopfen mit Python (Kapitel 3)
Künstliche Sprache Logivan und Verarbeitung natürlicher Sprache (Verarbeitung künstlicher Sprache)
■ [Google Colaboratory] Vorverarbeitung der Verarbeitung natürlicher Sprache & Janome
Vorbereitung zum Starten der Verarbeitung natürlicher Sprache
Installationszusammenfassung des Analysators für die Verarbeitung natürlicher Sprache
Japanische Verarbeitung natürlicher Sprache mit Python3 (4) Emotionsanalyse durch logistische Regression
Erstellen Sie mit BERT + LightGBM + optuna ganz einfach ein Modell für die Verarbeitung natürlicher Sprache
Dockerfile mit den notwendigen Bibliotheken für die Verarbeitung natürlicher Sprache mit Python
Fassen Sie mit tf.data.Dataset api zusammen, wie Text (Verarbeitung natürlicher Sprache) vorverarbeitet wird
Fallstudie zur Verarbeitung natürlicher Sprache: Worthäufigkeit in 'Anne mit einem E'
Ich habe mit GiNZA v3.1 Kapitel 4 100 Sprachverarbeitungsklopfen 2020 durchgeführt
Natürliche Sprache: GPT - Japanischer generativer Pretraining-Transformator
Verarbeiten Sie den Namen der Yugioh-Karte in natürlicher Sprache - Yugiou Data Science 2. NLP
100 Klopfen der Verarbeitung natürlicher Sprache Kapitel 1 (Vorbereitungsbewegung)
100 Sprachverarbeitungsklopfen mit Python (Kapitel 2, Teil 2)
100 Sprachverarbeitungsklopfen mit Python (Kapitel 2, Teil 1)
Natürliche Sprache: BERT Part1 - Japanischer Wikipedia Corpus
Praktische Warenmitteilung zur Verarbeitung natürlicher Sprache
Sprachverarbeitung 100 Klopfen-88: 10 Wörter mit hoher Ähnlichkeit
100 Sprachverarbeitungsklopfen 03 ~ 05
100 Sprachverarbeitungsklopfen (2020): 40
100 Sprachverarbeitungsklopfen (2020): 35
100 Sprachverarbeitungsklopfen (2020): 47
100 Sprachverarbeitungsklopfen (2020): 39
100 Sprachverarbeitungsklopfen (2020): 22
100 Sprachverarbeitungsklopfen (2020): 26
100 Sprachverarbeitungsklopfen (2020): 34
100 Sprachverarbeitungsklopfen (2020): 28
100 Sprachverarbeitungsklopfen (2020): 42
100 Sprachverarbeitungsklopfen (2020): 29
100 Sprachverarbeitungsklopfen (2020): 49
100 Sprachverarbeitungsklopfen 06 ~ 09
100 Sprachverarbeitungsklopfen (2020): 43
100 Sprachverarbeitungsklopfen (2020): 24