[PYTHON] [Verarbeitung natürlicher Sprache] Vorverarbeitung mit Japanisch

Ich möchte einige japanische Vorverarbeitungen mit der Verarbeitung natürlicher Sprache zusammenfassen. (Geplant, jederzeit aktualisiert zu werden)

Volle Breite-> halbe Breite

>>> import unicodedata
>>> 
>>> text =u '1994'
>>> print unicodedata.normalize(‘NFKC’, text)
1994

Wolke = richtige Nomenklatur? ??

Ich denke, die meisten Leute analysieren Japanisch mit Mecab.

Und ich denke, dass es viele Leute gibt, die neologd als Wörterbuch verwenden, aber es gibt eine, die ich mit diesem Wörterbuch gefunden habe.

$ mecab -d /usr/local/lib/mecab/dic/mecab-ipadic-neologd
Wolke
Wolke Nomen,Proprietäre Nomenklatur,Allgemeines,*,*,*,Wolke~,Kumonomukouyakusokunobasho,Kumonomukouyakusokunobasho
EOS

Kumonomukouyakusokunobasho ...? Als ich es nachgeschlagen habe, war es ein Anime-Film von Makoto Shinkai.

Recommended Posts

[Verarbeitung natürlicher Sprache] Vorverarbeitung mit Japanisch

3. Verarbeitung natürlicher Sprache durch Python 2-1. Netzwerk für das gleichzeitige Auftreten

[WIP] Vorverarbeiten von Notizen in der Verarbeitung natürlicher Sprache

3. Verarbeitung natürlicher Sprache durch Python 1-1. Word N-Gramm

Ich habe versucht, natürliche Sprache mit Transformatoren zu verarbeiten.

Python: Verarbeitung natürlicher Sprache

RNN_LSTM2 Verarbeitung natürlicher Sprache

3. Verarbeitung natürlicher Sprache durch Python 2-2. Koexistenznetzwerk [mecab-ipadic-NEologd]

[Python] Ich habe mit der Verarbeitung natürlicher Sprache ~ Transformatoren ~ gespielt

Lassen Sie uns die Verarbeitung natürlicher Sprache mit der COTOHA-API genießen

100 Sprachverarbeitungsklopfen mit Python 2015

Verarbeitung natürlicher Sprache 1 Morphologische Analyse

Verarbeitung natürlicher Sprache 3 Wortkontinuität

Verarbeitung natürlicher Sprache 2 Wortähnlichkeit

Leistungsüberprüfung der Datenvorverarbeitung in der Verarbeitung natürlicher Sprache

Erstellen einer Umgebung für die Verarbeitung natürlicher Sprache mit Python

Überblick über die Verarbeitung natürlicher Sprache und ihre Datenvorverarbeitung

100 Klicks in der Verarbeitung natürlicher Sprache Kapitel 4 Kommentar

100 Sprachverarbeitungsklopfen mit Python (Kapitel 1)

Natürliche Sprache: Word2Vec Part1 - Japanischer Korpus

100 Sprachverarbeitungsklopfen mit Python (Kapitel 3)

Künstliche Sprache Logivan und Verarbeitung natürlicher Sprache (Verarbeitung künstlicher Sprache)

■ [Google Colaboratory] Vorverarbeitung der Verarbeitung natürlicher Sprache & Janome

Vorbereitung zum Starten der Verarbeitung natürlicher Sprache

Installationszusammenfassung des Analysators für die Verarbeitung natürlicher Sprache

Japanische Verarbeitung natürlicher Sprache mit Python3 (4) Emotionsanalyse durch logistische Regression

Erstellen Sie mit BERT + LightGBM + optuna ganz einfach ein Modell für die Verarbeitung natürlicher Sprache

Dockerfile mit den notwendigen Bibliotheken für die Verarbeitung natürlicher Sprache mit Python

Fassen Sie mit tf.data.Dataset api zusammen, wie Text (Verarbeitung natürlicher Sprache) vorverarbeitet wird

Fallstudie zur Verarbeitung natürlicher Sprache: Worthäufigkeit in 'Anne mit einem E'

Ich habe mit GiNZA v3.1 Kapitel 4 100 Sprachverarbeitungsklopfen 2020 durchgeführt

Natürliche Sprache: GPT - Japanischer generativer Pretraining-Transformator

Verarbeiten Sie den Namen der Yugioh-Karte in natürlicher Sprache - Yugiou Data Science 2. NLP

100 Klopfen der Verarbeitung natürlicher Sprache Kapitel 1 (Vorbereitungsbewegung)

100 Sprachverarbeitungsklopfen mit Python (Kapitel 2, Teil 2)

100 Sprachverarbeitungsklopfen mit Python (Kapitel 2, Teil 1)

Natürliche Sprache: BERT Part1 - Japanischer Wikipedia Corpus

Praktische Warenmitteilung zur Verarbeitung natürlicher Sprache

Sprachverarbeitung 100 Klopfen-88: 10 Wörter mit hoher Ähnlichkeit

100 Sprachverarbeitungsklopfen 03 ~ 05

100 Sprachverarbeitungsklopfen (2020): 40

100 Sprachverarbeitungsklopfen (2020): 35

100 Sprachverarbeitungsklopfen (2020): 47

100 Sprachverarbeitungsklopfen (2020): 39

100 Sprachverarbeitungsklopfen (2020): 22

100 Sprachverarbeitungsklopfen (2020): 26

100 Sprachverarbeitungsklopfen (2020): 34

100 Sprachverarbeitungsklopfen (2020): 28

100 Sprachverarbeitungsklopfen (2020): 42

100 Sprachverarbeitungsklopfen (2020): 29

100 Sprachverarbeitungsklopfen (2020): 49

100 Sprachverarbeitungsklopfen 06 ~ 09

100 Sprachverarbeitungsklopfen (2020): 43

100 Sprachverarbeitungsklopfen (2020): 24