[PYTHON] [Traitement du langage naturel] Prétraitement avec le japonais

Je voudrais résumer quelques prétraitements japonais avec traitement du langage naturel. (Prévu pour être mis à jour à tout moment)

Pleine largeur-> demi-largeur

>>> import unicodedata
>>> 
>>> text =u '1994'
>>> print unicodedata.normalize(‘NFKC’, text)
1994

Cloud = nomenclature correcte? ??

Je pense que la plupart des gens analysent le japonais avec mecab.

Et je pense qu'il y a beaucoup de gens qui utilisent neologd comme dictionnaire, mais il y en a un que j'ai trouvé en utilisant ce dictionnaire.

$ mecab -d /usr/local/lib/mecab/dic/mecab-ipadic-neologd
nuage
Nuage substantif,Nom propre,Général,*,*,*,nuage~,Kumonomukouyakusokunobasho,Kumonomukouyakusokunobasho
EOS

Kumonomukouyakusokunobasho ...? Quand je l'ai recherché, c'était un film d'anime réalisé par Makoto Shinkai.

Recommended Posts

[Traitement du langage naturel] Prétraitement avec le japonais
3. Traitement du langage naturel par Python 2-1. Réseau de co-occurrence
[WIP] Pré-traitement des notes dans le traitement du langage naturel
3. Traitement du langage naturel par Python 1-1. Word N-gram
J'ai essayé le traitement du langage naturel avec des transformateurs.
Python: traitement du langage naturel
RNN_LSTM2 Traitement du langage naturel
3. Traitement du langage naturel par Python 2-2. Réseau de co-occurrence [mecab-ipadic-NEologd]
[Python] J'ai joué avec le traitement du langage naturel ~ transformers ~
Profitons du traitement du langage naturel à l'aide de l'API COTOHA
100 coups de traitement du langage avec Python 2015
Traitement du langage naturel 1 Analyse morphologique
Traitement du langage naturel 3 Continuité des mots
Traitement du langage naturel 2 similitude de mots
Vérification des performances du prétraitement des données dans le traitement du langage naturel
Créer un environnement pour le traitement du langage naturel avec Python
Vue d'ensemble du traitement du langage naturel et de son prétraitement des données
100 traitements du langage naturel frappent le chapitre 4 Commentaire
100 traitements de langage avec Python
Langage naturel: Word2Vec Part1 - Corpus japonais
100 traitements de langage avec Python (chapitre 3)
Logivan du langage artificiel et traitement du langage naturel (traitement du langage artificiel)
■ [Google Colaboratory] Prétraitement du traitement du langage naturel et janome
Se préparer à démarrer le traitement du langage naturel
Résumé de l'installation de l'analyseur de traitement du langage naturel
Traitement du langage naturel japonais utilisant Python3 (4) Analyse des émotions par régression logistique
Créez facilement un modèle de traitement du langage naturel avec BERT + LightGBM + optuna
Dockerfile avec les bibliothèques nécessaires pour le traitement du langage naturel avec python
Résumez comment prétraiter le texte (traitement du langage naturel) avec l'api tf.data.Dataset
Étude de cas sur le traitement du langage naturel: Fréquence des mots dans'Anne avec un E '
J'ai fait 100 traitements linguistiques Knock 2020 avec GiNZA v3.1 Chapitre 4
Langage naturel: GPT - Transformateur de pré-formation génératif japonais
Traiter le nom de la carte Yugioh en langage naturel --Yugiou Data Science 2. PNL
100 Knocking Natural Language Processing Chapitre 1 (Mouvement préparatoire)
100 traitements de langage avec Python (chapitre 2, partie 2)
100 traitements de langage avec Python (chapitre 2, partie 1)
Langage naturel: BERT Part1 - Corpus Wikipedia japonais
Mémo de produits pratique autour du traitement du langage naturel
Traitement du langage 100 knocks-88: 10 mots à haute similitude
100 traitements linguistiques frappent 03 ~ 05
100 coups de traitement linguistique (2020): 40
100 coups de traitement linguistique (2020): 35
100 coups de traitement linguistique (2020): 47
100 coups de traitement linguistique (2020): 39
100 coups de traitement linguistique (2020): 22
100 coups de traitement linguistique (2020): 26
100 coups de traitement linguistique (2020): 34
100 coups de traitement linguistique (2020): 28
100 coups de traitement linguistique (2020): 42
100 coups de traitement linguistique (2020): 29
100 coups de traitement linguistique (2020): 49
Le traitement de 100 langues frappe 06 ~ 09
100 coups de traitement linguistique (2020): 43
100 coups de traitement linguistique (2020): 24