[PYTHON] ■ [Google Colaboratory] Prétraitement du traitement du langage naturel et janome

Read Data by "with open" method

Essayez de lire ** Ryunosuke Akutagawa's "nose" ** sur Aozora Bunko Le code de caractère du fichier est ** shift_jis **

#Lire et écrire des fichiers texte en Python (entrée / sortie)
with open('/hana.txt', mode='r', encoding='shift_jis') as f: 
  nose_hana = f.read()

print(nose_hana)

Preprocessing of "HANA"

#Prétraitement des données
import re
import pickle

nose = re.sub('《[^》]+》', '', nose_hana)    #Supprimer le rubis
nose = re.sub('[|―  「」\n]', '', nose)      # |-Et espace pleine largeur, "" et suppression des sauts de ligne
nose = re.sub('[ ]', '', nose)                #Supprimer l'espace demi-largeur
nose = re.sub('[\u3000]', '', nose)           #\u3000 supprimé

sentense_end = '。'

nose_list = nose.split(sentense_end)
nose_list.pop()
nose_list = [x+sentense_end for x in nose_list]

print(nose_list)

3. WAKATI "Écriture séparée"

from janome import tokenizer

s = Tokenizer()

t = nose_list

for _ in nose_list:
  print(s.tokenize(_, wakati=True))

Analysis of results of "WAKATI"

#Vous pouvez compter la fréquence d'apparition dans les collections
import collections

s = Tokenizer() #Instanciation
words = []
for _ in nose_list:
  words += s.tokenize(_, wakati=True)

c = collections.Counter(words)
print(c)

Reference

Installation de l'outil d'analyse morphologique (janome)

Recommended Posts

■ [Google Colaboratory] Prétraitement du traitement du langage naturel et janome

Traitement du langage naturel 1 Analyse morphologique

■ [Google Colaboratory] Utiliser l'analyse morphologique (janome)

100 traitements du langage naturel frappent Chapitre 4 Analyse morphologique (première moitié)

100 traitements du langage naturel frappent Chapitre 4 Analyse morphologique (seconde moitié)

Vérification des performances du prétraitement des données dans le traitement du langage naturel

Apprenez facilement 100 traitements linguistiques Knock 2020 avec "Google Colaboratory"

Vue d'ensemble du traitement du langage naturel et de son prétraitement des données

Types de prétraitement dans le traitement du langage naturel et leur puissance

100 coups de traitement du langage 2020: Chapitre 4 (analyse morphologique)

100 Language Processing Knock 2020 Chapitre 4: Analyse morphologique

[Traitement du langage naturel] Prétraitement avec le japonais

100 Traitement du langage Knock Chapitre 4: Analyse morphologique

■ [Google Colaboratory] Utiliser l'analyse morphologique (MeCab)

100 traitement du langage knock-59: analyse de la formule S

100 langues de traitement frappent 2020 "pour Google Colaboratory"

[Traitement du langage 100 coups 2020] Chapitre 4: Analyse morphologique

100 Language Processing Knock 2015 Chapitre 4 Analyse morphologique (30-39)

Traiter le nom de la carte Yugioh en langage naturel --Yugiou Data Science 2. PNL

Traitement du langage 100 coups Chapitre 4: Analyse morphologique 31. Verbes

[WIP] Pré-traitement des notes dans le traitement du langage naturel

100 traitements du langage frappent l'analyse morphologique apprise au chapitre 4

Insoutenable manque d'attention dans le traitement du langage naturel

Python: traitement du langage naturel

RNN_LSTM2 Traitement du langage naturel

100 Language Processing Knock-30 (en utilisant des pandas): lecture des résultats de l'analyse morphologique

Le traitement du langage naturel à 100 coups

100 points de traitement du langage naturel Chapitre 5 Analyse des dépendances (premier semestre)

[Pour les débutants] Analyse du langage à l'aide de l'outil de traitement du langage naturel "GiNZA" (de l'analyse morphologique à la vectorisation)

Analyse morphologique japonaise avec Janome

100 Language Processing Knock-57: Analyse des dépendances

Traitement du langage naturel 3 Continuité des mots

100 Language Processing Knock-56: analyse de co-référence

Traitement du langage naturel 2 similitude de mots

Traitement du langage naturel japonais utilisant Python3 (4) Analyse des émotions par régression logistique

Pourquoi l'expression distribuée des mots est-elle importante pour le traitement du langage naturel?

[Word2vec] Visualisons le résultat du traitement en langage naturel des avis des entreprises

Étudiez le traitement du langage naturel avec Kikagaku

100 Language Processing Knock 2015 Chapitre 5 Analyse des dépendances (40-49)

100 traitements du langage naturel frappent le chapitre 4 Commentaire

Traitement du langage naturel pour les personnes occupées

[Traitement du langage 100 coups 2020] Chapitre 5: Analyse des dépendances

Logivan du langage artificiel et traitement du langage naturel (traitement du langage artificiel)

100 Language Processing Knock 2020 Chapitre 5: Analyse des dépendances

Traitement de l'analyse japonaise à l'aide de Janome part1

Analyse des séries chronologiques 3 Prétraitement des données des séries chronologiques

Se préparer à démarrer le traitement du langage naturel

Résumé de l'installation de l'analyseur de traitement du langage naturel

Résumé du traitement multi-processus du langage de script

Remplissage facile des données pouvant être utilisées dans le traitement du langage naturel

Apprenez les bases de la classification de documents par traitement du langage naturel, modèle de sujet

Réponses et impressions de 100 chocs de traitement linguistique - Partie 1

100 traitement du langage knock-91: Préparation des données d'analogie

Traitement du langage 100 knocks-44: Visualisation des arbres dépendants

Réponses et impressions de 100 chocs de traitement de la langue - Partie 2