[PYTHON] ■ [Google Colaboratory] Prétraitement du traitement du langage naturel et janome

  1. Read Data by "with open" method

Essayez de lire ** Ryunosuke Akutagawa's "nose" ** sur Aozora Bunko Le code de caractère du fichier est ** shift_jis ** image.png

#Lire et écrire des fichiers texte en Python (entrée / sortie)
with open('/hana.txt', mode='r', encoding='shift_jis') as f: 
  nose_hana = f.read()

print(nose_hana)

image.png

  1. Preprocessing of "HANA"
#Prétraitement des données
import re
import pickle

nose = re.sub('《[^》]+》', '', nose_hana)    #Supprimer le rubis
nose = re.sub('[|―  「」\n]', '', nose)      # |-Et espace pleine largeur, "" et suppression des sauts de ligne
nose = re.sub('[ ]', '', nose)                #Supprimer l'espace demi-largeur
nose = re.sub('[\u3000]', '', nose)           #\u3000 supprimé

sentense_end = '。'

nose_list = nose.split(sentense_end)
nose_list.pop()
nose_list = [x+sentense_end for x in nose_list]

print(nose_list)

image.png

3. WAKATI "Écriture séparée"

from janome import tokenizer

s = Tokenizer()

t = nose_list

for _ in nose_list:
  print(s.tokenize(_, wakati=True))

image.png

  1. Analysis of results of "WAKATI"
#Vous pouvez compter la fréquence d'apparition dans les collections
import collections

s = Tokenizer() #Instanciation
words = []
for _ in nose_list:
  words += s.tokenize(_, wakati=True)

c = collections.Counter(words)
print(c)

Reference

  1. Installation de l'outil d'analyse morphologique (janome)

Recommended Posts

■ [Google Colaboratory] Prétraitement du traitement du langage naturel et janome
Traitement du langage naturel 1 Analyse morphologique
■ [Google Colaboratory] Utiliser l'analyse morphologique (janome)
100 traitements du langage naturel frappent Chapitre 4 Analyse morphologique (première moitié)
100 traitements du langage naturel frappent Chapitre 4 Analyse morphologique (seconde moitié)
Vérification des performances du prétraitement des données dans le traitement du langage naturel
Apprenez facilement 100 traitements linguistiques Knock 2020 avec "Google Colaboratory"
Vue d'ensemble du traitement du langage naturel et de son prétraitement des données
Types de prétraitement dans le traitement du langage naturel et leur puissance
100 coups de traitement du langage 2020: Chapitre 4 (analyse morphologique)
100 Language Processing Knock 2020 Chapitre 4: Analyse morphologique
[Traitement du langage naturel] Prétraitement avec le japonais
100 Traitement du langage Knock Chapitre 4: Analyse morphologique
■ [Google Colaboratory] Utiliser l'analyse morphologique (MeCab)
100 traitement du langage knock-59: analyse de la formule S
100 langues de traitement frappent 2020 "pour Google Colaboratory"
[Traitement du langage 100 coups 2020] Chapitre 4: Analyse morphologique
100 Language Processing Knock 2015 Chapitre 4 Analyse morphologique (30-39)
Traiter le nom de la carte Yugioh en langage naturel --Yugiou Data Science 2. PNL
Traitement du langage 100 coups Chapitre 4: Analyse morphologique 31. Verbes
[WIP] Pré-traitement des notes dans le traitement du langage naturel
100 traitements du langage frappent l'analyse morphologique apprise au chapitre 4
Insoutenable manque d'attention dans le traitement du langage naturel
Python: traitement du langage naturel
RNN_LSTM2 Traitement du langage naturel
100 Language Processing Knock-30 (en utilisant des pandas): lecture des résultats de l'analyse morphologique
Le traitement du langage naturel à 100 coups
100 points de traitement du langage naturel Chapitre 5 Analyse des dépendances (premier semestre)
[Pour les débutants] Analyse du langage à l'aide de l'outil de traitement du langage naturel "GiNZA" (de l'analyse morphologique à la vectorisation)
Analyse morphologique japonaise avec Janome
100 Language Processing Knock-57: Analyse des dépendances
Traitement du langage naturel 3 Continuité des mots
100 Language Processing Knock-56: analyse de co-référence
Traitement du langage naturel 2 similitude de mots
Traitement du langage naturel japonais utilisant Python3 (4) Analyse des émotions par régression logistique
Pourquoi l'expression distribuée des mots est-elle importante pour le traitement du langage naturel?
[Word2vec] Visualisons le résultat du traitement en langage naturel des avis des entreprises
Étudiez le traitement du langage naturel avec Kikagaku
100 Language Processing Knock 2015 Chapitre 5 Analyse des dépendances (40-49)
100 traitements du langage naturel frappent le chapitre 4 Commentaire
Traitement du langage naturel pour les personnes occupées
[Traitement du langage 100 coups 2020] Chapitre 5: Analyse des dépendances
Logivan du langage artificiel et traitement du langage naturel (traitement du langage artificiel)
100 Language Processing Knock 2020 Chapitre 5: Analyse des dépendances
Traitement de l'analyse japonaise à l'aide de Janome part1
Analyse des séries chronologiques 3 Prétraitement des données des séries chronologiques
Se préparer à démarrer le traitement du langage naturel
Résumé de l'installation de l'analyseur de traitement du langage naturel
Résumé du traitement multi-processus du langage de script
Remplissage facile des données pouvant être utilisées dans le traitement du langage naturel
Apprenez les bases de la classification de documents par traitement du langage naturel, modèle de sujet
Réponses et impressions de 100 chocs de traitement linguistique - Partie 1
100 traitement du langage knock-91: Préparation des données d'analogie
Traitement du langage 100 knocks-44: Visualisation des arbres dépendants
Réponses et impressions de 100 chocs de traitement de la langue - Partie 2