3. Traitement du langage naturel par Python 2-1. Réseau de co-occurrence

** Word N-gram ** utilise un ensemble de mots adjacents comme unité de données. 2 grammes (2 mots) est comme suit.
** Co-location ** compte le nombre de fois ** les mots apparaissent ensemble dans l'unité cible (phrase) **.
Ce qui précède est un exemple de deux mots pour la nomenclature. En d'autres termes, quelle que soit la relation de position mutuelle, ** la combinaison de mots qui apparaissent dans la même phrase est l'unité de données **.

1. Préparation des données textuelles

⑴ Importation de divers modules

import re
import zipfile
import urllib.request
import os.path
import glob

re: Abréviation pour Regular Expression, un module pour manipuler les expressions régulières
zipfile: Module de manipulation des fichiers zip
ʻUrllib.request`: Module de récupération de ressources sur Internet
ʻOs.path`: Module de manipulation des noms de chemin
glob: Module pour obtenir le nom du chemin du fichier

⑵ Obtenir le chemin du fichier

Pour le corpus, de la bibliothèque électronique sur Internet "Aozora Bunko", "My Individualism (New Character New Pseudonym", Work ID: 772) de Soseki Natsume ) »J'emprunterai.
Comment obtenir un fichier texte d'Aozora Bunko

URL = 'https://www.aozora.gr.jp/cards/000148/files/772_ruby_33099.zip'

(3) Acquisition de fichier texte et extraction de texte

Deux méthodes sont définies ci-dessous.
La première est une méthode pour obtenir le fichier zip, le décompresser et obtenir le chemin du fichier texte.

def download(URL):

    #Télécharger le fichier zip
    zip_file = re.split(r'/', URL)[-1]
    urllib.request.urlretrieve(URL, zip_file)
    dir = os.path.splitext(zip_file)[0]

    #Décompressez et enregistrez le fichier zip
    with zipfile.ZipFile(zip_file) as zip_object:
        zip_object.extractall(dir)
    os.remove(zip_file)

    #Obtenez le chemin du fichier texte
    path = os.path.join(dir,'*.txt')
    list = glob.glob(path)
    return list[0]

La deuxième méthode consiste à lire un fichier texte et à extraire uniquement le texte, mais également à supprimer le rubis, les notes, le code de saut de ligne, les espaces inutiles, etc. contenus dans le texte.

def convert(download_text):

    #Lire le fichier
    data = open(download_text, 'rb').read()
    text = data.decode('shift_jis')

    #Extraction de texte
    text = re.split(r'\-{5,}', text)[2] 
    text = re.split(r'Livre du bas:', text)[0]
    text = re.split(r'[#Nouvelle page]', text)[0]

    #Supprimer les pièces inutiles
    text = re.sub(r'《.+?》', '', text)
    text = re.sub(r'［＃.+?］', '', text)
    text = re.sub(r'｜', '', text)
    text = re.sub(r'\r\n', '', text)
    text = re.sub(r'\u3000', '', text)
    text = re.sub(r'「', '', text)
    text = re.sub(r'」', '', text)

    return text

Maintenant, exécutez les deux méthodes avec le chemin de fichier précédemment acquis comme argument, et divisez-le en unités de phrase avec le signe de ponctuation ".".

#Obtenir le chemin du fichier
download_file = download(URL)

#Extraire uniquement le texte
text = convert(download_file)

#Diviser en une liste basée sur des instructions
sentences = text.split("。")

Sur cette base, le texte est divisé en unités de phrase et ** des "données de cooccurrence" constituées de paires de mots concomitants et de fréquence d'occurrence ** seront créées.

2. Création de données de cooccurrence

⑷ Installation de MeCab

!apt install aptitude
!aptitude install mecab libmecab-dev mecab-ipadic-utf8 git make curl xz-utils file -y
!pip install mecab-python3==0.7

⑸ Génération de liste de nomenclature pour chaque phrase

L'argument de «MeCab.Tagger ()» est la spécification du «mode de sortie», mais «-Ochasen» produit le résultat de l'analyse morphologique.
L'analyse morphologique est effectuée phrase par phrase, et la forme de base d'un mot est acquise pour la nomenclature afin de générer une ** liste de nomenclature basée sur la phrase **.

import MeCab
mecab = MeCab.Tagger("-Ochasen")

#Générer une liste de nomenclature basée sur des phrases
noun_list = [
             [v.split()[2] for v in mecab.parse(sentence).splitlines()
             if (len(v.split())>=3 and v.split()[3][:2]=='nom')]
             for sentence in sentences
             ]

Chaque fois qu'une phrase est retirée par «pour phrase dans les phrases», elle est soumise à une analyse morphologique avec «mecab.parse (phrase)».
A chaque fois, la liste divisée en unités de mots par splitlines () est utilisée comme v, et le troisième élément [2] ʻest ajouté à la liste en divisant v par split () `. Obtenir
Voici un exemple du format de sortie pour l'analyse morphologique. Le «[2]» délimité par des tabulations est la forme de base du mot (partie ■ </ font>).

De plus, en fonction de l'instruction if v.split () [3] [: 2] == 'nom', la partie qui correspond au quatrième élément [3] ʻof v` est un nom (<font color =" LightBlue "). Seuls ceux qui correspondent à la partie "> ■ </ font>) seront extraits.

Comme indiqué ci-dessous, seules les formes de base de la nomenclature sont extraites pour former une liste basée sur des phrases.

⑹ Génération de données de cooccurrence

Les données de co-occurrence sont un objet de type dictionnaire constitué de paires de mots de co-occurrence et de fréquence d'occurrence.

import itertools
from collections import Counter

ʻItertools`: Un module qui rassemble les fonctions d'itérateur pour un traitement efficace des boucles.
Counter: Un module pour compter le nombre d'occurrences de chaque élément

#Générer une liste de paires de nomenclatures basée sur des phrases
pair_list = [
             list(itertools.combinations(n, 2))
             for n in noun_list if len(noun_list) >=2
             ]

#Aplatir la liste des paires de nez
all_pairs = []
for u in pair_list:
    all_pairs.extend(u)

#Comptez la fréquence des paires de noms
cnt_pairs = Counter(all_pairs)

Extraire séquentiellement deux mots ou plus de la liste de nomenclature basée sur des phrases, générer une combinaison de deux mots avec ʻitertools.combinations () , les lister avec list () , et les stocker dans pair_list`.
Cependant, puisque pair_list est une unité de phrase, elle ne peut pas être comptée telle quelle. Par conséquent, aplatissez-le en l'ajoutant séquentiellement à la variable nouvellement préparée ʻall_pairsavec ʻextend ().
Passez ceci à Counter () pour générer des ** données de cooccurrence de type dictionnaire ** cnt_pairs.

3. Création de données de dessin

import pandas as pd
import numpy as np

⑺ Affiner les données de cooccurrence

Affinez les éléments pour simplifier l'apparence lors du dessin. Ici, nous allons générer une liste des 50 meilleurs ensembles par fréquence d'apparition.

tops = sorted(
    cnt_pairs.items(), 
    key=lambda x: x[1], reverse=True
    )[:50]

Il a une syntaxe qui combine les expressions sorted () et lambda, et trie les objets de type dictionnaire en fonction de l'élément spécifié sous key = lambda.
La référence «x [1]» extrait les 50 premières paires du deuxième élément, c'est-à-dire le tri inversé par fréquence «reverse = True».

⑻ Génération de données pondérées

noun_1 = []
noun_2 = []
frequency = []

#Créer un bloc de données
for n,f in tops:
    noun_1.append(n[0])    
    noun_2.append(n[1])
    frequency.append(f)

df = pd.DataFrame({'La nomenclature ci-dessus': noun_1, 'Nomenclature ultérieure': noun_2, 'Fréquence d'apparition': frequency})

#Définition des données pondérées
weighted_edges = np.array(df)

Conversion des 50 premiers ensembles de données de cooccurrence en tableau pour créer des weighted_edges (données pondérées).
Ci-dessous se trouve la trame de données avant la conversion en tableau.

4. Dessiner un schéma de réseau

⑼ Import de la bibliothèque de visualisation

import matplotlib.pyplot as plt
import networkx as nx
%matplotlib inline

** networkX ** est un package pour créer et manipuler des réseaux complexes et des structures de graphes en Python.
Dans le diagramme de réseau, les sommets sont appelés ** nœuds ** et les arêtes reliant les sommets sont appelées ** arêtes **
Afin d'afficher l'étiquette du nœud en japonais, il est nécessaire d'importer le japanize_matplotlib suivant puis de spécifier la police japonaise.

#Un module qui rend matplotlib compatible avec l'affichage japonais
!pip install japanize-matplotlib
import japanize_matplotlib

⑽ Visualisation par NetworkX

La procédure pour dessiner un diagramme de réseau avec networkX est de 3 étapes: ➀ créer un objet avec une structure graphique, ➁ y charger des données et ➂ spécifier des spécifications telles que des nœuds et des arêtes sur matplotlib et dessiner.
Cela semble déroutant, mais font_family =" IPAexGothic " est la clé, et en spécifiant ** font_family avec une police japonaise **, l'étiquette de nœud sera rendue compatible avec l'affichage japonais.

#Générer un objet graphique
G = nx.Graph()

#Lecture des données pondérées
G.add_weighted_edges_from(weighted_edges)

#Dessiner un diagramme de réseau
plt.figure(figsize=(10,10))
nx.draw_networkx(G,
                 node_shape = "s",
                 node_color = "c", 
                 node_size = 500,
                 edge_color = "gray", 
                 font_family = "IPAexGothic") #Spécification de la police

plt.show()

Afin de saisir le mécanisme de l'analyse de réseau de cooccurrence comme un grand flux, des détails tels que la définition de mots vides (mots à exclure) et le traitement des mots composés (par exemple, «individualisme» au lieu de «individu» et «principe») J'ai fermé les yeux.
De plus, pour plus de commodité, je l'ai divisé en quatre étapes de travail suivantes. Il y a quatre étapes: ➀ préparation des données de texte, ➁ création de données de cooccurrence, ➂ création de données de dessin et ➃ dessin de diagramme de réseau. Cependant, en général, je pense que cela se comprend en trois étapes: ➊ le prétraitement, ➋ l'analyse et ➌ la visualisation.
Surtout ➊ Je pense que le prétraitement est le cœur du traitement du langage naturel. En fait, il peut être incorporé dans le cadre de ➋ dans le script, mais en bref, il s'agit de "comment extraire les mots nécessaires des données brutes". Quel type de point de vue analytique et quels critères utiliser pour extraire les mots? Il apparaîtra directement dans les résultats de l'analyse, ce qui affectera l'interprétation. C'est l'unité de travail qui demande le plus de considération et qui prend du temps et de l'énergie.