3. Traitement du langage naturel avec Python 1-2. Comment créer un corpus: Aozora Bunko

Un corpus (une grande quantité de texte) est nécessaire pour les essais de traitement du langage naturel.
Fréquemment utilisée "Aozora Bunko" est une bibliothèque sur Internet qui publie des textes d'œuvres dont le droit d'auteur a expiré, comme la littérature moderne.
Obtenir une œuvre de "Aozora Bunko" comme matériau de traitement du langage naturel, et organiser la procédure de traitement pour un corpus.

1. Récupérez le fichier et extrayez uniquement le texte

⑴ Importation de divers modules

import re
import zipfile
import urllib.request
import os.path
import glob

re: Abréviation pour Regular Expression, un module pour manipuler les expressions régulières
zipfile: Module de manipulation des fichiers zip
ʻUrllib.request`: Module de récupération de ressources sur Internet
ʻOs.path`: Module de manipulation des noms de chemin
glob: Module pour obtenir le nom du chemin du fichier

⑵ Obtenir le chemin du fichier

Ici, le matériel est "Galaxy Railroad Night" de Kenji Miyazawa.

Effectuez une recherche en saisissant "Kenji Miyazawa" dans le champ de recherche en haut à droite de la page supérieure de "Aozora Bunko".
Transition vers la page correspondante depuis "Liste des oeuvres de l'artiste: Kenji Miyazawa" en haut des résultats de recherche.
Sélectionnez "59. Galaxy Railroad Night (nouveau personnage, nouveau pseudonyme, ID de travail: 43737)" dans la liste.
Faites défiler la destination de transition «Carte de livre: No.43737» vers «Télécharger le fichier».
Cliquez avec le bouton droit sur ** nom du fichier zip ** dans le champ du nom du fichier (lien) et sélectionnez "Copier l'adresse du lien".

URL = 'https://www.aozora.gr.jp/cards/000081/files/43737_ruby_19028.zip'

⑶ Méthode pour obtenir / décompresser le fichier zip

def download(URL):
    zip_file = re.split(r'/', URL)[-1] #➀
    urllib.request.urlretrieve(URL, zip_file) #➁
    dir = os.path.splitext(zip_file)[0] #➂

    with zipfile.ZipFile(zip_file) as zip_object: #➃
        zip_object.extractall(dir) #➄

    os.remove(zip_file) #➅

    path = os.path.join(dir,'*.txt') #➆
    list = glob.glob(path) #➇
    return list[0] #➈

** 1) Téléchargez le fichier zip **

➀re.split (): Séparez la chaîne d'URL par/et obtenez le nom du fichier zip" 43737_ruby_19028.zip "à la fin.
➁ ʻurllib.request.urlretrieve (URL, nom de sauvegarde) `: Téléchargez le fichier directement depuis le site et enregistrez-le sous le nom de fichier zip" 43737_ruby_19028.zip ".
➂ ʻos.path.splitext () : Divisez le nom du fichier zip par un point". "Et obtenez le nom du fichier dir` sans extension.

** 2) Décompressez et enregistrez le fichier zip **

➃ zipfile.ZipFile (): Lisez le fichier zip précédemment enregistré, créez un objet zip et
➄ ʻextractall () : Extraire tout le contenu de l'objet zip dans le répertoire dir`.
➅ ʻos.remove () `: Supprime le fichier zip avant la décompression.

** 3) Obtenez le chemin du fichier enregistré **

➆ ʻos.path.join () : Génère la chaîne de chemin de dir`.
➇ glob.glob (): Affiche et répertorie tous les noms de fichiers texte dans le répertoire.
➈list [0]: Renvoie le chemin du premier fichier de la liste.

⑷ Méthode pour lire le fichier et extraire le corps

def convert(download_text):
    data = open(download_text, 'rb').read() #➀
    text = data.decode('shift_jis') #➁

    #Extraction de texte
    text = re.split(r'\-{5,}', text)[2] #➂  
    text = re.split(r'Livre du bas:', text)[0] #➃
    text = re.split(r'[#Nouvelle page]', text)[0] #➄

    #Suppression du bruit
    text = re.sub(r'《.+?》', '', text) #➅
    text = re.sub(r'［＃.+?］', '', text) #➆
    text = re.sub(r'｜', '', text) #➇
    text = re.sub(r'\r\n', '', text) #➈
    text = re.sub(r'\u3000', '', text) #➉   

    return text

** 1) Lire le fichier **

① ʻopen (nom du fichier, 'rb'). Read () : Lit le fichier en 'rb'` (mode binaire).
② decode ('shift_jis'): Décode selon shift_jis et récupère le texte.

** 2) Extraire le texte avec re.split () **

➂(r '\ - {5,}', text) [2]: Supprimez la partie où le trait d'union" - "est répété 5 fois ou plus, et utilisez-le comme délimiteur pour diviser le troisième élément. Sortir.
④ (r'base: ', text) [0]: Supprimez "base:" et retirez le premier élément divisé en l'utilisant comme délimiteur.
➄(r '[# page break]', text) [0]: Supprime" [# page break] "et extrait le premier élément de la division en l'utilisant comme délimiteur.

** 3) Suppression (remplacement) du bruit par re.sub () **

➅'《. +?》': 《Rubi》
➆'[#. +?]': [Remarque]
➇ `` '｜' ': Position de départ de la chaîne de caractères avec ruby
➈ '\ r \ n': code de saut de ligne
➉ '\ u3000': Espace pleine largeur

⑸ Acquisition de fichiers et extraction de texte

download_file = download(URL)
text = convert(download_file)

print(text)

2. «Écriture séparée» par MeCab

⑹ Installation de MeCab, division

!apt install aptitude
!aptitude install mecab libmecab-dev mecab-ipadic-utf8 git make curl xz-utils file -y
!pip install mecab-python3==0.7

Vous pouvez obtenir le résultat sous forme de chaîne en créant une instance dans la classe MeCab.Tagger () avec l'argument -Owakati puis en appelant la méthode parse ().

import MeCab
mecab = MeCab.Tagger("-Owakati")
text = mecab.parse(text)

print(text)

De plus, split () divise la chaîne en utilisant un espace comme délimiteur.

separated_text = text.split()
print(separated_text)

3. Si vous téléchargez sur votre PC local

⑺ Créez un fichier et transférez-le sur votre PC local

Téléchargez le texte séparé sur votre PC local.

with open('output.txt', 'w') as f:
    f.write(text)

Écrivez text dans un fichier appelé'output.txt'. L'argument «'w» est la spécification du mode d'écriture.

from google.colab import files

files.download('output.txt')

files est un module pour télécharger ou télécharger des fichiers entre Colaboratory et votre PC local.
Indique le fichier texte après le téléchargement. Les parties inutiles telles que le rubis et les notes de bas de page dans le texte ont été supprimées, ne laissant que le texte dans une écriture séparée.