Cible

Nous avons résumé BERT à l'aide du Microsoft Cognitive Toolkit (CNTK).

La première partie se prépare pour BERT.

Je vais les présenter dans l'ordre suivant.

Téléchargez Wikipedia japonais et extrayez des données textuelles
Prétraitement des données de texte et création de modèles de morceaux de phrase
Création d'un corpus de pré-apprentissage

introduction

Télécharger Wikipedia japonais

Cette fois, nous utiliserons Wikipédia japonais comme corpus japonais.

Téléchargez jawiki-latest-pages-articles-multistream.xml.bz2 à partir du lien ci-dessus. Utilisez ensuite wikiextractor pour supprimer le langage de balisage.

$ python ./wikiextractor-master/WikiExtractor.py ./jawiki/jawiki-latest-pages-articles-multistream.xml.bz2 -o ./jawiki -b 500M

La structure du répertoire cette fois est la suivante.

BERT 　|―jawiki 　　jawiki-latest-pages-articles-multistream.xml.bz2 　|―wikiextractor-master 　　WikiExtractor.py 　　... 　bert_corpus.py Doc2Vec NMTT STSA Word2Vec

Prétraitement des données texte et création de modèles de morceaux de phrase

En plus du prétraitement mis en œuvre jusqu'à présent, un prétraitement tel que la normalisation de la notation des crochets et des signes de ponctuation et la suppression des espaces entre les caractères kana-kanji a été exécuté.

Pour la division des mots, créez un modèle de sous-mots à l'aide de la phrase [1]. De plus, \ [CLS], \ [SEP], \ [MASK] sont définis comme des mots spéciaux.

Créer un corpus de pré-apprentissage

Dans le pré-apprentissage de BERT [2], le modèle de langage est formé comme apprentissage non supervisé en masquant les phrases contenues dans le corpus, donc créez des données d'apprentissage pour cela.

Le modèle de langage masqué décide de remplacer 15% de la séquence de mots, avec 80% de chances de la laisser comme un mot spécial \ [MASK], 10% de chances de mot aléatoire et 10% de chances de la laisser telle quelle. Mettre.

De plus, cette fois, nous utiliserons la prédiction de l'ordre des phrases [3] au lieu de la prédiction de la phrase suivante.

la mise en oeuvre

Environnement d'exécution

Matériel

・ Processeur Intel (R) Core (TM) i7-7700 3,60 GHz

Logiciel

・ Windows 10 Professionnel 1909 ・ Python 3.6.6 ・ Nltk 3.4.5 ・ Numpy 1.17.3 ・ Pièce de phrase 0.1.91

Programme à exécuter

Le programme implémenté est publié sur GitHub.

`bert_corpus.py`

résultat

Lorsque le programme est exécuté, une phrase prétraitée est écrite sur chaque ligne et un corpus japonais est créé avec chaque sujet séparé par des lignes vides.

Le modèle Phrase Piece est ensuite formé pour créer jawiki.model et jawiki.vocab.

Enfin, un fichier texte est créé pour être lu par CTFDeserializer pour le pré-apprentissage.

Maintenant que vous êtes prêt à vous entraîner, la partie 2 utilisera CNTK pour pré-apprendre le japonais sans professeur.

référence

Wikipedia japonais wikiextractor

Taku Kudo and John Richardson. "SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing", arXiv preprint arXiv:1808.06226, (2018).
Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding", arXiv preprint arXiv:1810.04805, (2018).
Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, and Radu Soricut. "ALBERT: A Lite BERT for self-supervised learning of language representations", arXiv preprint arXiv:1909.11942 (2019).

[PYTHON] Langage naturel: BERT Part1 - Corpus Wikipedia japonais