[PYTHON] "Minecraft où le yaji vole" Générez du texte approprié avec Deep Learning ~ Collectez des données ~

Avec l'aide de DeepLearning, j'ai créé un logiciel qui lit les phrases liées au jeu tout en jouant à Micra.

↓ Un tel gars でもミニ.gif

En train de lire la vidéo

Puisqu'il est difficile de les combiner en un seul article, je vais le diviser en plusieurs articles. Cette section décrit la ** partie de préparation des données ** </ font>.

↓ Autres articles

Les données que vous voulez

Texte agréable à afficher et à lire à haute voix pendant le jeu. Texte lié aux objets du jeu (zombies, creepers, etc.).

Grattage

Frappez le site

Tout d'abord, demandez à l'enseignant de Google.

Recherchez «Zombie Minecraft» sur Google et ainsi de suite. Ce serait bien de rassembler les textes des meilleurs sites dans les résultats de recherche.

À propos, recherchez les mots associés qui apparaissent sous les résultats de la recherche.

J'ai pu me sentir bien en utilisant ↓. [Python] Obtenez les résultats de recherche Google sans restrictions d'accès

Télécharger le texte du site

J'ai l'URL du site Web que je souhaite obtenir, alors Je l'ai eu chez Selenium, que tout le monde adore.

Cependant, je n'ai pas confirmé le contenu de l'URL pour y accéder correctement. Si une erreur se produit pendant le chargement, le programme s'arrête.

A part ça, sautez-le pour le moment! !!

Et enregistrez html. Ensuite, utilisez BeautifulSoup etc. pour extraire le texte de html.

Ceux dont les caractères ne commencent pas par japonais ou [] sont ignorés. Je voulais effacer les balises et les dates qui ne pouvaient pas être effacées.

Ensemble de données de commentaires Niko Niko

Un ensemble de données distribué sur ici. Les commentaires de Nico Nico sont organisés depuis environ 10 ans. Non seulement les commentaires, mais également les métadonnées telles que les noms, les balises et les descriptions sont inclus.

** Je l'ai fait! Décongeler immédiatement ...... **

Processus de décompression inachevé. Ça ne finit pas vraiment. Le nombre de fichiers est important. ** J'ai hâte de voir ça. ** **

Non attends. Les seules données que je souhaite utiliser sont des commentaires qui semblent être liés à Micra.

En regardant les balises de métadonnées, pouvez-vous traiter uniquement les commentaires des vidéos liées à Micra en les décompressant ou sans les décompresser? C'était possible en utilisant zipfile.

Un peu de traitement

Grâce au Dataset Nico Nico, j'ai beaucoup de données! !!

Torima, division des mots

J'ai utilisé GiNZA.

↓ Vous pouvez diviser des mots comme celui-ci.

import spacy

nlp = spacy.load('ja_ginza')

with open(path, mode='r', encodeing='utf-8', errors='ignore'):
    text = list(f.read().split('\n'))
    docs = nlp.pipe(text, disable=['ner'])
    for doc in docs:
        for sent in doc.sents:
            for word in sent:
                # hogehoge

Vous pouvez arrêter les fonctions inutiles avec disable of nlp.pipe ().

Éliminez les déchets inutiles pour l'apprentissage

  • Phrases supprimées de 3 mots ou moins
  • Suppression d'une phrase avec un mot contenant du japonais (`r '[an-an-ichi-鿐]' ') dans une expression régulière -Utilisez set pour supprimer des phrases avec le même mot uniquement.
  • Suppression des phrases avec uniquement des kanji et uniquement des hiragana avec des expressions régulières

[Python] Résumé de la notation des expressions régulières (module re)

Résumé

La collecte de données est difficile. Il semble que nous puissions concevoir différentes manières de rendre les données utilisables.

De côté

Il y a quelque chose appelé AI Dungeon 2 qui a formé le site de résumé de l'aventure textuelle. C'est incroyable de pouvoir jouer tout en générant automatiquement des histoires. Je me demande s'il existe un site d'aventure texte qui peut être gratté en japonais.

Recommended Posts

"Minecraft où le yaji vole" Générez du texte approprié avec Deep Learning ~ Collectez des données ~
"Minecraft où le yaji vole" Générer du texte approprié avec Deep Learning ~ Déplacer avec mod ~
Générez des Pokémon avec Deep Learning
PPLM: Une technique simple de Deep Learning pour générer des phrases avec des attributs spécifiés
Une histoire de prédiction du taux de change avec Deep Learning
Générer une image verticale d'un roman à partir de données textuelles
Une scène où le GPU est utile pour le deep learning?
Essayez de créer un réseau de neurones / d'apprentissage en profondeur avec scratch
[Evangelion] Essayez de générer automatiquement des lignes de type Asuka avec Deep Learning
(Maintenant) Construisez un environnement GPU Deep Learning avec GeForce GTX 960
J'ai essayé d'écrire dans un modèle de langage profondément appris