Mit Hilfe von DeepLearning habe ich eine Software erstellt, die Sätze zum Spiel vorliest, während ich Micra spiele.

↓ So ein Typ でもミニ.gif

Da es schwierig ist, sie zu einem Artikel zu kombinieren, werde ich ihn in mehrere Artikel aufteilen. Dieser Abschnitt beschreibt den ** Datenvorbereitungsteil ** </ font>.

↓ Andere Artikel

Daten, die Sie wollen

Text, der schön ist, während des Spiels angezeigt und vorgelesen zu werden. Text in Bezug auf Objekte im Spiel (Zombies, Creepers usw.).

Schaben

Schlagen Sie die Website

Fragen Sie zuerst den Google-Lehrer.

Suchen Sie bei Google nach "Zombie Minecraft" und so weiter. Es wäre schön, die Texte der Top-Sites in den Suchergebnissen zu sammeln.

Suchen Sie übrigens nach verwandten Wörtern, die unter den Suchergebnissen angezeigt werden.

Mit ↓ konnte ich mich gut fühlen. [Python] Google-Suchergebnisse ohne Zugriffsbeschränkungen abrufen

Site-Text herunterladen

Ich habe die URL der Website, die ich erhalten möchte Ich habe es bei Selen bekommen, das jeder liebt.

Ich habe jedoch den Inhalt der URL, auf die zugegriffen werden soll, nicht bestätigt. Wenn beim Laden ein Fehler auftritt, wird das Programm gestoppt.

Ansonsten überspringen Sie es vorerst! !!

Und speichern Sie HTML. Verwenden Sie dann BeautifulSoup usw., um den Text aus html.

Ich habe diejenigen verworfen, deren Zeichen nicht mit Japanisch oder [] begonnen haben. Ich wollte Tags und Daten löschen, die nicht gelöscht werden konnten.

Niko Niko-Kommentardatensatz

Ein Datensatz, der unter [hier] verteilt wird (https://www.nii.ac.jp/dsc/idr/nico/). Die Kommentare von Nico Nico sind seit ungefähr 10 Jahren organisiert. Nicht nur Kommentare, sondern auch Metadaten wie Namen, Tags und Beschreibungen sind enthalten.

** Ich habs gemacht! Sofort auftauen ...... **

Unvollendeter Dekompressionsprozess. Es endet nicht wirklich. Die Anzahl der Dateien ist groß. ** Ich kann es kaum erwarten. ** ** **

Nein, warte. Die einzigen Daten, die ich verwenden möchte, sind Kommentare, die mit Micra in Zusammenhang zu stehen scheinen.

Können Sie anhand der Metadaten-Tags nur die Kommentare von Micra-bezogenen Videos durch Dekomprimieren oder ohne Dekomprimieren verarbeiten? Es war möglich, zipfile zu verwenden.

Eine kleine Bearbeitung

Dank des Nico Nico-Datensatzes habe ich viele Daten erhalten! !!

Torima, Wortteilung

Ich habe [GiNZA] verwendet (https://megagonlabs.github.io/ginza/).

↓ Sie können solche Wörter teilen.

import spacy

nlp = spacy.load('ja_ginza')

with open(path, mode='r', encodeing='utf-8', errors='ignore'):
    text = list(f.read().split('\n'))
    docs = nlp.pipe(text, disable=['ner'])
    for doc in docs:
        for sent in doc.sents:
            for word in sent:
                # hogehoge

Sie können unnötige Funktionen mit disable von nlp.pipe () stoppen.

Entfernen Sie unnötigen Müll zum Lernen

Gelöschte Sätze mit 3 oder weniger Wörtern
Löschte einen Satz mit einem Wort, das Japanisch (r '[a-n-an-ichi-鿐]') in einem regulären Ausdruck enthält -Verwenden Sie set, um Sätze nur mit demselben Wort zu löschen.
Gelöschte Sätze mit nur Kanji und nur Hiragana mit regulären Ausdrücken

[Python] Zusammenfassung der Notation regulärer Ausdrücke (bezüglich Modul)

Zusammenfassung

Das Sammeln von Daten ist schwierig. Es scheint, dass wir verschiedene Wege finden können, um die Daten nutzbar zu machen.

Beiseite

Es gibt etwas namens AI Dungeon 2, das die Text Adventure Summary Site trainiert hat. Es ist erstaunlich, spielen zu können, während automatisch Geschichten generiert werden. Ich frage mich, ob es eine Text-Adventure-Site gibt, die auf Japanisch abgekratzt werden kann.

[PYTHON] "Minecraft, wo Yaji fliegt" Generieren Sie geeigneten Text mit Deep Learning ~ Daten sammeln ~