Mit Hilfe von DeepLearning habe ich eine Software erstellt, die Sätze zum Spiel vorliest, während ich Micra spiele.
↓ So ein Typ
Da es schwierig ist, sie zu einem Artikel zu kombinieren, werde ich ihn in mehrere Artikel aufteilen. Dieser Abschnitt beschreibt den ** Datenvorbereitungsteil ** </ font>.
Text, der schön ist, während des Spiels angezeigt und vorgelesen zu werden. Text in Bezug auf Objekte im Spiel (Zombies, Creepers usw.).
Fragen Sie zuerst den Google-Lehrer.
Suchen Sie bei Google nach "Zombie Minecraft" und so weiter. Es wäre schön, die Texte der Top-Sites in den Suchergebnissen zu sammeln.
Suchen Sie übrigens nach verwandten Wörtern, die unter den Suchergebnissen angezeigt werden.
Mit ↓ konnte ich mich gut fühlen. [Python] Google-Suchergebnisse ohne Zugriffsbeschränkungen abrufen
Ich habe die URL der Website, die ich erhalten möchte Ich habe es bei Selen bekommen, das jeder liebt.
Ich habe jedoch den Inhalt der URL, auf die zugegriffen werden soll, nicht bestätigt. Wenn beim Laden ein Fehler auftritt, wird das Programm gestoppt.
Ansonsten überspringen Sie es vorerst! !!
Und speichern Sie HTML. Verwenden Sie dann BeautifulSoup usw., um den Text aus html.
Ich habe diejenigen verworfen, deren Zeichen nicht mit Japanisch oder [] begonnen haben. Ich wollte Tags und Daten löschen, die nicht gelöscht werden konnten.
Ein Datensatz, der unter [hier] verteilt wird (https://www.nii.ac.jp/dsc/idr/nico/). Die Kommentare von Nico Nico sind seit ungefähr 10 Jahren organisiert. Nicht nur Kommentare, sondern auch Metadaten wie Namen, Tags und Beschreibungen sind enthalten.
** Ich habs gemacht! Sofort auftauen ...... **
Unvollendeter Dekompressionsprozess. Es endet nicht wirklich. Die Anzahl der Dateien ist groß. ** Ich kann es kaum erwarten. ** ** **
Nein, warte. Die einzigen Daten, die ich verwenden möchte, sind Kommentare, die mit Micra in Zusammenhang zu stehen scheinen.
Können Sie anhand der Metadaten-Tags nur die Kommentare von Micra-bezogenen Videos durch Dekomprimieren oder ohne Dekomprimieren verarbeiten? Es war möglich, zipfile zu verwenden.
Dank des Nico Nico-Datensatzes habe ich viele Daten erhalten! !!
Ich habe [GiNZA] verwendet (https://megagonlabs.github.io/ginza/).
↓ Sie können solche Wörter teilen.
import spacy
nlp = spacy.load('ja_ginza')
with open(path, mode='r', encodeing='utf-8', errors='ignore'):
text = list(f.read().split('\n'))
docs = nlp.pipe(text, disable=['ner'])
for doc in docs:
for sent in doc.sents:
for word in sent:
# hogehoge
Sie können unnötige Funktionen mit disable
von nlp.pipe ()
stoppen.
r '[a-n-an-ichi-鿐]'
) in einem regulären Ausdruck enthält
-Verwenden Sie set, um Sätze nur mit demselben Wort zu löschen.[Python] Zusammenfassung der Notation regulärer Ausdrücke (bezüglich Modul)
Das Sammeln von Daten ist schwierig. Es scheint, dass wir verschiedene Wege finden können, um die Daten nutzbar zu machen.
Es gibt etwas namens AI Dungeon 2, das die Text Adventure Summary Site trainiert hat. Es ist erstaunlich, spielen zu können, während automatisch Geschichten generiert werden. Ich frage mich, ob es eine Text-Adventure-Site gibt, die auf Japanisch abgekratzt werden kann.
Recommended Posts