Dies ist ein Memo für mich, während ich Einführung in Anwendungen zur Verarbeitung natürlicher Sprache in 15 Schritten lese. Notieren Sie sich diesmal in Kapitel 4, Schritt 15 Ihre eigenen Punkte. (Obwohl ich selten schreibe)
Als letztes Kapitel des Buches wird es eine Sammlung von Hinweisen sein, um öffentliche Daten nach einem Datensatz zu durchsuchen, der für jeden Zweck geeignet ist, oder um ihn selbst zu erstellen, um die Verarbeitung natürlicher Sprache und maschinelles Lernen durchzuführen, die wir bisher gesehen haben. ing.
--Dataset-Sammlung
Datensatz | Charakteristisch |
---|---|
Wikipedia | Eine Dump-Datei aller Daten wird offiziell in der Web-Enzyklopädie veröffentlicht. |
Aozora Bunko | Sie können die Textdatei des literarischen Werks, dessen Urheberrecht abgelaufen ist, kostenlos herunterladen. |
Livedoor News Corpus | Ein Teil des Artikels von Livedoor News ist die Creative Commons License (View)-Es wird unter (Keine Änderung) bereitgestellt. |
Japanisches WordNet | Es ist eine Datenbank, die die hierarchische Struktur von Wortbedeutungen ausdrückt und für die Vorverarbeitung und morphologische Analyse verwendet werden kann. |
Darüber hinaus gibt es einige, die kostenpflichtig sind, eine Nutzungsanwendung erfordern und nur eine begrenzte Nutzung haben.
Wenn Sie nicht über das gewünschte öffentliche Dataset verfügen, können Sie Ihre Website crawlen, um Daten zu sammeln. Unbeaufsichtigte Daten sind einfach zu sammeln.
Das Crawlen ist kostenlos, es ist jedoch schwierig, überwachte Daten zu sammeln. Cloud-Sourcing wird in Rechnung gestellt (für Cloud-Mitarbeiter ist eine Belohnung erforderlich), es können jedoch Aufgaben festgelegt werden, und viele Mitarbeiter können viele Aufgaben parallel zu geringen Kosten anfordern.
Da die Arbeit eines japanischen Sprechers erforderlich ist, um einen japanischen Datensatz zu erstellen, werden zwangsläufig inländische Dienste (Cloudworks, Lancers usw.) verwendet.
Recommended Posts