[PYTHON] Probieren Sie das Buch "Einführung in die Verarbeitung natürlicher Sprachanwendungen in 15 Schritten" aus - Kapitel 4 Schritt 15 Memo "Datenerfassung"

Inhalt

Dies ist ein Memo für mich, während ich Einführung in Anwendungen zur Verarbeitung natürlicher Sprache in 15 Schritten lese. Notieren Sie sich diesmal in Kapitel 4, Schritt 15 Ihre eigenen Punkte. (Obwohl ich selten schreibe)

Vorbereitung

Persönlicher MacPC: MacOS Mojave Version 10.14.6 --docker Version: Version 19.03.2 für Client und Server

Kapitelübersicht

Als letztes Kapitel des Buches wird es eine Sammlung von Hinweisen sein, um öffentliche Daten nach einem Datensatz zu durchsuchen, der für jeden Zweck geeignet ist, oder um ihn selbst zu erstellen, um die Verarbeitung natürlicher Sprache und maschinelles Lernen durchzuführen, die wir bisher gesehen haben. ing.

--Dataset-Sammlung

Cloud Sourcing

15.2 Datensatzerfassung

Verwendung öffentlicher Datensätze

Datensatz	Charakteristisch
Wikipedia	Eine Dump-Datei aller Daten wird offiziell in der Web-Enzyklopädie veröffentlicht.
Aozora Bunko	Sie können die Textdatei des literarischen Werks, dessen Urheberrecht abgelaufen ist, kostenlos herunterladen.
Livedoor News Corpus	Ein Teil des Artikels von Livedoor News ist die Creative Commons License (View)-Es wird unter (Keine Änderung) bereitgestellt.
Japanisches WordNet	Es ist eine Datenbank, die die hierarchische Struktur von Wortbedeutungen ausdrückt und für die Vorverarbeitung und morphologische Analyse verwendet werden kann.

Darüber hinaus gibt es einige, die kostenpflichtig sind, eine Nutzungsanwendung erfordern und nur eine begrenzte Nutzung haben.

Krabbeln

Wenn Sie nicht über das gewünschte öffentliche Dataset verfügen, können Sie Ihre Website crawlen, um Daten zu sammeln. Unbeaufsichtigte Daten sind einfach zu sammeln.

** Viele Web Sarnis verbieten den Massenzugriff für Crawling-Zwecke **
Die Nutzungsbedingungen der Website, auf der Daten gesammelt werden, können den Verwendungszweck des Inhalts einschränken **

15.3 Cloud-Sourcing

Das Crawlen ist kostenlos, es ist jedoch schwierig, überwachte Daten zu sammeln. Cloud-Sourcing wird in Rechnung gestellt (für Cloud-Mitarbeiter ist eine Belohnung erforderlich), es können jedoch Aufgaben festgelegt werden, und viele Mitarbeiter können viele Aufgaben parallel zu geringen Kosten anfordern.

Da die Arbeit eines japanischen Sprechers erforderlich ist, um einen japanischen Datensatz zu erstellen, werden zwangsläufig inländische Dienste (Cloudworks, Lancers usw.) verwendet.

Recommended Posts

Probieren Sie das Buch "Einführung in die Verarbeitung natürlicher Sprachanwendungen in 15 Schritten" aus - Kapitel 4 Schritt 15 Memo "Datenerfassung"

Probieren Sie das Buch "Einführung in die Verarbeitung natürlicher Sprachanwendungen in 15 Schritten" aus - Kapitel 2 Schritt 06 Memo "Identifier"

Probieren Sie das Buch "Einführung in die Verarbeitung natürlicher Sprachanwendungen in 15 Schritten" aus - Kapitel 2 Schritt 02 Memo "Vorverarbeitung"

Probieren Sie das Buch "Einführung in die Verarbeitung natürlicher Sprachanwendungen in 15 Schritten" aus - Kapitel 2 Schritt 07 Memo "Evaluation"

Probieren Sie das Buch "Einführung in die Verarbeitung natürlicher Sprachanwendungen in 15 Schritten" - Kapitel 4 Schritt 14 Memo "Hyperparametersuche"

Probieren Sie das Buch "Einführung in die Entwicklung natürlicher Anwendungen in 15 Schritten" aus - Kapitel 2 Schritt 04 Memo "Feature Extraction"

Probieren Sie das Buch "Einführung in die Verarbeitung natürlicher Sprachanwendungen in 15 Schritten" - Kapitel 3 Schritt 08 Memo "Einführung in neuronale Netze".

Probieren Sie das Buch "Einführung in die Entwicklung natürlicher Anwendungen in 15 Schritten" aus - Kapitel 2 Schritt 05 Memo "Feature Quantity Conversion"

Probieren Sie das Buch "Einführung in die Verarbeitung natürlicher Sprachanwendungen in 15 Schritten" aus - Kapitel 3 Schritt 11 Memo "Worteinbettungen"

Probieren Sie das Buch "Einführung in die Entwicklung natürlicher Anwendungen in 15 Schritten" - Kapitel 3 Schritt 12 Memo "Convolutional Neural Networks".

Probieren Sie das Buch "Einführung in die Entwicklung natürlicher Anwendungen in 15 Schritten" aus - Kapitel 3 Schritt 13 Memo "Wiederkehrende neuronale Netze"

Probieren Sie das Buch "Einführung in die Entwicklung natürlicher Anwendungen in 15 Schritten" aus - Kapitel 3 Schritt 09 Memo "Identifier by Neural Network"

Probieren Sie das Buch "Einführung in die Entwicklung natürlicher Anwendungen in 15 Schritten" aus - Kapitel 2 Schritt 01 Memo "Erstellen eines Dialogagenten"

Versuchen Sie das Buch "Einführung in die Verarbeitung natürlicher Sprachanwendungen in 15 Schritten" - Kapitel 2 Schritt 03 Memo "Morphologische Analyse und schriftliches Schreiben"

Versuchen wir das Buch "Einführung in die Entwicklung natürlicher Anwendungen in 15 Schritten" - Kapitel 3 Schritt 10 Memo "Details und Verbesserung des neuronalen Netzes"

Probieren Sie das Buch "Einführung in die Verarbeitung natürlicher Sprachanwendungen in 15 Schritten" - Kapitel 1 Memo "Vorkenntnisse vor Beginn der Übungen".

[WIP] Vorverarbeiten von Notizen in der Verarbeitung natürlicher Sprache

Zusammenfassung von Anfang bis Kapitel 1 der Einführung in Entwurfsmuster, die in der Java-Sprache gelernt wurden

100 Sprachverarbeitung Knock-92 (mit Gensim): Anwendung auf Analogiedaten

[Kapitel 5] Einführung in Python mit 100 Klopfen Sprachverarbeitung

[Kapitel 6] Einführung in Scicit-Learn mit 100 Klopfen Sprachverarbeitung

Leistungsüberprüfung der Datenvorverarbeitung in der Verarbeitung natürlicher Sprache

[Kapitel 3] Einführung in Python mit 100 Klopfen Sprachverarbeitung

[Kapitel 2] Einführung in Python mit 100 Klopfen Sprachverarbeitung

Versuchen Sie, die in Firefox gespeicherten Anmeldedaten zu entschlüsseln

[Technisches Buch] Einführung in die Datenanalyse mit Python -1 Kapitel Einführung-

[Kapitel 4] Einführung in Python mit 100 Klopfen Sprachverarbeitung

[Jobwechsel-Meeting] Versuchen Sie, Unternehmen zu klassifizieren, indem Sie Mundpropaganda in natürlicher Sprache mit word2vec verarbeiten

[Verarbeitung natürlicher Sprache] Ich habe diese Woche versucht, die aktuellen Themen in der Slack-Community zu visualisieren

[Verarbeitung natürlicher Sprache] Ich habe versucht, die Bemerkungen jedes Mitglieds in der Slack-Community zu visualisieren

Verarbeitung natürlicher Sprache (Originaldaten) mit Word2Vec, entwickelt von US-amerikanischen Google-Forschern

[Python] Versuchen Sie, Ramen-Shops durch Verarbeitung natürlicher Sprache zu klassifizieren

Eine Geschichte über alles von der Datenerfassung über die KI-Entwicklung bis hin zur Veröffentlichung von Webanwendungen in Python (3. KI-Entwicklung)

Zusammenfassung von Kapitel 2 der Einführung in Entwurfsmuster, die in Java gelernt wurden

Kapitel 4 Zusammenfassung der Einführung in Entwurfsmuster, die in Java gelernt wurden

Zusammenfassung von Kapitel 3 der Einführung in Entwurfsmuster, die in Java gelernt wurden

[Einführung in RasPi4] Umgebungskonstruktion, Mecab des Verarbeitungssystems für natürliche Sprache usw. .. .. ♪

Dockerfile mit den notwendigen Bibliotheken für die Verarbeitung natürlicher Sprache mit Python

100 Klicks in der Verarbeitung natürlicher Sprache Kapitel 4 Kommentar

100 Sprachverarbeitung Knock Kapitel 1 in Python

Versuchen Sie, Daten in MongoDB abzulegen

Probieren Sie Cython in kürzester Zeit aus

Vorbereitung zum Starten der Verarbeitung natürlicher Sprache

Von der Einführung der GoogleCloudPlatform Natural Language API bis zur Verwendung

Einfaches Auffüllen von Daten, die in der Verarbeitung natürlicher Sprache verwendet werden können

Ich habe versucht, die Version 2020 mit 100 Sprachverarbeitung zu lösen [Kapitel 3: Reguläre Ausdrücke 25-29]