[PYTHON] Erstellen Sie schnell Daten für die Serienkennzeichnung (Partizipationskennzeichnung)

Einfach mit Brown Corpus, das mit nltk_data von NLTK geliefert wird. Um Daten für die Teilwortkennzeichnung zu erstellen, rufen Sie einfach tagged_sents () auf. Wenn Sie Kategorien angeben, können Sie nur die Daten dieser Domain verarbeiten (zusätzlich zu Nachrichten gibt es verschiedene Rezensionen, Fiktionen, Romantik, Mysterien usw.).

import nltk
from nltk.corpus import brown

corpus = brown.tagged_sents(categories='news')

def dataset(N=100):
    d = []
    for tagged_sent in corpus[:N]:
        untagged_sent = nltk.tag.untag(tagged_sent)
        pos_sequence = [pos for (word, pos) in tagged_sent]
        d.append((untagged_sent, pos_sequence))
    return d

if __name__ == "__main__":
    dataset = dataset()

Recommended Posts

Erstellen Sie schnell Daten für die Serienkennzeichnung (Partizipationskennzeichnung)
Leistungsüberprüfung der Datenvorverarbeitung für maschinelles Lernen (numerische Daten) (Teil 2)
Suchen Sie nach Patentdaten, während Sie den F & E-Teil des Wertpapierberichts betrachten (erstellen Sie ein Dashboard).
Differenzierung von Zeitreihendaten (diskret)
[Für Anfänger] Skript innerhalb von 10 Zeilen (5. Resample von Zeitreihendaten mit Pandas)
Erkennung von Zeitreihendatenanomalien für Anfänger
Erstellen Sie Dokumentklassifizierungsdaten schnell mit NLTK
[Zur Aufnahme] Keras-Bildsystem Teil 1: Wie erstelle ich einen eigenen Datensatz?