Einfach mit Brown Corpus, das mit nltk_data von NLTK geliefert wird. Um Daten für die Teilwortkennzeichnung zu erstellen, rufen Sie einfach tagged_sents () auf. Wenn Sie Kategorien angeben, können Sie nur die Daten dieser Domain verarbeiten (zusätzlich zu Nachrichten gibt es verschiedene Rezensionen, Fiktionen, Romantik, Mysterien usw.).
import nltk
from nltk.corpus import brown
corpus = brown.tagged_sents(categories='news')
def dataset(N=100):
d = []
for tagged_sent in corpus[:N]:
untagged_sent = nltk.tag.untag(tagged_sent)
pos_sequence = [pos for (word, pos) in tagged_sent]
d.append((untagged_sent, pos_sequence))
return d
if __name__ == "__main__":
dataset = dataset()
Recommended Posts