[PYTHON] Créez rapidement des données pour l'étiquetage des séries (balisage de participation)

Facile avec Brown Corpus, qui est livré avec nltk_data de NLTK. Pour créer des données pour le balisage de mots partiels, appelez simplement tagged_sents (). Si vous spécifiez des catégories, vous ne pouvez gérer que les données de ce domaine (en plus des actualités, il existe diverses critiques, fiction, romance, mystère, etc.).

import nltk
from nltk.corpus import brown

corpus = brown.tagged_sents(categories='news')

def dataset(N=100):
    d = []
    for tagged_sent in corpus[:N]:
        untagged_sent = nltk.tag.untag(tagged_sent)
        pos_sequence = [pos for (word, pos) in tagged_sent]
        d.append((untagged_sent, pos_sequence))
    return d

if __name__ == "__main__":
    dataset = dataset()