[PYTHON] Créez rapidement des données pour l'étiquetage des séries (balisage de participation)

Facile avec Brown Corpus, qui est livré avec nltk_data de NLTK. Pour créer des données pour le balisage de mots partiels, appelez simplement tagged_sents (). Si vous spécifiez des catégories, vous ne pouvez gérer que les données de ce domaine (en plus des actualités, il existe diverses critiques, fiction, romance, mystère, etc.).

import nltk
from nltk.corpus import brown

corpus = brown.tagged_sents(categories='news')

def dataset(N=100):
    d = []
    for tagged_sent in corpus[:N]:
        untagged_sent = nltk.tag.untag(tagged_sent)
        pos_sequence = [pos for (word, pos) in tagged_sent]
        d.append((untagged_sent, pos_sequence))
    return d

if __name__ == "__main__":
    dataset = dataset()

Recommended Posts

Créez rapidement des données pour l'étiquetage des séries (balisage de participation)
Vérification des performances du prétraitement des données pour l'apprentissage automatique (données numériques) (partie 2)
Rechercher des données de brevets en consultant la partie R&D du rapport titres (créer un tableau de bord)
Différenciation des données de séries chronologiques (discrètes)
[Pour les débutants] Script dans les 10 lignes (5. Rééchantillonnage des données de séries chronologiques à l'aide de pandas)
Détection d'anomalies de données chronologiques pour les débutants
Créez rapidement des données de classification de documents à l'aide de NLTK
[Pour l'enregistrement] Système d'image Keras Partie 1: Comment créer votre propre ensemble de données?