Début des études: samedi 7 décembre
Matériel pédagogique, etc.: ・ Miyuki Oshige "Détails! Note d'introduction à Python3 »(Sotech, 2017): 12/7 (sam) -12/19 (jeu) lu ・ Progate Python course (5 cours au total): 12/19 (jeudi) -12/21 (samedi) fin ・ Andreas C. Müller, Sarah Guido "(titre japonais) Apprentissage automatique à partir de Python" (O'Reilly Japon, 2017): 21/12 (sam) -23 décembre (sam) ・ Kaggle: Real or Not? NLP with Disaster Tweets: Publié du samedi 28 décembre au vendredi 3 janvier Ajustement ・ Wes Mckinney "(titre japonais) Introduction à l'analyse de données par Python" (O'Reilly Japon, 2018): 1/4 (mercredi) à 1/13 (lundi) lire ・ Yasuki Saito "Deep Learning from Zero" (O'Reilly Japan, 2016): 1/15 (mer) -1/20 (lun) ・ ** François Chollet «Deep Learning avec Python et Keras» (Queep, 2018): 1/21 (mar.) ~ **
p.261 Chapitre 6 Deep Learning pour les textes et les séquences Lecture terminée à mi-chemin.
La tokenisation qui se débattait hier est terminée.
Prétraitement des données (traitement du langage naturel)
#type : pandas.core.series.Series
#Convertir en minuscules
X_l = X.str.lower()
#Remplacez les caractères inutiles par des espaces demi-largeur.
X_r = X_l.replace(',', ' ').replace('.', ' ').replace('#', ' ').replace('#', ' ').replace('!', ' ').replace('!', ' ').replace(' ', ' ')
#Divisez chaque mot en utilisant un espace demi-largeur comme séparateur
X_s = X_r.str.split(' ')
#Défini ensemble
def make_vector(df):
X_l = df.str.lower()
X_r = X_r = X_l.replace(',', ' ').replace('.', ' ').replace('#', ' ').replace('#', ' ').replace('!', ' ').replace('!', ' ').replace(' ', ' ')
X_s = X_r.str.split(' ')
return X_s
Maintenant que nous avons tokenisé le texte extrait du jeu de données, il ne nous reste plus qu'à entraîner le modèle défini. (En cours de mise en œuvre)
Au fait, au début, j'ai essayé de retirer un par un et de le tourner avec une instruction for comme suit, mais cela ne fonctionne pas. Je me suis demandé si ce serait bien de prétraiter la série telle quelle sans avoir à la retirer, alors je l'ai recherchée et j'ai trouvé que c'était toujours possible. Écrivez en vous référant au responsable pandas (API reference, Series) pour le prétraitement Réussi.
Recommended Posts