[PYTHON] Dossier d'apprentissage n ° 18 (22e jour)

Dossier d'apprentissage (22e jour)

Début des études: samedi 7 décembre

Matériel pédagogique, etc.: ・ Miyuki Oshige "Détails! Note d'introduction à Python3 »(Sotech, 2017): 19/12 (jeudi) Terminé ・ Cours Progate Python (5 cours au total): se termine le samedi 21 décembre ・ Andreas C. Müller, Sarah Guido "(titre japonais) Apprentissage automatique à partir de Python" (O'Reilly Japon, 2017): Terminé le samedi 23 décembre ・ Kaggle: Real or Not? NLP with Disaster Tweets: Publié du samedi 28 décembre au vendredi 3 janvier Ajustement ・ ** Wes Mckinney "(titre japonais) Introduction à l'analyse de données par Python" (O'Reilly Japon, 2018) **: 4 janvier (samedi) ~

"Introduction à l'analyse de données avec Python"

p.181 Chapitre 5 Fin de la lecture jusqu'à l'introduction aux pandas.

-Pandas est conçu pour gérer des données tabulaires et non uniformes. Comme NumPy, je préfère le traitement des données qui n'utilise pas de boucles for. De nombreuses séries et trames de données sont utilisées.

-Série: comprend un tableau d'étiquettes appelé index associé à des valeurs consécutives. Il est également possible de faire référence à des objets tels que des tableaux unidimensionnels, des valeurs numériques en spécifiant des étiquettes et des conditions. Vous pouvez également passer un format de dictionnaire de Python pour créer une série. S'il n'y en a pas, traitez-le comme NaN. NaN peut être identifié par les fonctions isnull et notnull des pandas.

-Data Frame: a une structure de données tabulaire et des colonnes ordonnées. Une image qui partage l'index de la série dans son ensemble. De nombreux processus utilisés dans le prétraitement de Kaggle. Extraction de la tête, loc, désignation des colonnes, etc. (Parce que la série extraite a le même index que la trame de données.) La transmission d'un dictionnaire imbriqué interprète la clé externe comme l'index de colonne et la clé interne comme l'index de ligne.

-Les objets index ont le rôle de contenir des étiquettes et des métadonnées. Par conséquent, il est traité comme immuable. Cela permet de gérer les données en toute sécurité. Si vous souhaitez modifier l'index, utilisez la fonction de réindexation de pandas. Vous pouvez également indexer des colonnes en spécifiant des colonnes comme argument. La fonction de suppression qui supprime un élément peut être modifiée lors de l'écrasement des données d'origine en définissant replace = True comme argument.

・ Sélection des données Utilisez iloc pour faire référence à l'étiquette du bloc de données avec loc et pour faire référence par position d'index. Le découpage des étiquettes est différent de celui de Python et comprend des points de terminaison. (Y compris 2 dans [: 2])

-Lors de l'utilisation des méthodes arithmétiques (add, sub, div ...), il est possible de calculer en considérant NaN en utilisant fill_value comme second argument. (Habituellement, là où les étiquettes des axes ne se chevauchent pas, l'une d'entre elles est ignorée et le calcul est effectué collectivement en tant que NaN.)

・ Des statistiques récapitulatives (nombre de chaque élément, etc.) peuvent également être sorties. somme etc. Également pour les colonnes en spécifiant axis = 1 (ou axis = 'columns') comme argument. Pour idxmax, la valeur maximale de chaque index. Vous pouvez également obtenir toutes les statistiques récapitulatives multiples en passant describe. S'il s'agit de données numériques, c'est l'écart ou le total, si ce n'est pas numérique, c'est le nombre d'éléments eux-mêmes excluant le comptage ou la duplication. Cela était également souvent utilisé à Kaggle. Vous pouvez obtenir le numéro de chaque élément avec value_count. Vous pouvez également trier en combinant avec tri. value_count.sort () sort est vrai ou faux. La fonction isin peut être utilisée pour déterminer si l'élément spécifié existe. Vrai s'il y en a. En utilisant cela, vous pouvez également créer un sous-ensemble de ce que vous voulez.

Recommended Posts

Dossier d'apprentissage n ° 18 (22e jour)
Dossier d'apprentissage n ° 28 (32e jour)
Dossier d'apprentissage n ° 21 (25e jour)
Dossier d'apprentissage n ° 10 (14e jour)
Dossier d'apprentissage n ° 17 (21e jour)
Dossier d'apprentissage n ° 24 (28e jour)
Dossier d'apprentissage n ° 19 (23e jour)
Dossier d'apprentissage n ° 29 (33e jour)
Dossier d'apprentissage n ° 23 (27e jour)
Dossier d'apprentissage n ° 25 (29e jour)
Dossier d'apprentissage n ° 26 (30e jour)
Dossier d'apprentissage n ° 20 (24e jour)
Dossier d'apprentissage n ° 27 (31e jour)
Dossier d'apprentissage n ° 14 (18e jour) Kaggle4
Dossier d'apprentissage n ° 15 (19e jour) Kaggle5
Fiche d'apprentissage 4 (8e jour)
Fiche d'apprentissage 3 (7e jour)
Fiche d'apprentissage 5 (9e jour)
Fiche d'apprentissage 6 (10e jour)
Enregistrement d'apprentissage de la programmation 2ème jour
Fiche d'apprentissage 8 (12e jour)
Fiche d'apprentissage 1 (4e jour)
Fiche d'apprentissage 7 (11e jour)
Fiche d'apprentissage 2 (6e jour)
Fiche d'apprentissage 16 (20e jour)
Dossier d'apprentissage 22 (26e jour)
Fiche d'apprentissage (2ème jour) Scraping par #BeautifulSoup
Fiche d'apprentissage 13 (17e jour) Kaggle3
Fiche d'apprentissage 12 (16e jour) Kaggle2
Dossier d'apprentissage
Dossier d'apprentissage n ° 3
Dossier d'apprentissage n ° 1
Dossier d'apprentissage n ° 2
Fiche d'apprentissage 11 (15e jour) Participation de Kaggle
Apprentissage Python jour 4
Dossier d'apprentissage jusqu'à présent
Fiche d'apprentissage Linux ① Planifier
<Cours> Apprentissage en profondeur: Day2 CNN
Fiche d'apprentissage (3e jour) Méthode de description du sélecteur #CSS #Scraping avec BeautifulSoup
<Cours> Apprentissage en profondeur: Jour 1 NN
Sujets> Deep Learning: Day3 RNN
Étudiez en profondeur le Deep Learning [DW Day 0]
Fiche d'apprentissage (4e jour) #Comment obtenir le chemin absolu à partir du chemin relatif