Début des études: samedi 7 décembre
Matériel pédagogique, etc.: ・ Miyuki Oshige "Détails! Note d'introduction à Python3 »(Sotech, 2017): 19/12 (jeudi) Terminé ・ Cours Progate Python (5 cours au total): se termine le samedi 21 décembre ・ Andreas C. Müller, Sarah Guido "(titre japonais) Apprentissage automatique à partir de Python" (O'Reilly Japon, 2017): Terminé le samedi 23 décembre ・ Kaggle: Real or Not? NLP with Disaster Tweets: Publié du samedi 28 décembre au vendredi 3 janvier Ajustement ・ ** Wes Mckinney "(titre japonais) Introduction à l'analyse de données par Python" (O'Reilly Japon, 2018) **: 4 janvier (samedi) ~
p.346 Chapitre 10 L'agrégation des données et le calcul des groupes sont terminés.
・ Explication des bibliothèques de visualisation de données telles que matplotlib et seaborn Des éléments de configuration tels que les types de ligne peuvent être trouvés dans ** DocString (nom de la fonction + '?') **. (Si vous importez matplotlib avec as plt, utilisez-le comme ** plt.plot? **.)
-En gros, matplotlib doit être utilisé, et des bibliothèques complémentaires telles que pandas et seaborn doivent être utilisées si nécessaire.
Préparation du terrain
import matplotlib.pyplot as plt
fig = plt.figure() #Un objet qui contient une fonction de tracé.
ax1 = fig.add_subplot(1, 1, 1) #Ajoutez un ou plusieurs sous-graphiques au tracé.
#Le format de la figure et les données d'entrée sont décrits ci-dessous.
・ Aperçu de ce que vous pouvez faire Réglage des marges, partage des axes, titre, légende et réglage de la position d'affichage (position optimale avec loc = 'best'), Rotation des étiquettes (rotation), ajouter une annotation (annoter), ajouter une figure (add_patch), Réglage de la valeur par défaut de matplotlib (méthode rc)
Classe d'axe (AxesSubplot)Paramétrage par lots des attributs à l'aide de la méthode set de
props = {'title': 'namae no ikkatsu settei', 'xlabel': 'aiueo'}
ax.set(**props)
-DataFrame a également une méthode de tracé. Peut être utilisé tel quel pour les trames de données.
Visualisation de la fréquence de valeur
s.value_counts().plot.bar() #Barre horizontale à barh
Le package seaborn facilite la visualisation des données qui doivent être agrégées ou résumées avant le traçage. Spécifiez les données dans les données d'argument et spécifiez les noms de ligne et de colonne du bloc de données en x et y.
・ Histogramme: type de graphique à barres, affichant la fréquence des valeurs sous forme de données discrètes
-Graphique de densité: généré à partir d'une distribution de probabilité continue présumée avoir produit les données observées Habituellement, cette distribution est approximée comme une simple somme telle qu'une distribution normale appelée noyau. Par conséquent, le graphique de densité est également appelé «graphique d'estimation de la densité du noyau (KDE)». (Plot.kde)
・ Une méthode qui semble être utilisée très souvent seaborn.distplot (peut créer des graphiques d'histogramme et d'estimation de la densité en même temps) seaborn.regplot (Créer un diagramme de dispersion et appliquer une ligne de régression par régression linéaire) seaborn.pairplot (Une matrice de diagramme de dispersion comparant chaque élément peut être visualisée à la fois)
・ Groupe de pandas par méthode Le traitement arbitraire peut être exécuté en combinant des éléments d'ensembles de données (compris)
-Le processus de calcul de groupe est un flux de split-apply-combine.
-Plusieurs éléments peuvent être spécifiés pour un ensemble de données. Est-il possible d'extraire des valeurs arbitraires, de les traiter (moyenne, décompte, etc.), puis de les regrouper à nouveau?
-Il peut également être classé à l'aide d'informations cartographiques à l'aide d'un dictionnaire.
・ Fonctions de la méthode groupby (nombre, somme, moyenne, médiane ...) Couvrons les calculs arithmétiques de base.
-Le nom donné lors de l'agrégation des données avec groupby peut être modifié en passant un taple. Vous pouvez également spécifier aucun index avec as_index = False.
-Apply sépare les objets, ** applique la fonction passée à chaque élément, puis ** joint. La fonction passée à apply demande de l'imagination car le programmeur doit l'implémenter lui-même.
-Tableau croisé et tabulation croisée. Il peut être implémenté à la fois dans les fonctions de trame de données et group by. Être capable de les gérer sera utile pour le nettoyage des données, la modélisation et l'analyse statistique.
Recommended Posts