Je ne suis ni ingénieur logiciel ni data scientist, mais en extrayant des données de MySQL, BigQuery, etc. dans mon travail quotidien, je me suis intéressé à la méthode pour les exprimer et les visualiser statistiquement. Je pense que le notebook jupyter est adapté pour les réaliser, et a récemment écrit Python dans le notebook jupyter. Cet article est une compilation de mémorandums pour mon utilisation de jupyter, et couvre la portée de la lecture de données CSV à l'aide de pandas, la vérification des statistiques de base et des méthodes simples de visualisation de données.
Se référer au document officiel
Qu'est-ce que Pandas? ... Une bibliothèque qui fournit des fonctions pour prendre en charge l'analyse des données. En particulier, il fournit des structures de données et des opérations pour manipuler des tableaux numériques et des données chronologiques. Qu'est-ce que numpy? ・ ・ ・ Bibliothèque pour l'analyse numérique Qu'est-ce que pyplot? ・ ・ ・ Bibliothèque visualisée
test.ipynb
# 1.Importez les bibliothèques nécessaires à l'analyse des données
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
%matplotlib inline
#2.Lire les données * On suppose qu'il y a une colonne. Sinon en-tête=Spécifiez Aucun comme option
# head()、tail()En utilisant une fonction, vous pouvez vérifier le contenu des données au début ou à la fin. Je l'utilise quand il y a beaucoup de lignes
data = pd.read_csv("hogehoge.csv")
#3.Vérifiez la matrice de données
data.shape # -> (Lignes, colonnes) seront renvoyées.
#4.Vérifiez les statistiques de base (caractéristiques de base des données, moyenne, écart type, valeur maximale, valeur minimale, etc.) et le type de données
#Aussi, signifie()En utilisant des fonctions telles que, il est également possible de ne renvoyer que la moyenne.
data.describe()
data.info()
#Pour spécifier une colonne: "Hogehoge" dans la clause where de SQL=Image pour spécifier "hoge"
data["hoge"]
test.ipynb
#Dessinez un graphique linéaire.
#La taille peut être spécifiée en option. figue=(Taille horizontale,Taille verticale)Précisez avec
#Vous pouvez également spécifier le titre en option. Titre= "hoge"
data["hoge"].plot()
#Spécifie le nom de l'axe des x et de l'axe des y
label = date.plot(figzize=(15,5),title="test")
label.set_xlabel("hogehoge")
label.set_ylabel("hogehoge")
#variable.plot.hist()でヒストグラムを、variable.boxplot(by=axe x)Box plot est également possible avec.
Recommended Posts