Ich bin weder Softwareentwickler noch Datenwissenschaftler, aber während ich in meiner täglichen Arbeit Daten aus MySQL, BigQuery usw. extrahiere, interessiere ich mich für die Methode, sie statistisch auszudrücken und zu visualisieren. Ich denke, das Jupyter-Notizbuch ist geeignet, um sie zu realisieren, und habe kürzlich Python in das Jupyter-Notizbuch geschrieben. Dieser Artikel ist eine Zusammenstellung von Memoranden für meine Verwendung von Jupyter und behandelt den Umfang des Lesens von CSV-Daten mithilfe von Pandas, der Überprüfung grundlegender Statistiken und einfacher Methoden zur Datenvisualisierung.
Was ist Pandas? ... Eine Bibliothek, die Funktionen zur Unterstützung der Datenanalyse bietet. Insbesondere werden Datenstrukturen und Operationen zum Bearbeiten von numerischen Tabellen und Zeitreihendaten bereitgestellt. Was ist numpy? For ・ ・ Bibliothek zur numerischen Analyse Was ist Pyplot? ・ ・ ・ Visualisierte Bibliothek
test.ipynb
# 1.Importieren Sie die für die Datenanalyse benötigten Bibliotheken
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
%matplotlib inline
#2.Daten lesen * Es wird davon ausgegangen, dass eine Spalte vorhanden ist. Wenn nicht Header=Geben Sie als Option Keine an
# head()、tail()Mit einer Funktion können Sie den Inhalt der Daten am Anfang oder Ende überprüfen. Ich benutze es, wenn es viele Zeilen gibt
data = pd.read_csv("hogehoge.csv")
#3.Überprüfen Sie die Datenmatrix
data.shape # -> (Zeilen, Spalten) werden zurückgegeben.
#4.Überprüfen Sie die grundlegenden Statistiken (grundlegende Merkmale der Daten, Durchschnitt, Standardabweichung, Maximalwert, Minimalwert usw.) und den Datentyp
#Auch gemein()Durch die Verwendung von Funktionen wie ist es auch möglich, nur den Durchschnitt zurückzugeben.
data.describe()
data.info()
#So geben Sie eine Spalte an: "Hogehoge" in der where-Klausel in SQL=Bild zur Angabe von "hoge"
data["hoge"]
test.ipynb
#Zeichnen Sie ein Liniendiagramm.
#Die Größe kann optional angegeben werden. figsize=(Horizontale Größe,Vertikale Größe)Geben Sie mit an
#Sie können den Titel auch als Option angeben. Titel= "hoge"
data["hoge"].plot()
#Gibt den Namen der x- und y-Achse an
label = date.plot(figzize=(15,5),title="test")
label.set_xlabel("hogehoge")
label.set_ylabel("hogehoge")
#Variable.plot.hist()でヒストグラムを、Variable.boxplot(by=x-Achse)Boxplot ist auch mit möglich.
Recommended Posts