Als Ergebnis der Studie
・ Übersicht über die in der Datenanalyse verwendeten Basisbibliotheken ・ Elementarcode
Bei der Datenanalyse werden die folgenden drei Bibliotheken verwendet. Klammern sind übliche Begriffe ・ Pandas (pd) ・ Numpy (np) ・ Pyplot (plt) von Matplotlib
pandas pandas ist eine Bibliothek, die Daten lesen, einfache Dateninformationen überprüfen, Daten anordnen, fehlende Bereiche überprüfen und löschen und aggregieren kann.
numpy Python Eine Bibliothek, die es einfach macht, numerische Berechnungsalgorithmen zu erstellen, die schneller als herkömmliche numerische Berechnungen verarbeitet werden.
matplotlib Zeichnungsbibliothek, die Diagramme wie 2D-Diagramme und 3D-Diagramme unterstützt
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
%matplotlib inline #Anzeige im aktuellen Browser
df = pd.read_csv("Dateiname") #CSV in Datei lesen
df = pd.read_csv("Dateiname",header=None) #Sie können festlegen, ob eine Überschrift hinzugefügt werden soll oder nicht, indem Sie die Kopfzeile angeben.
df.head() #Lesen Sie die ersten fünf Zeilen der CSV-Datei
df.tail() #Lesen Sie die letzten fünf Zeilen der CSV-Datei
#Wenn Sie einen Wert für das Argument der Funktion angeben, können Sie bis zur angegebenen Zeile lesen.
df.head(10) #Lesen Sie vom Anfang bis zur 10. Zeile der CSV-Datei
df.tail(10) #Lesen Sie vom Ende bis zur 10. Zeile der CSV-Datei
df.shape #Eine Eigenschaft, die die Anzahl der Matrizen in einer Datei berechnet
df.describe() #Eine Funktion, die grundlegende Statistiken wie Minimal- und Maximalwerte, Standardabweichungen und Durchschnittswerte berechnet
df.info() #Eine Funktion, die die Arten von Zeichenfolgen, Ganzzahlen und Gleitkommazahlen nachschlägt
df["Spaltenname"] #Spezifische Spalte(Säule)Extrakt
df[["Spaltenname","Spaltenname",...,"Spaltenname"]] #Spezifische Spalte(Säule)Mehrfachextraktion
df[df["Spaltenname"]Bedingter Ausdruck] #Extrahieren Sie Spalten, die die Bedingungen erfüllen
df[df["y"]>=df["y"].mean()] #"y"Extrahieren Sie über dem Durchschnitt von y aus der Spalte
df["Spaltenname"].sort_values(by="y",accending=False) #Sortieren Sie nach y in absteigender Reihenfolge
df["Spaltenname"][df["Spaltenname"]Bedingter Ausdruck] #Extrahieren Sie die linke Spalte, die die Bedingungen der rechten Klammer erfüllt
df["Spaltenname"].plot() #横軸を行番号、縦軸を指定したSpaltennameの数値の折れ線グラフを生成
df["Spaltenname"].plot(figsize=(Seite,Vertikal)) #Stellen Sie das Größenverhältnis des Diagramms mit figsize ein
df["Spaltenname"].plot(figsize=(Seite,Vertikal),title="Titel") #Titeleinstellung
ax = df["Spaltenname"].plot(figsize=(Seite,Vertikal),title="Titel")
ax.set_xlabel("Markenname") #x軸のMarkennameを設定
ax.set_ylabel("Markenname") #y軸のMarkennameを設定
df["Säule"].plot.hist() #ヒストグラムを生成、Säuleを階級で分けて度数を調べてくれる
df["Säule"].plot.hist(grid=True) #Fügen Sie Gitterlinien hinzu
plt.axvline(x=Numerischer Wert,color="Farbe") #Zeichnen Sie eine vertikale Linie
plt.axvline(x=df["y"],color="red")
df["y"].plot.hist() #Überlagerungsdiagramme
plt.axvline(x=df["y"],color="red")
df["y"].plot.hist()
plt.savefig("Dateiname.Erweiterung") #Grafik speichern
df[["Spaltenname 1","Spaltenname 2"]].boxplot(by="Spaltenname 1") #boxplotで指定した引数の項目ごとのSpaltenname 2の数のばらつきを調べる箱ひげ図
df.isnull() #Überprüfen Sie die Spalte mit null
df.isnull().any() #Überprüfen Sie, ob die Spalte null ist
df.isnull().sum() #Zählen Sie die Anzahl der Nullen für eine Spalte
df["Spaltenname"].value_counts() #Geben Sie die Anzahl der Zahlen aus
df.fillna() #Konvertieren Sie alle Nullwerte in konkrete Zahlen
df.dropna(subset=["Spaltenname"]) #Wenn eine Spalte null ist, löschen Sie die entsprechende Zeile
df[["Spaltenname 1","Spaltenname 2"]].corr() #Geben Sie die Korrelation zwischen zwei Spalten aus
df.plot.scatter(x="Spaltenname",y="Spaltenname",figsize=(5,5)) #Zeichnen Sie das Streudiagramm
Recommended Posts