[PYTHON] Sammlung von Numpy, Pandas Tipps, die häufig auf dem Feld verwendet werden

import numpy as np
import pandas as pd
import sys
# encoding
print(sys.getdefaultencoding())

Datenerfassung

# numpy
x = np.array([[1,2,3],[4,5,6]],dtype=np.float64)
#Text lesen
y = np.loadtxt('text1',delimiter=',',skiprows=0,comments='#')

Scheibe

pandas.DataFrame
df=pd.read_csv('stock.csv',encoding='Shift_jis',names=('index','dekidaka','owarine'))
df.head() #Erste 5 Zeilen
pd.DataFrame({'a':[1,2,3],'b':[4,5,6]}) 
df.loc[:,['index','owaine']]
df.loc[100:115,['index','dekidaka']]
df.iloc[1:22,1:3] # 1 ～ 3 index,dekidaka,owarine
df.iloc[:,[0,2]] # 0 and 2 index,owarine
df.iloc[::2]  #Sogar
df.iloc[1::2]  #Seltsam
df['index'] < '1900' # False or True
df[(df['index'] == '1900')] # 171.0  1883,     49800     261

Datenmanagement

#verschmelzen
samp1 = pd.read_csv('sample1.csv',encoding='Shift_jis')
samp2 = pd.read_csv('sample2.csv',encoding='Shift_jis')
samp3 = pd.read_csv('sample3.csv',encoding='Shift_jis')
# concat(Vertikale Verbindung)
conc=pd.concat([samp1,samp2],ignore_index=True)
# merge(Horizontale Verbindung)
merg=pd.merge(conc,samp3[["label1","label2"]],on="label1",how="left") # 
#Datenextraktion
merg["label2_y"] # only label2_y 1000 ～ 1003
merg[["label2_x","label2_y"]].iloc[:,0:2] # 
####################
#Zusammengefasste Statistiken
merg["label1"].iloc[1:5].describe()
#Zusatz
merg["label1"] + merg["label2_y"] #Zusatz
#gesamt
merg["label1"].sum()
#Fehlender Wert
merg.isnull()
#Fehlende Information
merg.isnull().sum()
#Maximalwert+Mindestwert
print(merg.max() + merg.min())
#Datentypbestätigung
merg.dtype
#Typkonvertierung float64 ⇒ numerisch
merg["label1"]=pd.to_numeric(merg["label1"])
# float64 ⇒ datetime 
merg["label1"].dt.strftime("%Y%m")
# grouping
merg.groupby(["label1"]).sum()["label2_y"]

Datenkorrektur

#Einzigartige Nummer
print(len(pd.unique(merg.label3))) #18 Stück, nur ein Leerzeichen am linken Ende, gelten als unterschiedlich
#Richten Sie Kleinbuchstaben auf Großbuchstaben aus
merg["label3"]=merg["label3"].str.upper() 
print(len(pd.unique(merg.label3)))　＃１７
merg["label3"]=merg["label3"].str.replace(" ","") 
print(len(pd.unique(merg.label3)))　＃１６
#Sortieren
merg.sort_values(by=["label1"],ascending=True)

Recommended Posts

Sammlung von Numpy, Pandas Tipps, die häufig auf dem Feld verwendet werden

Python scikit-learn Eine Sammlung von Tipps für Vorhersagemodelle, die häufig im Feld verwendet werden

Eine Code-Sammlung, die häufig in persönlichem Python verwendet wird

Zusammenfassung der häufig verwendeten Methoden bei Pandas

Ein Timer (Ticker), der im Feld verwendet werden kann (kann überall verwendet werden)

Persönliche Notizen zu Pandas-bezogenen Vorgängen, die in der Praxis verwendet werden können

Eine Sammlung häufig verwendeter Befehle in der Serververwaltung

Goroutine (parallele Steuerung), die im Feld eingesetzt werden kann

Ich habe versucht, den in Pandas häufig verwendeten Code zusammenzufassen

Goroutine, die im Feld verwendet werden kann (errgroup.Group Edition)

[Django] Eine Sammlung von Skripten, die für die Entwicklung geeignet sind