Pandas ist eine Bibliothek, die problemlos mit Tabellendaten umgehen kann. Hier werde ich mich auf die Punkte konzentrieren, die Sie zumindest über Pandas wissen sollten. Es soll Python3-Serie verwenden.
Sie können "import" verwenden, um die Bibliothek zu laden. Konventionell wird es oft als "pd" abgekürzt.
Pandas_1.py
import pandas as pd
Series
Serie ist ein wörterbuchartiger listähnlicher Daten.
Pandas_2.py
import pandas as pd
series_olympic = pd.Series({'Tokio': 2020, 'Rio de Janeiro': 2016, 'London': 2012})
print(series_olympic)
Pandas_3.py
import pandas as pd
series_olympic = pd.Series({'Tokio': 2020, 'Rio de Janeiro': 2016, 'London': 2012})
print(series_olympic[0:2])
print(series_olympic.index) #Extrahieren Sie nur den Index.
print(series_olympic.values) #Extrahieren Sie nur den Wert.
print(series_olympic[series_olympic % 8 == 0]) #Extrahieren Sie nur die Elemente, die die Bedingungen erfüllen.
Pandas_4.py
import pandas as pd
series_olympic = pd.Series({'Tokio': 2020, 'Rio de Janeiro': 2016, 'London': 2012})
series_olympic = series_olympic.append(pd.Series({'Peking': 2008})) #Fügen Sie ein neues Element hinzu.
print(series_olympic)
series_olympic = series_olympic.drop('Tokio') #Löschen Sie das Element.
print(series_olympic)
Pandas_5.py
import pandas as pd
series_olympic = pd.Series({'Tokio': 2020, 'Rio de Janeiro': 2016, 'London': 2012})
print(series_olympic.sort_index()) #In aufsteigender Reihenfolge des Index sortieren.
print(series_olympic.sort_values()) #In aufsteigender Reihenfolge sortieren.
print(series_olympic.sort_values(ascending=False)) #Nach Wert in absteigender Reihenfolge sortieren.
DataFrame
DataFrame sind tabellarische Daten, die der Serie beitreten.
Pandas_6.py
import pandas as pd
series_name = pd.Series(['Ichiro', 'Jiro', 'Saburo'])
series_height = pd.Series([200, 173, 141])
series_weight = pd.Series([100, 72, 40])
df_humans = pd.DataFrame({'name': series_name, 'height': series_height, 'weight': series_weight})
print(df_humans)
df_humans.index = ['Ichiro', 'Jiro', 'Saburo'] #Geben Sie einen Zeilennamen ein.
df_humans.columns = ['Name', 'Höhe', 'Körpergewicht'] #Geben Sie einen Spaltennamen an.
print(df_humans)
df_humans_empty = pd.DataFrame(columns=['Name', 'Höhe', 'Körpergewicht']) #Erstellt einen leeren DataFrame mit dem angegebenen Spaltennamen.
print(df_humans_empty)
Pandas_7.py
import pandas as pd
series_name = pd.Series(['Ichiro', 'Jiro', 'Saburo', 'Siro'])
series_height = pd.Series([200, 173, 141, 172])
series_weight = pd.Series([100, 72, 40, 72])
series_gender = pd.Series(['Mann', 'Mann', 'Frau', 'Mann'])
series_bmi = pd.Series([25, 24, 20, 24.9])
df_humans = pd.DataFrame({'name': series_name, 'height': series_height, 'weight': series_weight}, 'gender': series_gender, 'bmi': series_bmi)
df_humans.index = ['Ichiro', 'Jiro', 'Saburo', 'Shiro']
df_humans.columns = ['Name', 'Höhe', 'Körpergewicht', 'Sex', 'BMI']
print(df_humans['Name']) # 「Name」の列を取り出す。
print(df_humans.Name) # これでも「Name」の列を取り出せる。
print(df_humans.loc['Ichiro', 'Körpergewicht']) #Extrahieren Sie durch Angabe des Zeilennamens und des Spaltennamens.
print(df_humans.loc[['Ichiro', 'Jiro'], ['Höhe', 'Körpergewicht', 'BMI']]) #Sie können auch mehrere Zeilen und mehrere Spalten angeben.
print(df_humans.loc['Jiro']) #Extrahiert die gesamte angegebene Zeile.
print(df_humans.loc[:, 'BMI']) #Extrahiert die gesamte angegebene Spalte.
print(df_humans.iloc[0, 2]) #Extrahieren Sie durch Angabe der Zeilenindexnummer und der Spaltenindexnummer.
print(df_humans.iloc[[0, 1], [1, 2, 4]]) #Sie können auch mehrere Zeilen und mehrere Spalten angeben.
print(df_humans.iloc[1]) #Extrahiert die gesamte angegebene Zeile.
print(df_humans.iloc[:, 4]) #Extrahiert die gesamte angegebene Spalte.
print(df_humans[df_humans['BMI'] >= 25]) #Extrahieren Sie nur die Zeilen, die die Bedingungen erfüllen.
print(df_humans[(df_humans['Höhe'] >= 170) & (df_humans['Körpergewicht'] >= 70)]) #Mehrere Bedingungen(and)Aber es ist möglich.
print(df_humans[(df_humans['Körpergewicht'] < 70) | (df_humans['BMI'] < 25)]) #Mehrere Bedingungen(or)Aber es ist möglich.
print(df_humans[df_humans['BMI'] < 25]['Name']) #Es ist auch möglich, Spalten anzugeben, indem die Zeilen gefiltert werden, die die Bedingungen erfüllen.
Pandas_8.py
import pandas as pd
series_name = pd.Series(['Ichiro', 'Jiro', 'Saburo', 'Siro'])
series_height = pd.Series([200, 173, 141, 172])
series_weight = pd.Series([100, 72, 40, 72])
series_gender = pd.Series(['Mann', 'Mann', 'Frau', 'Mann'])
series_bmi = pd.Series([25, 24, 20, 24.9])
df_humans = pd.DataFrame({'name': series_name, 'height': series_height, 'weight': series_weight}, 'gender': series_gender, 'bmi': series_bmi)
df_humans.index = ['Ichiro', 'Jiro', 'Saburo', 'Shiro']
df_humans.columns = ['Name', 'Höhe', 'Körpergewicht', 'Sex', 'BMI']
df_humans = df_humans.sort_values(by='Körpergewicht') # Körpergewichtで昇順にソートする。
print(df_humans)
df_humans = df_humans.sort_values(by='Körpergewicht', ascending=False) # Körpergewichtで降順にソートする。
print(df_humans)
df_humans = df_humans.sort_values(by=['Körpergewicht', 'BMI']) # Körpergewicht、BMIで昇順にソートする。
print(df_humans)
Pandas_9.py
import pandas as pd
series_name = pd.Series(['Ichiro', 'Jiro', 'Saburo'])
series_height = pd.Series([200, 173, 141])
series_weight = pd.Series([100, 72, 40])
df_humans = pd.DataFrame({'name': series_name, 'height': series_height, 'weight': series_weight})
df_humans.index = ['Ichiro', 'Jiro', 'Saburo']
df_humans.columns = ['Name', 'Höhe', 'Körpergewicht']
df_humans['Sex'] = ['Mann', 'Mann', 'Frau'] #Fügen Sie eine Spalte hinzu.
df_humans['BMI'] = df_humans['Körpergewicht'] / ((df_humans['Höhe'] / 100)** 2) #Es ist auch möglich, das zwischen Spalten berechnete Ergebnis hinzuzufügen.
print(df_humans)
df_humans.loc['Shiro'] = ['Siro', 170, 72, 'Mann', 24.9] #Fügen Sie eine Zeile hinzu.
print(df_humans)
df_humans_2 = df_humans.drop('Saburo') #Löschen Sie die Zeile.
print(df_humans_2)
df_humans_3 = df_humans.drop('Sex', axis=1) #Löschen Sie die Spalte.
print(df_humans_3)
Pandas_10.py
import pandas as pd
df_csv = pd.read_csv('filepath/filename.csv') #Lesen Sie die CSV-Datei.
df_text = pd.read_csv('filepath/filename.txt', sep='¥t') #Lesen Sie eine durch Tabulatoren getrennte Textdatei.
df_excel = pd.read_excel('filepath/filename.xlsx') #Lesen Sie die Excel-Datei.
df_csv_2 = pd.read_csv('filepath/filename_2.csv', header=1) #Wenn die erste Zeile leer ist und Sie möchten, dass die zweite Zeile der Spaltenname ist.
df_csv_3 = pd.read_csv('filepath/filename_3.csv', header=None) #Wenn es keinen Spaltennamen gibt.
df_excel_sheet2 = pd.read_excel('filepath/filename.xlsx', sheet_name=1) #Geben Sie die Indexnummer (ab 0) des Blattes an.
df_excel_sheet2 = pd.read_excel('filepath/filename.xlsx', sheet_name='sheet2') #Geben Sie den Blattnamen an.
df_csv.to_csv('filepath/filename.csv') #Exportieren Sie eine CSV-Datei.
df_text.to_csv('filepath/filename.txt', sep='¥t') #Exportieren Sie eine durch Tabulatoren getrennte Textdatei.
df_excel.to_excel('filepath/filename.xlsx') #Exportieren Sie die Excel-Datei.
df_csv.to_csv('filepath/filename.csv', index=False) #Wenn Sie die Indexnummer in der Spalte ganz links nicht benötigen.
Hier haben wir die Grundlagen von Pandas vorgestellt. Sobald Sie dies alles tun können, können Sie externe Dateien lesen, verarbeiten und ausschreiben.
Was ist die Programmiersprache Python? Kann es für KI und maschinelles Lernen verwendet werden?
Recommended Posts