[PYTHON] Ein Forscher eines Pharmaunternehmens fasste Pandas zusammen

Einführung

Pandas ist eine Bibliothek, die problemlos mit Tabellendaten umgehen kann. Hier werde ich mich auf die Punkte konzentrieren, die Sie zumindest über Pandas wissen sollten. Es soll Python3-Serie verwenden.

Bibliothek laden

Sie können "import" verwenden, um die Bibliothek zu laden. Konventionell wird es oft als "pd" abgekürzt.

Pandas_1.py


import pandas as pd

Series

Serie ist ein wörterbuchartiger listähnlicher Daten.

Erstellen einer Serie

Pandas_2.py


import pandas as pd


series_olympic = pd.Series({'Tokio': 2020, 'Rio de Janeiro': 2016, 'London': 2012})
print(series_olympic)

Serienreferenz

Pandas_3.py


import pandas as pd


series_olympic = pd.Series({'Tokio': 2020, 'Rio de Janeiro': 2016, 'London': 2012})

print(series_olympic[0:2])
print(series_olympic.index) #Extrahieren Sie nur den Index.
print(series_olympic.values) #Extrahieren Sie nur den Wert.

print(series_olympic[series_olympic % 8 == 0]) #Extrahieren Sie nur die Elemente, die die Bedingungen erfüllen.

Elemente hinzufügen / entfernen

Pandas_4.py


import pandas as pd


series_olympic = pd.Series({'Tokio': 2020, 'Rio de Janeiro': 2016, 'London': 2012})

series_olympic = series_olympic.append(pd.Series({'Peking': 2008})) #Fügen Sie ein neues Element hinzu.
print(series_olympic)

series_olympic = series_olympic.drop('Tokio') #Löschen Sie das Element.
print(series_olympic)

Serien sortieren

Pandas_5.py


import pandas as pd


series_olympic = pd.Series({'Tokio': 2020, 'Rio de Janeiro': 2016, 'London': 2012})

print(series_olympic.sort_index()) #In aufsteigender Reihenfolge des Index sortieren.
print(series_olympic.sort_values()) #In aufsteigender Reihenfolge sortieren.
print(series_olympic.sort_values(ascending=False)) #Nach Wert in absteigender Reihenfolge sortieren.

DataFrame

DataFrame sind tabellarische Daten, die der Serie beitreten.

Erstellen eines DataFrame

Pandas_6.py


import pandas as pd


series_name = pd.Series(['Ichiro', 'Jiro', 'Saburo'])
series_height = pd.Series([200, 173, 141])
series_weight = pd.Series([100, 72, 40])

df_humans = pd.DataFrame({'name': series_name, 'height': series_height, 'weight': series_weight})
print(df_humans)

df_humans.index = ['Ichiro', 'Jiro', 'Saburo'] #Geben Sie einen Zeilennamen ein.
df_humans.columns = ['Name', 'Höhe', 'Körpergewicht'] #Geben Sie einen Spaltennamen an.
print(df_humans)

df_humans_empty = pd.DataFrame(columns=['Name', 'Höhe', 'Körpergewicht']) #Erstellt einen leeren DataFrame mit dem angegebenen Spaltennamen.
print(df_humans_empty)

DataFrame-Referenz

Pandas_7.py


import pandas as pd


series_name = pd.Series(['Ichiro', 'Jiro', 'Saburo', 'Siro'])
series_height = pd.Series([200, 173, 141, 172])
series_weight = pd.Series([100, 72, 40, 72])
series_gender = pd.Series(['Mann', 'Mann', 'Frau', 'Mann'])
series_bmi = pd.Series([25, 24, 20, 24.9])
df_humans = pd.DataFrame({'name': series_name, 'height': series_height, 'weight': series_weight}, 'gender': series_gender, 'bmi': series_bmi)
df_humans.index = ['Ichiro', 'Jiro', 'Saburo', 'Shiro']
df_humans.columns = ['Name', 'Höhe', 'Körpergewicht', 'Sex', 'BMI']

print(df_humans['Name']) # 「Name」の列を取り出す。
print(df_humans.Name) # これでも「Name」の列を取り出せる。

print(df_humans.loc['Ichiro', 'Körpergewicht']) #Extrahieren Sie durch Angabe des Zeilennamens und des Spaltennamens.
print(df_humans.loc[['Ichiro', 'Jiro'], ['Höhe', 'Körpergewicht', 'BMI']]) #Sie können auch mehrere Zeilen und mehrere Spalten angeben.
print(df_humans.loc['Jiro']) #Extrahiert die gesamte angegebene Zeile.
print(df_humans.loc[:, 'BMI']) #Extrahiert die gesamte angegebene Spalte.

print(df_humans.iloc[0, 2]) #Extrahieren Sie durch Angabe der Zeilenindexnummer und der Spaltenindexnummer.
print(df_humans.iloc[[0, 1], [1, 2, 4]]) #Sie können auch mehrere Zeilen und mehrere Spalten angeben.
print(df_humans.iloc[1]) #Extrahiert die gesamte angegebene Zeile.
print(df_humans.iloc[:, 4]) #Extrahiert die gesamte angegebene Spalte.

print(df_humans[df_humans['BMI'] >= 25]) #Extrahieren Sie nur die Zeilen, die die Bedingungen erfüllen.
print(df_humans[(df_humans['Höhe'] >= 170) & (df_humans['Körpergewicht'] >= 70)]) #Mehrere Bedingungen(and)Aber es ist möglich.
print(df_humans[(df_humans['Körpergewicht'] < 70) | (df_humans['BMI'] < 25)]) #Mehrere Bedingungen(or)Aber es ist möglich.
print(df_humans[df_humans['BMI'] < 25]['Name']) #Es ist auch möglich, Spalten anzugeben, indem die Zeilen gefiltert werden, die die Bedingungen erfüllen.

DataFrame sortieren

Pandas_8.py


import pandas as pd


series_name = pd.Series(['Ichiro', 'Jiro', 'Saburo', 'Siro'])
series_height = pd.Series([200, 173, 141, 172])
series_weight = pd.Series([100, 72, 40, 72])
series_gender = pd.Series(['Mann', 'Mann', 'Frau', 'Mann'])
series_bmi = pd.Series([25, 24, 20, 24.9])
df_humans = pd.DataFrame({'name': series_name, 'height': series_height, 'weight': series_weight}, 'gender': series_gender, 'bmi': series_bmi)
df_humans.index = ['Ichiro', 'Jiro', 'Saburo', 'Shiro']
df_humans.columns = ['Name', 'Höhe', 'Körpergewicht', 'Sex', 'BMI']

df_humans = df_humans.sort_values(by='Körpergewicht') # Körpergewichtで昇順にソートする。
print(df_humans)
df_humans = df_humans.sort_values(by='Körpergewicht', ascending=False) # Körpergewichtで降順にソートする。
print(df_humans)
df_humans = df_humans.sort_values(by=['Körpergewicht', 'BMI']) # Körpergewicht、BMIで昇順にソートする。
print(df_humans)

Hinzufügen oder Entfernen von Zeilen oder Spalten

Pandas_9.py


import pandas as pd


series_name = pd.Series(['Ichiro', 'Jiro', 'Saburo'])
series_height = pd.Series([200, 173, 141])
series_weight = pd.Series([100, 72, 40])

df_humans = pd.DataFrame({'name': series_name, 'height': series_height, 'weight': series_weight})
df_humans.index = ['Ichiro', 'Jiro', 'Saburo']
df_humans.columns = ['Name', 'Höhe', 'Körpergewicht']

df_humans['Sex'] = ['Mann', 'Mann', 'Frau'] #Fügen Sie eine Spalte hinzu.
df_humans['BMI'] = df_humans['Körpergewicht'] / ((df_humans['Höhe']  / 100)** 2) #Es ist auch möglich, das zwischen Spalten berechnete Ergebnis hinzuzufügen.
print(df_humans)

df_humans.loc['Shiro'] = ['Siro', 170, 72, 'Mann', 24.9] #Fügen Sie eine Zeile hinzu.
print(df_humans)

df_humans_2 = df_humans.drop('Saburo') #Löschen Sie die Zeile.
print(df_humans_2)
df_humans_3 = df_humans.drop('Sex', axis=1) #Löschen Sie die Spalte.
print(df_humans_3)

Externe Dateien lesen / schreiben

Pandas_10.py


import pandas as pd


df_csv = pd.read_csv('filepath/filename.csv') #Lesen Sie die CSV-Datei.
df_text = pd.read_csv('filepath/filename.txt', sep='¥t') #Lesen Sie eine durch Tabulatoren getrennte Textdatei.
df_excel = pd.read_excel('filepath/filename.xlsx') #Lesen Sie die Excel-Datei.

df_csv_2 = pd.read_csv('filepath/filename_2.csv', header=1) #Wenn die erste Zeile leer ist und Sie möchten, dass die zweite Zeile der Spaltenname ist.
df_csv_3 = pd.read_csv('filepath/filename_3.csv', header=None) #Wenn es keinen Spaltennamen gibt.

df_excel_sheet2 = pd.read_excel('filepath/filename.xlsx', sheet_name=1) #Geben Sie die Indexnummer (ab 0) des Blattes an.
df_excel_sheet2 = pd.read_excel('filepath/filename.xlsx', sheet_name='sheet2') #Geben Sie den Blattnamen an.


df_csv.to_csv('filepath/filename.csv') #Exportieren Sie eine CSV-Datei.
df_text.to_csv('filepath/filename.txt', sep='¥t') #Exportieren Sie eine durch Tabulatoren getrennte Textdatei.
df_excel.to_excel('filepath/filename.xlsx') #Exportieren Sie die Excel-Datei.

df_csv.to_csv('filepath/filename.csv', index=False) #Wenn Sie die Indexnummer in der Spalte ganz links nicht benötigen.

Zusammenfassung

Hier haben wir die Grundlagen von Pandas vorgestellt. Sobald Sie dies alles tun können, können Sie externe Dateien lesen, verarbeiten und ausschreiben.

Referenzmaterialien / Links

Was ist die Programmiersprache Python? Kann es für KI und maschinelles Lernen verwendet werden?

Recommended Posts

Ein Forscher eines Pharmaunternehmens fasste Pandas zusammen
Forscher von Pharmaunternehmen fassten Scikit-Learn zusammen
Ein Forscher eines Pharmaunternehmens fasste NumPy zusammen
Ein Forscher eines Pharmaunternehmens fasste Matplotlib zusammen
Ein Forscher eines Pharmaunternehmens fasste Seaborn zusammen
Ein Forscher eines Pharmaunternehmens fasste die Einschlussnotation von Python zusammen
Der Forscher eines Pharmaunternehmens fasste den Python-Unit-Test zusammen
Ein Forscher eines Pharmaunternehmens fasste die Klassen in Python zusammen
Ein Forscher eines Pharmaunternehmens fasste die Funktionen in Python zusammen
Ein Forscher eines Pharmaunternehmens fasste die Ausnahmebehandlung von Python zusammen
Ein Forscher eines Pharmaunternehmens fasste die Python-Codierungsstandards zusammen
Forscher von Pharmaunternehmen haben Variablen in Python zusammengefasst
Ein Forscher eines Pharmaunternehmens fasste die kanonischen Ausdrücke in Python zusammen
Ein Forscher eines Pharmaunternehmens fasste das Web-Scraping mit Python zusammen
Ein Forscher eines Pharmaunternehmens fasste das Scannen von Dateien in Python zusammen
Ein Forscher eines Pharmaunternehmens fasste die Datenbankoperationen mit Python zusammen
Ein Forscher eines Pharmaunternehmens fasste die in Python verwendeten Operatoren zusammen
So installieren Sie Python für Forscher von Pharmaunternehmen
Ein Forscher eines Pharmaunternehmens fasste die grundlegenden Beschreibungsregeln von Python zusammen