Beim Abrufen von Daten mit Python Ich benutze stark Pandas-Bibliotheken.
Anfänger der Datenanalyse
Es wird eine solche Situation sein.
In diesem Artikel Ich habe versucht, die Methoden zusammenzufassen, die beim Extrahieren von Daten häufig auftreten.
Es ist eine der Python-Bibliotheken für eine effiziente Datenanalyse.
Dieses Mal verwenden wir den "Iris" -Datensatz, der standardmäßig bei Seegeborenen verfügbar ist.
import seaborn as sns
iris = sns.load_dataset('iris')
iris.head()
Sie können Daten frei abrufen, indem Sie die Zeilennummer und die Spaltennummer angeben.
#Daten in der dritten Zeile
iris.iloc[3]
#Daten in den Zeilen 0 und 2
iris.iloc[:3]
#3. Zeile, 1. Spaltenwert
iris.iloc[3, 0]
#Daten in der 0. bis 2. Zeile und 2. bis 3. Spalte
iris.iloc[:3, 2:4]
iris.loc[[2,4,6],['petal_length', 'petal_width']]
So extrahieren Sie Daten durch Angabe von Bedingungen.
Ermitteln Sie für die Artenelemente die Anzahl der Elemente, deren Inhalt mit "setosa" übereinstimmt.
len(iris[iris['species'] == 'setosa'])
Wenn Sie beim Extrahieren von Daten durch mehrere Bedingungen eingrenzen möchten, können Sie dies tun, indem Sie Bedingungen hinzufügen.
#und Bedingung ist()&()Und die oder Bedingung ist()|()
iris[(iris['species'] == 'setosa') & (iris['petal_width'] > 0.5)]
Es gibt Fälle, in denen Sie nicht nur exakte Übereinstimmungen, sondern auch teilweise übereinstimmende Inhalte extrahieren möchten. In solchen Fällen können die folgenden Inhalte verwendet werden.
#Teilweise Übereinstimmungssuche(Extrahieren Sie nur diejenigen, die teilweise mit se übereinstimmen)
iris[iris.species.str.contains('se')]
Zum Zeitpunkt der Aggregation wird es verarbeitet, nachdem es in den Typ DataFrameGroupBy konvertiert wurde.
iris_group = iris.groupby('species')
type(iris_group)
Das Ausgabeergebnis ist wie folgt.
pandas.core.groupby.generic.DataFrameGroupBy
iris_group.mean()
Das Ausgabebild ist wie folgt.
Zusätzlich können der Minimalwert, der Maximalwert, die Standardabweichung usw. berechnet werden.
Eine Aggregation ist auch basierend auf mehreren Bedingungen möglich.
iris_group2 = iris.groupby(['species', 'petal_width'])
iris_group2.mean()
Verwenden Sie die Append-Methode oder die Concat-Methode, um Daten mit derselben Spaltenstruktur zu kombinieren.
Dieses Mal werden wir uns auf die Panadas-Methode konzentrieren und sie mit der Concat-Methode kombinieren.
import pandas as pd
iris_master = pd.DataFrame([['0', 'setosa'], ['1', 'versicolor'], ['2', 'virginica']], columns=['id', 'name'])
iris_master
add_iris = pd.DataFrame([['3', 'hoge']], columns=['id', 'name'])
add_iris
pd.concat([iris_master, add_iris])
Verwenden Sie die Zusammenführungsmethode, um mehrere Daten mit unterschiedlichen Datenspaltenkonfigurationen zu kombinieren. (Obwohl es möglich ist, mit der Join-Methode zu verknüpfen, muss die Spalte, die Sie als Schlüssel verwenden möchten, indiziert werden. Dies ist etwas problematisch. Ich denke, dass es kein Problem gibt, wenn die Merge-Methode zuerst verwendet werden kann.)
Geben Sie beim Beitritt das Schlüsselelement für den Beitritt an. Verbinden Sie Zeilen mit denselben Elementen.
pd.merge(iris_group2.mean(), iris_master, left_on='species', right_on='name')
In Zukunft planen wir, die folgenden Inhalte zu verbessern.
Die obigen Inhalte werden auf der Grundlage der folgenden Websites zusammengefasst.
[Python] Zusammenfassung der Pandas, Verarbeitung von Berechnungen für Seeleute
Beherrschen, wie auf Pandas-Datenrahmenelemente verwiesen wird
Es wird hier ausführlicher erklärt. Wenn Sie Fragen haben, wenden Sie sich bitte daran.