Zusammenfassung der beim Extrahieren von Daten verwendeten Pandas-Methoden [Python]

Einführung

Beim Abrufen von Daten mit Python Ich benutze stark Pandas-Bibliotheken.

Anfänger der Datenanalyse

Es wird eine solche Situation sein.

In diesem Artikel Ich habe versucht, die Methoden zusammenzufassen, die beim Extrahieren von Daten häufig auftreten.

Umgebung

Was ist Pandas?

Es ist eine der Python-Bibliotheken für eine effiziente Datenanalyse.

Implementierung

Laden Sie die erforderlichen Daten

Dieses Mal verwenden wir den "Iris" -Datensatz, der standardmäßig bei Seegeborenen verfügbar ist.

import seaborn as sns
iris = sns.load_dataset('iris')
iris.head()

スクリーンショット 2020-05-06 11.44.08.png

Extrahieren Sie Daten durch Angabe einer Matrix

Sie können Daten frei abrufen, indem Sie die Zeilennummer und die Spaltennummer angeben.

Datenextraktion mit Zeilennummer

#Daten in der dritten Zeile
iris.iloc[3]

image.png

#Daten in den Zeilen 0 und 2
iris.iloc[:3]

image.png

#3. Zeile, 1. Spaltenwert
iris.iloc[3, 0]

image.png

#Daten in der 0. bis 2. Zeile und 2. bis 3. Spalte
iris.iloc[:3, 2:4]

image.png

Geben Sie die Zeilennummer und den Spaltennamen an, um die Daten zu extrahieren

iris.loc[[2,4,6],['petal_length', 'petal_width']]

image.png

Daten unter bestimmten Bedingungen extrahieren

So extrahieren Sie Daten durch Angabe von Bedingungen.

Datenextraktion nach exakter Übereinstimmungsbedingung

Ermitteln Sie für die Artenelemente die Anzahl der Elemente, deren Inhalt mit "setosa" übereinstimmt.

len(iris[iris['species'] == 'setosa'])

Datenextraktion unter mehreren Bedingungen

Wenn Sie beim Extrahieren von Daten durch mehrere Bedingungen eingrenzen möchten, können Sie dies tun, indem Sie Bedingungen hinzufügen.

#und Bedingung ist()&()Und die oder Bedingung ist()|()
iris[(iris['species'] == 'setosa') & (iris['petal_width'] > 0.5)]

Datenextraktion durch Teilübereinstimmungsbedingung

Es gibt Fälle, in denen Sie nicht nur exakte Übereinstimmungen, sondern auch teilweise übereinstimmende Inhalte extrahieren möchten. In solchen Fällen können die folgenden Inhalte verwendet werden.

#Teilweise Übereinstimmungssuche(Extrahieren Sie nur diejenigen, die teilweise mit se übereinstimmen)
iris[iris.species.str.contains('se')]

Daten sammeln

Zum Zeitpunkt der Aggregation wird es verarbeitet, nachdem es in den Typ DataFrameGroupBy konvertiert wurde.

iris_group = iris.groupby('species')
type(iris_group)

Das Ausgabeergebnis ist wie folgt.

pandas.core.groupby.generic.DataFrameGroupBy

Durchschnittswert

iris_group.mean()

Das Ausgabebild ist wie folgt.

スクリーンショット 2020-05-06 11.53.53.png

Zusätzlich können der Minimalwert, der Maximalwert, die Standardabweichung usw. berechnet werden.

Eine Aggregation ist auch basierend auf mehreren Bedingungen möglich.

iris_group2 = iris.groupby(['species', 'petal_width'])
iris_group2.mean()

スクリーンショット 2020-05-06 11.55.44.png

Daten kombinieren

Kombinieren Sie Daten mit derselben Spaltenstruktur

Verwenden Sie die Append-Methode oder die Concat-Methode, um Daten mit derselben Spaltenstruktur zu kombinieren.

Dieses Mal werden wir uns auf die Panadas-Methode konzentrieren und sie mit der Concat-Methode kombinieren.

import pandas as pd
iris_master = pd.DataFrame([['0', 'setosa'], ['1', 'versicolor'], ['2', 'virginica']], columns=['id', 'name'])
iris_master

image.png

add_iris = pd.DataFrame([['3', 'hoge']], columns=['id', 'name'])
add_iris

image.png

pd.concat([iris_master, add_iris])

image.png

Kombinieren Sie Daten mit verschiedenen Spaltenkonfigurationen

Verwenden Sie die Zusammenführungsmethode, um mehrere Daten mit unterschiedlichen Datenspaltenkonfigurationen zu kombinieren. (Obwohl es möglich ist, mit der Join-Methode zu verknüpfen, muss die Spalte, die Sie als Schlüssel verwenden möchten, indiziert werden. Dies ist etwas problematisch. Ich denke, dass es kein Problem gibt, wenn die Merge-Methode zuerst verwendet werden kann.)

Geben Sie beim Beitritt das Schlüsselelement für den Beitritt an. Verbinden Sie Zeilen mit denselben Elementen.

pd.merge(iris_group2.mean(), iris_master, left_on='species', right_on='name')

スクリーンショット 2020-05-06 12.04.02.png

Schließlich

In Zukunft planen wir, die folgenden Inhalte zu verbessern.

Referenzinformationen

Die obigen Inhalte werden auf der Grundlage der folgenden Websites zusammengefasst.

Es wird hier ausführlicher erklärt. Wenn Sie Fragen haben, wenden Sie sich bitte daran.

Recommended Posts

Zusammenfassung der beim Extrahieren von Daten verwendeten Pandas-Methoden [Python]
Eine Sammlung von Methoden, die beim Aggregieren von Daten mit Pandas verwendet werden
Zusammenfassung der häufig verwendeten Methoden bei Pandas
Xpath-Zusammenfassung beim Extrahieren von Daten von einer Website mit Python Scrapy
[Python] Zusammenfassung der Verwendung von Pandas
Zusammenfassung der integrierten Methoden usw. der Python-Liste
Zusammenfassung dessen, was bei 100 Pandas-Schlägen verwendet wurde (# 1 ~ # 32)
Zusammenfassung häufig verwendeter Python-Arrays (für mich)
Selenium Webdriver Zusammenfassung der häufig verwendeten Betriebsmethoden
Zusammenfassung der Fehlerbehandlungsmethoden bei der Installation von TensorFlow (2)
Zusammenfassung der Python-Argumente
Zusammenfassung der Scikit-Learn-Datenquellen, die beim Schreiben von Analyseartikeln verwendet werden können
Ein Memorandum of Method, das häufig bei der Analyse von Daten mit Pandas verwendet wird (für Anfänger)
Zusammenfassung der Tools, die zum Analysieren von Daten in Python benötigt werden
Zusammenfassung der Vorverarbeitungsmethoden für Python-Anfänger (Pandas-Datenrahmen)
Liste des Python-Codes, der bei der Big-Data-Analyse verwendet wird
[Python] Zusammenfassung der Methode zur Tabellenerstellung mit DataFrame (Pandas)
Zusammenfassung der Dinge, die bei der Verwendung von Pandas praktisch waren
[Python] Einführung in das WEB-Scraping | Zusammenfassung der Methoden, die mit dem Webdriver verwendet werden können
Zusammenfassung der Python-Dateivorgänge
Zusammenfassung der Python3-Listenoperationen
Python Pandas Studie aktuelle Zusammenfassung
Python-Datentyp-Zusammenfassungsnotiz
Zusammenfassung der grundlegenden Verwendung von Pandas
Datenanalyse mit Python-Pandas
Die Kraft der Pandas: Python
Grundlegende Zusammenfassung der Datenoperationen in Python Pandas - Zweite Hälfte: Datenaggregation
Hinweise zum Umgang mit großen Datenmengen mit Python + Pandas
Vergleich der Datenrahmenbehandlung in Python (Pandas), R, Pig
Grundlegende Zusammenfassung der Datenoperationen mit Python Pandas - Erste Hälfte: Datenerstellung und -operationen
Die minimale Methode, die beim Aggregieren von Daten mit Pandas zu beachten ist
[Python] Operationsnotiz von Pandas DataFrame
Hit Schatzdaten von Python Pandas
Eine kurze Zusammenfassung der Python-Sammlung
So vermeiden Sie doppelte Daten bei der Eingabe von Python in SQLite.
Zusammenfassung der häufig verwendeten Grammatik bei Pandas
Persönliche Notizen zur Vorverarbeitung von Python Pandas-Daten
Praxis der Datenanalyse durch Python und Pandas (Tokyo COVID-19 Data Edition)
[Anaconda3] Zusammenfassung häufig verwendeter Befehle
Python - Symbole, die beim Ausführen von Operationen verwendet werden
Zusammenfassung der Python-Indizes und -Slices
[Python] Format, wenn to_csv mit Pandas
[OpenCV; Python] Zusammenfassung der Funktion findcontours
Ändern Sie nicht die Reihenfolge der Spalten, wenn Sie Pandas-Datenrahmen verketten.
Python-E-Book-Zusammenfassung nützlich für die frei lesbare Datenanalyse
[Zusammenfassung der Bücher und Online-Kurse für Programmierung und datenwissenschaftliches Lernen]
Eine Sammlung von Methoden, die beim Aggregieren von Daten mit Pandas verwendet werden
[Python] Verbinde zwei Tabellen mit Pandas
Extrahieren Sie bestimmte mehrere Spalten mit Pandas
Zusammenfassung der Methoden zur automatischen Ermittlung von Schwellenwerten
Zusammenfassung der häufig verwendeten Befehle in matplotlib
Python + Selen Zusammenfassung der häufig verwendeten Operationsmethoden
Zusammenfassung verschiedener for-Anweisungen in Python
[Python2.7] Zusammenfassung der Verwendung von unittest
Snippet-Zusammenfassung bei der Entwicklung mit Go
Pandas des Anfängers, vom Anfänger, für den Anfänger [Python]
Empfehlung von Altair! Datenvisualisierung mit Python
Zusammenfassung nützlicher Techniken von Scrapy in Python
Zusammenfassung der Verwendung der Python-Liste
[Python2.7] Zusammenfassung der Verwendung des Unterprozesses
Zusammenfassung der Achsenoptionsspezifikation von Python "numpy.sum (...)"