[PYTHON] Eine Sammlung von Methoden, die beim Aggregieren von Daten mit Pandas verwendet werden

CSV-Datei lesen

data = pd.read_csv("sample.csv", encoding="UTF-8")
data

Ergebnis

スクリーンショット 2017-07-28 22.27.31.png

Inhalt von sample.csv

Nicht notwendig,Nicht notwendig,Nicht notwendig,Nicht notwendig,Nicht notwendig,Nicht notwendig
Nicht notwendig,Titel A.,Titel B.,Titel C.,Titel D.,Nicht notwendig
Nicht notwendig,10,20,30,40,Nicht notwendig
Nicht notwendig,100,200,300,400,Nicht notwendig
Nicht notwendig,Nicht notwendig,Nicht notwendig,Nicht notwendig,Nicht notwendig,Nicht notwendig

Ich speichere die Daten in der Google-Tabelle als CSV und stelle mir die Daten bei der Analyse vor. Ich denke, es gibt einige Blätter, in denen Memos und Bemerkungen geschrieben werden, ohne strukturiert zu sein. Ich denke, dass Sie den Bereich beim Speichern auswählen können, aber dieses Mal werde ich versuchen, ihn nach dem Üben mit Pandas zu organisieren.

Ändern Sie den Inhalt der angegebenen Zeile in den Spaltennamen

data.columns = data.iloc[0]
data

Ergebnis

スクリーンショット 2017-07-28 22.29.14.png

Extrahieren Sie nur die angegebenen Zeilen / Spalten

data = data.iloc[1:3,1:5]
data

Ergebnis

スクリーンショット 2017-07-28 22.33.12.png Es ist genau das, was ich will.

Erstellen Sie verschiedene zusammenfassende Statistiken (Fehler)

data.describe()

Ergebnis

スクリーンショット 2017-07-28 22.34.37.png Ich dachte, dass der Durchschnitt usw. herauskommen würde, aber das tut es nicht. Dies liegt daran, dass der Werttyp nicht numerisch ist.

Ändern Sie den Werttyp

data = data.astype('int')
data

Ergebnis

スクリーンショット 2017-07-28 22.37.16.png

Erstellen Sie verschiedene zusammenfassende Statistiken (Erfolg)

data.describe()

Ergebnis

スクリーンショット 2017-07-28 22.38.23.png

Holen Sie sich den Korrelationskoeffizienten

data.corr()

Ergebnis

スクリーンショット 2017-07-28 22.39.15.png #### Bemerkungen Ich weiß nicht, was die 0 oben links ist

Verschiedene andere Dinge

data.sum() #gesamt
data.skew() #Schiefe
data.kurt() #Kurtosis
data.var() #Verteilt
data.cov() #Kovarianzmatrix

Bemerkungen

Anzeige Diagramm Bart Diagramm

%matplotlib inline #Erforderlich, um auf Seite angezeigt zu werden
data.plot(kind='box')

Ergebnis

スクリーンショット 2017-07-28 22.44.26.png #### Bemerkungen Das japanische Etikett wird nicht angezeigt, das japanische jedoch ``` matplotlib.rcParams['font.family'] = 'M+ 1c' #Festlegbare Schriftart ``` Es kann durch Angabe von als angezeigt werden. Folgende Schriftarten können angegeben werden ``` import matplotlib.font_manager as fm fm.findSystemFonts() ``` Sie können unter herausfinden. http://qiita.com/hagino3000/items/1b54acc01483ccd0ac72 Ich bezog mich auf.

DataFrame-Join (Zeilenrichtung)

pd.concat([data,data])

Ergebnis

スクリーンショット 2017-07-28 22.48.35.png

DataFrame-Join (Spaltenrichtung)

pd.concat([data,data], axis=1)

Ergebnis

スクリーンショット 2017-07-28 22.49.28.png

Ändern Sie alle Werte

data.pipe(lambda df: df / 2)

Ergebnis

スクリーンショット 2017-07-28 22.50.29.png

Nach Wert sortieren

data['Titel A.'].sort_values(ascending = True)

Ergebnis

スクリーンショット 2017-07-28 22.51.18.png

Recommended Posts

Eine Sammlung von Methoden, die beim Aggregieren von Daten mit Pandas verwendet werden
Zusammenfassung der beim Extrahieren von Daten verwendeten Pandas-Methoden [Python]
Ein Memorandum of Method, das häufig bei der Analyse von Daten mit Pandas verwendet wird (für Anfänger)
Die minimale Methode, die beim Aggregieren von Daten mit Pandas zu beachten ist
Zusammenfassung der häufig verwendeten Methoden bei Pandas
Beispiel für eine effiziente Datenverarbeitung mit PANDAS
Ein Memorandum über Probleme beim Formatieren von Daten
Verwalten Sie die Überlappung, wenn Sie ein Streudiagramm mit einer großen Datenmenge zeichnen (Matplotlib, Pandas, Datashader).
Machen Sie Urlaubsdaten mit Pandas zu einem Datenrahmen
Datenvisualisierung mit Pandas
Datenmanipulation mit Pandas!
Daten mit Pandas mischen
Seien Sie vorsichtig beim Lesen von Daten mit Pandas (geben Sie dtype an)
Eine Sammlung häufig verwendeter Befehle in der Serververwaltung
Beim Lesen einer CSV-Datei mit read_csv von Pandas wird die erste Spalte zum Index
Mit den Daten von COVID-19 wurde ein Netzwerkdiagramm erstellt.
Hinweise zum Umgang mit großen Datenmengen mit Python + Pandas
Kann mit AtCoder verwendet werden! Eine Sammlung von Techniken zum Zeichnen von Kurzcode in Python!
Einfallsreichtum beim speichersparenden Umgang mit Daten mit Pandas
[Python] Extrahiert Datenrahmen von Pandas, die einer bestimmten Spalte nicht mit anderen Datenrahmen entsprechen
Datenverarbeitungstipps mit Pandas
Zwei Methoden zum Extrahieren von Zuständen mit Pandas (Einzelbedingung, Mehrfachbedingung)
Eine Sammlung von einzeiligen Webservern
Vielseitige Datenerfassung mit Pandas + Matplotlib
Zeichnen Sie ein Diagramm mit Pandas + XlsxWriter
[Python] Format, wenn to_csv mit Pandas
Laden Sie Daten mit einem Befehl und einer Aktualisierung auf s3 von aws hoch und löschen Sie die verwendeten Daten (unterwegs).
Eine Sammlung von Beispielen, wenn Sie durch Pythons Slice-Notation verwirrt sind
Ändern Sie nicht die Reihenfolge der Spalten, wenn Sie Pandas-Datenrahmen verketten.
Eine Sammlung von Tipps zur Beschleunigung des Lernens und Denkens mit PyTorch
Eine Erinnerung an das, was ich beim Starten von Atcoder mit Python feststeckte
[Große Abfrage] Laden Sie einen Teil der BQ-Daten mit hoher Geschwindigkeit in Pandas
Ich habe einen Fehler beim Abrufen der Hierarchie mit MultiIndex von Pandas gemacht
Das Ergebnis war besser, als die Trainingsdaten des Mini-Batches als Hybrid aus fest und zufällig mit einem neuronalen Netzwerk erstellt wurden.
Eine kleine Überprüfung von Pandas 1.0 und Dask
Versuchen Sie, mit Pandas in ordentliche Daten umzuwandeln
Eine Problemumgehung bei der Installation von pyAudio mit pip.
[Pandas_flavor] Fügen Sie eine Methode von Pandas DataFrame hinzu
Memorandum für die Migration mit GORM
Empfehlung von Altair! Datenvisualisierung mit Python
Zeichendatendatei mit numpy lesen
Pandas: Ein sehr einfaches Beispiel für DataFrame.rolling ()
Behandeln Sie 3D-Datenstrukturen mit Pandas
Best Practices für den Umgang mit Daten mit Pandas
Einführung des Zeichnungscodes für Figuren mit einem gewissen Grad an Perfektion der Wetterdaten
Python scikit-learn Eine Sammlung von Tipps für Vorhersagemodelle, die häufig im Feld verwendet werden
Persönliche Notizen zu Pandas-bezogenen Vorgängen, die in der Praxis verwendet werden können
Zusammenfassung der Scikit-Learn-Datenquellen, die beim Schreiben von Analyseartikeln verwendet werden können
Ändern Sie den Datenrahmen der Pandas-Kaufdaten (ID x Produkt) in ein Wörterbuch
Praxis der Erstellung einer Datenanalyseplattform mit BigQuery und Cloud DataFlow (Datenverarbeitung)
Python scikit-learn Eine Sammlung von Tipps für Vorhersagemodelle, die häufig im Feld verwendet werden
[Einführung in Python] So erhalten Sie den Datenindex mit der for-Anweisung
Ich habe eine Funktion zum Abrufen von Daten aus der Datenbank spaltenweise mithilfe von SQL mit SQLite3 von Python [SQLite3, SQL, Pandas] erstellt.