[PYTHON] Best Practices für den Umgang mit Daten mit Pandas

Beim maschinellen Lernen nach Vorverarbeitung der Daten mit einer Hypothese Spielst du mit den Daten? Spielst du damit Ich denke, es gibt eine Phase, Zu dieser Zeit ist es frei, Pandas frei zu manipulieren Ich denke es wird wichtig sein.

Ich selbst habe ein wenig Programmiererfahrung und Datenbankkenntnisse,

*** pandas DataFrame [] ← Das ist zu kompliziert! !! *** ***

Insbesondere ist es schwierig, durch Bedingungen einzugrenzen.

train[train["company_id"] == 1088]["meter_reading"]

Es ist an dieser Stelle verwirrend, aber wenn es train_weather_df ist, wird es ruiniert.

train_weather_df[train_weather_df[“company_id”]==1088][“meter_readings”]

Wenn zwei Bedingungen vorliegen, passieren außerdem beängstigendere Dinge ...

Also etwas etwas kompliziertes zu tun, Ich denke, es ist besser, ***. Query () *** zu verwenden.

train.query(qry)["meter_reading"]

Nach der Eingrenzung denke ich, dass es so etwas wie den Versuch gibt, diese "Gruppe 1" zur Analyse zu machen. Beachten Sie, dass Sie beim Abrufen mit der Abfragemethode keine direkte Zuweisung vornehmen können.

×××× train.query(qry )["group"] = 1

*** kann nicht sein !! ***

Es ist zu dieser Zeit ein kleiner Umweg, aber ich denke, das Folgende ist wahrscheinlich besser.

qry = 'company_id == 1088 & meter_reading > 20000'
target_idx = train.query(qry).index
train["group"].loc(target_idx) = 1

Die Lesbarkeit ist nicht so schlecht und vor allem

train.loc(target_idx) 

Damit finde ich es gut zu bestätigen, ob es gut zusammengedrückt ist.

Es scheint jedoch, dass es Einschränkungen für die Zeichen gibt, die in die Abfrage eingegeben werden können. Das könnte eines Tages ein Problem sein.

Das Abfragebeispiel auf dieser Site ist übrigens hilfreich. https://ohke.hateblo.jp/entry/2019/01/12/230000 (Engine = Python usw.)


 tmp_q = "name_ns == @t_name & year == @t_year "

Artikel, auf die verwiesen wird https://qiita.com/kurumen-b/items/45b60299f0893a537f2a https://qiita.com/mwmsnn/items/6a464865759231aa888d

Weitere Hinweise Bei den jüngsten Pandas scheint es nicht empfehlenswert zu sein, wie iloc zu schreiben, nachdem die Spalten eingegrenzt wurden. Diese Notation scheint wichtiger zu sein. Wenn Sie zwischen Zeilennummern, Spaltennummern, Zeilenbeschriftungen und Spaltennamen hin und her wechseln möchten, siehe unten https://note.nkmk.me/python-pandas-get-loc-row-column-num/

Recommended Posts

Best Practices für den Umgang mit Daten mit Pandas
Datenvisualisierung mit Pandas
Datenmanipulation mit Pandas!
Daten mit Pandas mischen
Datenverarbeitungstipps mit Pandas
Vielseitige Datenerfassung mit Pandas + Matplotlib
[Pandas] Ich habe versucht, Verkaufsdaten mit Python zu analysieren. [Für Anfänger]
Stellen Sie Funktionen mit Cloud Pak for Data bereit
Tipps zum Zeichnen mehrerer Linien mit Pandas
Versuchen Sie, mit Pandas in ordentliche Daten umzuwandeln
Behandeln Sie 3D-Datenstrukturen mit Pandas
Best Practices für Django views.py und urls.py (?)
Beispiel für eine effiziente Datenverarbeitung mit PANDAS
Pandas-Grundlagen für Anfänger ③ Erstellen Sie ein Histogramm mit matplotlib
Datenanalyse zur Verbesserung von POG 2 ~ Analyse mit Jupiter-Notebook ~
Versuchen Sie, Doujin-Musikdaten mit Pandas zu aggregieren
Lesen Sie Python-CSV-Daten mit Pandas ⇒ Graph mit Matplotlib
Pandas Daten lesen
Implementieren Sie "Data Visualization Design # 3" mit Pandas und Matplotlib
Visualisieren Sie Daten interaktiv mit TreasureData, Pandas und Jupyter.
Die Lambda-Funktion bietet Best Practice mit CircleCI + Lamvery
Machen Sie Urlaubsdaten mit Pandas zu einem Datenrahmen
Pandas-Grundlagen für Anfänger ② Übersicht über die Daten
Ein Memorandum of Method, das häufig bei der Analyse von Daten mit Pandas verwendet wird (für Anfänger)
Speichern Sie Pandas-Daten mit Cloud Pak for Data (Watson Studio) im Excel-Format in Datenbeständen.
Datenanalyse zur Verbesserung von POG 1 ~ Web Scraping mit Python ~
Holen Sie sich Amazon RDS (PostgreSQL) -Daten mithilfe von SQL mit Pandas
Masken sind nützlich für die Suche in Pandas-Datenrahmen
So konvertieren Sie horizontal gehaltene Daten mit Pandas in vertikal gehaltene Daten
Seien Sie vorsichtig beim Lesen von Daten mit Pandas (geben Sie dtype an)
Zusammenfassung der Vorverarbeitungsmethoden für Python-Anfänger (Pandas-Datenrahmen)
Aufbau einer Datenanalyseumgebung mit Python (IPython Notebook + Pandas)
So extrahieren Sie mit Pandas Daten, denen der Wert nan nicht fehlt
Persönliche Best Practices für die Python-Entwicklungsumgebung mit VS-Code
[Zur Aufnahme] Pandas Memorandum
Mit Pandas schnell visualisieren
Datensätze mit Pandas verarbeiten (1)
Bootstrap-Sampling mit Pandas
Konvertieren Sie 202003 bis 2020-03 mit Pandas
Datensätze mit Pandas verarbeiten (2)
Zusammenführen von Datensätzen mit Pandas
Pandas lernen mit Chemoinfomatik
Daten mit TensorFlow lesen
Datenerweiterung mit openCV
Daten mit Scipy normieren
Datenanalyse mit Python
LADEN SIE DATEN mit PyMysql
Hinweise zum Umgang mit großen Datenmengen mit Python + Pandas
Einfallsreichtum beim speichersparenden Umgang mit Daten mit Pandas
Abrufen von Daten aus der Analyse-API mit Google API Client für Python
Best Practices für die dynamische Verarbeitung von LINE Flex-Nachrichten in Django
[Aktienkursanalyse] Pandas lernen mit fiktiven Daten (002: Protokollausgabe)
Eine Sammlung von Methoden, die beim Aggregieren von Daten mit Pandas verwendet werden