[PYTHON] Datenverarbeitungstipps mit Pandas

Es ist auch ein persönliches Memorandum und ein Tipp für die Datenverarbeitung durch Pandas. Ich schrieb auf, was ich beim Googeln nicht erwischt habe. Wir planen, immer mehr hinzuzufügen. Wir würden uns freuen, wenn Sie uns mitteilen könnten, ob Sie Fehler oder Verbesserungen haben.

Das erste, was zu sehen ist, ist der Spickzettel

Überwältigend danke an diejenigen, die es ins Japanische übersetzt haben. https://qiita.com/s_katagiri/items/4cd7dee37aae7a1e1fc0

Wenden Sie die Funktion auf mehrere Variablen an und speichern Sie den Rückgabewert in einer anderen Variablen.

Beispiel: Geben Sie die Anzahl der in x1 enthaltenen "@" in cnt_x1 ein, was auch für x2, x3, .... gilt. x1→cnt_x1, ..., x13→cnt_x13

migs = {'cnt_x1': 'x1', 'cnt_x2': 'x2', ...,  'cnt_x13': 'x13'}

for vars, mig in migs.items():
    df1[vars] = df1[mig].str.count('@')

--keys (): für die Schleifenverarbeitung für den Schlüsselschlüssel jedes Elements --values (): für die Schleifenverarbeitung für den Wert jedes Elements --items (): für die Schleifenverarbeitung für Schlüsselschlüssel und Wertwert jedes Elements

Benutze ein Wörterbuch. Die Entsprechung zwischen Schlüssel und Wert im Wörterbuch ist wie folgt. {'key1': 'value1', 'key2': 'value2', 'key3': 'value3'}

Senden Sie eine Abfrage an postgres, um einen Datenrahmen zu erstellen (erhalten Sie auch den Header).

Schreiben Sie die in '' 'eingeschlossene Abfrage in cur.execute (). Persönlich (im Fall von Postgres) habe ich es geschrieben, nachdem ich die Bewegung mit PgAdmin überprüft hatte.

import psycopg2
import pandas as pd
conn = psycopg2.connect("host=hostname  user=username port=port dbname=dbname password=password")
# execute sql
cur = conn.cursor()
#Schemaname.Tabellenname
cur.execute('''
select *
from hoge
;''')
results = cur.fetchall()
#Ich möchte df sein
df = pd.DataFrame(results, columns=[col.name for col in cur.description])
cur.close()
conn.close()

So erstellen Sie eine leere Datei und schreiben die aktuelle Anzahl von Beispielen in den Dateinamen, um die Situation zu verstehen

Wenn Sie die obigen Postgres abfragen, sie mit einem Datenrahmenprogramm kombinieren und sie regelmäßig im Windows-Taskplaner ausführen lassen, können Sie den Status von Beispielen in der Datenbank jeden Tag (wöchentlich, stündlich usw.) anzeigen. tun können.

allcnt = len(df)

with open(r"./Datum" + str(date) +  r"_Gesamt_" + str(allcnt) + r"_Inländisch_" + str(domestic) + r"_Übersee-_" + str(foreign) + r".txt","w"):pass

Recommended Posts

Datenverarbeitungstipps mit Pandas
Datensätze mit Pandas verarbeiten (1)
Datensätze mit Pandas verarbeiten (2)
Datenvisualisierung mit Pandas
Datenmanipulation mit Pandas!
Beispiel für eine effiziente Datenverarbeitung mit PANDAS
Verarbeiten Sie CSV-Daten mit Python (Zählverarbeitung mit Pandas)
Vielseitige Datenerfassung mit Pandas + Matplotlib
[Pandas] GroupBy-Tipps
Pandas Daten lesen
Tipps zum Zeichnen mehrerer Linien mit Pandas
Versuchen Sie, mit Pandas in ordentliche Daten umzuwandeln
Best Practices für den Umgang mit Daten mit Pandas
Versuchen Sie, Doujin-Musikdaten mit Pandas zu aggregieren
Lesen Sie Python-CSV-Daten mit Pandas ⇒ Graph mit Matplotlib
Zeichnen Sie ein Diagramm, indem Sie es mit Pandas groupby verarbeiten
[Pandas] Grundlagen der Verarbeitung von Datumsdaten mit dt
Visualisieren Sie Daten interaktiv mit TreasureData, Pandas und Jupyter.
100 Sprachverarbeitung Knock-20 (unter Verwendung von Pandas): Lesen von JSON-Daten
100 Sprachverarbeitung Knock-95 (mit Pandas): Bewertung mit WordSimilarity-353
Datenanalyse mit Python 2
Bildverarbeitung mit MyHDL
Konvertieren Sie 202003 bis 2020-03 mit Pandas
[Tipps] Meine Pandas-Notiz
Zusammenführen von Datensätzen mit Pandas
Pandas lernen mit Chemoinfomatik
Daten mit TensorFlow lesen
Bildverarbeitung mit Python
Parallelverarbeitung mit Mehrfachverarbeitung
Datenerweiterung mit openCV
Daten mit Scipy normieren
Datenanalyse mit Python
LADEN SIE DATEN mit PyMysql
Bildverarbeitung mit PIL
Holen Sie sich Amazon RDS (PostgreSQL) -Daten mithilfe von SQL mit Pandas
So konvertieren Sie horizontal gehaltene Daten mit Pandas in vertikal gehaltene Daten
Seien Sie vorsichtig beim Lesen von Daten mit Pandas (geben Sie dtype an)
Aufbau einer Datenanalyseumgebung mit Python (IPython Notebook + Pandas)
Übersicht und Tipps von Seaborn mit statistischer Datenvisualisierung
So extrahieren Sie mit Pandas Daten, denen der Wert nan nicht fehlt
So extrahieren Sie mit Pandas Daten, denen der Wert nan nicht fehlt
Zusammenfassung der von Pandas 2 häufig ausgeführten Prozesse (Datenreferenz, Bearbeitungsvorgang)
Mit Python erstellte Beispieldaten
100 Sprachverarbeitungsklopfen mit Python 2015
Lesen Sie CSV mit Python-Pandas
Betten Sie Audiodaten in Jupyter ein
Zeichnen Sie Excel-Daten mit matplotlib (1)
Parallelverarbeitung mit lokalen Funktionen
Bildverarbeitung mit PIL (Pillow)
Künstliche Datengenerierung mit Numpy
"Apple-Verarbeitung" mit OpenCV3 + Python3
Extrahieren Sie Twitter-Daten mit CSV
Akustische Signalverarbeitung mit Python (2)
Holen Sie sich Youtube-Daten mit Python
Hinweise zum Umgang mit großen Datenmengen mit Python + Pandas
Deshalb habe ich Pandas verlassen [Data Science 100 Knock (Strukturierte Datenverarbeitung) # 2]
Deshalb habe ich Pandas verlassen [Data Science 100 Knock (Strukturierte Datenverarbeitung) # 1]
Einfallsreichtum beim speichersparenden Umgang mit Daten mit Pandas