Hinweise zum Umgang mit großen Datenmengen mit Python + Pandas

Extrahieren Sie Daten aus MySQL

"""Get data from MySQL with pandas library."""
import MySQLdb
import pandas.io.sql as psql

con = MySQLdb.connect(db='work', user='root', passwd='') #DB-Verbindung
sql = """SELECT product_id, product_nm, product_features FROM electronics"""
df = psql.read_sql(sql, con) #Extrahieren Sie Daten in Form von Pandas DataFrame
con.close()

Erstellen Sie einen Vektor aus Daten 1

Beim Erstellen eines Vektors für Clustering usw. unter Verwendung großer Datenmengen wird beim Löschen der Daten eine iterative Verarbeitung durchgeführt, um den Speicherverbrauch zu verringern.

"""Delete rows while creating dataset."""
X = []
for index, row in df.iterrows(): #Iterieren Sie Zeile für Zeile
    Xi = [row.col1, row.col2, row.col3]
    X.append(X)
    df = df.ix[index:] #Erstellen Sie beim Löschen von Daten einen Vektor, um den Speicherverbrauch zu reduzieren

Erstellen eines Vektors aus Daten 2 (Geschwindigkeitsverbesserung)

Die erste Methode bereinigt den Code, hat jedoch den Nachteil langsamer Iterationen. Es ist um ein Vielfaches schneller, einmal aufzulisten.

"""High speed row iteration in pandas DataFrame"""
#Kopieren Sie die Daten in die Liste
df_index, df_col1, df_col2, df_col3 = \
    list(df.index), list(df.col1), list(df.col2), list(df.col3)
del df #Daten löschen
for _ in df_index:
    #Itate beim Löschen von Daten
    col1, col2, col3 = df_col1.pop(), df_col2.pop(), df_col3.pop()
    Xi = [col1, col2, col3]
    X.append(Xi)

Recommended Posts

Hinweise zum Umgang mit großen Datenmengen mit Python + Pandas
[Python] Hinweise zur Datenanalyse
Umgang mit Python auf Mac
Persönliche Notizen zur Vorverarbeitung von Python Pandas-Daten
Hinweise zur Verwendung von rstrip mit Python.
Vergleich der Datenrahmenbehandlung in Python (Pandas), R, Pig
Hinweise zur japanischen OCR mit Python
Empfehlung von Altair! Datenvisualisierung mit Python
Beispiel für eine effiziente Datenverarbeitung mit PANDAS
Python Pandas Memo
Automatischer Betrieb von Chrome mit Python + Selen + Pandas
Eine Geschichte über den Umgang mit Binärdaten in Python
Folium: Visualisieren Sie Daten auf einer Karte mit Python
Poetry-Virtualenv-Umgebungskonstruktion mit Centos-Sclo-Rh-Python ~ Hinweise
Erkennen Sie allgemeine MIDI-Daten von einer großen Menge von MIDI
Datenanalyse mit Python 2
Umgang mit Yaml mit Python
Pandas auf python2.6 installieren
Datenvisualisierung mit Pandas
Datenmanipulation mit Pandas!
Daten mit Pandas mischen
Datenanalyse mit Python
Hinweise zur HDR- und RAW-Bildverarbeitung mit Python
Aufbau einer Datenanalyseumgebung mit Python (IPython Notebook + Pandas)
Fordern Sie die Hauptkomponentenanalyse von Textdaten mit Python heraus
Zusammenfassung der beim Extrahieren von Daten verwendeten Pandas-Methoden [Python]
Flugzeugskelettanalyse mit Python (4) Umgang mit erzwungener Verschiebung
Verarbeiten Sie CSV-Daten mit Python (Zählverarbeitung mit Pandas)
[Grundlagen der Datenwissenschaft] Sammeln von Daten aus RSS mit Python
Holen Sie sich mit Python eine große Menge von Starbas Twitter-Daten und probieren Sie die Datenanalyse Teil 1 aus
Konsolidieren Sie eine große Anzahl von CSV-Dateien in Ordnern mit Python (Daten ohne Header).
Mit Python erstellte Beispieldaten
Versuchen Sie, COVID-19 Tokyo-Daten mit Python zu kratzen
Holen Sie sich Youtube-Daten mit Python
[Python] Ändere den Typ mit Pandas
Python> Umgang mit 2D-Arrays
Befreien Sie sich mit Python und regulären Ausdrücken von schmutzigen Daten
Installieren Sie pandas 0.14 auf python3.4 [auf Mac]
Lernnotizen zur Python-Datenanalyse
Die Geschichte eines Rubinisten, der mit Python :: Dict-Daten mit Pycall kämpft
[Homologie] Zählen Sie mit Python die Anzahl der Löcher in den Daten
Hinweise zur Installation von Python auf Ihrem Mac
Wie man die Anzahl der GPUs aus Python kennt ~ Hinweise zur Verwendung von Multiprocessing mit pytorch ~
Implementieren Sie die Normalisierung der Vorverarbeitung von Python-Trainingsdaten mit scicit-learn [fit_transform].
Eine Sammlung von Methoden, die beim Aggregieren von Daten mit Pandas verwendet werden
Hinweise zum Bereitstellen von pyenv mit Homebrew und zum Verwalten von Python-Versionen
Grundlegende Zusammenfassung der Datenoperationen mit Python Pandas - Erste Hälfte: Datenerstellung und -operationen
Datenanalyse mit Python-Pandas
[Python] Extrahiert Datenrahmen von Pandas, die einer bestimmten Spalte nicht mit anderen Datenrahmen entsprechen
Hinweise zur Installation von Python unter CentOS
Datenverarbeitungstipps mit Pandas
Die Kraft der Pandas: Python
Lesen von JSON-Daten mit Python
Verwalten Sie die Überlappung, wenn Sie ein Streudiagramm mit einer großen Datenmenge zeichnen (Matplotlib, Pandas, Datashader).
Praktische Übung zur Datenanalyse mit Python ~ 2016 New Coder Survey Edition ~
Holen Sie sich Daten von VPS MySQL mit Python 3 und SQL Alchemy
[Pandas] Ich habe versucht, Verkaufsdaten mit Python zu analysieren. [Für Anfänger]
Praxis der Datenanalyse durch Python und Pandas (Tokyo COVID-19 Data Edition)