Ich habe versucht, die Verarbeitungsgeschwindigkeit mit dplyr von R und pandas von Python zu vergleichen

Einführung

Verarbeiten wir dieselben Tabellendaten auf dieselbe Weise mit dplyr in R und pandas in Python.

Was ist schneller? Ich war neugierig und habe es nachgeschlagen.

Aggregation von Baseballdaten

Lassen Sie uns ein Basis-Hit-Ranking .csv aus den All-Match-Hit-Ergebnisdaten der Major League 2013 (77 MB, ca. 190.000 Zeilen) erstellen.

Das Skript dplyr.R, das mit Rs dplyr geschrieben wurde, ist

library(data.table)
library(dplyr)

##Daten gelesen
dat = fread("all2013.csv")

##Aggregat
dat %>% select(BAT_ID, H_FL) %>% 
 group_by(BAT_ID) %>% 
 summarise(BASE = sum(H_FL)) %>% 
 arrange(desc(BASE)) %>% 
 write.csv("hoge.csv")

So was.

> time R -f dplyr.R
R -f dplyr.R  3.13s user 0.15s system 99% cpu 3.294 total

Mit Python-Pandas,


#!/usr/bin/python

import pandas as pd

df = pd.read_csv('all2013.csv')

df[["BAT_ID", "H_FL"]].groupby("BAT_ID").sum().sort("H_FL", ascending=False).to_csv('hoge.csv')

So was.

> time ./pd.py                                                                          
./pd.py  3.12s user 0.40s system 98% cpu 3.567 total

3,29 Sekunden für dplyr, 3,56 Sekunden für Pandas.

dplyr ist etwas besser.

Zusammenfassung

Mit 77 MB Daten scheint beides nicht besonders schnell zu sein.

Ist es in Ordnung, wenn Sie jemanden verwenden, der daran gewöhnt ist?

das ist alles.

Recommended Posts

Ich habe versucht, die Verarbeitungsgeschwindigkeit mit dplyr von R und pandas von Python zu vergleichen

Ich habe versucht, die Entropie des Bildes mit Python zu finden

Ich habe versucht, das Artikel-Update des Livedoor-Blogs mit Python und Selen zu automatisieren.

Ich habe die Geschwindigkeit von Hash mit Topaz, Ruby und Python verglichen

Ich habe versucht, die Effizienz der täglichen Arbeit mit Python zu verbessern

Vergleichen Sie die Geschwindigkeit von Python Append und Map

Ich habe die numerische Berechnung von Python durch Rust ersetzt und die Geschwindigkeit verglichen

Ich habe versucht, den Authentifizierungscode der Qiita-API mit Python abzurufen.

Ich habe versucht, die Beschleunigung von Python durch Cython zu verifizieren und zu analysieren

Ich habe versucht, die Negativität von Nono Morikubo zu analysieren. [Vergleiche mit Posipa]

Ich habe versucht, die Filminformationen der TMDb-API mit Python abzurufen

Ich habe versucht, eine CSV-Datei mit Python zu berühren

Ich habe versucht, Soma Cube mit Python zu lösen

Ich habe versucht, das Problem mit Python Vol.1 zu lösen

Ich habe versucht, die String-Operationen von Python zusammenzufassen

Ich habe versucht, die Tweets von JAWS DAYS 2017 mit Python + ELK einfach zu visualisieren

Ich habe versucht, die Literatur des neuen Corona-Virus mit Python automatisch an LINE zu senden

Ich habe versucht, die statistischen Daten der neuen Corona mit Python abzurufen und zu analysieren: Daten der Johns Hopkins University

Ich habe versucht, die Genauigkeit der japanischen BERT- und der japanischen Distil-BERT-Satzklassifizierung mit PyTorch & Einführung der BERT-Technik zur Verbesserung der Genauigkeit zu vergleichen

Ich habe versucht, das Bild mit Python + OpenCV "gammakorrektur" zu machen

Ich habe versucht zu simulieren, wie sich die Infektion mit Python ausbreitet

Ich habe versucht, mit TensorFlow den Durchschnitt mehrerer Spalten zu ermitteln

[Python] Ich habe versucht, die folgende Beziehung von Twitter zu visualisieren

Ich möchte die Natur von Python und Pip kennenlernen

Ich habe versucht, die Unterschiede zwischen Java und Python aufzuzählen

Bildverarbeitung mit Python (ich habe versucht, es in 0 und 1 Mosaikkunst zu binarisieren)

Ich habe versucht, die Benutzeroberfläche neben Python und Tkinter dreiäugig zu gestalten

Beim 15. Offline-Echtzeitversuch habe ich versucht, das Problem des Schreibens mit Python zu lösen

Ich habe versucht, zum Zeitpunkt der Bereitstellung mit Fabric und ChatWork Api automatisch in ChatWork zu posten

Ich habe versucht, das Problem von F02 zu lösen, wie man mit Python offline in Echtzeit schreibt

Ich habe auch versucht, die Funktionsmonade und die Zustandsmonade mit dem Generator in Python nachzuahmen

Ich schrieb einen Test in "Ich habe versucht, die Wahrscheinlichkeit eines Bingospiels mit Python zu simulieren".

Ich habe versucht, das Ranking des Qiita-Adventskalenders mit Python zu kratzen

Ich habe versucht, die Anfängerausgabe des Ameisenbuchs mit Python zu lösen

Geschwindigkeitsvergleich der Volltextverarbeitung von Wiktionary mit F # und Python

Ich habe versucht, die Bewässerung des Pflanzgefäßes mit Raspberry Pi zu automatisieren

[Einführung in Python] Ich habe die Namenskonventionen von C # und Python verglichen.

Ich möchte den Anfang des nächsten Monats mit Python ausgeben

Ich habe versucht, mit Python eine Liste von Primzahlen zu erstellen

Berücksichtigen Sie die Verarbeitungsgeschwindigkeit, um den Bildpuffer mit numpy.ndarray zu verschieben

[Pandas] Ich habe versucht, Verkaufsdaten mit Python zu analysieren. [Für Anfänger]

Ich habe versucht, mit Selenium und Python einen regelmäßigen Ausführungsprozess durchzuführen

Ich habe versucht, die Größe des logischen Volumes mit LVM zu erweitern

Ich habe versucht, Gesichtsmarkierungen mit Python und Dlib leicht zu erkennen

Ich habe versucht, automatisch Bilder von Kanna Hashimoto mit Python zu sammeln! !!

PhytoMine-I hat versucht, mit Python die genetischen Informationen der Pflanze zu erhalten

Ich habe versucht, die Sprecheridentifikation mithilfe der Sprechererkennungs-API von Azure Cognitive Services mit Python zu überprüfen. # 1

Ich habe zum ersten Mal versucht, mit DynamoDB und Step Functions eine serverlose Stapelverarbeitung zu erstellen

Ich habe versucht, die Sprecheridentifikation mithilfe der Sprechererkennungs-API von Azure Cognitive Services in Python zu überprüfen. # 2

Ich habe versucht, die Trefferergebnisse von Hachinai mithilfe der Bildverarbeitung zu erhalten

Ich habe versucht, die Altersgruppe und die Ratenverteilung von Atcoder zu visualisieren

Ich versuchte, Trauer und Freude über das Problem der stabilen Ehe auszudrücken.

(Python) Ich habe versucht, 1 Million Hände zu analysieren ~ Ich habe versucht, die Anzahl der AA ~ zu schätzen

Ich habe versucht, den Winkel von Sin und Cos mit Chainer zu lernen

Ich habe 0 Jahre Programmiererfahrung und fordere die Datenverarbeitung mit Python heraus

Ich habe es mit den Top 100 PyPI-Paketen versucht.> Ich habe versucht, die auf Python installierten Pakete grafisch darzustellen

Ich habe versucht, den Text des Romans "Wetterkind" mit Word Cloud zu visualisieren

Python: Ich möchte die Verarbeitungszeit einer Funktion genau messen