Es ist besser, einen großen DataFrame mit pickle zu speichern. Wenn es sich beim Hochladen auf git um pickle handelte, ist es aufgrund der Kapazität möglicherweise nicht möglich, einen Push durchzuführen. Aus diesem Grund habe ich beschlossen, es mit joblib zu komprimieren und die Daten auch in git zu verwalten.
Beim Speichern und Laden mit Gurke
save_pickle.py
import pandas as pd
df = pd.DataFrame([1,2,3])
df.to_pickle('df.pickle')
read_pickle.py
import pandas as pd
df = pd.read_pickle('df.pickle')
Klicken Sie hier, um mit joblib zu speichern und zu laden. Sie können das Komprimierungsverhältnis mit komprimieren ändern. Wenn Sie zu viel komprimieren, dauert das Komprimieren und Lesen einige Zeit In meinem Fall schien 4 gut zu sein.
save_joblib.py
import pandas as pd
import joblib
df = pd.DataFrame([1,2,3])
joblib.dump(df, 'df.joblib', compress=4)
read_joblib.py
import pandas as pd
import joblib
df = joblib.load('df.joblib')
Recommended Posts