Il est préférable de sauvegarder un DataFrame à grande échelle avec pickle, Lors du téléchargement sur git, s'il s'agissait de pickle, il pourrait ne pas être possible de pousser en raison de la capacité. Par conséquent, j'ai décidé de le compresser avec joblib et de gérer également les données dans git.
Lors de la sauvegarde et du chargement avec pickle
save_pickle.py
import pandas as pd
df = pd.DataFrame([1,2,3])
df.to_pickle('df.pickle')
read_pickle.py
import pandas as pd
df = pd.read_pickle('df.pickle')
Cliquez ici pour enregistrer et charger avec joblib. Vous pouvez modifier le taux de compression avec compress. Si vous compressez trop, cela prendra du temps pour compresser et lire, donc Dans mon cas, 4 semblait être bon.
save_joblib.py
import pandas as pd
import joblib
df = pd.DataFrame([1,2,3])
joblib.dump(df, 'df.joblib', compress=4)
read_joblib.py
import pandas as pd
import joblib
df = joblib.load('df.joblib')
Recommended Posts