Derjenige, der Python-Objekte als Binärdaten speichert https://docs.python.org/ja/3/library/pickle.html
Das Laden ist schnell Da es sich um Binärdaten handelt, ist die Analyseverarbeitung schnell, da sie nicht durchgeführt werden muss. Geschulte Modelle können eingelegt und wiederverwendet werden
Dieser Verifizierungsartikel ist wunderbar Python: Ich habe das Persistenzformat von Pandas untersucht
Machen Sie train.csv vorerst Gurke Dies ist der einzige Code
#pickle ist eine Standardbibliothek, daher ist keine Installation erforderlich
import pickle
import pandas as pd
train = pd.read_csv('../input/titanic/train.csv')
# 'wb'(write binary)Angeben
with open('train.pickle', 'wb') as f:
pickle.dump(train, f)
Zuerst festschreiben
Wenn oben links das grüne Vervollständigen angezeigt wird, klicken Sie auf Version öffnen.
Scrollen Sie zur Spalte Ausgabe
Wenn Sie train.pickle
bestätigen können, New Dataset
Geben Sie Ihren bevorzugten Dataset-Titel ein und erstellen Sie ihn
Datensatz ist abgeschlossen
Wenn Sie ein neues Notizbuch erstellen + Daten hinzufügen
Filtern Sie nach Ihren Datensätzen
Fügen Sie die gerade erstellte hinzu
Gewinnen Sie, wenn hier angezeigt
Dies ist der einzige Code
# 'rb'(read binary)Angeben
with open('../input/titanicdatasetpickles/train.pickle', 'rb') as f:
train = pickle.load(f)
Es wird ordnungsgemäß als DataFrame geladen.
train.shape
# (891, 12)
!ls ../input
# titanicdatasetpickles
Verwenden wir den Dump-Prozess
dump_pickles.py
import pickle
import pandas as pd
#Wechseln Sie den Pfad zwischen Kaggle und einer anderen Umgebung
if '/kaggle/working' in _dh:
input_path = '../input'
else:
input_path = './input'
#Schreiben Sie hier nur für jeden Wettbewerb neu
data_sets = {
'train': f'{input_path}/titanic/train.csv',
'test': f'{input_path}/titanic/test.csv',
'gender_submission': f'{input_path}/titanic/gender_submission.csv'
}
for name, path in data_sets.items():
df = pd.read_csv(path)
with open(f'{name}.pickle', 'wb') as f:
pickle.dump(df, f)
#das ist
with open('./train.pickle', 'wb') as f:
pickle.dump(train, f)
#so was
train.to_pickle('./train.pickle')
#das ist
with open('../input/titanicdatasetpickles/train.pickle', 'rb') as f:
df_ss = pickle.load(f)
#so was
train = pd.read_pickle('../input/titanicdatasetpickles/train.pickle')
ModuleNotFoundError: No module named 'pandas.core.internals.managers'; 'pandas.core.internals' is not a package
Es scheint ein Problem mit der Version von Pandas zu sein
pip install -U pandas
Gelöst von
Ich wurde durch diesen Artikel gerettet Inkonsistenz zwischen Gurke und Pandas
Vielen Dank für das Lesen bis zum Ende
Recommended Posts