Choses à faire

Pickle l'ensemble de données du fichier csv
Lisez le fichier pickle dans un autre notebook

Qu'est-ce que le cornichon?

Celui qui enregistre les objets python en tant que données binaires https://docs.python.org/ja/3/library/pickle.html

De quoi êtes-vous heureux?

Le chargement est rapide Comme il s'agit de données binaires, le traitement d'analyse est rapide car il n'a pas besoin d'être Les modèles formés peuvent également être décapés et réutilisés

Cet article de vérification est merveilleux Python: j'ai étudié le format de persistance des pandas

Essayez avec les données du Titanic

Rendre train.csv pickle pour le moment C'est le seul code

#pickle est une bibliothèque standard donc aucune installation requise
import pickle

import pandas as pd


train = pd.read_csv('../input/titanic/train.csv')

# 'wb'(write binary)Spécifier
with open('train.pickle', 'wb') as f:
    pickle.dump(train, f)

Enregistrer en tant que jeu de données

Premier engagement スクリーンショット 2019-12-09 3.16.06.png

Lorsque le vert Complet apparaît en haut à gauche, cliquez sur Ouvrir la version. スクリーンショット 2019-12-09 3.17.42.png

Faites défiler jusqu'à la colonne Sortie スクリーンショット 2019-12-09 3.18.37.png

Si vous pouvez confirmer train.pickle, Nouvel ensemble de données スクリーンショット 2019-12-09 3.19.07.png

Entrez le titre de votre jeu de données préféré et créez スクリーンショット 2019-12-09 3.20.36.png

L'ensemble de données est terminé スクリーンショット 2019-12-09 3.21.08.png

Apportez-le à un autre ordinateur portable

Si vous créez un nouveau bloc-notes + Ajouter des données スクリーンショット 2019-12-09 3.44.17.png

Filtrer par vos ensembles de données スクリーンショット 2019-12-09 3.44.44.png

Ajoutez celui que vous venez de créer スクリーンショット 2019-12-09 3.45.11.png

Gagnez si affiché ici スクリーンショット 2019-12-09 3.46.31.png

Lisons

C'est le seul code

# 'ｒb'(read binary)Spécifier
with open('../input/titanicdatasetpickles/train.pickle', 'rb') as f:
    train = pickle.load(f)

Il est correctement chargé en tant que DataFrame.

train.shape

# (891, 12)

Veuillez noter que le nom du répertoire peut différer de celui affiché sur le côté droit de l'écran. `https: // www.kaggle.com / anata-no-namae / data-set-no-namae` <-Cette notation devient le nom du répertoire Si vous vérifiez avec la commande `ls`, vous pouvez voir que le nom du répertoire est` -`pear.

!ls ../input

# titanicdatasetpickles

Peut être déposé

Utilisons le processus de vidage

`dump_pickles.py`



import pickle

import pandas as pd


#Basculer entre Kaggle et un autre environnement
if '/kaggle/working' in _dh:
    input_path = '../input'
else:
    input_path = './input'

#Réécrire uniquement ici pour chaque compétition
data_sets = {
    'train': f'{input_path}/titanic/train.csv',
    'test': f'{input_path}/titanic/test.csv',
    'gender_submission': f'{input_path}/titanic/gender_submission.csv'
}

for name, path in data_sets.items():
    df = pd.read_csv(path)
    with open(f'{name}.pickle', 'wb') as f:
        pickle.dump(df, f)

Vous pouvez faire de même avec les pandas

#c'est
with open('./train.pickle', 'wb') as f:
    pickle.dump(train, f)

#comme ça
train.to_pickle('./train.pickle')

#c'est
with open('../input/titanicdatasetpickles/train.pickle', 'rb') as f:
    df_ss = pickle.load(f)

#comme ça
train = pd.read_pickle('../input/titanicdatasetpickles/train.pickle')

Parfois, j'obtiens cette erreur

ModuleNotFoundError: No module named 'pandas.core.internals.managers'; 'pandas.core.internals' is not a package

Cela semble être un problème avec la version des pandas

pip install -U pandas

Résolu par

Notez que l'image docker officielle de Kaggle (kaggle / python) a donné une erreur avec pandas == 0.23.4 (au 09 décembre 2019).

J'ai été sauvé par cet article Incohérence entre cornichon et pandas

La fin

Merci d'avoir lu jusqu'au bout

[PYTHON] [Explication avec image] Utilisez pickle avec le carnet de notes de Kaggle