[PYTHON] Lecture du fichier au format pandas

0. Contenu de cet article

Cet article est un mémo sur la lecture et la sortie d'un fichier pour l'analyse des données.

1. 1. Site de référence

Lire les fichiers csv / tsv avec pandas (read_csv, read_table)

2. Lisez CSV avec jupyther-notebook

df = pd.read_csv('train.csv', sep = ',', na_values = '.', header = None)

Type de lecture #Tips Read_csv () pour lire les fichiers csv, read_table () pour lire les fichiers tsv (délimités par des tabulations)

#Tips Délimiteur de données Pour les délimiteurs de données qui ne sont ni des virgules ni des tabulations, le délimiteur peut être spécifié avec l'argument (sep ou délimiteur).

#Tips Lorsqu'il n'y a pas d'en-tête dans les données lues Par défaut, la première ligne de données lues est traitée comme un en-tête. Si les données lues n'ont pas d'en-tête, spécifiez header = None.

#Tips Lorsqu'il y a un en-tête dans les données lues Spécifiez explicitement la position de lecture de l'en-tête avec header = 2 etc. Il n'est pas lu avant l'emplacement spécifié.

#Tips Lire le type de données Il existe deux façons de spécifier le type de données lors de la lecture des données. Le premier est lorsque vous spécifiez dtype = str. Cela s'applique à toutes les données lues. La seconde consiste à spécifier dtype = {'b': str, 'c': str} au format dictionnaire.

#Tips Gestion des valeurs manquantes Si vous voulez la traiter comme une valeur manquante lors de la lecture des données, vous pouvez la traiter comme une valeur manquante en spécifiant na_values = [" - ",". "].

3. Lire CSV avec Google Colaboratory

  1. Cliquez sur l'icône
  2. Sélectionnez Mount Drive
    1. Cette partie est ajoutée automatiquement (*)

3 ou version ultérieure. Il vous sera demandé un compte à associer à Colaboratory sur un autre écran, alors sélectionnez-le. Après cela, l'ID sera émis, alors copiez l'ID et collez-le dans le laboratoire.

image.png

(*) S'il n'est pas ajouté automatiquement, entrez la commande suivante

from google.colab import drive
drive.mount('/content/drive')

Spécifiez le chemin avec pd.reac_csv () comme suit

data_fixed = pd.read_csv("/content/drive/My Drive/ColabNotebooks/XXX.csv")

La lecture ultérieure des fichiers CSV est identique à "2. Lecture du CSV avec jupyther-notebook".

3.2 Télécharger depuis le local

Utilisez la commande suivante pour sélectionner le fichier à télécharger localement.

from google.colab import files
uploaded = files.upload()

import io
df = pd.read_csv(io.StringIO(uploaded['XXX.csv'].decode('utf-8')))

XXX.csv est le fichier CSV téléchargé.

Quatre. Sortie de fichier CSV vers Google Colaboratory

Le format de sortie est le suivant.

df.to_csv("/content/drive/My Drive/Colab Notebooks/XXX.csv")

Cinq. Téléchargement local via navigateur (commun à Google Colaboratory et Jupyter-notebook)

df.to_csv('XXX.csv' , index=False)
files.download('XXX.csv')

Omission de l'index #Tips Si vous n'avez pas besoin de la partie ʻindex lors de la sortie des données, spécifiez ʻindex = False. C'est utile personnellement car il y a de nombreux cas où «index» n'est pas nécessaire lors de la validation avec kaggle.

Télécharger depuis le colaboratoire #Tips Lors du téléchargement depuis un laboratoire, vous devez lire ce qui suit.

from google.colab import files

Recommended Posts

Lecture du fichier au format pandas
[pandas] Méthode de lecture et d'affichage des fichiers .csv
[Note] Lecture de fichier ~ Python ~
Lire le fichier CSV: pandas
lecture de fichier externe python
Tapez après avoir lu un fichier Excel avec pandas read_excel
Tâche AHC (1) Lecture du fichier CSV
Principes de base de Pandas pour les débutants ① Lecture et traitement
Pandas
Mettre en forme le fichier CSV de "Fête nationale" du Cabinet Office avec des pandas
Lecture et écriture de fichiers CSV Python
[Python] Formater quand to_csv avec des pandas
Lire et formater des fichiers csv mélangés avec des tabulations de virgule avec des pandas Python
Convertir le graphique matplotlib au format de fichier emf
[Easy Python] Lecture de fichiers Excel avec des pandas
Téléchargez Pandas DataFrame sous forme de fichier CSV