Dieser Artikel enthält ein Memo zum Lesen und Ausgeben einer Datei für die Datenanalyse.
CSV / Tsv-Dateien mit Pandas lesen (read_csv, read_table)
df = pd.read_csv('train.csv', sep = ',', na_values = '.', header = None)
#Tipps Lesetyp Read_csv () zum Lesen von CSV-Dateien, read_table () zum Lesen von Tsv-Dateien (tabulatorgetrennt)
#Tipps Datenbegrenzer Für Datenbegrenzer, die weder Kommas noch Tabulatoren sind, kann das Trennzeichen mit dem Argument (Sep oder Trennzeichen) angegeben werden.
#Tipps Wenn die gelesenen Daten keinen Header enthalten Standardmäßig wird die erste Zeile der gelesenen Daten als Header behandelt. Wenn die gelesenen Daten keinen Header enthalten, geben Sie "header = None" an.
#Tipps Wenn die gelesenen Daten einen Header enthalten Geben Sie die Leseposition des Headers explizit mit
header = 2
usw. an. Es wird nicht vor dem angegebenen Speicherort gelesen.
#Tipps Datentyp lesen Es gibt zwei Möglichkeiten, den Datentyp beim Lesen von Daten anzugeben. Das erste ist, wenn Sie
dtype = str
angeben. Dies gilt für alle gelesenen Daten. Die zweite besteht darin, "dtype = {'b': str, 'c': str}" im Wörterbuchformat anzugeben.
#Tipps Umgang mit fehlenden Werten Wenn Sie es beim Lesen von Daten als fehlenden Wert behandeln möchten, können Sie es als fehlenden Wert behandeln, indem Sie "na_values = [" - ",". "]" Angeben.
3 oder später. Sie werden nach einem Konto gefragt, das auf einem anderen Bildschirm mit Colaboratory verknüpft werden soll. Wählen Sie es daher aus. Danach wird die ID ausgestellt. Kopieren Sie die ID und fügen Sie sie in das Labor ein.
(*) Wenn es nicht automatisch hinzugefügt wird, geben Sie den folgenden Befehl ein
from google.colab import drive
drive.mount('/content/drive')
Geben Sie den Pfad mit "pd.reac_csv ()" wie folgt an
data_fixed = pd.read_csv("/content/drive/My Drive/ColabNotebooks/XXX.csv")
Das anschließende Lesen von CSV-Dateien entspricht "2. Lesen von CSV mit jupyther-notebook".
Verwenden Sie den folgenden Befehl, um die lokal hochzuladende Datei auszuwählen.
from google.colab import files
uploaded = files.upload()
import io
df = pd.read_csv(io.StringIO(uploaded['XXX.csv'].decode('utf-8')))
XXX.csv ist die hochgeladene CSV-Datei.
Das Ausgabeformat ist wie folgt.
df.to_csv("/content/drive/My Drive/Colab Notebooks/XXX.csv")
df.to_csv('XXX.csv' , index=False)
files.download('XXX.csv')
Weglassen des # Tipps-Index Wenn Sie den Index-Teil bei der Datenausgabe nicht benötigen, geben Sie index = False an. Es ist für mich persönlich nützlich, weil es viele Fälle gibt, in denen "index" beim Festschreiben mit kaggle nicht benötigt wird.
Download von #Tips colaboratory Beim Herunterladen von colaboratory müssen Sie Folgendes lesen.
from google.colab import files
Recommended Posts