In diesem Artikel Lesen einer Excel-Datei (.xlsx) mit Pandas Ich werde einen Artikel darüber schreiben.
Von hier an werden wir das Jupyter-Labor nutzen. Wenn Sie es noch nicht heruntergeladen haben, beginnen Sie bitte von dort aus.
Importieren Sie zuerst Pandas.
import pandas as pd
Als nächstes wird die Excel-Datei gelesen. Excel ähnelt dem Lesen einer CSV-Datei. Im folgenden Artikel finden Sie CSV-Dateien. Lesen von CSV-Dateien mit Pandas --Qiita
df = pd.read_excel('excel/data.xlsx')
df
Ich habe eine Datei namens data.xlsx in einem Ordner namens excel gelesen.
In Excel kann die obere Zeile leer sein. Wenn beispielsweise die ersten beiden Zeilen leer sind, wird der Spaltenname "unbenannt" und die erste Zeile "NaN". Übergeben wir also 2 an das Argument "skiprows", überspringen die ersten beiden Zeilen und lesen aus der dritten Zeile.
df = pd.read_excel('excel/data.xlsx', skiprows = 2)
Durch Ändern des Arguments der Skiprows können Sie aus Ihrer Lieblingszeile lesen.
Sie können den Header auch explizit angeben, wenn Sie einen Spaltennamen haben. Wenn Sie beispielsweise die dritte Zeile als Spaltennamen angeben,
df = pd.read_excel('excel/data.xlsx', skiprows = 2, header = [2])
Wird besorgt. Hierbei ist zu beachten, dass bei Angabe der dritten Zeile nicht '[3]' geschrieben wird. Das Programmierarray beginnt mit '0'. Wenn Sie also die dritte Zeile angeben, schreiben Sie '[2]'.
Der Anfangswert des Headers ist übrigens 0, wenn Sie also nichts schreiben, ist die erste Zeile der Spaltenname.
Sie können auch zwei Überschriften angeben. Übergeben Sie es im Listenformat als Argument, z. B. [1,2].
df = pd.read_excel('excel/data.xlsx', skiprows = 2, header = [1,2])
Wenn Sie für Dateien ohne Header dem Header None geben, wird der Spaltenname automatisch nummeriert.
df = pd.read_excel('excel/data02.xlsx', header = None)
** Index angeben ** Sie können auch einen Index angeben. Geben Sie index_col die Nummer der Spalte, die Sie angeben möchten. Wenn Sie die erste Spalte als Index angeben,
df = pd.read_excel('excel/data02.xlsx', index_col = 0)
Jetzt können Sie die erste Spalte als Index angeben. Vergessen Sie auch hier nicht, dass das Array bei 0 beginnt.
index_col kann auch durch den Spaltennamen anstelle der Spaltennummer angegeben werden. Wenn Sie beispielsweise eine Spalte mit dem Namen "Datum für Index" angeben möchten,
df = pd.read_excel('excel/data02.xlsx', index_col = 'Datum')
Wird besorgt.
Übrigens wird der Datentyp so wie er ist als Index gelesen, aber um ihn als Datum zu lesen,
df = pd.read_excel('excel/data02.xlsx', index_col = 'Datum', parse_dates = True)
Dann können Sie es als Datum lesen. Wenn Sie den Datentyp überprüfen, lautet dieser "DatatimeIndex".
Diesmal, Lesen einer Excel-Datei (.xlsx) mit Pandas Ich habe einen Artikel über geschrieben.
Es gibt viele Dinge, die ich nicht verstehe, aber ich glaube, ich habe es geschafft, sie bis zu einem gewissen Grad zu erfassen.
Ich denke, dass es in Zukunft notwendig sein wird, Excel zu automatisieren, deshalb möchte ich mich daran erinnern.
Vielen Dank.
Dieser Artikel wurde von einem Programmieranfänger verfasst und ist möglicherweise falsch. Danke für Ihr Verständnis. Wenn Sie Fehler bemerken, würden wir uns freuen, wenn Sie darauf hinweisen könnten. Vielen Dank.
Recommended Posts