Anwendung von Python: Datenverarbeitung Teil 2: Analyse verschiedener Datenformate

Verschiedene Datenformate

Eingabe und Ausgabe von Dateien über die Pandas-Bibliothek

HTML ist eine Webseite, JSON ist eine Web-API CSV und Excel haben unterschiedliche Hauptverwendungen wie die Datenorganisation. Die gegenseitige Konvertierung ist über die Pandas-Bibliothek möglich.

HTML-Dateistruktur

Eine HTML-Datei ist ein Datenformat, das den Inhalt einer Webseite beschreibt.

Der Meister der HTML-Analysemethode sind alle in HTML geschriebenen Webseiten Es kann das Ziel der Analyse sein. Extrahieren von Informationen aus HTML-Dateien im Web

Dies nennt man Schaben.
In Python können Sie mit einer Bibliothek kratzen.

Pandas Bibliothek:Scraping von Tabellenelementen in HTML-Dateien
Eine andere Bibliothek wie BeautifulSoup und lxml:Andere als Tabellenelemente verschrotten

JSON-Dateistruktur

JSON-Datei ist eine Abkürzung für "JavaScript Object Notation". Es ist ein Textformat, das ursprünglich unter Bezugnahme auf die Notation der Programmiersprache "Javascript" erstellt wurde.

Das JSON-Format ist ein Textformat, das von der Javascript-Sprache unabhängig ist. Weil die meisten Programmiersprachen das Lesen und Schreiben unterstützen Es wird häufig zum Datenaustausch zwischen verschiedenen Programmiersprachen verwendet.

image.png

Die Struktur einer JSON-Datei entspricht im Wesentlichen der Struktur von Python-Wörterbuchvariablen. Geben Sie die Schlüssel- und Wertepaare in den Wellenklammern {} an, die durch Kommas getrennt sind. Platzieren Sie einen Doppelpunkt: zwischen dem Schlüssel und dem Wert.

CSV-Dateistruktur

CSV-Datei ist eine Abkürzung für "Comma Separated Values". Es ist ein Datenformat namens "durch Kommas getrennte Werte".

Weil CSV-Dateien im Textformat gespeichert werden Sie können die Daten unabhängig von einer bestimmten Software öffnen.

Die Datenstruktur ist einfach, es gibt keine zusätzlichen Metadaten und sie ist leichtgewichtig. Es wird seit langem für die Kommunikation zwischen Tabellenberechnungssoftware und Datenbanksoftware verwendet.

image.png

Die Struktur der CSV-Datei ist sehr einfach und die Werte werden durch Kommas getrennt, um Spalten darzustellen. Dies ermöglicht eine präzise Beschreibung tabellarischer Daten.

Excel-Dateistruktur

Excel ist eine weltweit verwendete Tabellenberechnungssoftware Viele Unternehmen und Organisationen wie öffentliche Einrichtungen nutzen dies Informationen werden im Excel-Dateiformat angezeigt.

Daher ist es möglich, Excel-Dateien beim Sammeln und Analysieren von Daten mit Python zu verarbeiten. Das Spektrum der Datenanalyse wird erheblich erweitert.

image.png

Da es beim Umgang mit Excel-Dateien mit Tabellenberechnungssoftware grafisch bedient werden kann Sie müssen sich der Struktur nicht so bewusst sein, Verwenden Sie diese Begriffe, wenn Sie mit Excel-Dateien aus einer Programmiersprache arbeiten Merken Sie sich diese Schlüsselwörter, um anzugeben, was Sie tun möchten.

der Begriff Einzelheiten
book Excel-Datei
sheet Blatt im Buch
row Linie
column Säule
cell Zelle

Konvertierung von DataFrame und jedem Datenformat

Lesen Sie die Datei mit DataFrame

Verwenden Sie die Pandas-Bibliothek, um Dateien wie HTML, JSON, CSV usw. zu erstellen. Verwenden Sie read_ zum Lesen.

read_***() 
#Verwenden Sie diese Funktion zum Laden.
# ***Enthält für jedes Dateiformat unterschiedliche Zeichen.

Für HTML-Dateien die Funktion read_html (), Geben Sie für Excel-Dateien so etwas wie die Funktion read_excel () an.

Die Pandas-Bibliothek unterstützt auch andere Formate als die in der Tabelle aufgeführten Dateiformate. Es kann von einer Funktion namens read _ *** () gelesen werden. Die geladene Datei wird in ein Objekt vom Typ DataFrame in der Pandas-Bibliothek konvertiert Mit der Funktion von Pandas können verschiedene Verarbeitungen durchgeführt werden

Datei Format Funktion
HTML read_html()
JSON read_json()
CSV read_csv()
Excel read_excel()

Zum Beispiel, wenn Sie HTML-Dateien mithilfe der Pandas-Bibliothek analysieren möchten Verwenden Sie die Funktion read_html () in der Pandas-Bibliothek. Durch Eingabe des Pfads oder der URL der HTML-Datei, die Sie im Argument der Funktion read_html () analysieren möchten, Sie können ein Objekt vom Typ DataFrame aus einem Tabellenelement in einer HTML-Datei generieren.

import pandas as pd  
tables = pd.read_html("HTML-Datei, die Sie analysieren möchten")

Export aus DataFrame in Datei

DataFrame-Objekt der Pandas-Bibliothek Verwenden Sie to_ als Datei, z. B. als HTML-Datei, JSON-Datei oder CSV-Datei.

to_***() 
#Verwenden Sie diese Funktion zum Exportieren.
# read_***()Wie Funktionen***Enthält für jedes Dateiformat unterschiedliche Zeichen

Für HTML die Funktion to_html (), für Excel die Funktion to_excel () usw. Die Pandas-Bibliothek unterstützt auch andere Formate als die in der Tabelle aufgeführten Dateiformate. Es kann von einer Funktion gelesen werden, die zu _ *** () aufgerufen wird.

Datei Format Funktion
HTML to_html()
JSON to_json()
CSV to_csv()
Excel to_excel()

Zum Beispiel, wenn Sie die Pandas-Bibliothek zum Ausgeben in eine Excel-Datei verwenden Verwenden Sie die Funktion to_excel () in der Pandas-Bibliothek. Durch Angabe des Namens der Excel-Datei, die Sie exportieren möchten, im Argument der Funktion to_excel () Sie können eine Excel-Datei aus einem Objekt vom Typ DataFrame generieren.

# pandas.Objekt vom Typ DataFrame`df`Ausgabe in eine Excel-Datei
df.to_excel("Excel-Dateiname, den Sie exportieren möchten")

Holen Sie sich CSV-Dateidaten und zeichnen Sie sie in ein Diagramm

Lesen Sie die CSV-Dateidaten

Lesen Sie zuerst die Daten.

import pandas as pd

stock_data=pd.read_csv(Wo ist die angegebene CSV-Datei?)
# ./~Geben Sie den Speicherort der Datei usw. an.

print(stock_data)

Zeichnen Sie ein Diagramm mit den Funktionen von Pandas

Mit pandas können Sie Diagramme mit Objekten vom Typ DataFrame als Indexfunktionen erstellen. Angenommen, Sie haben ein Objekt df vom Typ DataFrame, können Sie schreiben:

from matplotlib import pyplot as plt
df.plot()
plt.show()

#Wenn nur bestimmte Daten
df = data[price]
df.plot()
plt.show()

#Zum Zeitpunkt aller Daten
df = data
df.plot()
plt.show()

#Unbestimmt. Sie können es als Daten belassen

Recommended Posts

Anwendung von Python: Datenverarbeitung Teil 2: Analyse verschiedener Datenformate
Python-Anwendung: Datenverarbeitung # 3: Datenformat
Anwendung von Python: Datenvisualisierung Teil 3: Verschiedene Grafiken
Anwendung von Python: Datenbereinigung Teil 1: Python-Notation
Python-Anwendung: Datenvisualisierung Teil 1: Grundlegend
Datenverarbeitung 2 Analyse verschiedener Datenformate
Python-Anwendung: Datenverarbeitung Teil 1: Datenformatierung und Dateieingabe / -ausgabe
Python-Anwendung: Pandas Teil 2: Serie
Python-Anwendung: Datenvisualisierung # 2: matplotlib
Python-Anwendung: Numpy Teil 3: Double Array
Anwendung von Python: Datenbereinigung Teil 2: Datenbereinigung mit DataFrame
[Python] Kapitel 04-06 Verschiedene Datenstrukturen (Erstellung eines Wörterbuchs)
[Python] Kapitel 04-03 Verschiedene Datenstrukturen (mehrdimensionale Liste)
[Python] Kapitel 04-04 Verschiedene Datenstrukturen (siehe Liste)
[Einführung in die Udemy Python3 + -Anwendung] 65. Ausnahmebehandlung
Anwendung von Python: Pandas Teil 4: Verketten und Kombinieren von DataFrames
Datenverarbeitung
[Python] Webanwendung von 0! Hands-on (4) -Datenformung-
[Python] Verschiedene Datenverarbeitung mit Numpy-Array
[Python] Kapitel 04-02 Verschiedene Datenstrukturen (Listenmanipulation)
Datenerfassung von der Analytics-API mit dem Google API-Client für die Python Part 2-Webanwendung
Erstellen Sie solche Testdaten mit Python (Teil 1)
Eine Geschichte über den Umgang mit Binärdaten in Python
QGIS + Python Teil 2
QGIS + Python Teil 1
Datenanalyse Python
Python-Fehlerbehandlung
Behandlung von Python-Ausnahmen
# 3 [python3] Verschiedene Operatoren
Datenverarbeitung mit mehreren Bedingungen
Python: Scraping Teil 1
Python-Zeitzonenbehandlung
Behandlung von Python-Ausnahmen
Lösung Wenn Sie Python 3.6 oder höher verwenden, benötigen Sie die enum34-Bibliothek ebenfalls nicht. Deinstallieren Sie sie daher und verwenden Sie das Standard-Enum-Modul. Enum34 deinstallieren Führen Sie nach der Deinstallation von enum34 erneut `pip install optuna` aus und Sie haben Optuna erfolgreich installiert! Python, pip, Python3, enum, OptunaPython3 Beginn Teil 1
[Python] Daten lesen
Python: Scraping Teil 2
"My Graph Generation Application" von Python (PySide + PyQtGraph) Teil 2
Webanwendung erstellt mit Python3.4 + Django (Teil.1 Umgebungskonstruktion)
[Python] Kapitel 04-05 Verschiedene Datenstrukturen (Taple-Erstellung und Funktionen)
"My Graph Generation Application" von Python (PySide + PyQtGraph) Teil 1