HTML ist eine Webseite, JSON ist eine Web-API CSV und Excel haben unterschiedliche Hauptverwendungen wie die Datenorganisation. Die gegenseitige Konvertierung ist über die Pandas-Bibliothek möglich.
Eine HTML-Datei ist ein Datenformat, das den Inhalt einer Webseite beschreibt.
Der Meister der HTML-Analysemethode sind alle in HTML geschriebenen Webseiten Es kann das Ziel der Analyse sein. Extrahieren von Informationen aus HTML-Dateien im Web
Dies nennt man Schaben.
In Python können Sie mit einer Bibliothek kratzen.
Pandas Bibliothek:Scraping von Tabellenelementen in HTML-Dateien
Eine andere Bibliothek wie BeautifulSoup und lxml:Andere als Tabellenelemente verschrotten
JSON-Datei ist eine Abkürzung für "JavaScript Object Notation". Es ist ein Textformat, das ursprünglich unter Bezugnahme auf die Notation der Programmiersprache "Javascript" erstellt wurde.
Das JSON-Format ist ein Textformat, das von der Javascript-Sprache unabhängig ist. Weil die meisten Programmiersprachen das Lesen und Schreiben unterstützen Es wird häufig zum Datenaustausch zwischen verschiedenen Programmiersprachen verwendet.
Die Struktur einer JSON-Datei entspricht im Wesentlichen der Struktur von Python-Wörterbuchvariablen. Geben Sie die Schlüssel- und Wertepaare in den Wellenklammern {} an, die durch Kommas getrennt sind. Platzieren Sie einen Doppelpunkt: zwischen dem Schlüssel und dem Wert.
CSV-Datei ist eine Abkürzung für "Comma Separated Values". Es ist ein Datenformat namens "durch Kommas getrennte Werte".
Weil CSV-Dateien im Textformat gespeichert werden Sie können die Daten unabhängig von einer bestimmten Software öffnen.
Die Datenstruktur ist einfach, es gibt keine zusätzlichen Metadaten und sie ist leichtgewichtig. Es wird seit langem für die Kommunikation zwischen Tabellenberechnungssoftware und Datenbanksoftware verwendet.
Die Struktur der CSV-Datei ist sehr einfach und die Werte werden durch Kommas getrennt, um Spalten darzustellen. Dies ermöglicht eine präzise Beschreibung tabellarischer Daten.
Excel ist eine weltweit verwendete Tabellenberechnungssoftware Viele Unternehmen und Organisationen wie öffentliche Einrichtungen nutzen dies Informationen werden im Excel-Dateiformat angezeigt.
Daher ist es möglich, Excel-Dateien beim Sammeln und Analysieren von Daten mit Python zu verarbeiten. Das Spektrum der Datenanalyse wird erheblich erweitert.
Da es beim Umgang mit Excel-Dateien mit Tabellenberechnungssoftware grafisch bedient werden kann Sie müssen sich der Struktur nicht so bewusst sein, Verwenden Sie diese Begriffe, wenn Sie mit Excel-Dateien aus einer Programmiersprache arbeiten Merken Sie sich diese Schlüsselwörter, um anzugeben, was Sie tun möchten.
der Begriff | Einzelheiten |
---|---|
book | Excel-Datei |
sheet | Blatt im Buch |
row | Linie |
column | Säule |
cell | Zelle |
Verwenden Sie die Pandas-Bibliothek, um Dateien wie HTML, JSON, CSV usw. zu erstellen. Verwenden Sie read_ zum Lesen.
read_***()
#Verwenden Sie diese Funktion zum Laden.
# ***Enthält für jedes Dateiformat unterschiedliche Zeichen.
Für HTML-Dateien die Funktion read_html (), Geben Sie für Excel-Dateien so etwas wie die Funktion read_excel () an.
Die Pandas-Bibliothek unterstützt auch andere Formate als die in der Tabelle aufgeführten Dateiformate. Es kann von einer Funktion namens read _ *** () gelesen werden. Die geladene Datei wird in ein Objekt vom Typ DataFrame in der Pandas-Bibliothek konvertiert Mit der Funktion von Pandas können verschiedene Verarbeitungen durchgeführt werden
Datei Format | Funktion |
---|---|
HTML | read_html() |
JSON | read_json() |
CSV | read_csv() |
Excel | read_excel() |
Zum Beispiel, wenn Sie HTML-Dateien mithilfe der Pandas-Bibliothek analysieren möchten Verwenden Sie die Funktion read_html () in der Pandas-Bibliothek. Durch Eingabe des Pfads oder der URL der HTML-Datei, die Sie im Argument der Funktion read_html () analysieren möchten, Sie können ein Objekt vom Typ DataFrame aus einem Tabellenelement in einer HTML-Datei generieren.
import pandas as pd
tables = pd.read_html("HTML-Datei, die Sie analysieren möchten")
DataFrame-Objekt der Pandas-Bibliothek Verwenden Sie to_ als Datei, z. B. als HTML-Datei, JSON-Datei oder CSV-Datei.
to_***()
#Verwenden Sie diese Funktion zum Exportieren.
# read_***()Wie Funktionen***Enthält für jedes Dateiformat unterschiedliche Zeichen
Für HTML die Funktion to_html (), für Excel die Funktion to_excel () usw. Die Pandas-Bibliothek unterstützt auch andere Formate als die in der Tabelle aufgeführten Dateiformate. Es kann von einer Funktion gelesen werden, die zu _ *** () aufgerufen wird.
Datei Format | Funktion |
---|---|
HTML | to_html() |
JSON | to_json() |
CSV | to_csv() |
Excel | to_excel() |
Zum Beispiel, wenn Sie die Pandas-Bibliothek zum Ausgeben in eine Excel-Datei verwenden Verwenden Sie die Funktion to_excel () in der Pandas-Bibliothek. Durch Angabe des Namens der Excel-Datei, die Sie exportieren möchten, im Argument der Funktion to_excel () Sie können eine Excel-Datei aus einem Objekt vom Typ DataFrame generieren.
# pandas.Objekt vom Typ DataFrame`df`Ausgabe in eine Excel-Datei
df.to_excel("Excel-Dateiname, den Sie exportieren möchten")
Lesen Sie zuerst die Daten.
import pandas as pd
stock_data=pd.read_csv(Wo ist die angegebene CSV-Datei?)
# ./~Geben Sie den Speicherort der Datei usw. an.
print(stock_data)
Mit pandas können Sie Diagramme mit Objekten vom Typ DataFrame als Indexfunktionen erstellen. Angenommen, Sie haben ein Objekt df vom Typ DataFrame, können Sie schreiben:
from matplotlib import pyplot as plt
df.plot()
plt.show()
#Wenn nur bestimmte Daten
df = data[price]
df.plot()
plt.show()
#Zum Zeitpunkt aller Daten
df = data
df.plot()
plt.show()
#Unbestimmt. Sie können es als Daten belassen
Recommended Posts