Lesen Sie Tabellendaten in einer PDF-Datei mit Python

PDF-Daten

Menschen auf der Welt scheinen PDF zu lieben, und selbst wenn sie sagen, dass sie es hassen, müssen sie sich damit auseinandersetzen. Es ist jedoch normal, dass die Leute denken, es sei ein wenig Zeit, Stunden damit zu verbringen. Es gibt Fälle, in denen nur PDF-Tabellendaten vorhanden sind, aber es gab eine sehr praktische Bibliothek namens tabula-py, die in solchen Fällen nützlich war. Eine Notiz machen.

https://github.com/chezou/tabula-py

Über Tabula

tabula ist eine Java-Bibliothek zum Extrahieren von PDF-Tabellen. tabula-py ist die Trompete. Daher müssen Sie Java installieren, um es verwenden zu können.

Nach der Installation von Java können Sie die Python-Bibliothek folgendermaßen verwenden.

$ pip install tabula-py

Wie benutzt man

Es ist einfach zu bedienen und Sie können die Funktion read_pdf verwenden, um die Tabelle in der PDF-Datei zu lesen. Für den Fall verwenden wir die Anzahl der Personen, die für das neue Koronavirus des Ministeriums für Gesundheit, Arbeit und Soziales positiv sind (mit Ausnahme derjenigen, die von Charterflügen zurückgekehrt sind), und die Anzahl der Personen, die PCR-Tests durchgeführt haben (https://www.mhlw.go.jp/content/10906000/000618483.pdf). ..


from tabula import read_pdf

df = read_pdf("https://www.mhlw.go.jp/content/10906000/000618483.pdf")

Das Ergebnis des Lesens der Tabelle wird wie folgt angezeigt.

Es sieht wie oben aus, da es mehrere Tabellen gibt. Geben Sie die Tabelle an, die als Nächstes abgerufen werden soll.

Wie Sie oben sehen können, hat die Tabelle die Form einer Pandas-Datentabelle. Es ist super praktisch. In dieser PDF-Datei sind die Daten in zwei Spalten unterteilt, sodass Sie die Tabelle reiben müssen. Da es sich um eine Datentabelle handelt, können Sie auch in diesem Fall die Concat-Funktion von Pandas verwenden.

Da es sich um einen Datenrahmen handelt, ist die Visualisierung einfach.

Mit diesem Gefühl können Sie mit tabula-py ganz einfach PDF-Tabellendaten abrufen!

Recommended Posts

Lesen Sie Tabellendaten in einer PDF-Datei mit Python

[Automatisierung] Extrahieren Sie die Tabelle als PDF mit Python

Lesen von JSON-Daten mit Python

Lesen Sie die Protokollpufferdaten mit Python3

Lesen Sie Dateien parallel zu Python

[Python] Daten lesen

Holen Sie sich mit Python zusätzliche Daten zu LDAP

Exklusive Steuerung mit Sperrdatei in Python

CSV-Datei mit Python lesen (CSV-Datei herunterladen und analysieren)

Versuchen Sie, mit Binärdaten in Python zu arbeiten

Lesen wir die RINEX-Datei mit Python ①

Lesen Sie die Datei Zeile für Zeile mit Python

Lesen Sie die Datei Zeile für Zeile mit Python

Zeichendatendatei mit numpy lesen

[Python] Lesen Sie die angegebene Zeile in der Datei

Lesen von Zeichen in Bildern mit Python OCR

[Automatisierung] Lesen Sie E-Mails (Nachrichtendatei) mit Python

Lesen Sie die Datei in Python mit einem relativen Pfad aus dem Programm

[Python] Lesen Sie eine CSV-Datei mit großen Datenmengen mithilfe eines Generators

Datenanalyse mit Python 2

Dateioperationen in Python

Lesen einer CSV-Datei mit Python 2/3

Lesen Sie DXF mit Python

Dateiverarbeitung in Python

Lesen Sie Daten mit python / netCDF> nc.variables [] / Überprüfen Sie die Datengröße

Lesen Sie eine Datei mit verstümmelten Linien in Python

Lesen Sie Python-CSV-Daten mit Pandas ⇒ Graph mit Matplotlib

PDF mit Python rastern

[Python] Wie man Excel-Dateien mit Pandas liest

Lesen Sie die Python # .txt-Datei für Super-Anfänger in Python mit .py

Dateimanipulation mit Python

Lesen Sie mit Python Zeile für Zeile aus der Datei

Lesen Sie die Python-CSV-Datei

Python / numpy> Lesen Sie die Datendatei mit der Elementnamenzeile> Verwenden Sie genfromtxt ()

Datenanalyse mit Python

Registrieren Sie gemeinsam Daten im Firestore mithilfe der CSV-Datei in Python

Konvertieren Sie das Bild in .zip mit Python in PDF

Lesen Sie den QR-Code aus der Bilddatei mit Python (Mac).

Lesen Sie die json-Datei mit Python, formatieren Sie sie und geben Sie json aus

Führen Sie eine Python-Datei mit relativem Import in PyCharm aus

Mit Python erstellte Beispieldaten

Behandeln Sie Umgebungsdaten in Python

Lesen Sie CSV mit Python-Pandas

Schaben mit Selen in Python

Betreiben Sie LibreOffice mit Python

Schaben mit Chromedriver in Python

Zeigen Sie UTM-30LX-Daten in Python an

Debuggen mit pdb in Python

Zeichnen Sie eine netCDF-Datei mit Python

Holen Sie sich Youtube-Daten mit Python

OCR aus PDF in Python

Lesen Sie Eulers Formel in Python

Umgang mit Sounds in Python

Scraping mit Selen in Python

Scraping mit Tor in Python

Lesen Sie XML mit dem in Python angegebenen Namespace

Tweet mit Bild in Python

Lesen Sie Outlook-E-Mails mit Python

Kombiniert mit Ordnungszahl in Python

Integrieren Sie PDF-Dateien in Python