Lesen Sie Tabellendaten in einer PDF-Datei mit Python

PDF-Daten

Menschen auf der Welt scheinen PDF zu lieben, und selbst wenn sie sagen, dass sie es hassen, müssen sie sich damit auseinandersetzen. Es ist jedoch normal, dass die Leute denken, es sei ein wenig Zeit, Stunden damit zu verbringen. Es gibt Fälle, in denen nur PDF-Tabellendaten vorhanden sind, aber es gab eine sehr praktische Bibliothek namens tabula-py, die in solchen Fällen nützlich war. Eine Notiz machen.

https://github.com/chezou/tabula-py

Über Tabula

tabula ist eine Java-Bibliothek zum Extrahieren von PDF-Tabellen. tabula-py ist die Trompete. Daher müssen Sie Java installieren, um es verwenden zu können.

Nach der Installation von Java können Sie die Python-Bibliothek folgendermaßen verwenden.

$ pip install tabula-py

Wie benutzt man

Es ist einfach zu bedienen und Sie können die Funktion read_pdf verwenden, um die Tabelle in der PDF-Datei zu lesen. Für den Fall verwenden wir die Anzahl der Personen, die für das neue Koronavirus des Ministeriums für Gesundheit, Arbeit und Soziales positiv sind (mit Ausnahme derjenigen, die von Charterflügen zurückgekehrt sind), und die Anzahl der Personen, die PCR-Tests durchgeführt haben (https://www.mhlw.go.jp/content/10906000/000618483.pdf). ..


from tabula import read_pdf

df = read_pdf("https://www.mhlw.go.jp/content/10906000/000618483.pdf")

Das Ergebnis des Lesens der Tabelle wird wie folgt angezeigt.

read_pdf.png

Es sieht wie oben aus, da es mehrere Tabellen gibt. Geben Sie die Tabelle an, die als Nächstes abgerufen werden soll.

table1.png

Wie Sie oben sehen können, hat die Tabelle die Form einer Pandas-Datentabelle. Es ist super praktisch. In dieser PDF-Datei sind die Daten in zwei Spalten unterteilt, sodass Sie die Tabelle reiben müssen. Da es sich um eine Datentabelle handelt, können Sie auch in diesem Fall die Concat-Funktion von Pandas verwenden.

table2.png

Da es sich um einen Datenrahmen handelt, ist die Visualisierung einfach.

table3.png

Mit diesem Gefühl können Sie mit tabula-py ganz einfach PDF-Tabellendaten abrufen!

Recommended Posts

Lesen Sie Tabellendaten in einer PDF-Datei mit Python
[Automatisierung] Extrahieren Sie die Tabelle als PDF mit Python
Lesen von JSON-Daten mit Python
Lesen Sie die Protokollpufferdaten mit Python3
Lesen Sie Dateien parallel zu Python
[Python] Daten lesen
Holen Sie sich mit Python zusätzliche Daten zu LDAP
Exklusive Steuerung mit Sperrdatei in Python
CSV-Datei mit Python lesen (CSV-Datei herunterladen und analysieren)
Versuchen Sie, mit Binärdaten in Python zu arbeiten
Lesen wir die RINEX-Datei mit Python ①
Lesen Sie die Datei Zeile für Zeile mit Python
Lesen Sie die Datei Zeile für Zeile mit Python
Zeichendatendatei mit numpy lesen
[Python] Lesen Sie die angegebene Zeile in der Datei
Lesen von Zeichen in Bildern mit Python OCR
[Automatisierung] Lesen Sie E-Mails (Nachrichtendatei) mit Python
Lesen Sie die Datei in Python mit einem relativen Pfad aus dem Programm
[Python] Lesen Sie eine CSV-Datei mit großen Datenmengen mithilfe eines Generators
Datenanalyse mit Python 2
Dateioperationen in Python
Lesen einer CSV-Datei mit Python 2/3
Lesen Sie DXF mit Python
Dateiverarbeitung in Python
Lesen Sie Daten mit python / netCDF> nc.variables [] / Überprüfen Sie die Datengröße
Lesen Sie eine Datei mit verstümmelten Linien in Python
Lesen Sie Python-CSV-Daten mit Pandas ⇒ Graph mit Matplotlib
PDF mit Python rastern
[Python] Wie man Excel-Dateien mit Pandas liest
Lesen Sie die Python # .txt-Datei für Super-Anfänger in Python mit .py
Dateimanipulation mit Python
Lesen Sie mit Python Zeile für Zeile aus der Datei
Lesen Sie die Python-CSV-Datei
Python / numpy> Lesen Sie die Datendatei mit der Elementnamenzeile> Verwenden Sie genfromtxt ()
Datenanalyse mit Python
Registrieren Sie gemeinsam Daten im Firestore mithilfe der CSV-Datei in Python
Konvertieren Sie das Bild in .zip mit Python in PDF
Lesen Sie den QR-Code aus der Bilddatei mit Python (Mac).
Lesen Sie die json-Datei mit Python, formatieren Sie sie und geben Sie json aus
Führen Sie eine Python-Datei mit relativem Import in PyCharm aus
Mit Python erstellte Beispieldaten
Behandeln Sie Umgebungsdaten in Python
Lesen Sie CSV mit Python-Pandas
Schaben mit Selen in Python
Betreiben Sie LibreOffice mit Python
Schaben mit Chromedriver in Python
Zeigen Sie UTM-30LX-Daten in Python an
Debuggen mit pdb in Python
Zeichnen Sie eine netCDF-Datei mit Python
Holen Sie sich Youtube-Daten mit Python
OCR aus PDF in Python
Lesen Sie Eulers Formel in Python
Umgang mit Sounds in Python
Scraping mit Selen in Python
Scraping mit Tor in Python
Lesen Sie XML mit dem in Python angegebenen Namespace
Tweet mit Bild in Python
Lesen Sie Outlook-E-Mails mit Python
Kombiniert mit Ordnungszahl in Python
Integrieren Sie PDF-Dateien in Python