Menschen auf der Welt scheinen PDF zu lieben, und selbst wenn sie sagen, dass sie es hassen, müssen sie sich damit auseinandersetzen. Es ist jedoch normal, dass die Leute denken, es sei ein wenig Zeit, Stunden damit zu verbringen. Es gibt Fälle, in denen nur PDF-Tabellendaten vorhanden sind, aber es gab eine sehr praktische Bibliothek namens tabula-py, die in solchen Fällen nützlich war. Eine Notiz machen.
https://github.com/chezou/tabula-py
tabula ist eine Java-Bibliothek zum Extrahieren von PDF-Tabellen. tabula-py ist die Trompete. Daher müssen Sie Java installieren, um es verwenden zu können.
Nach der Installation von Java können Sie die Python-Bibliothek folgendermaßen verwenden.
$ pip install tabula-py
Es ist einfach zu bedienen und Sie können die Funktion read_pdf verwenden, um die Tabelle in der PDF-Datei zu lesen. Für den Fall verwenden wir die Anzahl der Personen, die für das neue Koronavirus des Ministeriums für Gesundheit, Arbeit und Soziales positiv sind (mit Ausnahme derjenigen, die von Charterflügen zurückgekehrt sind), und die Anzahl der Personen, die PCR-Tests durchgeführt haben (https://www.mhlw.go.jp/content/10906000/000618483.pdf). ..
from tabula import read_pdf
df = read_pdf("https://www.mhlw.go.jp/content/10906000/000618483.pdf")
Das Ergebnis des Lesens der Tabelle wird wie folgt angezeigt.
Es sieht wie oben aus, da es mehrere Tabellen gibt. Geben Sie die Tabelle an, die als Nächstes abgerufen werden soll.
Wie Sie oben sehen können, hat die Tabelle die Form einer Pandas-Datentabelle. Es ist super praktisch. In dieser PDF-Datei sind die Daten in zwei Spalten unterteilt, sodass Sie die Tabelle reiben müssen. Da es sich um eine Datentabelle handelt, können Sie auch in diesem Fall die Concat-Funktion von Pandas verwenden.
Da es sich um einen Datenrahmen handelt, ist die Visualisierung einfach.
Mit diesem Gefühl können Sie mit tabula-py ganz einfach PDF-Tabellendaten abrufen!
Recommended Posts