Das PDF-Format ist ein praktisches Format, um Daten an Personen weiterzugeben und zusammen mit anderen Materialien in Berichten zu verteilen. Es ist jedoch hinsichtlich der Wiederverwendbarkeit von Daten problematisch, da es behoben wurde. Es gibt viele. Es wäre schön, wenn ich selbst eine Tabelle mit Tausenden von Zeilen im A4-Format im Bericht einreichen würde, aber ich habe dies geschrieben, weil es keine Originaldaten gab, als ich sie zu einem späteren Zeitpunkt verwenden wollte, und ich musste sie aus dem PDF extrahieren. Es war.
Bitte schreiben Sie den Code unten. Sie müssen auch eine Java-Bibliothek namens tabula separat installieren. Pyhons Modul ist genau diese Trompete.
import tabula
import PyPDF2
import pandas as pd
FILE_PATH = "./test.pdf"
with open(FILE_PATH, mode='rb') as f:
pages = PyPDF2.PdfFileReader(f).getNumPages()
for i in range(pages+1):
tmp = tabula.read_pdf(FILE_PATH, pages = i, encoding = "utf-8_sig", spreadsheet=True)
df = pd.concat([df, tmp], ignore_index=True)
df = tabula.read_pdf(FILE_PATH, lattice=True, pages = '1' )
df[0].to_csv("./test.csv", encoding="shift_jis")
Führen Sie einfach die oben genannte .py-Datei aus. Haben Sie ein gutes PDF-Leben.
Recommended Posts