Le format PDF est un format pratique pour transmettre des données à des personnes et les distribuer avec d'autres matériaux dans des rapports, mais il est gênant en termes de réutilisation des données car il a été corrigé. Il y a beaucoup de. Ce serait bien pour moi de soumettre moi-même un tableau de milliers de lignes au format A4 dans le rapport, mais je l'ai écrit parce qu'il n'y avait pas de données originales lorsque je voulais l'utiliser ultérieurement et que j'ai dû l'extraire du PDF. C'était.
Veuillez écrire le code ci-dessous. Vous devez également installer une bibliothèque Java appelée tabula séparément. Le module de Pyhon n'est que cette trompette.
import tabula
import PyPDF2
import pandas as pd
FILE_PATH = "./test.pdf"
with open(FILE_PATH, mode='rb') as f:
pages = PyPDF2.PdfFileReader(f).getNumPages()
for i in range(pages+1):
tmp = tabula.read_pdf(FILE_PATH, pages = i, encoding = "utf-8_sig", spreadsheet=True)
df = pd.concat([df, tmp], ignore_index=True)
df = tabula.read_pdf(FILE_PATH, lattice=True, pages = '1' )
df[0].to_csv("./test.csv", encoding="shift_jis")
Exécutez simplement le fichier .py ci-dessus. Ayez une bonne vie PDF.
Recommended Posts