Lire les données de la table dans un fichier PDF avec Python

Données PDF

Les gens dans le monde semblent aimer le PDF, et même s'ils disent qu'ils le détestent, ils doivent y faire face. Cependant, il est normal que les gens pensent que c'est un peu de temps pour y passer des heures. Il y a des cas où il n'y a que des données de table PDF, mais il y avait une bibliothèque super pratique appelée tabula-py qui était utile dans de tels cas. Fait une note.

https://github.com/chezou/tabula-py

À propos de Tabula

tabula est une bibliothèque Java pour l'extraction de tableaux PDF. tabula-py est la trompette. Par conséquent, vous devez installer Java pour l'utiliser.

Après avoir installé Java, vous pouvez utiliser la bibliothèque Python en procédant comme suit.

$ pip install tabula-py

Comment utiliser

Il est facile à utiliser et vous pouvez utiliser la fonction read_pdf pour lire le tableau dans le fichier PDF. Pour le cas, nous utiliserons le nombre de personnes positives pour le nouveau virus corona du ministère de la Santé, du Travail et du Bien-être (à l'exclusion de celles qui reviennent de vols charters) et le nombre de personnes ayant effectué des tests PCR (https://www.mhlw.go.jp/content/10906000/000618483.pdf). ..


from tabula import read_pdf

df = read_pdf("https://www.mhlw.go.jp/content/10906000/000618483.pdf")

Le résultat de la lecture du tableau est affiché comme ci-dessous.

read_pdf.png

Cela ressemble à ce qui précède car il y a plusieurs tables. Spécifiez la table à récupérer ensuite.

table1.png

Comme vous pouvez le voir ci-dessus, le tableau se présente sous la forme d'un tableau de données pandas. C'est super pratique. Dans ce fichier PDF, les données sont divisées en deux colonnes, vous devez donc frotter le tableau. Dans ce cas également, puisqu'il s'agit d'une table de données, vous pouvez utiliser la fonction concat de pandas.

table2.png

Puisqu'il s'agit d'un bloc de données, il est facile à visualiser.

table3.png

Avec ce sentiment, vous pouvez facilement obtenir des données de table PDF en utilisant tabula-py!

Recommended Posts

Lire les données de la table dans un fichier PDF avec Python
[Automation] Extraire le tableau en PDF avec Python
Lire des données json avec python
Lire les données des tampons de protocole avec Python3
Lire des fichiers en parallèle avec Python
[python] Lecture de données
Obtenez des données supplémentaires vers LDAP avec python
Contrôle exclusif avec fichier de verrouillage en Python
Lire le fichier CSV avec python (Télécharger et analyser le fichier CSV)
Essayez de travailler avec des données binaires en Python
Lisons le fichier RINEX avec Python ①
Lisez le fichier ligne par ligne avec Python
Lisez le fichier ligne par ligne avec Python
Lire le fichier de données de caractères avec numpy
[Python] Lire la ligne spécifiée dans le fichier
Lire des caractères dans des images avec Python OCR
[Automation] Lire le courrier (fichier msg) avec Python
Lisez le fichier en Python avec un chemin relatif depuis le programme
[Python] Lire un fichier csv avec une grande taille de données à l'aide d'un générateur
Analyse de données avec python 2
Opérations sur les fichiers en Python
Comment lire un fichier CSV avec Python 2/3
Lire DXF avec python
Traitement de fichiers en Python
Lire les données avec python / netCDF> nc.variables [] / Vérifier la taille des données
Lire un fichier contenant des lignes brouillées en Python
Lire les données csv Python avec Pandas ⇒ Graphique avec Matplotlib
Pixelliser un PDF avec Python
[Python] Comment lire des fichiers Excel avec des pandas
Lire le fichier Python # .txt pour Python super débutant super débutant avec travail .py
Manipulation de fichiers avec Python
Lire ligne par ligne à partir d'un fichier avec Python
Lire le fichier csv Python
Python / numpy> Lire le fichier de données avec la ligne de nom d'élément> Utiliser genfromtxt ()
Analyse de données avec Python
Enregistrez collectivement des données dans Firestore à l'aide d'un fichier csv en Python
Convertissez l'image au format .zip en PDF avec Python
Lire le code QR à partir du fichier image avec Python (Mac)
Lire le fichier json avec Python, le formater et générer le json
Exécuter un fichier Python avec une importation relative dans PyCharm
Exemple de données créées avec python
Gérer les données ambiantes en Python
Lire csv avec des pandas python
Grattage au sélénium en Python
Exploitez LibreOffice avec Python
Grattage avec chromedriver en python
Afficher les données UTM-30LX en Python
Débogage avec pdb en Python
Dessiner un fichier netCDF avec python
Obtenez des données Youtube avec python
OCR à partir de PDF en Python
Lire la formule d'Euler en Python
Gérer les sons en Python
Grattage avec du sélénium en Python
Grattage avec Tor en Python
Lire du XML avec un espace de noms spécifié en Python
Tweet avec image en Python
Lire les e-mails Outlook avec Python
Combiné avec ordinal en Python
Intégrez des fichiers PDF avec Python