Lire les données de la table dans un fichier PDF avec Python

Données PDF

Les gens dans le monde semblent aimer le PDF, et même s'ils disent qu'ils le détestent, ils doivent y faire face. Cependant, il est normal que les gens pensent que c'est un peu de temps pour y passer des heures. Il y a des cas où il n'y a que des données de table PDF, mais il y avait une bibliothèque super pratique appelée tabula-py qui était utile dans de tels cas. Fait une note.

https://github.com/chezou/tabula-py

À propos de Tabula

tabula est une bibliothèque Java pour l'extraction de tableaux PDF. tabula-py est la trompette. Par conséquent, vous devez installer Java pour l'utiliser.

Après avoir installé Java, vous pouvez utiliser la bibliothèque Python en procédant comme suit.

$ pip install tabula-py

Comment utiliser

Il est facile à utiliser et vous pouvez utiliser la fonction read_pdf pour lire le tableau dans le fichier PDF. Pour le cas, nous utiliserons le nombre de personnes positives pour le nouveau virus corona du ministère de la Santé, du Travail et du Bien-être (à l'exclusion de celles qui reviennent de vols charters) et le nombre de personnes ayant effectué des tests PCR (https://www.mhlw.go.jp/content/10906000/000618483.pdf). ..


from tabula import read_pdf

df = read_pdf("https://www.mhlw.go.jp/content/10906000/000618483.pdf")

Le résultat de la lecture du tableau est affiché comme ci-dessous.

Cela ressemble à ce qui précède car il y a plusieurs tables. Spécifiez la table à récupérer ensuite.

Comme vous pouvez le voir ci-dessus, le tableau se présente sous la forme d'un tableau de données pandas. C'est super pratique. Dans ce fichier PDF, les données sont divisées en deux colonnes, vous devez donc frotter le tableau. Dans ce cas également, puisqu'il s'agit d'une table de données, vous pouvez utiliser la fonction concat de pandas.

Puisqu'il s'agit d'un bloc de données, il est facile à visualiser.

Avec ce sentiment, vous pouvez facilement obtenir des données de table PDF en utilisant tabula-py!

Recommended Posts

Lire les données de la table dans un fichier PDF avec Python

[Automation] Extraire le tableau en PDF avec Python

Lire des données json avec python

Lire les données des tampons de protocole avec Python3

Lire des fichiers en parallèle avec Python

[python] Lecture de données

Obtenez des données supplémentaires vers LDAP avec python

Contrôle exclusif avec fichier de verrouillage en Python

Lire le fichier CSV avec python (Télécharger et analyser le fichier CSV)

Essayez de travailler avec des données binaires en Python

Lisons le fichier RINEX avec Python ①

Lisez le fichier ligne par ligne avec Python

Lisez le fichier ligne par ligne avec Python

Lire le fichier de données de caractères avec numpy

[Python] Lire la ligne spécifiée dans le fichier

Lire des caractères dans des images avec Python OCR

[Automation] Lire le courrier (fichier msg) avec Python

Lisez le fichier en Python avec un chemin relatif depuis le programme

[Python] Lire un fichier csv avec une grande taille de données à l'aide d'un générateur

Analyse de données avec python 2

Opérations sur les fichiers en Python

Comment lire un fichier CSV avec Python 2/3

Lire DXF avec python

Traitement de fichiers en Python

Lire les données avec python / netCDF> nc.variables [] / Vérifier la taille des données

Lire un fichier contenant des lignes brouillées en Python

Lire les données csv Python avec Pandas ⇒ Graphique avec Matplotlib

Pixelliser un PDF avec Python

[Python] Comment lire des fichiers Excel avec des pandas

Lire le fichier Python # .txt pour Python super débutant super débutant avec travail .py

Manipulation de fichiers avec Python

Lire ligne par ligne à partir d'un fichier avec Python

Lire le fichier csv Python

Python / numpy> Lire le fichier de données avec la ligne de nom d'élément> Utiliser genfromtxt ()

Analyse de données avec Python

Enregistrez collectivement des données dans Firestore à l'aide d'un fichier csv en Python

Convertissez l'image au format .zip en PDF avec Python

Lire le code QR à partir du fichier image avec Python (Mac)

Lire le fichier json avec Python, le formater et générer le json

Exécuter un fichier Python avec une importation relative dans PyCharm

Exemple de données créées avec python

Gérer les données ambiantes en Python

Lire csv avec des pandas python

Grattage au sélénium en Python

Exploitez LibreOffice avec Python

Grattage avec chromedriver en python

Afficher les données UTM-30LX en Python

Débogage avec pdb en Python

Dessiner un fichier netCDF avec python

Obtenez des données Youtube avec python

OCR à partir de PDF en Python

Lire la formule d'Euler en Python

Gérer les sons en Python

Grattage avec du sélénium en Python

Grattage avec Tor en Python

Lire du XML avec un espace de noms spécifié en Python

Tweet avec image en Python

Lire les e-mails Outlook avec Python

Combiné avec ordinal en Python

Intégrez des fichiers PDF avec Python