Les gens dans le monde semblent aimer le PDF, et même s'ils disent qu'ils le détestent, ils doivent y faire face. Cependant, il est normal que les gens pensent que c'est un peu de temps pour y passer des heures. Il y a des cas où il n'y a que des données de table PDF, mais il y avait une bibliothèque super pratique appelée tabula-py qui était utile dans de tels cas. Fait une note.
https://github.com/chezou/tabula-py
tabula est une bibliothèque Java pour l'extraction de tableaux PDF. tabula-py est la trompette. Par conséquent, vous devez installer Java pour l'utiliser.
Après avoir installé Java, vous pouvez utiliser la bibliothèque Python en procédant comme suit.
$ pip install tabula-py
Il est facile à utiliser et vous pouvez utiliser la fonction read_pdf pour lire le tableau dans le fichier PDF. Pour le cas, nous utiliserons le nombre de personnes positives pour le nouveau virus corona du ministère de la Santé, du Travail et du Bien-être (à l'exclusion de celles qui reviennent de vols charters) et le nombre de personnes ayant effectué des tests PCR (https://www.mhlw.go.jp/content/10906000/000618483.pdf). ..
from tabula import read_pdf
df = read_pdf("https://www.mhlw.go.jp/content/10906000/000618483.pdf")
Le résultat de la lecture du tableau est affiché comme ci-dessous.
Cela ressemble à ce qui précède car il y a plusieurs tables. Spécifiez la table à récupérer ensuite.
Comme vous pouvez le voir ci-dessus, le tableau se présente sous la forme d'un tableau de données pandas. C'est super pratique. Dans ce fichier PDF, les données sont divisées en deux colonnes, vous devez donc frotter le tableau. Dans ce cas également, puisqu'il s'agit d'une table de données, vous pouvez utiliser la fonction concat de pandas.
Puisqu'il s'agit d'un bloc de données, il est facile à visualiser.
Avec ce sentiment, vous pouvez facilement obtenir des données de table PDF en utilisant tabula-py!
Recommended Posts