[PYTHON] Capture approfondie des données ouvertes PDF. Analyse de texte PDF à partir de PDFMiner.

introduction

Les données ouvertes sont Il s'agit d'une activité politique qui cherche à traiter librement les données gouvernementales, à les redistribuer librement et à les rendre librement disponibles pour un usage commercial par tous. Actuellement, il attire l'attention du point de vue de la transparence politique et de la revitalisation économique. Le gouvernement japonais commence en fait à publier des données.

-> Site de référence: Open DATA METI | Site du catalogue Open data du Ministère de l'Economie, du Commerce et de l'Industrie

Cependant, en tant que problème des données ouvertes japonaises, ☆ Il existe de nombreux cas où 1 open data sort. L'open data est classé 5 étoiles pour son ouverture.

5star-steps.png

☆ 1 données ouvertes, c'est-à-dire PDF Il est considéré comme le plus fermé car il ne s'agit pas de données structurées.

Cependant, il est difficile d'expliquer l'importance de la lisibilité par machine aux fonctionnaires qui ne sont pas familiarisés avec la technologie. Même si vous le comprenez, il est délicat de savoir si vous pouvez allouer un budget pour la lisibilité de la machine. En fait, nous devons confronter PDF.

PDFMiner est un outil intéressant pour cela.

PDFMiner est une bibliothèque Python principalement pour acquérir et analyser des informations textuelles à partir de PDF. En regardant Google Trends, il semble qu'il attire l'attention depuis 2011 environ.

Il existe déjà une application qui convertit du PDF en TXT / HTML, PDFMiner est un mécanisme pour gérer les composants d'une page PDF dans une structure arborescente. (ex.LTPage->LTTextBox->LTTextLine->LTChar,LTText) Vous pouvez faire des ajustements plus fins.

Vous pouvez faire des ajustements plus fins, par exemple Je pense que nous pouvons préparer un programme pour convertir le PDF standard de chaque ministère et agence en TXT.

Procédure d'installation

Suivez les étapes ci-dessous pour installer PDFMiner.

  1. Installez Python (2.4 <= version <3.0).
  2. Téléchargez et décompressez Source.
  3. Exécutez setup.py sur la console (terminal).
python setup.py install
  1. Vérifiez le fonctionnement après l'installation.
pdf2txt.py samples/simple1.pdf

#Après avoir exécuté la commande, c'est OK si Hello World est affiché en continu.
# ->Nous avons réussi à extraire le texte de l'exemple de PDF.
  1. Effectuez une installation supplémentaire pour gérer les kanji intégrés CJK.
make cmap
python setup.py install
mkdir pdfminer\cmap
python tools\conv_cmap.py -c B5=cp950 -c UniCNS-UTF8=utf-8 pdfminer\cmap Adobe-CNS1 cmaprsrc\cid2code_Adobe_CNS1.txt
python tools\conv_cmap.py -c GBK-EUC=cp936 -c UniGB-UTF8=utf-8 pdfminer\cmap Adobe-GB1 cmaprsrc\cid2code_Adobe_GB1.txt
python tools\conv_cmap.py -c RKSJ=cp932 -c EUC=euc-jp -c UniJIS-UTF8=utf-8 pdfminer\cmap Adobe-Japan1 cmaprsrc\cid2code_Adobe_Japan1.txt
python tools\conv_cmap.py -c KSC-EUC=euc-kr -c KSC-Johab=johab -c KSCms-UHC=cp949 -c UniKS-UTF8=utf-8 pdfminer\cmap Adobe-Korea1 cmaprsrc\cid2code_Adobe_Korea1.txt
python setup.py install

Outil de ligne de commande

PDFMiner semble avoir deux outils de ligne de commande. L'un est * pdf2txt.py *. Convertit le PDF spécifié en TXT / HTML.

pdf2txt.py  -o output.txt input.pdf

L'autre est * dumppdf.py *. Il s'agit d'un outil de débogage qui génère le contenu spécifié du PDF spécifié au format pseudo XML. Il peut également être utilisé pour extraire uniquement des éléments spécifiques tels que des images.

dumppdf.py -a foo.pdf

Pour des spécifications détaillées, voir Article original.

API Vous pouvez approfondir votre compréhension en lisant l'exemple de code après avoir lu l'arborescence de API Explanatory Material (English). Il semble également y avoir une page présentée comme un exemple plus détaillé (en anglais). .. De plus, il semble qu'il y ait déjà eu un article de blog japonais.

à suivre

Utilisons-le maintenant. Enjoy it! Enjoy mining life!

Recommended Posts

Capture approfondie des données ouvertes PDF. Analyse de texte PDF à partir de PDFMiner.
Synthèse vocale japonaise à partir de Tacotron2
Utiliser la synthèse vocale Windows 10 avec Python
Reconnaissance vocale en anglais avec python [speech to text]
Python à partir de Windows 7
GRPC commençant par Python
Text mining avec Python-Scraping-
Pythonbrew avec Sublime Text
Capture approfondie des données ouvertes PDF. Analyse de texte PDF à partir de PDFMiner.
Analyse de données à partir de python (visualisation de données 1)
Analyse de données à partir de python (visualisation de données 2)
Extraire du texte japonais d'un PDF avec PDFMiner
Analyse de données à partir de python (pré-traitement des données-apprentissage automatique)
Analyse de données avec python 2
Analyse de données avec Python
Défiez l'analyse des composants principaux des données textuelles avec Python
Analyse des émotions par SMS avec ML-Ask
Liens vers des personnes qui commencent tout juste l'analyse de données avec python
Text mining avec Python ① Analyse morphologique
J'ai essayé l'analyse factorielle avec des données Titanic!