Les données ouvertes sont Il s'agit d'une activité politique qui cherche à traiter librement les données gouvernementales, à les redistribuer librement et à les rendre librement disponibles pour un usage commercial par tous. Actuellement, il attire l'attention du point de vue de la transparence politique et de la revitalisation économique. Le gouvernement japonais commence en fait à publier des données.
Cependant, en tant que problème des données ouvertes japonaises, ☆ Il existe de nombreux cas où 1 open data sort. L'open data est classé 5 étoiles pour son ouverture.
☆ 1 données ouvertes, c'est-à-dire PDF Il est considéré comme le plus fermé car il ne s'agit pas de données structurées.
Cependant, il est difficile d'expliquer l'importance de la lisibilité par machine aux fonctionnaires qui ne sont pas familiarisés avec la technologie. Même si vous le comprenez, il est délicat de savoir si vous pouvez allouer un budget pour la lisibilité de la machine. En fait, nous devons confronter PDF.
PDFMiner est un outil intéressant pour cela.
PDFMiner est une bibliothèque Python principalement pour acquérir et analyser des informations textuelles à partir de PDF. En regardant Google Trends, il semble qu'il attire l'attention depuis 2011 environ.
Il existe déjà une application qui convertit du PDF en TXT / HTML, PDFMiner est un mécanisme pour gérer les composants d'une page PDF dans une structure arborescente. (ex.LTPage->LTTextBox->LTTextLine->LTChar,LTText) Vous pouvez faire des ajustements plus fins.
Vous pouvez faire des ajustements plus fins, par exemple Je pense que nous pouvons préparer un programme pour convertir le PDF standard de chaque ministère et agence en TXT.
Suivez les étapes ci-dessous pour installer PDFMiner.
python setup.py install
pdf2txt.py samples/simple1.pdf
#Après avoir exécuté la commande, c'est OK si Hello World est affiché en continu.
# ->Nous avons réussi à extraire le texte de l'exemple de PDF.
make cmap
python setup.py install
mkdir pdfminer\cmap
python tools\conv_cmap.py -c B5=cp950 -c UniCNS-UTF8=utf-8 pdfminer\cmap Adobe-CNS1 cmaprsrc\cid2code_Adobe_CNS1.txt
python tools\conv_cmap.py -c GBK-EUC=cp936 -c UniGB-UTF8=utf-8 pdfminer\cmap Adobe-GB1 cmaprsrc\cid2code_Adobe_GB1.txt
python tools\conv_cmap.py -c RKSJ=cp932 -c EUC=euc-jp -c UniJIS-UTF8=utf-8 pdfminer\cmap Adobe-Japan1 cmaprsrc\cid2code_Adobe_Japan1.txt
python tools\conv_cmap.py -c KSC-EUC=euc-kr -c KSC-Johab=johab -c KSCms-UHC=cp949 -c UniKS-UTF8=utf-8 pdfminer\cmap Adobe-Korea1 cmaprsrc\cid2code_Adobe_Korea1.txt
python setup.py install
PDFMiner semble avoir deux outils de ligne de commande. L'un est * pdf2txt.py *. Convertit le PDF spécifié en TXT / HTML.
pdf2txt.py -o output.txt input.pdf
L'autre est * dumppdf.py *. Il s'agit d'un outil de débogage qui génère le contenu spécifié du PDF spécifié au format pseudo XML. Il peut également être utilisé pour extraire uniquement des éléments spécifiques tels que des images.
dumppdf.py -a foo.pdf
Pour des spécifications détaillées, voir Article original.
API Vous pouvez approfondir votre compréhension en lisant l'exemple de code après avoir lu l'arborescence de API Explanatory Material (English). Il semble également y avoir une page présentée comme un exemple plus détaillé (en anglais). .. De plus, il semble qu'il y ait déjà eu un article de blog japonais.
Utilisons-le maintenant. Enjoy it! Enjoy mining life!
Recommended Posts