Offene Daten sind Es ist eine politische Aktivität, die darauf abzielt, Regierungsdaten frei zu verarbeiten, frei weiterzugeben und für die kommerzielle Nutzung durch alle frei verfügbar zu machen. Derzeit macht es unter dem Gesichtspunkt der politischen Transparenz und der wirtschaftlichen Wiederbelebung auf sich aufmerksam. Die japanische Regierung beginnt tatsächlich mit der Veröffentlichung von Daten.
Als Problem japanischer offener Daten ☆ Es gibt viele Fälle, in denen 1 offene Daten ausgegeben werden. Open Data wird aufgrund seiner Offenheit mit 5 Sternen bewertet.
☆ 1 offene Daten, dh PDF Es wird als das geschlossenste angesehen, da es sich nicht um strukturierte Daten handelt.
Es ist jedoch schwierig, Beamten, die mit Technologie nicht vertraut sind, die Bedeutung der Maschinenlesbarkeit zu erklären. Selbst wenn Sie es verstehen, ist es schwierig, ob Sie ein Budget für die Lesbarkeit der Maschine zuweisen können. In der Tat müssen wir uns mit PDF auseinandersetzen.
PDFMiner ist dafür ein interessantes Tool.
PDFMiner ist eine Python-Bibliothek, mit der hauptsächlich Textinformationen aus PDF erfasst und analysiert werden. Wenn man sich Google Trends ansieht, scheint es seit etwa 2011 Aufmerksamkeit zu erregen.
Es gibt bereits eine App, die von PDF nach TXT / HTML konvertiert. PDFMiner ist ein Mechanismus zum Verwalten der Komponenten einer PDF-Seite in einer Baumstruktur. (ex.LTPage->LTTextBox->LTTextLine->LTChar,LTText) Sie können feinere Anpassungen vornehmen.
Sie können beispielsweise feinere Anpassungen vornehmen Ich denke, wir können ein Programm vorbereiten, um das Standard-PDF jedes Ministeriums und jeder Agentur in TXT umzuwandeln.
Führen Sie die folgenden Schritte aus, um PDFMiner zu installieren.
python setup.py install
pdf2txt.py samples/simple1.pdf
#Nach dem Ausführen des Befehls ist es in Ordnung, wenn Hello World kontinuierlich angezeigt wird.
# ->Es ist uns gelungen, den Text aus dem Beispiel-PDF zu extrahieren.
make cmap
python setup.py install
mkdir pdfminer\cmap
python tools\conv_cmap.py -c B5=cp950 -c UniCNS-UTF8=utf-8 pdfminer\cmap Adobe-CNS1 cmaprsrc\cid2code_Adobe_CNS1.txt
python tools\conv_cmap.py -c GBK-EUC=cp936 -c UniGB-UTF8=utf-8 pdfminer\cmap Adobe-GB1 cmaprsrc\cid2code_Adobe_GB1.txt
python tools\conv_cmap.py -c RKSJ=cp932 -c EUC=euc-jp -c UniJIS-UTF8=utf-8 pdfminer\cmap Adobe-Japan1 cmaprsrc\cid2code_Adobe_Japan1.txt
python tools\conv_cmap.py -c KSC-EUC=euc-kr -c KSC-Johab=johab -c KSCms-UHC=cp949 -c UniKS-UTF8=utf-8 pdfminer\cmap Adobe-Korea1 cmaprsrc\cid2code_Adobe_Korea1.txt
python setup.py install
PDFMiner scheint zwei Befehlszeilentools zu haben. Eines ist * pdf2txt.py *. Konvertiert das angegebene PDF in TXT / HTML.
pdf2txt.py -o output.txt input.pdf
Der andere ist * dumppdf.py *. Dies ist ein Debugging-Tool, das den angegebenen Inhalt der angegebenen PDF-Datei im Pseudo-XML-Format ausgibt. Es kann auch verwendet werden, um nur bestimmte Elemente wie Bilder zu extrahieren.
dumppdf.py -a foo.pdf
Detaillierte Spezifikationen finden Sie unter Originalartikel.
API Sie können Ihr Verständnis vertiefen, indem Sie den Beispielcode lesen, nachdem Sie das Baumdiagramm von API Explanatory Material (English) gelesen haben. Es scheint auch eine Seite zu geben, die als detaillierteres Beispiel eingeführt wurde (Englisch). .. Darüber hinaus scheint es bereits einen [japanischen Blog-Artikel] gegeben zu haben (http://boxheadroom.com/2009/03/22/python_pdfminer).
Lass es uns jetzt benutzen. Enjoy it! Enjoy mining life!
Recommended Posts