[PYTHON] Gründliche Erfassung offener PDF-Daten. PDF-Textanalyse ab PDFMiner.

Einführung

Offene Daten sind Es ist eine politische Aktivität, die darauf abzielt, Regierungsdaten frei zu verarbeiten, frei weiterzugeben und für die kommerzielle Nutzung durch alle frei verfügbar zu machen. Derzeit macht es unter dem Gesichtspunkt der politischen Transparenz und der wirtschaftlichen Wiederbelebung auf sich aufmerksam. Die japanische Regierung beginnt tatsächlich mit der Veröffentlichung von Daten.

-> Referenzseite: Open DATA METI | Open Data Catalog Site des Ministeriums für Wirtschaft, Handel und Industrie

Als Problem japanischer offener Daten ☆ Es gibt viele Fälle, in denen 1 offene Daten ausgegeben werden. Open Data wird aufgrund seiner Offenheit mit 5 Sternen bewertet.

5star-steps.png

☆ 1 offene Daten, dh PDF Es wird als das geschlossenste angesehen, da es sich nicht um strukturierte Daten handelt.

Es ist jedoch schwierig, Beamten, die mit Technologie nicht vertraut sind, die Bedeutung der Maschinenlesbarkeit zu erklären. Selbst wenn Sie es verstehen, ist es schwierig, ob Sie ein Budget für die Lesbarkeit der Maschine zuweisen können. In der Tat müssen wir uns mit PDF auseinandersetzen.

PDFMiner ist dafür ein interessantes Tool.

PDFMiner ist eine Python-Bibliothek, mit der hauptsächlich Textinformationen aus PDF erfasst und analysiert werden. Wenn man sich Google Trends ansieht, scheint es seit etwa 2011 Aufmerksamkeit zu erregen.

Es gibt bereits eine App, die von PDF nach TXT / HTML konvertiert. PDFMiner ist ein Mechanismus zum Verwalten der Komponenten einer PDF-Seite in einer Baumstruktur. (ex.LTPage->LTTextBox->LTTextLine->LTChar,LTText) Sie können feinere Anpassungen vornehmen.

Sie können beispielsweise feinere Anpassungen vornehmen Ich denke, wir können ein Programm vorbereiten, um das Standard-PDF jedes Ministeriums und jeder Agentur in TXT umzuwandeln.

Installationsverfahren

Führen Sie die folgenden Schritte aus, um PDFMiner zu installieren.

  1. Installieren Sie Python (2.4 <= Version <3.0).
  2. Laden Sie [Source] herunter und entpacken Sie es (http://pypi.python.org/pypi/pdfminer/).
  3. Führen Sie setup.py auf der Konsole (Terminal) aus.
python setup.py install
  1. Überprüfen Sie den Betrieb nach der Installation.
pdf2txt.py samples/simple1.pdf

#Nach dem Ausführen des Befehls ist es in Ordnung, wenn Hello World kontinuierlich angezeigt wird.
# ->Es ist uns gelungen, den Text aus dem Beispiel-PDF zu extrahieren.
  1. Führen Sie eine zusätzliche Installation durch, um das in CJK integrierte Kanji zu verarbeiten.
make cmap
python setup.py install
mkdir pdfminer\cmap
python tools\conv_cmap.py -c B5=cp950 -c UniCNS-UTF8=utf-8 pdfminer\cmap Adobe-CNS1 cmaprsrc\cid2code_Adobe_CNS1.txt
python tools\conv_cmap.py -c GBK-EUC=cp936 -c UniGB-UTF8=utf-8 pdfminer\cmap Adobe-GB1 cmaprsrc\cid2code_Adobe_GB1.txt
python tools\conv_cmap.py -c RKSJ=cp932 -c EUC=euc-jp -c UniJIS-UTF8=utf-8 pdfminer\cmap Adobe-Japan1 cmaprsrc\cid2code_Adobe_Japan1.txt
python tools\conv_cmap.py -c KSC-EUC=euc-kr -c KSC-Johab=johab -c KSCms-UHC=cp949 -c UniKS-UTF8=utf-8 pdfminer\cmap Adobe-Korea1 cmaprsrc\cid2code_Adobe_Korea1.txt
python setup.py install

Befehlszeilen-Tool

PDFMiner scheint zwei Befehlszeilentools zu haben. Eines ist * pdf2txt.py *. Konvertiert das angegebene PDF in TXT / HTML.

pdf2txt.py  -o output.txt input.pdf

Der andere ist * dumppdf.py *. Dies ist ein Debugging-Tool, das den angegebenen Inhalt der angegebenen PDF-Datei im Pseudo-XML-Format ausgibt. Es kann auch verwendet werden, um nur bestimmte Elemente wie Bilder zu extrahieren.

dumppdf.py -a foo.pdf

Detaillierte Spezifikationen finden Sie unter Originalartikel.

API Sie können Ihr Verständnis vertiefen, indem Sie den Beispielcode lesen, nachdem Sie das Baumdiagramm von API Explanatory Material (English) gelesen haben. Es scheint auch eine Seite zu geben, die als detaillierteres Beispiel eingeführt wurde (Englisch). .. Darüber hinaus scheint es bereits einen [japanischen Blog-Artikel] gegeben zu haben (http://boxheadroom.com/2009/03/22/python_pdfminer).

Fortsetzung folgt

Lass es uns jetzt benutzen. Enjoy it! Enjoy mining life!

Recommended Posts

Gründliche Erfassung offener PDF-Daten. PDF-Textanalyse ab PDFMiner.
Japanische Sprachsynthese beginnend mit Tacotron2
Verwenden Sie die Windows 10-Sprachsynthese mit Python
Englische Spracherkennung mit Python [Rede zu Text]
Python ab Windows 7
GRPC beginnend mit Python
Text Mining mit Python-Scraping-
Pythonbrew mit erhabenem Text
Gründliche Erfassung offener PDF-Daten. PDF-Textanalyse ab PDFMiner.
Datenanalyse beginnend mit Python (Datenvisualisierung 1)
Datenanalyse beginnend mit Python (Datenvisualisierung 2)
Extrahieren Sie japanischen Text aus PDF mit PDFMiner
Datenanalyse beginnend mit Python (Datenvorverarbeitung - maschinelles Lernen)
Datenanalyse mit Python 2
Datenanalyse mit Python
Fordern Sie die Hauptkomponentenanalyse von Textdaten mit Python heraus
Text Emotionsanalyse mit ML-Ask
Links zu Personen, die gerade mit der Datenanalyse mit Python beginnen
Text Mining mit Python ① Morphologische Analyse
Ich habe versucht, Faktoren mit Titanic-Daten zu analysieren!