[PYTHON] Versuchen Sie es mit PDFMiner

Einführung

Ich musste die PDF-Datei analysieren. Ich wollte es vorerst in Python machen. Eine Bibliothek namens PDFMiner scheint nützlich zu sein, deshalb habe ich versucht, sie zu verwenden.

PDFMiner

http://www.unixuser.org/~euske/python/pdfminer/index.html https://github.com/euske/pdfminer/

Erstellen einer Python2-Umgebung

Ich hatte nur eine Python3-Umgebung zur Hand, also habe ich die Python2-Umgebung erweitert.

$ pyenv install 2.7.13
...Kürzung...
$ pyenv local 2.7.13
$ python --version
Python 2.7.13

Es ist fertig.

PDF-Analyse mit PDFMiner

Einführung

$ git clone https://github.com/euske/pdfminer.git
Cloning into 'pdfminer'...
remote: Counting objects: 3164, done.
remote: Total 3164 (delta 0), reused 0 (delta 0), pack-reused 3164
Receiving objects: 100% (3164/3164), 6.01 MiB | 406.00 KiB/s, done.
Resolving deltas: 100% (2245/2245), done.
$ cd ./pdfminer
$ make cmap
...Kürzung...
$ python ./setup.py install
...Kürzung...

Versuch

Ich werde es als Test verwenden.

$ cat ./samples/simple1.pdf | head
%PDF-1.4
1 0 obj
<<
 /Type /Catalog
 /Outlines 2 0 R
 /Pages 3 0 R
>>
endobj
2 0 obj
<<
$ ./tools/pdf2txt.py ./samples/simple1.pdf
Hello

World

Hello

World

H e l l o

W o r l d

H e l l o

W o r l d

Anscheinend funktioniert dieses Tool namens pdf2txt.py einwandfrei.

Recommended Posts

Versuchen Sie es mit PDFMiner

Versuchen Sie es mit Tkinter

Versuchen Sie es mit Docker-Py

Versuchen Sie es mit einem Ausstecher

Versuchen Sie es mit Geopandas

Versuchen Sie es mit Selen

Versuchen Sie es mit scipy

Versuchen Sie es mit pandas.DataFrame

Versuchen Sie es mit Django-Swiftbrowser

Versuchen Sie es mit matplotlib

Versuchen Sie es mit tf.metrics

Versuchen Sie es mit PyODE

Versuchen Sie es mit virtualenv (virtualenvwrapper)

[Azure] Versuchen Sie, Azure-Funktionen zu verwenden

Versuchen Sie es jetzt mit virtualenv

Versuchen Sie es mit W & B.

Versuchen Sie es mit Django templates.html

[Kaggle] Versuchen Sie es mit LGBM

Versuchen Sie es mit dem Feed-Parser von Python.

Versuchen Sie es mit Pythons Tkinter

Versuchen Sie es mit Tweepy [Python2.7]

Versuchen Sie es mit Pytorchs collate_fn

Versuchen Sie, PythonTex mit Texpad zu verwenden.

[Python] Versuchen Sie, Tkinters Leinwand zu verwenden

Versuchen Sie es mit Jupyters Docker-Image

Versuchen Sie es mit Scikit-Learn (1) - K-Clustering nach Durchschnittsmethode

Versuchen Sie es mit matplotlib mit PyCharm

Versuchen Sie es mit Azure Logic Apps

Versuchen Sie es mit Kubernetes Client -Python-

[Kaggle] Versuchen Sie es mit xg boost

Versuchen Sie es mit der Twitter-API

Versuchen Sie es mit OpenCV unter Windows

Versuchen Sie, Jupyter Notebook dynamisch zu verwenden

Versuchen Sie es mit AWS SageMaker Studio

Versuchen Sie, automatisch mit Selen zu twittern.

Versuchen Sie es mit SQLAlchemy + MySQL (Teil 1)

Versuchen Sie es mit der Twitter-API

Versuchen Sie es mit SQLAlchemy + MySQL (Teil 2)

Versuchen Sie es mit der Vorlagenfunktion von Django

Versuchen Sie es mit der PeeringDB 2.0-API

Versuchen Sie es mit der Entwurfsfunktion von Pelican

Versuchen Sie es mit pytest-Overview und Samples-

Versuchen Sie es mit Folium mit Anakonda

Versuchen Sie es mit der Admin-API von Janus Gateway

Versuchen Sie es mit Spyder, das in Anaconda enthalten ist

Versuchen Sie es mit Designmustern (Exporter Edition)

Versuchen Sie es mit Pillow auf iPython (Teil 1)

Versuchen Sie es mit Pillow auf iPython (Teil 2)

Versuchen Sie es mit der Pleasant-API (Python / FastAPI).

Versuchen Sie es mit LevelDB mit Python (plyvel)

Versuchen Sie, Nagios mit pynag zu konfigurieren

Versuchen Sie, die Remote-Debugging-Funktion von PyCharm zu verwenden

Versuchen Sie es mit ArUco mit Raspberry Pi

Versuchen Sie es mit billigem LiDAR (Camsense X1)

[Sakura-Mietserver] Versuchen Sie es mit einer Flasche.

Versuchen Sie es mit Pillow auf iPython (Teil 3).

Stärkung des Lernens 8 Versuchen Sie, die Chainer-Benutzeroberfläche zu verwenden

Versuchen Sie, Statistiken mit e-Stat abzurufen

Versuchen Sie es mit der Aktions-API von Python argparse

Versuchen Sie es mit dem Python Cmd-Modul

Versuchen Sie, Pythons networkx mit AtCoder zu verwenden