[PYTHON] Zeichenbereich aus pdf pdf2xml-viewer anzeigen

Wie auch immer, es war einfach, also notieren Sie sich. Allerdings nur, wenn die Zeichen ordnungsgemäß im PDF registriert sind. Bei Fotos nicht möglich.

スクリーンショット 2017-03-15 14.52.21.png

Quelle https://github.com/WZBSocialScienceCenter/pdf2xml-viewer

In XML konvertieren

pdftohtml -c -hidden -xml input.pdf output.xml

Anzeige

python -m SimpleHTTPServer 8080

http://127.0.0.1:8080/ Stellen Sie eine Verbindung zu der zu ladenden Datei her und geben Sie sie an

Detaillierter Algorithmus

Extrahieren Sie gescannte Seitenbilder und generieren Sie XML mit PDF-OCR-Text pdftohtml Zeigen Sie Textfelder an und scannen Sie Seiten mit pdf2xml-viewer Laden Sie das XML, das die Seite und das Textfeld beschreibt Erkennt gerade Linien auf gescannten Seiten, findet und korrigiert Seitenversatz und -rotationen Erkennen Sie vertikale Liniencluster, um Tabellenspalten zu identifizieren Analysieren Sie die y-Koordinatenverteilung des Textfelds, um die Zeilenposition in der Tabelle zu ermitteln Erstellen Sie ein Raster aus Spalten und Linien Passen Sie das Textfeld an das Raster an und extrahieren Sie die Tabellendaten, um sie als Excel- und CSV-Datei zu exportieren


Versuchen Sie auch pdf2htmlEX

Es hat nicht funktioniert, wie zum Beispiel ein Foto auszuschneiden. Ich habe einen Artikel gefunden, in dem pdf2htmlEX genauer ist als pdftohtml, daher werde ich auch pdf2htmlEX ausprobieren https://github.com/coolwanglu/pdf2htmlEX

brew install pdf2htmlEX
brew install ttfautohint
brew install xpdf

Wenn keine Entsprechungstabelle für die Unicode-Konvertierung vorhanden ist, kann ein Fehler auftreten. Soll ich es zunächst in etwas anderes als uni konvertieren und verwenden? http://d.hatena.ne.jp/jeneshicc/20091122 http://www.atmarkit.co.jp/flinux/rensai/linuxtips/736pdffont.html to unicode http://www.adobe.com/content/dam/Adobe/en/devnet/acrobat/pdfs/5411.ToUnicode.pdf

Recommended Posts

Zeichenbereich aus pdf pdf2xml-viewer anzeigen
OCR aus PDF in Python
BLAST ergebnisähnliche Zeichenfolgenanzeige