Wie auch immer, es war einfach, also notieren Sie sich. Allerdings nur, wenn die Zeichen ordnungsgemäß im PDF registriert sind. Bei Fotos nicht möglich.
Quelle https://github.com/WZBSocialScienceCenter/pdf2xml-viewer
pdftohtml -c -hidden -xml input.pdf output.xml
python -m SimpleHTTPServer 8080
http://127.0.0.1:8080/ Stellen Sie eine Verbindung zu der zu ladenden Datei her und geben Sie sie an
Extrahieren Sie gescannte Seitenbilder und generieren Sie XML mit PDF-OCR-Text pdftohtml Zeigen Sie Textfelder an und scannen Sie Seiten mit pdf2xml-viewer Laden Sie das XML, das die Seite und das Textfeld beschreibt Erkennt gerade Linien auf gescannten Seiten, findet und korrigiert Seitenversatz und -rotationen Erkennen Sie vertikale Liniencluster, um Tabellenspalten zu identifizieren Analysieren Sie die y-Koordinatenverteilung des Textfelds, um die Zeilenposition in der Tabelle zu ermitteln Erstellen Sie ein Raster aus Spalten und Linien Passen Sie das Textfeld an das Raster an und extrahieren Sie die Tabellendaten, um sie als Excel- und CSV-Datei zu exportieren
Es hat nicht funktioniert, wie zum Beispiel ein Foto auszuschneiden. Ich habe einen Artikel gefunden, in dem pdf2htmlEX genauer ist als pdftohtml, daher werde ich auch pdf2htmlEX ausprobieren https://github.com/coolwanglu/pdf2htmlEX
brew install pdf2htmlEX
brew install ttfautohint
brew install xpdf
Wenn keine Entsprechungstabelle für die Unicode-Konvertierung vorhanden ist, kann ein Fehler auftreten. Soll ich es zunächst in etwas anderes als uni konvertieren und verwenden? http://d.hatena.ne.jp/jeneshicc/20091122 http://www.atmarkit.co.jp/flinux/rensai/linuxtips/736pdffont.html to unicode http://www.adobe.com/content/dam/Adobe/en/devnet/acrobat/pdfs/5411.ToUnicode.pdf