[PYTHON] Afficher la zone de caractères à partir du pdf pdf2xml-viewer

Quoi qu'il en soit, c'était facile, alors prenez note. Cependant, uniquement lorsque les caractères sont correctement enregistrés dans le pdf. Pas possible dans le cas des photos.

スクリーンショット 2017-03-15 14.52.21.png

La source https://github.com/WZBSocialScienceCenter/pdf2xml-viewer

Convertir en XML

pdftohtml -c -hidden -xml input.pdf output.xml

afficher

python -m SimpleHTTPServer 8080

http://127.0.0.1:8080/ Connectez-vous et spécifiez le fichier à charger

Algorithme détaillé

Extraire les images des pages numérisées et générer du XML contenant du texte PDF OCR pdftohtml Afficher des zones de texte et numériser des pages avec pdf2xml-viewer Chargez le XML qui décrit la page et la zone de texte Détecte les lignes droites sur les pages numérisées, trouve et corrige les inclinaisons et les rotations de page Détecter les clusters de lignes verticales pour identifier les colonnes du tableau Analysez la distribution des coordonnées y de la zone de texte pour trouver la position de la ligne dans le tableau Créer une grille de colonnes et de lignes Faites correspondre la zone de texte à la grille et extrayez les données du tableau pour l'exporter sous forme de fichier Excel et CSV


Essayez également pdf2htmlEX

Cela n'a pas fonctionné, comme découper une photo. J'ai trouvé un article dans lequel pdf2htmlEX est plus précis que pdftohtml, je vais donc également essayer pdf2htmlEX https://github.com/coolwanglu/pdf2htmlEX

brew install pdf2htmlEX
brew install ttfautohint
brew install xpdf

S'il n'y a pas de table de correspondance de conversion Unicode, une erreur peut se produire. En premier lieu, dois-je le convertir en autre chose que uni et l'utiliser? http://d.hatena.ne.jp/jeneshicc/20091122 http://www.atmarkit.co.jp/flinux/rensai/linuxtips/736pdffont.html to unicode http://www.adobe.com/content/dam/Adobe/en/devnet/acrobat/pdfs/5411.ToUnicode.pdf

Recommended Posts

Afficher la zone de caractères à partir du pdf pdf2xml-viewer
OCR à partir de PDF en Python
Affichage de la chaîne de caractères de type résultat BLAST