Quoi qu'il en soit, c'était facile, alors prenez note. Cependant, uniquement lorsque les caractères sont correctement enregistrés dans le pdf. Pas possible dans le cas des photos.
La source https://github.com/WZBSocialScienceCenter/pdf2xml-viewer
pdftohtml -c -hidden -xml input.pdf output.xml
python -m SimpleHTTPServer 8080
http://127.0.0.1:8080/ Connectez-vous et spécifiez le fichier à charger
Extraire les images des pages numérisées et générer du XML contenant du texte PDF OCR pdftohtml Afficher des zones de texte et numériser des pages avec pdf2xml-viewer Chargez le XML qui décrit la page et la zone de texte Détecte les lignes droites sur les pages numérisées, trouve et corrige les inclinaisons et les rotations de page Détecter les clusters de lignes verticales pour identifier les colonnes du tableau Analysez la distribution des coordonnées y de la zone de texte pour trouver la position de la ligne dans le tableau Créer une grille de colonnes et de lignes Faites correspondre la zone de texte à la grille et extrayez les données du tableau pour l'exporter sous forme de fichier Excel et CSV
Cela n'a pas fonctionné, comme découper une photo. J'ai trouvé un article dans lequel pdf2htmlEX est plus précis que pdftohtml, je vais donc également essayer pdf2htmlEX https://github.com/coolwanglu/pdf2htmlEX
brew install pdf2htmlEX
brew install ttfautohint
brew install xpdf
S'il n'y a pas de table de correspondance de conversion Unicode, une erreur peut se produire. En premier lieu, dois-je le convertir en autre chose que uni et l'utiliser? http://d.hatena.ne.jp/jeneshicc/20091122 http://www.atmarkit.co.jp/flinux/rensai/linuxtips/736pdffont.html to unicode http://www.adobe.com/content/dam/Adobe/en/devnet/acrobat/pdfs/5411.ToUnicode.pdf