[PYTHON] Comment installer et utiliser Tesseract-OCR

Comment installer tesseract-OCR

・ Https://gammasoft.jp/blog/tesseract-ocr-install-on-windows/ -Exécuter tesseract-ocr-w64-setup-v5.0.0-alpha.20200223.exe -Données de script supplémentaires (téléchargement): Vérifiez le script japonais et le script vertical japonais ・ Données linguistiques supplémentaires (téléchargement): Vérifiez le javanais, le japonais et le japonais (vertical)

・ Https://poppler.freedesktop.org/ ・ Téléchargez le dossier poppler

Définition des variables d'environnement

・ Tesseract-OCR ・ Poppler-0.67.0 \ bin Ajoutez ce qui précède à votre PATH

Comment écrire du code (outil OCR et conversion PDF)

import os
from PIL import Image
from matplotlib import pyplot as plt
import cv2
from pdf2image import convert_from_path
import pyocr
import pyocr.builders
import sys
import pandas as pd
import time
import numpy as np
import glob
import shutil
#Outil OCR lui-même
def OCR_read(PIL_data):
    
    tools = pyocr.get_available_tools()
    if len(tools) == 0:
        print("No OCR tool found")
        sys.exit(1)

    tool = tools[0]

    txt = tool.image_to_string( #Spécifiez ici la cible OCR, la langue et les options.
            PIL_data,
            lang='jpn',
            builder=pyocr.builders.TextBuilder(tesseract_layout=6)
            )

    txt1 = txt.replace(' ','').replace('\n','').replace('|','')
    return txt1
#Convertir un fichier PDF en image
def pdftoimage(work_directory, path1):
    images = convert_from_path(path1)
    i = 0
    for image in images:
        
        
        print("Making work{}.png ...".format(i))
        image.save(work_directory +"/Output_folder/"+ "work{}.png ".format(i))

        i += 1
    imax =i
    return imax

Recommended Posts

Comment installer et utiliser Tesseract-OCR
Comment installer et utiliser Graphviz
Comment installer et utiliser pandas_datareader [Python]
Comment installer le détecteur Cascade et comment l'utiliser
Comment installer et configurer Blackbird
Comment utiliser .bash_profile et .bashrc
python: Comment utiliser les locals () et globals ()
Comment utiliser le zip Python et énumérer
Comment utiliser is et == en Python
Comment utiliser les pandas Timestamp et date_range
Comment installer le tissu et comment l'utiliser
Comment utiliser xml.etree.ElementTree
Comment utiliser Python-shell
Remarques sur l'utilisation de tf.data
Comment utiliser virtualenv
Comment utiliser Seaboan
Comment utiliser la correspondance d'image
Comment installer Python
Comment utiliser Pandas 2
Comment installer pip
Comment utiliser Virtualenv
Comment utiliser numpy.vectorize
Comment installer Archlinux
Comment utiliser pytest_report_header
Comment installer python
Comment utiliser partiel
Comment utiliser Bio.Phylo
Comment utiliser SymPy
Comment utiliser x-means
Comment utiliser WikiExtractor.py
Comment utiliser IPython
Comment installer BayesOpt
Comment utiliser virtualenv
Comment utiliser Matplotlib
Comment utiliser iptables
Comment utiliser numpy
Comment utiliser TokyoTechFes2015
Comment utiliser venv
Comment utiliser le dictionnaire {}
Comment utiliser Pyenv
Comment utiliser la liste []
Comment utiliser python-kabusapi
Comment installer Nbextensions
Comment utiliser OptParse
Comment utiliser le retour
Comment installer Prover9
Comment utiliser pyenv-virtualenv
Comment utiliser imutils
Introduction du cadre de style Sinatra et comment l'utiliser
[Python] Comment utiliser la fonction de hachage et taple.
[2020.8 dernière] Comment installer Python
Comment utiliser Qt Designer
Comment installer Python [Windows]
Comment utiliser la recherche triée
[gensim] Comment utiliser Doc2Vec
python3: Comment utiliser la bouteille (2)