・ Https://gammasoft.jp/blog/tesseract-ocr-install-on-windows/
・ Https://poppler.freedesktop.org/ ・ Laden Sie den Poppler-Ordner herunter
・ Tesseract-OCR ・ Poppler-0.67.0 \ bin Fügen Sie das Obige Ihrem PFAD hinzu
import os
from PIL import Image
from matplotlib import pyplot as plt
import cv2
from pdf2image import convert_from_path
import pyocr
import pyocr.builders
import sys
import pandas as pd
import time
import numpy as np
import glob
import shutil
#OCR-Tool selbst
def OCR_read(PIL_data):
tools = pyocr.get_available_tools()
if len(tools) == 0:
print("No OCR tool found")
sys.exit(1)
tool = tools[0]
txt = tool.image_to_string( #Geben Sie hier das OCR-Ziel, die Sprache und die Optionen an.
PIL_data,
lang='jpn',
builder=pyocr.builders.TextBuilder(tesseract_layout=6)
)
txt1 = txt.replace(' ','').replace('\n','').replace('|','')
return txt1
#Konvertieren Sie eine PDF-Datei in ein Bild
def pdftoimage(work_directory, path1):
images = convert_from_path(path1)
i = 0
for image in images:
print("Making work{}.png ...".format(i))
image.save(work_directory +"/Output_folder/"+ "work{}.png ".format(i))
i += 1
imax =i
return imax
Recommended Posts