So installieren Sie tesseract-OCR

・ Https://gammasoft.jp/blog/tesseract-ocr-install-on-windows/

Führen Sie tesseract-ocr-w64-setup-v5.0.0-alpha.20200223.exe aus
Zusätzliche Skriptdaten (Download): Überprüfen Sie das japanische Skript und das japanische vertikale Skript ・ Zusätzliche Sprachdaten (Download): Überprüfen Sie Javanisch, Japanisch und Japanisch (vertikal).

・ Https://poppler.freedesktop.org/ ・ Laden Sie den Poppler-Ordner herunter

Umgebungsvariablen einstellen

・ Tesseract-OCR ・ Poppler-0.67.0 \ bin Fügen Sie das Obige Ihrem PFAD hinzu

So schreiben Sie Code (OCR-Tool und PDF-Konvertierung)

import os
from PIL import Image
from matplotlib import pyplot as plt
import cv2
from pdf2image import convert_from_path
import pyocr
import pyocr.builders
import sys
import pandas as pd
import time
import numpy as np
import glob
import shutil
#OCR-Tool selbst
def OCR_read(PIL_data):
    
    tools = pyocr.get_available_tools()
    if len(tools) == 0:
        print("No OCR tool found")
        sys.exit(1)

    tool = tools[0]

    txt = tool.image_to_string( #Geben Sie hier das OCR-Ziel, die Sprache und die Optionen an.
            PIL_data,
            lang='jpn',
            builder=pyocr.builders.TextBuilder(tesseract_layout=6)
            )

    txt1 = txt.replace(' ','').replace('\n','').replace('|','')
    return txt1
#Konvertieren Sie eine PDF-Datei in ein Bild
def pdftoimage(work_directory, path1):
    images = convert_from_path(path1)
    i = 0
    for image in images:
        
        
        print("Making work{}.png ...".format(i))
        image.save(work_directory +"/Output_folder/"+ "work{}.png ".format(i))

        i += 1
    imax =i
    return imax

Recommended Posts

So installieren und verwenden Sie Tesseract-OCR

So installieren und verwenden Sie Graphviz

So installieren und verwenden Sie pandas_datareader [Python]

So installieren Sie den Cascade-Detektor und wie verwenden Sie ihn

So installieren und konfigurieren Sie Amsel

Verwendung von .bash_profile und .bashrc

Python: Verwendung von Einheimischen () und Globalen ()

Verwendung von Python zip und Aufzählung

Verwendung ist und == in Python

Verwendung von pandas Timestamp und date_range

Wie man Fabric installiert und wie man es benutzt