[PYTHON] So installieren und verwenden Sie Tesseract-OCR

So installieren Sie tesseract-OCR

・ Https://gammasoft.jp/blog/tesseract-ocr-install-on-windows/

・ Https://poppler.freedesktop.org/ ・ Laden Sie den Poppler-Ordner herunter

Umgebungsvariablen einstellen

・ Tesseract-OCR ・ Poppler-0.67.0 \ bin Fügen Sie das Obige Ihrem PFAD hinzu

So schreiben Sie Code (OCR-Tool und PDF-Konvertierung)

import os
from PIL import Image
from matplotlib import pyplot as plt
import cv2
from pdf2image import convert_from_path
import pyocr
import pyocr.builders
import sys
import pandas as pd
import time
import numpy as np
import glob
import shutil
#OCR-Tool selbst
def OCR_read(PIL_data):
    
    tools = pyocr.get_available_tools()
    if len(tools) == 0:
        print("No OCR tool found")
        sys.exit(1)

    tool = tools[0]

    txt = tool.image_to_string( #Geben Sie hier das OCR-Ziel, die Sprache und die Optionen an.
            PIL_data,
            lang='jpn',
            builder=pyocr.builders.TextBuilder(tesseract_layout=6)
            )

    txt1 = txt.replace(' ','').replace('\n','').replace('|','')
    return txt1
#Konvertieren Sie eine PDF-Datei in ein Bild
def pdftoimage(work_directory, path1):
    images = convert_from_path(path1)
    i = 0
    for image in images:
        
        
        print("Making work{}.png ...".format(i))
        image.save(work_directory +"/Output_folder/"+ "work{}.png ".format(i))

        i += 1
    imax =i
    return imax

Recommended Posts

So installieren und verwenden Sie Tesseract-OCR
So installieren und verwenden Sie Graphviz
So installieren und verwenden Sie pandas_datareader [Python]
So installieren Sie den Cascade-Detektor und wie verwenden Sie ihn
So installieren und konfigurieren Sie Amsel
Verwendung von .bash_profile und .bashrc
Python: Verwendung von Einheimischen () und Globalen ()
Verwendung von Python zip und Aufzählung
Verwendung ist und == in Python
Verwendung von pandas Timestamp und date_range
Wie man Fabric installiert und wie man es benutzt
Verwendung von xml.etree.ElementTree
Wie benutzt man Python-Shell
Hinweise zur Verwendung von tf.data
Verwendung von virtualenv
Wie benutzt man Seaboan?
Verwendung von Image-Match
So installieren Sie Python
Verwendung von Pandas 2
So installieren Sie pip
Verwendung von Virtualenv
Verwendung von numpy.vectorize
So installieren Sie archlinux
Verwendung von pytest_report_header
So installieren Sie Python
Wie man teilweise verwendet
Wie man Bio.Phylo benutzt
Verwendung von SymPy
Wie man x-means benutzt
Verwendung von WikiExtractor.py
Verwendung von IPython
So installieren Sie BayesOpt
Verwendung von virtualenv
Wie benutzt man Matplotlib?
Verwendung von iptables
Wie benutzt man numpy?
Verwendung von TokyoTechFes2015
Wie benutzt man venv
Verwendung des Wörterbuchs {}
Wie benutzt man Pyenv?
Verwendung der Liste []
Wie man Python-Kabusapi benutzt
So installieren Sie Nbextensions
Verwendung von OptParse
Verwendung von return
So installieren Sie Prover9
Wie man Imutils benutzt
Einführung des Sinatra-Frameworks und dessen Verwendung
[Python] Verwendung von Hash-Funktion und Taple.
[Neueste Version 2020.8] So installieren Sie Python
Verwendung von Qt Designer
So installieren Sie Python [Windows]
Verwendung der Suche sortiert
[gensim] Verwendung von Doc2Vec
python3: Verwendung der Flasche (2)