tesseract-ocr for Python

Tout d'abord, ce que tu veux faire

Je souhaite extraire le japonais en utilisant la technologie OCR. De plus, le japonais extrait sera utilisé à diverses fins.

Environnement d'utilisation

MacBook Pro (13-inch, Mid 2012) Processeur: Intel Core i5 2,5 GHz Mémoire: 4 Go DDR3 1600 MHz OS: OS X El Capitan (Ver.10.11.4)

Référence d'installation:

tesseract-ocr (version Mac)

You can install "Tesseract" using either "MacPorts"or"Homebrew". (Vous pouvez installer "Tesseract" avec "MacPorts" ou "Homebrew".)

1. Ce que j'ai utilisé

MacPorts

`Terminal`


sudo port install tesseract
# '<langcode>'Installez le package de la langue que vous souhaitez traiter dans la pièce(Anglais:eng,Japonais:jpn)
sudo port install tesseract-<langcode>

Homebrew

`Terminal`


brew install tesseract

2. Exécutez

Cette fois, j'ai préparé une image qui mêle japonais et anglais.

`Terminal`


tesseract test.png out -l eng+jpn

Informations sur l'image exécutée Taille: 996 x 517 ↓ ↓ ↓ ↓ image ↓ ↓ ↓ ↓ ↑↑↑ Jusqu'ici ↑↑↑

résultat

`Résultat de la sortie de texte`


tesseract—ocr for Python

Introduction ヽ Ce que vous voulez faire

Je souhaite extraire le japonais en utilisant la technologie OCR.
De plus, le japonais extrait sera utilisé à diverses fins.

Réflexions

Je ne l'ai pas essayé en détail, donc ce n'est pas quelque chose comme ça, Peut-être que le résultat changera dans toutes les conditions telles que «résolution» et «espace vide (y compris les marges)». Si vous en avez besoin un jour, je le vérifierai.

Soit dit en passant, "anglais uniquement" et "japonais uniquement" sont de très bons résultats.

Recommended Posts

tesseract-OCR pour Python [version japonaise]

30/10/2016 else pour Python3> pour:

python [pour moi]

Version 64 bits de PYTHON2.7

Résumé des versions du noyau / Python pour chaque version de Debian

À propos de Python for loop

Bases de Python ② pour déclaration

À propos de Python, pour ~ (plage)

Refactoring des outils utilisables avec Python

Toolchain pour Python pour Android