tesseract-ocr for Python

Erstens, was Sie tun möchten

Ich möchte Japanisch mit OCR-Technologie extrahieren. Darüber hinaus wird das extrahierte Japanisch für verschiedene Zwecke verwendet.

Nutzungsumgebung

MacBook Pro (13-inch, Mid 2012) Prozessor: 2,5 GHz Intel Core i5 Speicher: 4 GB 1600 MHz DDR3 OS: OS X El Capitan (Ver.10.11.4)

Installationsreferenz:

tesseract-ocr (Mac-Version)

You can install "Tesseract" using either "MacPorts"or"Homebrew". (Sie können "Tesseract" entweder mit "MacPorts" oder "Homebrew" installieren.)

1. Was ich benutzt habe

MacPorts

`Terminal`


sudo port install tesseract
# '<langcode>'Installieren Sie das Paket der Sprache, die Sie im Teil verarbeiten möchten(Englisch:eng,japanisch:jpn)
sudo port install tesseract-<langcode>

Homebrew

`Terminal`


brew install tesseract

2. Führen Sie aus

Dieses Mal habe ich ein Bild vorbereitet, das Japanisch und Englisch mischt.

`Terminal`


tesseract test.png out -l eng+jpn

Informationen zum ausgeführten Bild Größe: 996 x 517 ↓ ↓ ↓ ↓ Bild ↓ ↓ ↓ ↓ ↑↑↑ Bis hierher ↑↑↑

Ergebnis

`Ergebnis der Textausgabe`


tesseract—ocr for Python

Einführung ヽ Was Sie tun möchten

Ich möchte Japanisch mit OCR-Technologie extrahieren.
Darüber hinaus wird das extrahierte Japanisch für verschiedene Zwecke verwendet.

Reflexionen

Ich habe es nicht im Detail ausprobiert, also ist es nicht so, Möglicherweise ändert sich das Ergebnis unter allen Bedingungen wie "Auflösung" und "Leerzeichen (einschließlich Ränder)". Wenn Sie es eines Tages brauchen, werde ich es überprüfen.

Übrigens sind "nur Englisch" und "nur Japanisch" recht gute Ergebnisse.

Recommended Posts

tesseract-OCR für Python [japanische Version]

2016-10-30 sonst für Python3> für:

Python [für mich]

PYTHON2.7 64-Bit-Version

Zusammenfassung der Kernel / Python-Version für jede Debian-Version

Über Python für Schleife

Python-Grundlagen ② für Anweisung

Über Python für ~ (Bereich)

Refactoring-Tools, die mit Python verwendet werden können

Toolchain für Python für Android