tesseract-ocr for Python
Je souhaite extraire le japonais en utilisant la technologie OCR. De plus, le japonais extrait sera utilisé à diverses fins.
MacBook Pro (13-inch, Mid 2012) Processeur: Intel Core i5 2,5 GHz Mémoire: 4 Go DDR3 1600 MHz OS: OS X El Capitan (Ver.10.11.4)
You can install "Tesseract" using either "MacPorts"or"Homebrew". (Vous pouvez installer "Tesseract" avec "MacPorts" ou "Homebrew".)
Terminal
sudo port install tesseract
# '<langcode>'Installez le package de la langue que vous souhaitez traiter dans la pièce(Anglais:eng,Japonais:jpn)
sudo port install tesseract-<langcode>
Terminal
brew install tesseract
Cette fois, j'ai préparé une image qui mêle japonais et anglais.
Terminal
tesseract test.png out -l eng+jpn
Résultat de la sortie de texte
tesseract—ocr for Python
Introduction ヽ Ce que vous voulez faire
Je souhaite extraire le japonais en utilisant la technologie OCR.
De plus, le japonais extrait sera utilisé à diverses fins.
Je ne l'ai pas essayé en détail, donc ce n'est pas quelque chose comme ça, Peut-être que le résultat changera dans toutes les conditions telles que «résolution» et «espace vide (y compris les marges)». Si vous en avez besoin un jour, je le vérifierai.
Soit dit en passant, "anglais uniquement" et "japonais uniquement" sont de très bons résultats.
Recommended Posts