[PYTHON] Version auto mémo OCR japonaise

environnement

AWS EC2 ubuntu16.04

procédure

http://qiita.com/bohemian916/items/67f22ee7aeac103dd205 Quant au manma sur cette page, j'ai écrit le manma que j'ai tapé, comme l'URL.

Installer les dépendances

$ sudo apt update
$ sudo apt-get install autoconf automake libtool
$ sudo apt-get install libpng12-dev
$ sudo apt-get install libjpeg62-dev
$ sudo apt-get install libtiff5-dev #Légèrement changé
$ sudo apt-get install zlib1g-dev
$ sudo apt-get install autoconf-archive
$ sudo apt-get install libicu-dev      # (if you plan to make the training tools)
$ sudo apt-get install libpango1.0-dev # (if you plan to make the training tools)
$ sudo apt-get install libcairo2-dev   # (if you plan to make the training tools)

Installer la bibliothèque d'images leptpnica

$ wget http://www.leptonica.org/source/leptonica-1.74.1.tar.gz
$ gzip -dc leptonica-1.74.1.tar.gz |tar xvf -
$ cd leptonica-1.74.1/
$ ./configure
$ make
$ sudo make install

Installez tesseract

$ cd
$ git clone https://github.com/tesseract-ocr/tesseract.git
$ cd tesseract
$ ./autogen.sh
$ ./configure
$ LDFLAGS="-L/usr/local/lib" CFLAGS="-I/usr/local/include" make
$ sudo make install
$ sudo ldconfig

#Données linguistiques
$ wget https://github.com/tesseract-ocr/tessdata/raw/master/jpn.traineddata
$ sudo mv jpn.traineddata /usr/local/share/tessdata/
$ export TESSDATA_PREFIX="/usr/local/share/tessdata/tessdata/"

Dernier tour

$ tesseract test.png out -l jpn

Recommended Posts

Version auto mémo OCR japonaise
Tutoriel [PyTorch] (version japonaise) ② ~ AUTOGRAD ~
Tutoriel [PyTorch] (version japonaise) ① ~ Tensol ~
tesseract-OCR pour Python [version japonaise]
Mémo d'impression compatible japonais (également python2.7 et 3.5 windows7)