環境は Ubuntu14.04. Google Clowd APIを使いたくないのでインストール.
TesseractのバージョンによってLeptonicaのバージョンも変更する必要があります. 詳しくはドキュメントをみてください.
Leptonicaのインストール
$ wget http://www.leptonica.com/source/leptonica-1.74.1.tar.gz $ tar -zxvf leptonica-1.74.1.tar.gz $ cd leptonica-1.74.1 $ ./configure $ make $ sudo make install
tesseractのインストール
autoconf-archive
$ sudo apt-get install autoconf-archive
にしたがって autoconf-archive
をインストール.
実際にここでつまりました.
その他の依存関係のインストール
本家のドキュメントに記述されているので、そちらを参照します.
tesseract本体のインストール
$ git clone https://github.com/tesseract-ocr/tesseract.git $ cd tesseract $ export LD_LIBRARY_PATH=/usr/local/lib $ ./autogen.sh $ ./configure $ make $ sudo make install
訓練済みモデルのダウンロード
TesseractError: (1, b'Error opening data file /usr/local/share/jpn.traineddata\nPlease make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.\nFailed loading language \'jpn\'\nTesseract couldn\'t load any languages!\nCould not initialize tesseract.\n')
のエラーが出る場合は TESSDATA_PREFIX
の指定が間違っているか、そもそもモデルをダウンルードしてきていない.
からOCRの対象となる言語のモデルをダウンロードして TESSDATA_PREFIX
に指定した箇所に保存する. 例えば
export TESSDATA_PREFIX="/usr/local/share/tessdata/"
など.