めも

メモ.

Ubuntu14.04にてtesseractとLeptonicaのインストール

環境は Ubuntu14.04. Google Clowd APIを使いたくないのでインストール.

TesseractのバージョンによってLeptonicaのバージョンも変更する必要があります. 詳しくはドキュメントをみてください.

Leptonicaのインストール

$ wget http://www.leptonica.com/source/leptonica-1.74.1.tar.gz
$ tar -zxvf leptonica-1.74.1.tar.gz 
$ cd leptonica-1.74.1
$ ./configure
$ make
$ sudo make install

tesseractのインストール

autoconf-archive

$ sudo apt-get install autoconf-archive

にしたがって autoconf-archive をインストール. 実際にここでつまりました.

その他の依存関係のインストール

本家のドキュメントに記述されているので、そちらを参照します.

tesseract本体のインストール

$ git clone https://github.com/tesseract-ocr/tesseract.git
$ cd tesseract
$ export LD_LIBRARY_PATH=/usr/local/lib
$ ./autogen.sh
$ ./configure
$ make
$ sudo make install

訓練済みモデルのダウンロード

TesseractError: (1, b'Error opening data file /usr/local/share/jpn.traineddata\nPlease make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.\nFailed loading language \'jpn\'\nTesseract couldn\'t load any languages!\nCould not initialize tesseract.\n')

のエラーが出る場合は TESSDATA_PREFIX の指定が間違っているか、そもそもモデルをダウンルードしてきていない.

からOCRの対象となる言語のモデルをダウンロードして TESSDATA_PREFIX に指定した箇所に保存する. 例えば

export TESSDATA_PREFIX="/usr/local/share/tessdata/"

など.

プライバシーポリシー

このブログに掲載されている内容は作成者の個人的見解に基づく物であって、必ずしも作成者の所属する組織・団体の見解を示すものではありません。また、記載が不正確であったことにより生じたいかなる損害に関しても、責任を負いかねますのでご了承ください。また、本サイトは、Amazon.co.jpを宣伝しリンクすることによってサイトが紹介料を獲得できる手段を提供することを目的に設定されたアフィリエイトプログラムである、Amazonアソシエイト・プログラムの参加者です。また、本サイトでは、第三者配信の広告サービス(Googleアドセンス、A8.net)を利用しており、ユーザーの興味に応じた商品やサービスの広告を表示するため、クッキー(Cookie)を使用しております。 クッキーを使用することで当サイトはお客様のコンピュータを識別できるようになりますが、お客様個人を特定できるものではありません。本サイトの管理者への問い合わせ、当ブログのプライバシーポリシーの詳細についてはこちらをご覧ください。