2011年11月28日月曜日

GoogleのOCR tesseract-ocr

GoogleのオープンソースOCR、tesseract-ocrのインストールと実行テスト。

環境:Ubuntu11.10x32
バージョン:Tesseract3.01

tesseract-ocrとは


the 1995 UNLV Accuracy testでトップ3に入ったOCRエンジン。1995-2006までほそぼそと開発が進められたが、その後Googleがホストとなりオープンソース化した。tesseractTrainer.pyは GPL, それ以外は Apache2.0 ライセンスのもと公開されている。

インストール


依存ライブラリのインストール
[bash]
~$ sudo apt-get install autoconf automake libtool
~$ sudo apt-get install libpng12-dev
~$ sudo apt-get install libjpeg62-dev
~$ sudo apt-get install libtiff4-dev
~$ sudo apt-get install zlib1g-dev
~$ sudo apt-get install libleptonica-dev
~$ sudo Idconfig
[/bash]
subversionのインストール
[bash]
~$ sudo apt-get install subversion subversion-tools
[/bash]
tesseractのチェックアウト
[bash]
~$ svn checkout http://tesseract-ocr.googlecode.com/svn/trunk/ tesseract-ocr-read-only
[/bash]
tesseractのインストール
[bash]
~$ cd tesseract-ocr-read-only
~/tesseract-ocr-read-only$ ./autogen.sh
~/tesseract-ocr-read-only$ ./configure
~/tesseract-ocr-read-only$ make
~/tesseract-ocr-read-only$ sudo make install
[/bash]
言語データのインストール
[bash]
~/tesseract-ocr-read-only$ cd
~$ wget http://tesseract-ocr.googlecode.com/files/eng.traineddata.gz
~$ gzip -d eng.traineddata.gz
~$ sudo mv eng.traineddata /usr/local/share/tessdata/
[/bash]

実行


[bash]
~$ tesseract hogehpge.jpg
[/bash]

0 件のコメント:

コメントを投稿