2011年11月28日月曜日

GoogleのOCR tesseract-ocr

GoogleのオープンソースOCR、tesseract-ocrのインストールと実行テスト。

環境:Ubuntu11.10x32
バージョン:Tesseract3.01

tesseract-ocrとは


the 1995 UNLV Accuracy testでトップ3に入ったOCRエンジン。1995-2006までほそぼそと開発が進められたが、その後Googleがホストとなりオープンソース化した。tesseractTrainer.pyは GPL, それ以外は Apache2.0 ライセンスのもと公開されている。

インストール


依存ライブラリのインストール
[bash]
~$ sudo apt-get install autoconf automake libtool
~$ sudo apt-get install libpng12-dev
~$ sudo apt-get install libjpeg62-dev
~$ sudo apt-get install libtiff4-dev
~$ sudo apt-get install zlib1g-dev
~$ sudo apt-get install libleptonica-dev
~$ sudo Idconfig
[/bash]
subversionのインストール
[bash]
~$ sudo apt-get install subversion subversion-tools
[/bash]
tesseractのチェックアウト
[bash]
~$ svn checkout http://tesseract-ocr.googlecode.com/svn/trunk/ tesseract-ocr-read-only
[/bash]
tesseractのインストール
[bash]
~$ cd tesseract-ocr-read-only
~/tesseract-ocr-read-only$ ./autogen.sh
~/tesseract-ocr-read-only$ ./configure
~/tesseract-ocr-read-only$ make
~/tesseract-ocr-read-only$ sudo make install
[/bash]
言語データのインストール
[bash]
~/tesseract-ocr-read-only$ cd
~$ wget http://tesseract-ocr.googlecode.com/files/eng.traineddata.gz
~$ gzip -d eng.traineddata.gz
~$ sudo mv eng.traineddata /usr/local/share/tessdata/
[/bash]

実行


[bash]
~$ tesseract hogehpge.jpg
[/bash]

TeXのインストール

UbuntuでTeXを使いたくなったのでインストールした。参考にしたのは
Ubuntu 11.10 TexLive 2011 - cloverroseUbuntu で TeX Live 2011 を利用する | Amrta

環境
Ubuntu 11.10x32

日本語用のTexをダウンロードし、リポジトリに追加


[bash]
~$ wget -q https://www.ubuntulinux.jp/ubuntu-ja-archive-keyring.gpg -O- | sudo apt-key add -
~$ wget -q https://www.ubuntulinux.jp/ubuntu-jp-ppa-keyring.gpg -O- | sudo apt-key add -
~$ sudo wget https://www.ubuntulinux.jp/sources.list.d/oneiric.list -O /etc/apt/sources.list.d/ubuntu-ja.list
~$ sudo apt-get update
[/bash]

TexLiveインストール


[bash]
~$ sudo apt-get update
~$ sudo apt-get install texlive-full
[/bash]

日本語環境インストール


インストール時のオプションはUbuntu で TeX Live 2011 を利用する | Amrtaを参考に。
[bash]
~$ wget http://mirror.ctan.org/systems/texlive/tlnet/install-tl-unx.tar.gz
~$ tar xvf install-tl-unx.tar.gz
~$ cd install-tl-20111028/
~$ sudo ./install-tl
[/bash]

2011年11月27日日曜日

Bitbucket 入門

先日githubにプログラムを上げた。無料アカウントではgithubに非公開プログラムを置けないので、非公開のプログラムはFree source code hosting — Bitbucketにホスティングすることにした。ついでにMercurialにも入門。

環境
Ubuntu 11.10 x32

bitbhcketのアカウント取得


Symfoware bitbucket アカウントとリポジトリの作成を参考に,Sign upから行う.

リポジトリ作成


右上のメニューから
[text]
Repositories > create repository
[/text]
レポジトリの作成ができる。

Mercurial インストール


[bash]
~$ sudo apt-get install mercurial
[/bash]

cloneの作成


ローカル・リポジトリの作成は
[bash]
~$ hg clone https://takkyuuplayer@bitbucket.org/takkyuuplayer/test
[/bash]
で可能。

EclipseでMercurial


Eclipseのプラグインアップデートサイトは
[text]
http://cbes.javaforge.com/update
[/text]
にある。詳しい操作方法はSymfoware EclipseにMercurialプラグインをインストールし、bitbucketにプッシュするを参考にすればできる。