Ubuntu10.10に日本語係り受け解析器CaboChaをインストールする手順

本格的にbotとか作ろうとしたら形態素解析とかやりたいよね。
CaboChaは日本語係り受け解析器。ついでに形態素解析器のMeCabも入れる。
安定版のCaboCha(0.53)ではUTF-8に対応していないため、
今回はEUC-JP(デフォルト設定)にてインストールを行う。
つまり、実際に使用する際の入出力文字コードeuc-jpにする必要がある。

build-essentialパッケージのインストール

g++やgccをまとめて入れてくれる。

$ sudo apt-get install build-essential

MeCabのインストール

形態素解析エンジン
http://mecab.sourceforge.net/

の最新版をそれぞれダウンロード。

MeCab本体のインストール

$ tar zxfv mecab-*.*.tar.gz
$ cd mecab-*.*/
$ ./configure
$ make
$ make check
$ sudo make install

make check時に2つほどエラーが出るが、とりあえず続行しても問題は無さそう。
辞書のインストールの前に、以下のコマンドでMeCabのライブラリを認識させる。

$ sudo ldconfig

辞書のインストール

$ tar zxfv mecab-ipadic-2.7.0-****.tar.gz
$ cd mecab-ipadic-2.7.0-****/
$ ./configure
$ make
$ sudo make install

make時に"echo To enable dictionary, rewrite ..."とメッセージが出るのは無視。

動作確認
$ mecab
サスケェ
サスケェ	名詞,固有名詞,組織,*,*,*,*
EOS
辞書の文字コードを変更したくなった場合

euc-jpからutf-8に変換する例。

$ cd mecab-ipadic-2.7.0-****/
$ /usr/local/libexec/mecab/mecab-dict-index -f euc-jp -t utf-8
$ sudo make install

TinySVNのインストール

http://chasen.org/~taku/software/TinySVM/

$ tar zxfv TinySVM-*.*.tar.gz
$ cd TinySVM-*.*/
$ ./configure
$ make
$ make check
$ sudo make install

YamChaのインストール

http://chasen.org/~taku/software/yamcha/

$ tar zxfv yamcha-*.*.tar.gz
$ cd yamcha-*.*/

そのままmakeしようとするとエラーが出るので,以下のファイルに修正を加える

  • ./src/common.h
    • #include を追加(#includeが並んでいる部分があるので、その最後に追加した)
  • ./libexec/mkdarts.cpp
    • #include を追加(同上)

$ make
$ make check
$ sudo make install

CaboChaのインストール

http://chasen.org/~taku/software/cabocha/

$ tar zxfv cabocha-*.*.tar.gz
$ cd cabocha-*.*/
$ ./configure

ここでも ./src/common.h に #include を追加しておく。

$ make
$ make check
$ sudo make install

動作確認

$ cabocha
それはクリリンのことですか?
    それは----D
  クリリンの-D |
    ことですか-D
              ?
EOS

終わり。