Ubuntu10.10に日本語係り受け解析器CaboChaをインストールする手順
本格的にbotとか作ろうとしたら形態素解析とかやりたいよね。
CaboChaは日本語係り受け解析器。ついでに形態素解析器のMeCabも入れる。
安定版のCaboCha(0.53)ではUTF-8に対応していないため、
今回はEUC-JP(デフォルト設定)にてインストールを行う。
つまり、実際に使用する際の入出力文字コードはeuc-jpにする必要がある。
MeCabのインストール
形態素解析エンジン
http://mecab.sourceforge.net/
の最新版をそれぞれダウンロード。
MeCab本体のインストール
$ tar zxfv mecab-*.*.tar.gz
$ cd mecab-*.*/
$ ./configure
$ make
$ make check
$ sudo make install
make check時に2つほどエラーが出るが、とりあえず続行しても問題は無さそう。
辞書のインストールの前に、以下のコマンドでMeCabのライブラリを認識させる。
$ sudo ldconfig
辞書のインストール
$ tar zxfv mecab-ipadic-2.7.0-****.tar.gz
$ cd mecab-ipadic-2.7.0-****/
$ ./configure
$ make
$ sudo make install
make時に"echo To enable dictionary, rewrite ..."とメッセージが出るのは無視。
動作確認
$ mecab サスケェ サスケェ 名詞,固有名詞,組織,*,*,*,* EOS
TinySVNのインストール
http://chasen.org/~taku/software/TinySVM/
$ tar zxfv TinySVM-*.*.tar.gz
$ cd TinySVM-*.*/
$ ./configure
$ make
$ make check
$ sudo make install
YamChaのインストール
http://chasen.org/~taku/software/yamcha/
$ tar zxfv yamcha-*.*.tar.gz
$ cd yamcha-*.*/
そのままmakeしようとするとエラーが出るので,以下のファイルに修正を加える
- ./src/common.h
- #include
を追加(#includeが並んでいる部分があるので、その最後に追加した)
- #include
- ./libexec/mkdarts.cpp
- #include
を追加(同上)
- #include
$ make
$ make check
$ sudo make install
CaboChaのインストール
http://chasen.org/~taku/software/cabocha/
$ tar zxfv cabocha-*.*.tar.gz
$ cd cabocha-*.*/
$ ./configure
ここでも ./src/common.h に #include
$ make
$ make check
$ sudo make install
動作確認
$ cabocha それはクリリンのことですか? それは----D クリリンの-D | ことですか-D ? EOS
終わり。