Less is Best

rubyが好き。技術の話とスタートアップに興味があります。

ChaSenのインストール

ChaSenのインストール

形態素解析による日本語自然言語処理システムであるChaSenをインストールしたメモ。

ここここを参考にインストールしてみました 環境:centos6.3

まずはChaSenの情報を見に行く http://chasen-legacy.sourceforge.jp/ http://sourceforge.jp/projects/chasen-legacy/

iconvと Darts-0.31が必要らしい。

まずはDartsから。3,2があったので、そっちを入れる。

$ wget http://chasen.org/~taku/software/darts/src/darts-0.32.tar.gz
gtar xvzf darts-0.32.tar.gz
cd darts-0.32
./configure
make
make check
sudo make install

で完了。

iconvは既に入っていたので省略します。

ChaSenインストール

$ wget http://iij.dl.sourceforge.jp/chasen-legacy/56305/chasen-2.4.5.tar.gz
$ tar xzf chasen-2.4.5.tar.gz 
$ cd chasen-2.4.5
$ sudo ./configure
$ sudo make 
$ sudo make install

ipadic をインストール

$wget http://jaist.dl.sourceforge.jp/ipadic/24435/ipadic-2.7.0.tar.gz
# tar zxf ipadic-2.7.0.tar.gz
# cd ipadic-2.7.0
# ./configure

辞書ファイルをUTF-8に変換

#!/bin/sh
for file in *.dic *.cha
do
if [ -f $file ]; then
echo $file
iconv -f euc-jp -t utf-8 $file > tmpfile
mv tmpfile $file
fi
done
exit

上記シェルスクリプトを実行して辞書ファイルをUTF-8に変換し生成します。

$ sh ./convert.sh
$ `chasen-config --mkchadic`/makemat -i w
$ `chasen-config --mkchadic`/makeda -i w chadic *.dic
$ make install

chasenrcもUTF-8に変換

$ cd /usr/local/etc
$ iconv -f euc-jp -t utf-8 chasenrc > chasenrc.tmp
$ mv chasenrc.tmp chasenrc

これで、UTF8で操作出来るようになりました。