ChaSenのインストール
ChaSenのインストール
形態素解析による日本語自然言語処理システムであるChaSenをインストールしたメモ。
こことここを参考にインストールしてみました 環境:centos6.3
まずはChaSenの情報を見に行く http://chasen-legacy.sourceforge.jp/ http://sourceforge.jp/projects/chasen-legacy/
iconvと Darts-0.31が必要らしい。
まずはDartsから。3,2があったので、そっちを入れる。
$ wget http://chasen.org/~taku/software/darts/src/darts-0.32.tar.gz gtar xvzf darts-0.32.tar.gz cd darts-0.32 ./configure make make check sudo make install
で完了。
iconvは既に入っていたので省略します。
ChaSenインストール
$ wget http://iij.dl.sourceforge.jp/chasen-legacy/56305/chasen-2.4.5.tar.gz $ tar xzf chasen-2.4.5.tar.gz $ cd chasen-2.4.5 $ sudo ./configure $ sudo make $ sudo make install
ipadic をインストール
$wget http://jaist.dl.sourceforge.jp/ipadic/24435/ipadic-2.7.0.tar.gz # tar zxf ipadic-2.7.0.tar.gz # cd ipadic-2.7.0 # ./configure
辞書ファイルをUTF-8に変換
#!/bin/sh for file in *.dic *.cha do if [ -f $file ]; then echo $file iconv -f euc-jp -t utf-8 $file > tmpfile mv tmpfile $file fi done exit
上記シェルスクリプトを実行して辞書ファイルをUTF-8に変換し生成します。
$ sh ./convert.sh $ `chasen-config --mkchadic`/makemat -i w $ `chasen-config --mkchadic`/makeda -i w chadic *.dic $ make install
chasenrcもUTF-8に変換
$ cd /usr/local/etc $ iconv -f euc-jp -t utf-8 chasenrc > chasenrc.tmp $ mv chasenrc.tmp chasenrc
これで、UTF8で操作出来るようになりました。