雲雀は高く空を舞い このページをアンテナに追加 RSSフィード

「ひよこは高く空を舞い」について

2009-12-01

[]mecabの解析辞書にUniDicを使い始めた mecabの解析辞書にUniDicを使い始めた - 雲雀は高く空を舞い を含むブックマーク はてなブックマーク - mecabの解析辞書にUniDicを使い始めた - 雲雀は高く空を舞い mecabの解析辞書にUniDicを使い始めた - 雲雀は高く空を舞い のブックマークコメント

1) Uni-dicについて

あとで。

インストール方法

UniDicのページからバイナリがダウンロードできるのでそれを適当なディレクトリに置いて、mecabrcから指定するだけ。

mecabrcのディレクトリは僕の場合は /user/local/etc/mecabrc,UniDicは/usr/local/lib/mecab/dic/unidicにおいた.

mecabrcはにはdicdir=/usr/local/lib/mecab/dic/unidicを記述。 (複数辞書同時に使う場合はどうするんだろう…?)

ユーザ辞書への語句の追加

追加語句リストをcsvファイルで作成して登録する方法自体は,辞書によらずmecab-dict-indexを使うで共通.

例。

csvファイル

あちょっ,-1,-1,-3200,感動詞,めりも言葉,*,*,*,*,アチョッ,あちょっ,あちょっ,*,*,め,あちょっ,アチョッ
めりも,-1,-1,-3200,名詞,固有名詞,人名,*,*,*,メリモ,メリモ,めりも,メリモ,メリモ,固,めりも,メリモ
おはよっ,-1,-1,-3200,感動詞,一般,*,*,*,*,オハヨウ,御早う,おはよう,オハヨー,オハヨウ,和,おはよう,オハヨー
; 表層, 左側index, 右側index, コスト, 品詞, 小品詞1, 小品詞2, 小品詞3,*,*,*,*,*,.. 

sudo /usr/local/libexec/mecab/mecab-dict-index -d ./ -u merymo2.dic -f utf8 -t utf8 merymo2.csv

csvファイルで指定できる品詞はまだよく分かってない…。のであとで。

作成した辞書ファイルを使用するにはmecabrcdic/unidic/dicrc userdic = /usr/local/lib/mecab/dic/unidic/merymo2.dicを追加。

あと、pos-id.defを編集してsudo /usr/local/libexec/mecab/mecab-dict-indexをするとmatrix.binが上書きされちゃうんだけど、これはどうしたものなのかなぁ…。これもあとで。

トラックバック - http://chick.g.hatena.ne.jp/allegro/20091201
テクノラティプロフィール