日本語の形態素解析で、kakasiやchasenが使えそう。XREAのサーバ仕様を見て回ったところ、これらの外部プログラムをコールできそうなので単語分解はなんとかなりそうな希ガス。
ただ、精度を良くするためGary Robinson-Fisher方式で行きたいんだが、PHPでchi-square test(カイ自乗検定)を行えるかどうか不明。PECLモジュールにはそれらしきものがあったりするんだけど、マニュアルに詳しい説明がないんだよなぁ。引数しか載ってない。やるとしたらGary Robinson方式だろうか。Graham方式はいろいろと欠点があるから見送る方向で。
あとはトークンのデータベースをどうするか、だ。なるべく高速に解析したいからある程度プレ解析したデータベースにしたいんだが……。まだベイジアンフィルタの動作原理を脳内アルゴリズムに落とし込めていないので、実装までには時間がかかりそう。
Comment