SpamBayes 日本語化 (3)
spambayes japanese localize
POP3 Proxy 動作 (sb_server.py) させてみました。 面白い^^。日本語もちゃんと評価されてる様子で、少し期待してます。 ブラウザで表示して見ると、日本語表示があちこち文字化けして、みっともないので 修正版 を置きました。このまま問題が出なければ、 週末に家の imap 鯖のフィルタとして組み込んでテストするつもりです。
spambayes-1.0.4-*-patch に関しては、みたところ spambayes-1.0.3 と 1.0.4の該当ソースに変更は無いので、 1.0.3にもそのまま当たると思います。 (> debian 方面の方)
メールからトークンを抽出する tokenizer.py の出力は、 オリジナルは str 型ですが、 日本語のところだけ、思い切って unicode 型にしてみました。 今のところ問題は起きて無いように見えます。 またオリジナルの性能を損なうのを嫌って、修正は最小限にしたつもりです。 具体的には subject と、body (tokenizer.py の最後で単純に本文からトークンを抽出する部分)を日本語対応にしただけです。トークン抽出は、わかち書きや 2-gram 処理等は考えず、 単純に UTF-8 コードによる分割 (ひらがな、カナ、漢字、英記号など) のみ行ってます。 元々 SpamBayes 自体がトークン分割しかしてません (?) ので、 出発点としては安易な方法を選びました。 なにしろ、何も手を加えなくても、かなりの能力を発揮してるスパムフィルタなので、 日本語に関して、ほんのちょっとだけ賢くなってもらえれば十分と思ってます。
もし何かアイディアを試したくなっても、たとえ運用に入ったとしても、日本語スプリッタ SplitterForU.py を差し替えるだけで済むはず、という考え。 (その前にドキュメント読まないといけないのですが)