SpamBayes 日本語化 (3)

31 August 2005

spambayes japanese localize

POP3 Proxy 動作 (sb_server.py) させてみました。面白い^^。日本語もちゃんと評価されてる様子で、少し期待してます。ブラウザで表示して見ると、日本語表示があちこち文字化けして、みっともないので修正版を置きました。このまま問題が出なければ、週末に家の imap 鯖のフィルタとして組み込んでテストするつもりです。

spambayes-1.0.4-*-patch に関しては、みたところ spambayes-1.0.3 と 1.0.4の該当ソースに変更は無いので、 1.0.3にもそのまま当たると思います。 (> debian 方面の方)

メールからトークンを抽出する tokenizer.py の出力は、オリジナルは str 型ですが、日本語のところだけ、思い切って unicode 型にしてみました。今のところ問題は起きて無いように見えます。またオリジナルの性能を損なうのを嫌って、修正は最小限にしたつもりです。具体的には subject と、body (tokenizer.py の最後で単純に本文からトークンを抽出する部分)を日本語対応にしただけです。

トークン抽出は、わかち書きや 2-gram 処理等は考えず、単純に UTF-8 コードによる分割 (ひらがな、カナ、漢字、英記号など) のみ行ってます。元々 SpamBayes 自体がトークン分割しかしてません (?) ので、出発点としては安易な方法を選びました。なにしろ、何も手を加えなくても、かなりの能力を発揮してるスパムフィルタなので、日本語に関して、ほんのちょっとだけ賢くなってもらえれば十分と思ってます。

もし何かアイディアを試したくなっても、たとえ運用に入ったとしても、日本語スプリッタ SplitterForU.py を差し替えるだけで済むはず、という考え。 (その前にドキュメント読まないといけないのですが)

"SpamBayes 日本語化 (3)" を、みな読む — posted by owa at 00:58 | Comments (0) | Trackbacks (0)

Comments

There is no comment.

Trackbacks

Please send trackback to:http://owa.as.wakwak.ne.jp/zope/coreblog/149/tbping

【注意】TrackBack 送信なさる場合、あなたの記事中に参照リンク (当ブログの URL 記述) が必要です。トラックバックスパム防止のため、御了承ください。

There is no trackback.