HOME | ドキュメント |  ブログ  |  BBS  |  瓦版  | 将棋プロジェクト |  物置小屋   

角をためて牛を殺す 象歩ブログ SpamBayes 日本語化 (2)
31 August 2005

SpamBayes 日本語化 (3)

spambayes japanese localize
Python  

POP3 Proxy 動作 (sb_server.py) させてみました。 面白い^^。日本語もちゃんと評価されてる様子で、少し期待してます。 ブラウザで表示して見ると、日本語表示があちこち文字化けして、みっともないので 修正版 を置きました。このまま問題が出なければ、 週末に家の imap 鯖のフィルタとして組み込んでテストするつもりです。

spambayes-1.0.4-*-patch に関しては、みたところ spambayes-1.0.31.0.4の該当ソースに変更は無いので、 1.0.3にもそのまま当たると思います。 (> debian 方面の方)

メールからトークンを抽出する tokenizer.py の出力は、 オリジナルは str 型ですが、 日本語のところだけ、思い切って unicode 型にしてみました。 今のところ問題は起きて無いように見えます。 またオリジナルの性能を損なうのを嫌って、修正は最小限にしたつもりです。 具体的には subject と、body (tokenizer.py の最後で単純に本文からトークンを抽出する部分)を日本語対応にしただけです。


トークン抽出は、わかち書きや 2-gram 処理等は考えず、 単純に UTF-8 コードによる分割 (ひらがな、カナ、漢字、英記号など) のみ行ってます。 元々 SpamBayes 自体がトークン分割しかしてません (?) ので、 出発点としては安易な方法を選びました。 なにしろ、何も手を加えなくても、かなりの能力を発揮してるスパムフィルタなので、 日本語に関して、ほんのちょっとだけ賢くなってもらえれば十分と思ってます。

もし何かアイディアを試したくなっても、たとえ運用に入ったとしても、日本語スプリッタ SplitterForU.py を差し替えるだけで済むはず、という考え。 (その前にドキュメント読まないといけないのですが)

Comments
There is no comment.
Trackbacks

【注意】TrackBack 送信なさる場合、 あなたの記事中に参照リンク (当ブログの URL 記述) が必要です。 トラックバックスパム防止のため、御了承ください。

There is no trackback.
Post a comment











一回プレビューして投稿内容の確認をしてください。その後に投稿可能になります。