角をためて牛を殺す
spambayes を POP3 Proxy として使ってみると、 from header やら subject の切り落としなどで文字化けしてます。 直そうと云う気が起きましたが、思い留まりました。
改めて tokenizer.py のソースを見ると、 subject と body の日本語対応だけにして置いたのは、結果的に良かったと思ってます。 オリジナルソースのコメントを読むと、いろいろ試行錯誤してたどり着いたことが見えます。 考えも無く修正を加えるのは愚かなこと。 オリジナルソースを汚すのは最小限にしないといけません。
それよりも、ベイズフィルタ部分を理解するのが先だし、 今のところ日本語スプリッタを深追いする気もありません。 web インターフェースは spambayes-1.1a を見ると i18n 化が始まってるようです。 しいて手を加えるとすれば、 rpm パッケージに POP3 Proxy 用 daemon スクリプト を追加し、ついでに Sylpheed との連携を考えることくらいです。 モー少し便利になるかもしれません。
余談ですが、今日下記のメールが三通も届きました。
毎回、数多くの方にご参加いただき、**** 参加の登録もすぐに満員となって しまいますので、お早めのご登録をおすすめいたします。 開催情報および参加登録はこちらから↓ http://www.****.jp:****/****/ ■主な特別企画 今回の **** では、次の特別企画をご用意しております。 ★来場者アンケートプレゼント 会場にご来場いただき、**** に関する意識調査アンケートに ご協力いただいた方から抽選で **** などをプレゼントいたします。
そのトークン分析表を眺めてみると、スパム寄りの単語ばかり並んでます。 私の判定は、メールが長文なことも考慮して若干スパムなんですが、 ベイズ君は ham と判定しました。 ham と spam の違いは紙一重のように思えます。 さて、どちらの投票箱に入れようか?