HOME | ドキュメント |  ブログ  |  BBS  |  瓦版  | 将棋プロジェクト |  物置小屋   

スパムの月別集計 象歩ブログ SpamBayes 日本語化 (3)
01 September 2005

角をためて牛を殺す

少しだけ曲がっている牛の角を真っ直ぐに直そうとして牛を殺してしまうこと
Python  

spambayes を POP3 Proxy として使ってみると、 from header やら subject の切り落としなどで文字化けしてます。 直そうと云う気が起きましたが、思い留まりました。

改めて tokenizer.py のソースを見ると、 subject と body の日本語対応だけにして置いたのは、結果的に良かったと思ってます。 オリジナルソースのコメントを読むと、いろいろ試行錯誤してたどり着いたことが見えます。 考えも無く修正を加えるのは愚かなこと。 オリジナルソースを汚すのは最小限にしないといけません。

それよりも、ベイズフィルタ部分を理解するのが先だし、 今のところ日本語スプリッタを深追いする気もありません。 web インターフェースは spambayes-1.1a を見ると i18n 化が始まってるようです。 しいて手を加えるとすれば、 rpm パッケージに POP3 Proxy 用 daemon スクリプト を追加し、ついでに Sylpheed との連携を考えることくらいです。 モー少し便利になるかもしれません。


余談ですが、今日下記のメールが三通も届きました。

毎回、数多くの方にご参加いただき、**** 参加の登録もすぐに満員となって
しまいますので、お早めのご登録をおすすめいたします。
開催情報および参加登録はこちらから↓
http://www.****.jp:****/****/
■主な特別企画
今回の **** では、次の特別企画をご用意しております。            
★来場者アンケートプレゼント
会場にご来場いただき、**** に関する意識調査アンケートに
ご協力いただいた方から抽選で **** などをプレゼントいたします。

そのトークン分析表を眺めてみると、スパム寄りの単語ばかり並んでます。 私の判定は、メールが長文なことも考慮して若干スパムなんですが、 ベイズ君は ham と判定しました。 hamspam の違いは紙一重のように思えます。 さて、どちらの投票箱に入れようか?

Comments
There is no comment.
Trackbacks

【注意】TrackBack 送信なさる場合、 あなたの記事中に参照リンク (当ブログの URL 記述) が必要です。 トラックバックスパム防止のため、御了承ください。

There is no trackback.
Post a comment











一回プレビューして投稿内容の確認をしてください。その後に投稿可能になります。