HOME | ドキュメント |  ブログ  |  BBS  |  瓦版  | 将棋プロジェクト |  物置小屋   

スパム阻止率が 99.5% 越えてる 象歩ブログ 角をためて牛を殺す
05 September 2005

スパムの月別集計

spambayes japanese localization
Python  

下記テーブルはオリジナルの SpamBayes を導入してからの集計です。 procmail のログから抽出しました。 「総数」は受信したメールの総数です。 「未判定数」は、スパムだけで無く、必要なメールも含んだ数です。

総数 (recieved) 未判定数 (unsure) 比率 (unsure ratio) スパム (spam) 非スパム (ham)
2 581 59 (15) 0.102 (0.026) 261 ( 14) 261 ( 190)
3 6,152 208 (61) 0.034 (0.010) 2,317 (126) 3,627 (2,473)
4 5,750 72 (39) 0.013 (0.007) 2,266 (162) 3,412 (2,328)
5 6,065 48 (18) 0.008 (0.003) 2,809 (155) 3,208 (2,191)
6 5,710 87 (35) 0.015 (0.006) 2,774 (178) 2,849 (2,076)
7 5,409 113 (91) 0.021 (0.017) 2,309 (256) 2,987 (2,194)
8 4,914 54 (37) 0.011 (0.008) 1,669 (137) 3,191 (2,218)
9 438 5 ( 3) 0.011 (0.007) 139 ( 10) 294 ( 175)
total 35,019 646 (299) 0.018 (0.009) 14,544 (1,038) 19,829 (13,845)
括弧の中の数字は、日本語メール (subject に iso-2022-jp, shift-jis, utf-8 が含まれていたもの) の値です。 比率の場合は、月別総数に対する日本語メールの未判定率です。


データを保存してないので、正確には判りませんが、 記憶によれば、誤ってスパムと判定されたメールは無かったと思います。 逆に ham の中に見逃されたスパムが発見されることはありました。 まあ実害は少ないのですけど。 最終的に、 unsure (判定できないもの) は 1 〜 2% くらいまで減少したようです。 半年くらいの間に順調に減ってるように見えます。 (それにしてもスパムの数が多いなー)

日本語メールについては、オリジナルのままでも、かなり良好な判定をするようです。 ただし、初期の頃を除いて、学習効果があるようには見えません。 七月くらいから、日本語のやけに上手なメールが増えました。 ベイズ君は少しついていけなかったようです。 私もついていけません。 そんなわけで、昨日から 日本語対応 SpamBayes に切替えて運用してます。 果して、日本語トークン分析の効果は表れるのでしょうか? 。。。つづく

Comments
There is no comment.
Trackbacks

【注意】TrackBack 送信なさる場合、 あなたの記事中に参照リンク (当ブログの URL 記述) が必要です。 トラックバックスパム防止のため、御了承ください。

There is no trackback.
Post a comment











一回プレビューして投稿内容の確認をしてください。その後に投稿可能になります。