スパムの月別集計
spambayes japanese localization
下記テーブルはオリジナルの SpamBayes を導入してからの集計です。 procmail のログから抽出しました。 「総数」は受信したメールの総数です。 「未判定数」は、スパムだけで無く、必要なメールも含んだ数です。
月 | 総数 (recieved) | 未判定数 (unsure) | 比率 (unsure ratio) | スパム (spam) | 非スパム (ham) | ||
---|---|---|---|---|---|---|---|
2 | 581 | 59 (15) | 0.102 (0.026) | 261 | ( 14) | 261 | ( 190) |
3 | 6,152 | 208 (61) | 0.034 (0.010) | 2,317 | (126) | 3,627 | (2,473) |
4 | 5,750 | 72 (39) | 0.013 (0.007) | 2,266 | (162) | 3,412 | (2,328) |
5 | 6,065 | 48 (18) | 0.008 (0.003) | 2,809 | (155) | 3,208 | (2,191) |
6 | 5,710 | 87 (35) | 0.015 (0.006) | 2,774 | (178) | 2,849 | (2,076) |
7 | 5,409 | 113 (91) | 0.021 (0.017) | 2,309 | (256) | 2,987 | (2,194) |
8 | 4,914 | 54 (37) | 0.011 (0.008) | 1,669 | (137) | 3,191 | (2,218) |
9 | 438 | 5 ( 3) | 0.011 (0.007) | 139 | ( 10) | 294 | ( 175) |
total | 35,019 | 646 (299) | 0.018 (0.009) | 14,544 | (1,038) | 19,829 | (13,845) |
データを保存してないので、正確には判りませんが、 記憶によれば、誤ってスパムと判定されたメールは無かったと思います。 逆に ham の中に見逃されたスパムが発見されることはありました。 まあ実害は少ないのですけど。 最終的に、 unsure (判定できないもの) は 1 〜 2% くらいまで減少したようです。 半年くらいの間に順調に減ってるように見えます。 (それにしてもスパムの数が多いなー)
日本語メールについては、オリジナルのままでも、かなり良好な判定をするようです。 ただし、初期の頃を除いて、学習効果があるようには見えません。 七月くらいから、日本語のやけに上手なメールが増えました。 ベイズ君は少しついていけなかったようです。 私もついていけません。 そんなわけで、昨日から 日本語対応 SpamBayes に切替えて運用してます。 果して、日本語トークン分析の効果は表れるのでしょうか? 。。。つづく