SpamBayes 日本語化
[更新日:
2007年10月04日
]
SpamBayes
SpamBayes (スパムベイズ) は、ベイズ理論を応用した高性能なスパムフィルタです。
POP3 Proxy や Procmail のフィルタとして利用可能です。
オリジナルは日本語のメールに特に対応してませんが、
それでもかなりの割合で日本語のスパムメールをはじいてくれます。
配布元は
sourceforge
です。
日本語ローカライズ版
SpamBayes日本語版は日本語トークン抽出処理を追加し、
また web インターフェースに日本語パッチあてました。
副作用を発生させないよう修正は最小限にとどめたつもりです。
ファイルは
ここ
に置いてあります。
SplitterForU.py -- 日本語スプリッタ (追加)
spambayes-1.0.4.Dibbler-iso2022jp.patch -- Web インタフェース (共通)
spambayes-1.0.4.PyMeldLite-iso2022jp.patch -- Web インタフェース (共通)
spambayes-1.0.4.ImapUI-RFC2060.patch -- Web インタフェース (Imap 用)
spambayes-1.0.4.ProxyUI-iso2022jp.patch -- Web インタフェース (POP3 Proxy 用)
spambayes-1.0.4.tokenizer-iso2022jp.patch -- トークン抽出処理パッチ
パッチを適用済みのファイルや spec ファイルも置いてあります。
spambayes-1.0.4.tar.gz -- オリジナル
spambayes-1.0.4.jp.tgz -- オリジナル + 日本語パッチ
spambayes.spec -- RPM 作成用 spec ファイル
また、日本語スプリッタは
UnicodeBlockTokenizer - tokuhirom's Wiki
から頂戴してきたものを改造して使用してます。
この辺の話は
象歩ブログ
149,
148,
123
を参照してください。
インストール
VineLinux 用
RPM はここ
に置きます。Vine の ftp ミラーサイトからも get 出来ます。
apt-get でインストールする場合 Vine-3.2 では extras 扱いなので、
/etc/apt/source.list に extras を追加します。
## Vine Linux 3.2
rpm [vine] http://updates.vinelinux.org/apt 3.2/$(ARCH) main devel plus extras updates
rpm-src [vine] http://updates.vinelinux.org/apt 3.2/$(ARCH) main devel plus extras updates
オリジナルソースからインストールする場合は、上記
spambayes-1.0.4-jp.tgz を使うか、
ソースを本家から
ダウンロード してパッチを当てます。
$ tar xvzf spambayes-1.0.4.tar.gz
$ cp SplitterForU.py spambayes-1.0.4/spambayes/
$ patch -p0 < spambayes-1.0.4.Dibbler-iso2022jp.patch
$ patch -p0 < spambayes-1.0.4.ImapUI-RFC2060.patch
$ patch -p0 < spambayes-1.0.4.ProxyUI-iso2022jp.patch
$ patch -p0 < spambayes-1.0.4.PyMeldLite-iso2022jp.patch
$ patch -p0 < spambayes-1.0.4.tokenizer-iso2022jp.patch
パッチは 1.0.4 用に作りましたが、1.0.3 でも利用できるようです。
インストール方法はソースの README.txt に書いてあります。
本家ページには他にも色々な情報があります。
たとえば、次のようにしてインストールできます。
$ cd spambayes-1.0.4
$ python setup.py build
$ su
# python setup.py install
使い方
IMAP サーバでの使い方は、いちおう
ここ に書きました。
本家には
UNIX,
Mac OS,
Windows
用に、個別の説明があります。
履歴
- 2005-09-04: spambayes-0.1.4-jp 日本語トークン抽出処理を追加しました。
|