关于Spam Locker的准确性、误判率的分析

时间:2007-01-03 21:39:43   来源:  作者:whsong  点击:次  出处:技术无忧
关键字:关于

作为Anti-spam 软件,准确率及误判率(false positive)自然是用户最关心的一个。

首先要明确一点,Spam Locker是一个综合的系统,包含了基础部分(框架性的基础代码,插件机制

等)和应用插件(就是那一堆dnsbl,greylist,msbl等插件)。因此准确率/误判率主要由查件决定。



Slockd 可以形象地比做电脑主板+扩展卡,主板就是主框架和支持代码,而插件则是扩展卡,根据需要可以任意打开,关闭(插进,拔走),并调整每一个扩展卡(插件)的属性,甚至可以自己生产或者修改扩展卡(插件)




1)准确率

由于slockd可以混合各种反垃圾邮件技术,因此,识别垃圾邮件的类型肯定比单一的技术要多得多,

覆盖面要广,因此准确率/拦截率要比单一的技术要高,具体高出的比例则视具体的邮件通信情况而定

这里给出两个具体的数字:



客户1:

每天垃圾邮件成灾,机器有效用户约200个,安装slockd 有3天时间。

拦截邮件数:174074
通过邮件数:8368

拦截邮件数中各插件所占比例:
greylist :23659
freq(anvil):130196
hostname:1200
rbl:17945
msbl:1032

结论:此客户主要被连接频率过多的垃圾邮件侵扰,因此连接频率拦截了75%的垃圾邮件





客户2:

每天垃圾邮件较多,但实际有效用户只有20-30个,安装slockd 不足2天

拦截邮件数:49215
通过邮件数:3324

各插件所占拦截比例:
greylist:15101
freq(anvil):1907
hostname(mx):32139
rbl:69
msbl:4

结论:该客户主要遭遇到伪造来信人及helo不匹配的垃圾邮件骚扰,因此hostanem(mx)规则拦截了65%的垃圾邮件。



上述两客户邮件有效率分别是: 4.8%和6.75% 。 换句话说垃圾邮件的比例为96.2%和93.3%

拦截率至少超过96%和93% (平均94.5%)

2)误判率

我们必须建立一个这样的观念:没有100%的准确,因此必然会存在一定的误判率。对比著名的开源

垃圾邮件识别工具 -- Spamassasin, 在没打开bayes前,依靠其自带的几百条规则,能识别的

垃圾邮件比例大致在40%-55%左右,英文的稍微好一点,打开bayes,并经过足够的训练,在样本

有效期间,能识别95%以上甚至98%的垃圾邮件。但一旦垃圾邮件模式一变,样本有效性就降低了,

而且误杀率是可闻的(对中文邮件而言就更加严重,应用了chinese_rules后会有所改善,但依然

有一定数量的被误判)


再参考一下著名的反垃圾邮件技术-- 实时黑名单(RBL),其误杀率一直是个问题,当然大家还是

很乐意使用它,因为rbl的有效性普遍来说还是比较好的。


Spam Locker综合使用了除内容过滤技术外的大量技术,因此误判率会随命中的不同插件而有所

变化。用户可以根据自己的实际情况,有选择的打开一些插件,或关闭一些高误杀率单低有效率的

插件,以此来尽量降低误判的比例。再者,误判率还与实际的应用环境非常有关,在一些用户的生产

环境中,大量的垃圾邮件和病毒都是伪造来信人的,因此hostname和msbl的命中率非常高,而误

判则非常低。有的环境则rbl的误判率非常高,等等,不一而足。这个需要系统管理员花一定的时间

去调整

技术无忧.com


文章评论

共有 0 位网友发表了评论 此处只显示部分留言 点击查看完整评论页面