关于Spam Locker的准确性、误判率的分析
时间:2007-01-03 21:39:43
来源: 作者:whsong 点击:次 出处:技术无忧
关键字:关于
作为Anti-spam 软件,准确率及误判率(false positive)自然是用户最关心的一个。首先要明确一点,Spam Locker是一个综合的系统,包含了基础部分(框架性的基础代码,插件机制
等)和应用插件(就是那一堆dnsbl,greylist,msbl等插件)。因此准确率/误判率主要由查件决定。
Slockd 可以形象地比做电脑主板+扩展卡,主板就是主框架和支持代码,而插件则是扩展卡,根据需要可以任意打开,关闭(插进,拔走),并调整每一个扩展卡(插件)的属性,甚至可以自己生产或者修改扩展卡(插件)
1)准确率
由于slockd可以混合各种反垃圾邮件技术,因此,识别垃圾邮件的类型肯定比单一的技术要多得多,
覆盖面要广,因此准确率/拦截率要比单一的技术要高,具体高出的比例则视具体的邮件通信情况而定
这里给出两个具体的数字:
客户1:
每天垃圾邮件成灾,机器有效用户约200个,安装slockd 有3天时间。
拦截邮件数:174074
通过邮件数:8368
拦截邮件数中各插件所占比例:
greylist :23659
freq(anvil):130196
hostname:1200
rbl:17945
msbl:1032
结论:此客户主要被连接频率过多的垃圾邮件侵扰,因此连接频率拦截了75%的垃圾邮件
客户2:
每天垃圾邮件较多,但实际有效用户只有20-30个,安装slockd 不足2天
拦截邮件数:49215
通过邮件数:3324
各插件所占拦截比例:
greylist:15101
freq(anvil):1907
hostname(mx):32139
rbl:69
msbl:4
结论:该客户主要遭遇到伪造来信人及helo不匹配的垃圾邮件骚扰,因此hostanem(mx)规则拦截了65%的垃圾邮件。
上述两客户邮件有效率分别是: 4.8%和6.75% 。 换句话说垃圾邮件的比例为96.2%和93.3%
拦截率至少超过96%和93% (平均94.5%)
2)误判率
我们必须建立一个这样的观念:没有100%的准确,因此必然会存在一定的误判率。对比著名的开源
垃圾邮件识别工具 -- Spamassasin, 在没打开bayes前,依靠其自带的几百条规则,能识别的
垃圾邮件比例大致在40%-55%左右,英文的稍微好一点,打开bayes,并经过足够的训练,在样本
有效期间,能识别95%以上甚至98%的垃圾邮件。但一旦垃圾邮件模式一变,样本有效性就降低了,
而且误杀率是可闻的(对中文邮件而言就更加严重,应用了chinese_rules后会有所改善,但依然
有一定数量的被误判)
再参考一下著名的反垃圾邮件技术-- 实时黑名单(RBL),其误杀率一直是个问题,当然大家还是
很乐意使用它,因为rbl的有效性普遍来说还是比较好的。
Spam Locker综合使用了除内容过滤技术外的大量技术,因此误判率会随命中的不同插件而有所
变化。用户可以根据自己的实际情况,有选择的打开一些插件,或关闭一些高误杀率单低有效率的
插件,以此来尽量降低误判的比例。再者,误判率还与实际的应用环境非常有关,在一些用户的生产
环境中,大量的垃圾邮件和病毒都是伪造来信人的,因此hostname和msbl的命中率非常高,而误
判则非常低。有的环境则rbl的误判率非常高,等等,不一而足。这个需要系统管理员花一定的时间
去调整
技术无忧.com











文章评论
共有 0 位网友发表了评论 此处只显示部分留言 点击查看完整评论页面