反病毒误报问题机理技术蓝皮书
来源:赛迪网 更新时间:2012-04-13

作者:江海客/安天实验室

【原创文章,版权所有,赛迪独家发布,合作网站如欲转载,请注明出处“赛迪网”和文章作者!谢绝非合作网站转载,违者,赛迪网将保留追究其法律责任的权利!】

一、误报的成因分析

首先需要澄清三个概念,即漏报、错报和误报。

漏报:反病毒产品检测一个可确认是病毒的检测对象而没有报警。

错报:反病毒产品检测一个可确认是某种病毒的检测对象,报警为另一种病毒。

误报:反病毒产品检测一个可确认不是病毒的检测对象报警为病毒。

一些用户将错报视为一种误报,实际上这是两个完全不同的概念,率先澄清这个概念有助于专心与我们今天的主题。

反病毒作为信息安全领域一门严谨的工程技术,是以保证信息系统应用为前提的,由于误报会导致用户的心理恐慌,对被误杀产品不好的舆论影响,以及直接导致误杀,从而导致信息系统出现某种不可预期的后果,因此误报问题相对漏报和错报往往更加敏感。在某个非官方技术标准中,对反病毒的误报率作出了规定,即不能超过万分之零点五,即对十万个不同的检测对象,允许有五个误报,但对此无论是公众还是反病毒工作者自己依然觉得不可接受,而希望达到零误报的境界。

这也反映了工程化应用和学术化研究的不同视角,我们也经常看到从事反病毒理论方面的年轻研究者们经常兴奋不已,“看,只要建立这样一个简单的神经网络(如BP网络),并把若干样本和正常文件进行学习,再检测此前未经神经网络学习过的样本集合时,就会获得80%以上未知病毒检出率”。这种方法无论如何先进,只要误报了任何一个windows的系统文件或者program下面的正常程序文件,就都不能不加改动的应用到实际系统中。

这就是为什么,在实际的反病毒产品中,如果有超过10%的未知病毒检出率,就可以视为很不错的结果,而反病毒的一些paper中则往往会出现令人鼓舞的比率。这是因为极低的误报率是商用反病毒技术的基础。过去关于未知检测就有这样的一个玩笑,100%检测未知病毒?很简单,只要对每个检测对象都报病毒就可以了,也就是说只有100%的误报率,才能造就100%的检出率。

当然我们依然需要学术上对新的病毒检测理论方法的不懈探索,所谓大胆想象,小心求证。

图 误报问题全图

【后面的文章里,我们将进一步了解误报的类型。】