恶意代码检测方法和系统的制作方法

文档序号:6619335阅读:452来源:国知局
专利名称:恶意代码检测方法和系统的制作方法
技术领域
本发明涉及计算机网络安全技术领域,特别涉及一种恶意代码检测方法和系统。
背景技术
随着恶意代码数量急剧膨胀,恶意代码自动化判别已经成为反病毒研究的重要方 向。恶意代码自动化判别,是通过一定的方法对未知的程序进行判别分类的方法。对非二进制特征码的恶意代码检测的相关研究主要有静态检测恶意代码方面、动 态行为分析检测恶意代码及组合检测。现有技术可以通过对文件静态反汇编得到API序列 图,然后与安全策略进行对比,违反安全策略的API序列判定为恶意代码。还可以根据软件 行为监控序列的距离判别分类方法。该方法可以在一定程度上进行自动化分类,但所需时 间巨大,需要判别样本的行为序列与所有其它的行为序列计算距离,随着样本量的膨胀呈 线性增长,恶意代码数量的膨胀速度导致该方法将耗费巨大的时间来判断一个未知的恶意 代码的类别,另外采用让恶意代码运行在虚拟机环境中通过获取其API调用来分析软件行 为这个获取的层次相对初级。

发明内容
针对以上不足,本发明要解决的技术问题是提供一种恶意代码检测方法和系统, 用以提高软件判别的准确率,不需要进行人工分析,并且可以快速的进行软件判别。为了解决上述技术问题,本发明提供了一种恶意代码检测方法,包括 从未知是否包含恶意代码的软件中提取特征;
根据预先得到的每个特征的贡献度,计算所述软件中提取的所有特征的特征贡献和以 及特征贡献均值,一个特征的贡献度是指所述特征对于判断未知软件是包含恶意代码的文 件或不包含恶意代码的文件的贡献程度;
根据计算得到的特征贡献和与预先得到的特征贡献和阈值的大小关系,以及计算得到 的特征贡献均值与预先得到的特征贡献均值阈值的大小关系,确定所述软件中包含恶意代 码或不包含恶意代码。进一步的,根据预先得到的每个特征的贡献度计算所述软件中提取的所有特征的 特征贡献和以及特征贡献均值之前,还包括
收集白名单样本和黑名单样本,所述白名单样本是指样本的静态特征与样本所在的系 统环境及样本的活动对系统不会产生威胁的软件,所述黑名单样本是指样本本身及其所在 环境能够给系统带来威胁的软件; 提取每个样本的特征;
计算每个特征在所有的黑名单样本中出现的概率与在所有的白名单中出现的概率; 根据每个特征在所有的黑名单样本中出现的概率与在所有的白名单样本中出现的概 率,计算每个特征的贡献度。进一步的,计算每个特征的贡献度后,还包括对所有特征的贡献度进行排序,保存指定范围内的贡献度以及对应的特征。进一步的,按照下述方式计算每个特征的贡献度
权利要求
一种恶意代码检测方法,其特征在于,包括从未知是否包含恶意代码的软件中提取特征;根据预先得到的每个特征的贡献度,计算所述软件中提取的所有特征的特征贡献和以及特征贡献均值,一个特征的贡献度是指所述特征对于判断未知软件是包含恶意代码的文件或不包含恶意代码的文件的贡献程度;根据计算得到的特征贡献和与预先得到的特征贡献和阈值的大小关系,以及计算得到的特征贡献均值与预先得到的特征贡献均值阈值的大小关系,确定所述软件中包含恶意代码或不包含恶意代码。
2.如权利要求1所述的方法,其特征在于,根据预先得到的每个特征的贡献度计算所 述软件中提取的所有特征的特征贡献和以及特征贡献均值之前,还包括收集白名单样本和黑名单样本,所述白名单样本是指样本的静态特征与样本所在的系 统环境及样本的活动对系统不会产生威胁的软件,所述黑名单样本是指样v本本身及其所在 环境能够给系统带来威胁的软件;提取每个样本的特征;计算每个特征在所有的黑名单样本中出现的概率与在所有的白名单中出现的概率;根据每个特征在所有的黑名单样本中出现的概率与在所有的白名单样本中出现的概 率,计算每个特征的贡献度。
3.如权利要求2所述的方法,其特征在于,计算每个特征的贡献度后,还包括对所有 特征的贡献度进行排序,保存指定范围内的贡献度以及对应的特征。
4.如权利要求2或3所述的方法,其特征在于,按照下述方式计算每个特征的贡献度 巧=(PAf⑷-FT(Sj))/(皿⑷+/T⑷),其中,巧为特征的贡献度,特征S^ei , s为所有样 本所具有的静态特征、动态行为特征以及相关环境特征的集合,PM(两)为特征^在黑名单 样本集合Jf中出现的概率,PH^)为特征Si在白名单样本集合T中出现的概率。
5.如权利要求1所述的方法,其特征在于,根据计算得到的特征贡献和与预先得到的 特征贡献和阈值的大小关系,以及计算得到的特征贡献均值与预先得到的特征贡献均值阈 值的大小关系,确定所述未知软件中包含恶意代码或不包含恶意代码之前,还包括收集白名单样本和黑名单样本,所述白名单样本是指一个样本的静态特征与样本所在 的系统环境及样本的活动对系统不会产生威胁的软件,所述黑名单样本是指样本本身及其 所在环境能够给系统带来威胁的软件;提取每个样本的特征;计算每个样本中提取的所有特征的特征贡献和以及特征贡献均值;根据计算得到的每个样本中提取的所有特征的特征贡献和与预先确定的初始特征贡 献和阈值的大小关系,以及计算得到的每个样本中提取的所有特征的特征贡献均值与预先 确定的初始特征贡献均值阈值的大小关系,将收集的所有样本划分为恶意文件和非恶意文 件两类;计算将收集的白名单样本划分成恶意文件的百分比,或者计算将收集的黑名单样本划 分成非恶意文件的百分比,调整初始特征贡献和阈值以及初始特征贡献均值阈值,得到特 征贡献和阈值以及特征贡献均值阈值。
6.如权利要求1或5所述的方法,其特征在于,按照下述方式计算所述软件或每个样本中提取的所有特征的特征贡献和
7.如权利要求1或5所述的方法,其特征在于,按照下述方式计算所述软件或每个样本中提取的所有特征的特征贡献均值^fzgh^q /、其中,M为特征贡献均值,A为特征的贡献度,特征忒』为所述软件或每个样本中提取的所有特征j= ^j2A...),并且 巧e为所有软件或所有样本所具有的静态特征、动态行为特征以及相关环境特征的集 合,如果软件或样本中出现特征^,则巧取值为1,否则为0。
8.如权利要求5所述的方法,其特征在于,根据计算得到的每个样本中提取的所有特 征的特征贡献和与预先确定的初始特征贡献和阈值的大小关系,以及计算得到的每个样本 中提取的所有特征的特征贡献均值与预先确定的初始特征贡献均值阈值的大小关系,将收 集的所有样本划分为恶意文件和非恶意文件两类之前,还包括确定初始特征贡献和阈值 以及初始特征贡献均值阈值;
9.如权利要卞5所述的方法,其特征在于,将收集的所有样本划分为恶意文件和非恶 意文件两类包括如果一个样本的所有特征的特征贡献和大于初始特征贡献和阈值,并且, 该样本的所有特征的特征贡献均值大于初始特征贡献均值阈值,则将该样本划分为恶意文 件,否则,将该样本划分为非恶意文件。
10.如权利要求5所述的方法,其特征在于,调整初始特征贡献和阈值以及初始特征贡 献均值阈值、得到特征贡献和阈值以及特征贡献均值阈值具体为如果将白名单样本划分 成恶意文件的百分比大于0. 1%,则增大初始特征贡献和阈值以及初始特征贡献均值阈值, 直到将白名单样本划分成恶意文件的百分比不大于0. 1%,将调整后的初始特征贡献和阈值 作为特征贡献和阈值,将调整后的初始特征贡献均值阈值作为特征贡献均值阈值。
11.如权利要求1所述的方法,其特征在于,根据计算得到的特征贡献和与预先得到 的特征贡献和阈值的大小关系,以及计算得到的特征贡献均值与预先得到的特征贡献均值 阈值的大小关系,确定所述未知软件中包含恶意代码或不包含恶意代码包括如果计算得 到的特征贡献和大于特征贡献和阈值,并且计算得到的特征贡献均值大于特征贡献均值阈 值,则确定所述软件中包含恶意代码,否则确定所述软件中不包含恶意代码。
12.—种恶意代码检测系统,其特征在于,包括特征提取模块,用于从 知是否包含恶意代码的软件中提取特征; 特征贡献库,用于保存每个特征的贡献度、特征贡献和阈值和特征贡献均值阈值,一个特征的贡献度是指所述特征对于判断未知软件是包含恶意代码的文件或不包含恶意代码 的文件的贡献程度;特征分析模块,用于根据特征贡献库中保存的每个特征的贡献度,计算特征提取模块 所述软件中提取的所有特征的特征贡献和以及特征贡献均值;判别模块,用于根据特征分析模块计算得到的特征贡献和与特征贡献库中保存的特征 贡献和阈值的大小关系,以及特征分析模块计算得到的特征贡献均值与特征贡献库中保存 的特征贡献均值阈值的大小关系,确定所述未知软件中包含恶意代码或不包含恶意代码。
13.如权利要求12所述的系统,其特征在于,特征贡献库具体用于计算保存特征的贡 献度,包括收集白名单样本和黑名单样本,所述白名单样本是指样本的静态特征与样本所在的系 统环境及样本的活动对系统不会产生威胁的软件,所述黑名单样本是指样本本身及其所在 环境能够给系统带来威胁的软件; 提取每个样本的特征; 计算每个特征在所有的黑名单样本中出现的概率与在所有的白名单样本中出现的概率;根据每个特征在所有的黑名单样本中出现的概率与在所有的白名单样本中出现的概 率,计算每个特征的贡献度。
14.如权利要求13所述的系统,其特征在于,计算每个特征的贡献度后,还包括对所 有特征的贡献度进行排序,保存指定范围内的贡献度以及对应的特征。
15.如权利要求13或14所述的系统,其特征在于,按照下述方式计算每个特征的贡献 度谇
16.如权利要求12所述的系统,其特征在于,特征贡献库还用于获取特征贡献和阈值 以及特征贡献均值阈值,具体包括收集白名单样本和黑名单样本,所述白名单样本是指一个样本的静态特征与样本所在 的系统环境及样本的活动对系统不会产生威胁的软件,所述黑名单样本是指样本本身及其 所在环境能够给系统带来威胁的软件; 提取每个样本的特征;计算每个样本中提取的所有特征的特征贡献和以及特征贡献均值; 根据计算得到的每个样本中提取的所有特征的特征贡献和与预先确定的初始特征贡 献和阈值的大小关系,以及计算得到的每个样本中提取的所以特征的特征贡献均值与预先 确定的初始特征贡献均值阈值的大小关系,将收集的所有样本划分为恶意文件和非恶意文 件两类;计算将收集的白名单样本划分成恶意文件的百分比,或者计算将收集的黑名单样本划 分成非恶意文件的百分比,调整初始特征贡献和阈值以及初始特征贡献均值阈值,得到特 征贡献和阈值以及特征贡献均值阈值。
17.如权利要求12或16所述的系统,其特征在于,按照下述方式计算所述软件或每个样本中提取的所有特征的特征贡献和「zghh气其中,
18.如权利要求12或16所述的系统,其特征在于,按照下述方式计算所述软件或每个样本中提取的所有特征的特征贡献均值
19.如权利要求16所述的系统,其特征在于,根据计算得到的每个样本钟提取的所有 特征的特征贡献和与预先确定的初始特征贡献和阈值的大小关系,以及计算得到的每个样 本中提取的所有特征的特征贡献均值与预先确定的初始特征贡献均值阈值的大小关系,将 收集的所有样本划分为恶意文件和非恶意文件两类之前,还包括确定初始特征贡献和阈 值以及初始特征贡献均值阈值; 其中,按照下述方式确定初始特征贡献和阈值
20.如权利要求16所述的系统,其特征在于,将收集的所有样本划分为恶意文件和非 恶意文件两类包括如果一个样本的所有特征的特征贡献和大于初始特征贡献和阈值,并 且,该样本的所有特征的特征贡献均值大于初始特征贡献均值阈值,则将该样本划分为恶 意文件,否则,将该样本划分为非恶意文件。
21.如权利要求16所述的系统,其特征在于,调整初始特征贡献和阈值以及初始特征 贡献均值阈值、得到特征贡献和阈值以及特征贡献均值阈值具体为如果将白名单样本划 分成恶意文件的百分比大于0. 1%,则增大初始特征贡献和阈值以及初始特征贡献均值阈 值,直到将白名单样本划分成恶意文件的百分比不大于0. 1%,将调整后的初始特征贡献和 阈值作为特征贡献和阈值,将调整后的初始特征贡献均值阈值作为特征贡献均值阈值。
22.如权利要求12所述的系统,其特征在于,判别模块具体用于根据计算得到的特征 贡献和与预先得到的特征贡献和阈值的大小关系,以及计算得到的特征贡献均值与预先得 到的特征贡献均值阈值的大小关系,确定所述未知软件中包含恶意代码或不包含恶意代码 包括如果计算得到的特征贡献和大于特征贡献和阈值,并且计算得到的特征贡献均值大 于特征贡献均值阈值,则确定所述软件中包含恶意代码,否则确定所述软件中不包含恶意 代码。
全文摘要
本发明公开了一种恶意代码检测方法,包括从未知是否包含恶意代码的软件中提取特征;根据预先得到的每个特征的贡献度计算所述软件中提取的所有特征的特征贡献和以及特征贡献均值;根据得到的特征贡献和与预先得到的特征贡献和阈值的大小关系,以及得到的特征贡献均值与预先计算的特征贡献均值阈值的大小关系,确定所述未知软件中是否包含恶意代码;本发明还公开了一种恶意代码检测系统,包括特征提取模块,特征贡献库,特征分析模块,判别模块。本发明通过自动化判别恶意代码解决了目前恶意代码数量大爆炸导致的无法及时判别的问题,从而可以及时地响应处理恶意代码。
文档编号G06F21/00GK101984450SQ20101058933
公开日2011年3月9日 申请日期2010年12月15日 优先权日2010年12月15日
发明者康学斌, 张栗伟, 肖新光 申请人:北京安天电子设备有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1