多维度检测恶意域名的方法与流程

文档序号:21000294发布日期:2020-06-05 22:37阅读:1089来源:国知局
多维度检测恶意域名的方法与流程

本发明涉及一种信息安全技术,具体涉及一种多维度检测恶意域名的方法。



背景技术:

随着互联网的普及,互联网犯罪事件频频发生,严重损害了国家、企业和个人利益。在网络钓鱼的过程中,攻击者利用欺骗性的电子邮件、手机短信等,诱导用户访问恶意域名,来进行网络诈骗活动,用户在访问这些恶意域名后暴露个人隐私,甚至给用户造成一定的经济损失。现有技术中,对恶意域名的检测方法一般是基于威胁情报库、人工分析算法等对恶意域名进行识别,对恶意域名的判定方法单一,不够准确,并且现有方法在面对数量巨大,钓鱼手段多样的恶意域名时,检测效率较低。

恶意域名是一种比较流行的网络攻击方法。常用于仿冒其他标准网站,帮助病毒、木马更快地传播,窃取用户敏感信息,获取黑客攻击指令等攻击场景。现有的防御技术一般都是基于恶意域名库进行封堵,恶意域名库一般来源于攻击收集和逆向破解恶意木马程序,有一些专门的安全组织会定期更新恶意域名库。但通过恶意域名库进行封堵,存在很大的滞后性,无法及时应对新出现的恶意域名。而通过数据挖掘、云分析的方法具有开销大、准确度低的问题。本发明为解决现有多维度检测恶意域名的方法检测效率较低、准确度较低的问题,提供一种多维度检测恶意域名的方法。

现在大多数的多维度检测恶意域名的方法,多是依靠威胁情报,单一的关联分析找出可以域名。第一准确度不高,第二严重依赖威胁情报具有滞后性。第三威胁情报的采集成本很高。

因此,需要对现有技术进行改进。



技术实现要素:

本发明要解决的技术问题是提供一种高效的多维度检测恶意域名的方法。

为解决上述技术问题,本发明提供一种多维度检测恶意域名的方法,包括以下步骤:

1)、通过已有的恶意域名信息库关联分析待检测域名;判断为疑似恶意域名的情况下执行步骤2;

2)、通过对疑似恶意域名的属性特征进行分析,通过随机森林算法预测结果判定;执行步骤3;

3)、针对随机森林算法模型得到的预测结果,再根据其实时流量分析其网络行为,返回信息特征等综合判断其可疑程度。

作为对本发明多维度检测恶意域名的方法的改进:还包括以下步骤:

4)、实时流量检测分析,小于阈值则视为合法域名,否则视为恶意域名。

作为对本发明多维度检测恶意域名的方法的进一步改进:

步骤1包括:恶意域名对应的ip进行关联、恶意域名生成算法关联及域名相似度算法;

(1.1)、恶意域名对应的ip进行关联:查询恶意域名情报库,根据当前域名对应ip查询原有情报库中是否有对应匹配信息;如果存在,则判定为疑似恶意域名;

(1.2)、恶意域名生成算法关联及域名相似度算法:根据当前域名与原有恶意域名库,进行字符信息熵匹配,判定相识度,本方法中阈值设定大于0.75的判定为疑似恶意域名;

在步骤1.1、步骤1.2其中任意一个判断为恶意域名的情况下执行步骤2。

作为对本发明多维度检测恶意域名的方法的进一步改进:

步骤2包括:

2.1)、基于威胁情报库以及alexa网站排名,构建正负样本集;执行步骤2.2;

2.2)、基于上诉特征分析提取特征向量,将正负样本集中的域名作为训练集,过滤掉噪音,训练单个学习器,经过多次随机组合训练得到随机森林算法模型;执行步骤2.3;

2.3)、将待疑似恶意域名输入随机森林算法模型,得到预测结果。

作为对本发明多维度检测恶意域名的方法的进一步改进:

步骤3包括:

3.1)、基于随机森林算法模型得到的预测结果采集网络流量数据集;

3.2)、将网络流量数据集中五元组特征相同且数量大于等于n的网络流量,作为恶意的网络行为数据流,其余作为正常应用的网络行为数据流;

五元组特征是指具有相同的源ip,目的ip,源端口,目的端口和协议类型;

3.3)、根据步骤3.2提取的恶意的网络行为数据流和正常应用的网络行为数据流,构建网络行为序列图,得到正常应用的网络行为序列图和恶意应用的网络行为序列图;

包括该域名的流量持续时间,目的端口数量等特征;

3.4)、根据正常应用的网络行为序列图和恶意应用的网络行为序列图获得图相似匹配程度判断其是否为恶意域名。

作为对本发明多维度检测恶意域名的方法的进一步改进:

样本集采集的数据包括:网址及相应的域名长度、子域名最大长度、字符熵、数字与字母转换率、连续数字长度、连续字母长度、域名a记录、域名ip熵、ns记录数。

本发明多维度检测恶意域名的方法的技术优势为:

本发明期望提供一种恶意域名鉴别方法及装置,能及时、准确地防御恶意域名的攻击,且开销小。本发明综合判定其为恶意域名的准确性将会大大提高,且各模块可单独部署执行效率高,可溯性强。本发明提出的方法减少了对样本的依赖,减低数量级,使用资源少,泛化性能好。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细说明。

图1为本发明多维度检测恶意域名的方法的流程示意图。

具体实施方式

下面结合具体实施例对本发明进行进一步描述,但本发明的保护范围并不仅限于此。

实施例1、多维度检测恶意域名的方法,如图1所示,包括以下步骤:

1)、通过已有的恶意域名信息库关联分析待检测域名。包括:恶意域名对应的ip进行关联、恶意域名生成算法关联及域名相似度算法;

(1.1)、恶意域名对应的ip进行关联:查询恶意域名情报库,根据当前域名对应ip查询原有情报库中是否有对应匹配信息。如果存在,则判定为疑似恶意域名;

(1.2)、恶意域名生成算法关联及域名相似度算法:根据当前域名与原有恶意域名库,进行字符信息熵匹配,判定相识度,本方法中阈值设定大于0.75的判定为疑似恶意域名;

在步骤1.1、步骤1.2其中任意一个判断为疑似恶意域名的情况下执行步骤2;

2)、通过对待测域名的属性特征进行分析,通过随机森林算法预测结果判定。

恶意域名与正常域名一般有很不平衡的特征属性,包括:

(2.1)、静态词汇特征:攻击者使用的恶意域名一般通过dga算法生成大量长度很大且不具备语义;

动态dns解析特性:为了规避黑名单和抵制被窃取,恶意域名服务器返回的dns答案通常包含多个dnsa记录(即,地址纪录)或ns纪录(即,名称服务器记录)。

(2.2)、结合以上动静结合的不同属性特征,通过机器学习算法(随机森林算法),针对域名长度、子域名最大长度、字符熵、数字与字母转换率、连续数字长度、连续字母长度、域名a记录、域名ip熵、ns记录数等多维信息预测(从域名以及dns记录中提取),执行步骤2.3判断其为恶意域名的可疑程度。

(2.3)、依据上诉描述维度特征构建特征向量,训练随机森林算法模型;

具体步骤:

(2.3.1),基于威胁情报库(人为预先设置即已知的威胁情报)以及alexa网站排名,构建正负样本集;

(2.3.2),基于上诉特征分析提取特征向量,将黑白名单中的域名作为训练集,过滤掉噪音,训练单个学习器(及决策树),经过多次随机组合训练得到随机森林算法模型;

样本集采集,网址及相应的域名长度、子域名最大长度、字符熵、数字与字母转换率、连续数字长度、连续字母长度、域名a记录、域名ip熵、ns记录数。

一、恶意样本集:

恶意域名主要来源于专业网站下载的恶意域名库、恶意软件逆向工程分析得到的c2域名,以及第三方威胁情报库。

二、白名单样本集:

白名单域名取自alexa网站排名前10000的网站域名。

roc曲线结果分布:

单次结果

(2.3.3),将待检测域名输入随机森林算法模型,得到预测结果。

随机森林采用的采样方法一般是bootstapsampling,对于原始样本集,每次先随机采集一个样本放入采样集,然后放回,经过一定数量的采样后得到一个样本集。由于是随机采样,这样每次的采样集是和原始样本集不同的,和其他采样集也是不同的,这样得到的个体学习器也是不同的。通过n次的随机采样,就可以得到n个样本集。对于这n个样本集,可以分别独立的训练出n个体学习器,再对这n个体学习器通过集合策略来得到最终的输出,这n个体学习器之间是相互独立的,可以并行。最后随机森林的结合策略,选择投票法获取结果。

3)、针对随机森林算法模型得到的预测结果,再根据其实时流量分析其网络行为,主要包括活跃时间、单位时间内的通信次数,ttl响应值,返回信息特征等综合判断其可疑程度。

具体步骤:

(3.1)、基于随机森林算法模型得到的预测结果采集网络流量数据集;

(3.2)、在采集到的网络流量数据集中,按照五元组特征提取出恶意的网络行为数据流;其中,五元组特征是指具有相同的源ip,目的ip,源端口,目的端口和协议类型;

即为:将五元组特征相同且数量大于等于n的网络流量(重复出现),作为恶意的网络行为数据流,其余作为正常应用的网络行为数据流。

(3.3)、根据步骤3.2提取的恶意的网络行为数据流和正常应用的网络行为数据流,构建网络行为序列图,得到正常应用的网络行为序列图和恶意应用的网络行为序列图。包括该域名的流量持续时间,目的端口数量等特征;

(3.4)、根据正常应用的网络行为序列图和恶意应用的网络行为序列图获得图相似匹配程度判断其是否为恶意域名。

4)、实时流量检测分析,小于阈值(预先设置)则视为合法域名,否则视为恶意域名。

最后,还需要注意的是,以上列举的仅是本发明的若干个具体实施例。显然,本发明不限于以上实施例,还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1