一种识别C&C周期性回连行为的方法与流程

文档序号:17125839发布日期:2019-03-16 00:25阅读:1348来源:国知局
一种识别C&C周期性回连行为的方法与流程

本发明涉及数字信息的传输,例如电报通信的技术领域,特别涉及一种以通信过程周期性、通信目标稀有性、c&c通信过程的行为特征来无监督判定的识别c&c周期性回连行为的方法。



背景技术:

在网络安全领域,构建命令与控制信道(c&c)是攻击者常用的一种通信手段,当恶意软件在目标主机落地并执行之后,就会伺机和攻击者服务器建立命令与控制信道以便进一步的接受攻击者的指令。通常这种命令与控制信道会通过减少通信周期或者是使用加密的手段隐藏在目标正常网络活动中,通信难以被发现,据统计发现,这种通信行为很多都具有很强的周期性,并且通信的目的地址都不是非常常见。

现有技术中,对于c&c检测主要采用以下两种方式:

1、基于dga动态域名特征检测:即基于合法的dga域名在文本可读性上的差异来进行的检测,其弊端在于过于依赖域名的文本上下文信息,对于短域名的检测效果低下;

2、基于dns请求与响应行为检测:绝大部分恶意软件都利用dns协议来解析攻击者命令与控制服务器所对应的ip地址,而且对于全流量检测来说,研究人员需要消耗大量的计算资源来检测可能发生的攻击事件,而如果采用dns请求与响应报文对进行检测,虽然在时间与计算开销上具有明显的优势,但是dns请求与响应报文对只占全流量的很小比例,攻击者构建的c&c隐蔽信道通常混淆在正常的网络访问流量中,而dns请求与相应行为并不能够完全定位到攻击者c&c服务器,这种访问行为区分度较低,容易导致漏报。

申请号为201610966292.3的中国专利“一种基于周期性检测的恶意软件域名检测方法及系统”提出,首先利用周期性检测方法在dns流中提取出具有周期性的域名集合并对每一个周期性域名形成特征向量,人工打上相应的标签后使用分类器进行对恶意和合法域名的训练,从而预测未标注的域名。本专利的弊端在于认为具有周期性的域名特征向量都具有一定的相似性,然而,合法的域名并不具备这种周期性,显然不具有一定的共性特征,同时,人工对样本进行标注也耗时耗力,效率较低。

申请号为201611264192.2的中国专利“一种恶意c&c服务器确定方法及装置”提出,模拟运行接收到的c&c文件从而获取到关联的ip地址或者url,然后根据c&c文件是否存在预设的操作以及url对应的特征向量中的每个特征参数,进而定位c&c服务器。本专利的弊端在于过分依赖捕获到的c&c文件表现出来的行为,需要对模型进行预先的训练,效率和实用性欠佳。



技术实现要素:

本发明解决的技术问题是,现有技术中,对于c&c的检测存在耗时、效率低且差准率不稳定的问题,本发明提供了一种优化的识别c&c周期性回连行为的方法。

本发明所采用的技术方案是,一种识别c&c周期性回连行为的方法,所述方法包括以下步骤:

步骤1:获得n天内的网络数据,过滤掉目的地址为私网段的通信ip,余下的ip建立特征向量;所述特征向量包括目的主机流行度特征x、通信周期性特征y和周期性强度特征z;

步骤2:利用步骤1的特征向量,建立样本集s=(x,y,z);

步骤3:利用密度最大值异常算法,识别c&c周期性回连行为。

优选地,所述步骤1中,记录与相同目的地址通信的ip数量为目的主机流行度特征x,令目的地址总数为a,其中,1≤i≤a,xi为大于零的整数。

优选地,所述步骤1中,以网络流三元组为统计单位,所述网络流三元组包括源ip、目的ip和目的端口,在n天内共计b组网络流三元组。

优选地,所述步骤1中,按天记录b组网络流三元组的通信间隔t′,并定义最短通信间隔t,若该间隔t′大于定义的最短通信间隔t,则计数,最终取得b组网络流三元组通信间隔撞击计数最多的计数,为通信周期性特征y,其中,1≤j≤b,yj为每个网络流三元组通信间隔撞击计数的最大值,yj为大于零的整数。

优选地,所述步骤1中,以网络流三元组为统计单位,统计网络流三元组的哈希通信间隔计数表,计算频繁通信间隔计数占所述网络流三元组的哈希通信间隔总计数的百分比,为周期性强度特征z,其中,1≤j≤b,

优选地,所述步骤2中,采用z-score模型对样本集s=(x,y,z)进行标准化处理。

优选地,所述步骤3包括以下步骤:

步骤3.1:定义截断距离dc;

步骤3.2:取样本集s中任一样本点,到该样本点距离小于截断距离dc的样本点个数即为该样本点的局部密度ρk;计算样本集s中所有样本点的局部密度,得到局部密度集合ρ={ρ1,ρ2,…,ρk,…,ρj};

步骤3.3:针对样本集s的中每一样本点,找到其余样本点中比当前样本点局部密度高且距离最短的样本点,并计算距离δ1;得到最短距离集合δ={δ1,δ2,…,δk,…,δj};

步骤3.4:以对应的局部密度ρk和最短距离δk计算每一个异常因子得到异常因子集合γ={γ1,γ2,…,γk,…,γj},1≤j≤b;

步骤3.5:计算异常因子均值异常因子标准方差

步骤3.6:当γk∈(μ-3σ,μ+3σ),则认为正常,否则,判定为c&c周期性回连行为。

优选地,所述步骤3.1中,将样本中所有点之间的相互距离d从小到大排序,将前百分之二的距离数值定义为截断距离dc。

本发明提供了一种优化的识别c&c周期性回连行为的方法,通过获得n天内的网络数据,过滤掉目的地址为私网段的通信ip,余下的ip建立包括目的主机流行度特征x、通信周期性特征y和周期性强度特征z的特征向量,建立样本集s=(x,y,z),利用密度最大值异常算法,识别c&c周期性回连行为。本发明利用对网络通讯周期性以及通信目标稀有性的定性与定量,并以密度最大值异常检测算法对行为进行检测,无监督的针对c&c周期性回连行为进行异常检测,异常定位准、检测效率高、实用性强、耗时短。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合实施例对本发明做进一步的详细描述,但本发明的保护范围并不限于此。

本发明涉及一种识别c&c周期性回连行为的方法,所述方法包括以下步骤。

步骤1:获得n天内的网络数据,过滤掉目的地址为私网段的通信ip,余下的ip建立特征向量;所述特征向量包括目的主机流行度特征x、通信周期性特征y和周期性强度特征z。

所述步骤1中,记录与相同目的地址通信的ip数量为目的主机流行度特征x,令目的地址总数为a,其中,1≤i≤a,xi为大于零的整数。

所述步骤1中,以网络流三元组为统计单位,所述网络流三元组包括源ip、目的ip和目的端口,在n天内共计b组网络流三元组。

所述步骤1中,按天记录b组网络流三元组的通信间隔t′,并定义最短通信间隔t,若该间隔t′大于定义的最短通信间隔t,则计数,最终取得b组网络流三元组通信间隔撞击计数最多的计数,为通信周期性特征y,其中,1≤j≤b,yj为每个网络流三元组通信间隔撞击计数的最大值,yj为大于零的整数。

所述步骤1中,以网络流三元组为统计单位,统计网络流三元组的哈希通信间隔计数表,计算频繁通信间隔计数占所述网络流三元组的哈希通信间隔总计数的百分比,为周期性强度特征z,其中,1≤j≤b,

本发明中,过滤掉内网中目的地址为私网段的通信ip的过程中,私网段的通信ip为约定俗成,包括10.0.0.0~10.255.255.255、172.16.0.0~172.31.255.255、192.168.0.0~192.168.255.255。

本发明中,目的主机流行度特征x为n天内统计的内网outbound流量目的地址的入度,即记录下的与相同目的地址通信的ip数量。一般情况下,n>1,用于检测一些周期性的行为。

本发明中,网络流三元组通信间隔计数表字段包含但不限三元组值、通信间隔t′和计数。

本发明中,当通信间隔t′大于定义的最短通信间隔t时,则表示撞击,最终分别取得b组网络流三元组通信间隔撞击计数最多的计数,也就是频繁通信间隔计数,以天为撞击计数单位,取n天中最大值,作为该三元组的周期性特征y。

本发明中,计算频繁通信间隔计数占当前网络流三元组哈希通信间隔总计数的百分比,也就是具有固定周期性特征的占比,作为网络流三元组哈希的周期性强度特征z。

本发明中,网络流三元组计算的得到的哈希值是唯一的,通过计算网络流三元组哈希能够节省空间、提升性能。

本发明中,所有网络流三元组都可以记一个哈希值。

步骤2:利用步骤1的特征向量,建立样本集s=(x,y,z)。

所述步骤2中,采用z-score模型对样本集s=(x,y,z)进行标准化处理。

本发明中,y和z向量都是由网络流三元组为单位,而x向量是以目的ip为单位的,因此,同一个目的ip的不同网络流三元组,其入度值是一样的。

本发明中,步骤2的标准化处理是为了消除特征向量x、y、z之间的量纲。

步骤3:利用密度最大值异常算法,识别c&c周期性回连行为。

所述步骤3包括以下步骤:

步骤3.1:定义截断距离dc;

所述步骤3.1中,将样本中所有点之间的相互距离d从小到大排序,将前百分之二的距离数值定义为截断距离dc。

步骤3.2:取样本集s中任一样本点,到该样本点距离小于截断距离dc的样本点个数即为该样本点的局部密度ρk;计算样本集s中所有样本点的局部密度,得到局部密度集合ρ={ρ1,ρ2,…,ρk,…,ρj};

步骤3.3:针对样本集s的中每一样本点,找到其余样本点中比当前样本点局部密度高且距离最短的样本点,并计算距离δk;得到最短距离集合δ={δ1,δ2,…,δk,…,δj};

步骤3.4:以对应的局部密度ρk和最短距离δk计算每一个异常因子得到异常因子集合γ={γ1,γ2,…,γk,…,γj},1≤j≤b;

步骤3.5:计算异常因子均值异常因子标准方差

步骤3.6:当γk∈(μ-3σ,μ+3σ),则认为正常,否则,判定为c&c周期性回连行为。

本发明通过获得n天内的网络数据,过滤掉目的地址为私网段的通信ip,余下的ip建立包括目的主机流行度特征x、通信周期性特征y和周期性强度特征z的特征向量,建立样本集s=(x,y,z),利用密度最大值异常算法,识别c&c周期性回连行为。本发明利用对网络通讯周期性以及通信目标稀有性的定性与定量,并以密度最大值异常检测算法对行为进行检测,无监督的针对c&c周期性回连行为进行异常检测,异常定位准、检测效率高、实用性强、耗时短。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1