一种基于深度学习的主机恶意行为检测方法与流程

文档序号:17248727发布日期:2019-03-30 08:57阅读:315来源:国知局
本发明属于计算机
技术领域
:,具体涉及一种基于深度学习的主机恶意行为检测方法。
背景技术
::深度学习的前身是机器学习,而机器学习又是一种实现人工智能的方法,它涉及大数据领域,而大数据又涉及到金融、it等方方面面。机器学习最基本的做法,是使用算法来解析数据、从中学习,然后对真实世界中的事件做出决策和预测。与传统的为解决特定任务、硬编码的软件程序不同,机器学习是用大量的数据来“训练”,通过各种算法从数据中学习如何完成任务。深度学习是近年来新兴的技术,深度学习本来并不是一种独立的学习方法,其本身也会用到有监督和无监督的学习方法来训练深度神经网络。但由于近几年该领域发展迅猛,一些特有的学习手段相继被提出(如残差网络),因此越来越多的人将其单独看作一种学习的方法。最初的深度学习是利用深度神经网络来解决特征表达的一种学习过程。深度神经网络本身并不是一个全新的概念,可大致理解为包含多个隐含层的神经网络结构。为了提高深层神经网络的训练效果,人们对神经元的连接方法和激活函数等方面做出相应的调整。现有技术中对主机恶意行为的检测方法主要包含以下几种:1、现有的一些主机恶意行为检测都是基于规则的,属于传统的检测方法。这种检测方法无法应对病毒或者是恶意软件的变种(此类方法太多就不一一列举)。2、还有一些方法(“基于主机行为特征的恶意软件检测方法”)是针对僵尸、远控木马等恶意软件检测问题,提出一种基于主机行为的异常检测模型。通过持续性分析算法,判断主机与外部特定目标的通信行为是否具有周期性或连续性,提取出可疑的网络行为,并根据网络行为的触发、启动等异常检测规则对这些可疑的网络行为进行分析,判断主机是否感染恶意软件。这种方法不能通过主机内外部的信息流流向来动态的根据监控系统对安全性的要求来调整主机是否是恶意主机的判别标准,若对主机一连串行为的分类过于严格,那么会造成大量的预警。若对主机一连串行为分类过于宽松,又会漏掉一些严重告警。3、另外的一些方法(“learningtodetectandclassifymaliciousexecutablesinthewild”)通过使用机器学习和数据挖掘来检测恶意可执行文件(包括:病毒,蠕虫和特洛伊木马),其中,他第一步使用n-gram来提取可执行文件askii形式的16进制代码,以它作为基础特征向量来进行变换,然后在其基础上进行分类得到结果,但未使用在主机的恶意行为的检测上,而且提取的特征和方法也不同。现有检测方法存在的问题是:没有通过主机内外部的信息流流向来动态的根据监控系统对安全性的要求来调整主机是否是恶意主机的判别标准,若对主机一连串行为的分类过于严格,那么会造成大量的预警。若对主机一连串行为分类过于宽松,又会漏掉一些严重告警。而且现有的检测方法也不能对整个信息流图进行一个全面的评估,判断出在一段时间内整个拓扑图中有多少恶意主机,占比有多大。技术实现要素:本发明提出一种基于深度学习的主机恶意行为检测方法,以克服现有技术中的问题。为达到本发明的目的,本发明所采用的技术方案是:一种基于深度学习的主机恶意行为检测方法,对要判定行为的主机的内、外部信息流进行跟踪,不断并依次形成多个信息流序列组;提取每组信息流序列组内部和外部特征以及标签输入模型,对模型进行训练,形成分类模型,然后使用分类模型对信息流是否恶意进行鉴别。具体的,依次包括下述步骤:步骤一、以一台主机为源头,提取这台主机内部信息流序列行为;步骤二、提取以这台主机为源头的且直接或间接与这台主机相连的一系列主机的主机内部信息流行为序列;步骤三、提取这些主机间的信息流序列;步骤四、将所有信息流序列的这些数字特征和标签分为三组;第一组用于训练模型,第二组用于测试训练精度并不断调整模型使测试精度达到最高,第三组用于实际测量精度;步骤五、对第一组数字特征和分类的标签输入分类器中进行分类,分类器包括神经网络,cnn,调节分类器的输入节点数、层数、隐藏层节点数参数,根据系统类型提高或降低分类精度;具体的,通过精确率、准确率、f值等指标判断模型的好坏,调节模型参数,确定分类模型;步骤六、将第二组数字特征和分类的标签输入训练好的成熟模型中,对模型的输出结果进行测评,通过精确率、准确率、f值、业务需求等指标判断模型的好坏,调节模型参数评估并修正模型;步骤七、重复执行第五、六步,直到满足条件为止,确定最终的成熟模型;步骤八、将第三组数字特征和分类的标签输入到成熟模型中,对模型的输出结果进行测评,得到实际测量值,也就是可以判定每一个链条是否为攻击链;步骤九、根据实际测量值,通过对每一条信息流序列分类的结果,判断由这些信息流序列组成的信息流图中的计算机及服务器的受攻击范围及严重情况。进一步的,步骤一中,以一台主机为源头,提取这台主机内部信息流序列行为,具体方法包括,主机内部信息流行为构成的有限状态自动机是否存在低安全级向高安全级读的非法行为,如有标识为1,若无标识为0。进一步的,步骤二中,提取以这台主机为源头的且直接或间接与这台主机相连的一系列主机的主机内部信息流行为序列,具体方法包括,主机内部信息流行为构成的有限状态自动机是否存在低安全级向高安全级读的非法行为,如有标识为1,若无标识为0。进一步的,步骤三中,提取这些主机间的信息流序列,具体方法包括,机器的节点编号,每台机器接收到的比特数、字节数、包数、持续时间、每秒比特数、每秒字节数。进一步的,步骤四中,将所有信息流序列的这些数字特征和标签分为三组,其中,第一组占60%,第二组占20%,第三组占20%。与现有技术相比,本发明的优点是:1、本发明方法可以针对每一条信息流序列进行分类,这些信息流汇聚成信息流图后,可根据对每一条信息流序列分类的结果,判断由这些信息流序列组成的信息流图中的计算机及服务器的受攻击范围及严重情况。2、本发明方法可通过信息流分析及深度学习方法根据需要动态的调整被分类主机行为流量分配到正常行为和恶意行为的比例以及范围、判断网络拓扑图中恶意主机的所占的比例;如果信息系统是保密系统或对安全要求严格,则被检测行为流量和异常行为流量在相似度为20%时,就将被检测主机行为流量信息归类为恶意流量并预警、采取措施,若信息系统民用而且对安全要求比较宽松,那么可在相似度为50%的行为流量出现时才将其分为恶意流量。附图说明图1为本发明步骤八形成成熟模型的过程示意图。图2为本发明步骤九中判定每一条信息流序列分类的结果示意图。具体实施方式下面通过具体实施方式结合附图对本发明作进一步详细说明。说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。本发明方法的关键点在于通过深度学习网络来调节主机恶意行为和正常行为的判别标准,可达到按照系统的安全要求来告警的需求。着重涉及以下几点:1.提取每台主机一连串内、外信息流行为的特征的方法;2.实现根据安全需求不断调整模型分类的判别标准;3.根据分类结果判断恶意主机在拓扑图中所占的比例。总体来说,需要对要判定行为的主机的内、外部信息流进行跟踪,不断形成信息流序列组,依次形成多个信息流序列组。提取每组信息流序列组内部和外部特征以及标签输入模型,对模型进行训练,形成分类模型;然后使用分类模型对信息流是否恶意进行鉴别。下面介绍本发明的一个具体的实施例:一种基于深度学习的主机恶意行为检测方法,依次包括下述步骤:步骤一、以一台主机为源头,提取这台主机内部信息流序列行为;步骤二、提取以这台主机为源头的且直接或间接与这台主机相连的一系列主机的主机内部信息流行为序列;步骤三、提取这些主机间的信息流序列;步骤四、将所有信息流序列的这些数字特征和标签分为三组;第一组用于训练模型,第二组用于测试训练精度并不断调整模型使测试精度达到最高,第三组用于实际测量精度;步骤五、对第一组数字特征和分类的标签输入分类器中进行分类,分类器包括神经网络,cnn,调节分类器的输入节点数、层数、隐藏层节点数参数,根据系统类型提高或降低分类精度;具体的,通过精确率、准确率、f值等指标判断模型的好坏,调节模型参数,确定分类模型;步骤六、将第二组数字特征和分类的标签输入训练好的成熟模型中,对模型的输出结果进行测评,通过精确率、准确率、f值、业务需求等指标判断模型的好坏,调节模型参数评估并修正模型;步骤七、重复执行第五、六步,直到满足条件为止,确定最终的成熟模型;步骤八、参见图1,将第三组数字特征和分类的标签输入到成熟模型中,对模型的输出结果进行测评,得到实际测量值,也就是可以判定每一个链条是否为攻击链;步骤九、参见图2,根据实际测量值,通过对每一条信息流序列分类的结果,判断由这些信息流序列组成的信息流图中的计算机及服务器的受攻击范围及严重情况。进一步的,步骤一中,以一台主机为源头,提取这台主机内部信息流序列行为,具体方法包括,主机内部信息流行为构成的有限状态自动机是否存在低安全级向高安全级读的非法行为,如有标识为1,若无标识为0。进一步的,步骤二中,提取以这台主机为源头的且直接或间接与这台主机相连的一系列主机的主机内部信息流行为序列,具体方法包括,主机内部信息流行为构成的有限状态自动机是否存在低安全级向高安全级读的非法行为,如有标识为1,若无标识为0。进一步的,步骤三中,提取这些主机间的信息流序列,具体方法包括,机器的节点编号,每台机器接收到的比特数、字节数、包数、持续时间、每秒比特数、每秒字节数。进一步的,步骤四中,将所有信息流序列的这些数字特征和标签分为三组,其中,第一组占60%,第二组占20%,第三组占20%。本领域技术人员可以理解,上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述实施方式中全部或部分功能。以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。对于本发明所属
技术领域
:的技术人员,依据本发明的思想,还可以做出若干简单推演、变形或替换。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1