基于动态克隆选择算法的工业云数据安全自动化生产线的制作方法
【专利摘要】本发明涉及基于动态克隆选择算法的工业云数据安全自动化生产线,特别是涉及一种基于动态克隆选择算法的工业云数据安全存储与高效计算框架的工业自动化生产线,本发明将工业现场采集到的大量生产数据打包作为输入传入云数据中心。存储区应用改进的基于动态克隆选择算法进行数据的安全防护,计算区根据用户请求提取相应的存储数据时,只需发送请求到控制节点,提取相应数据自体集进入存储区进行匹配。对于外界访问,如果得到的数据自体集与存储区服务器中“记忆”自体集完全匹配,则通过认证允许读写数据;如果此轮匹配失败则立即进行“记忆”检测器匹配,若能匹配则允许数据访问;否则,启用常规检测器检测。
【专利说明】
基于动态克隆选择算法的工业云数据安全自动化生产线
技术领域
[0001 ]本发明属技术领域,涉及基于动态克隆选择算法的工业云数据安全自动化生产 线,特别是涉及一种基于动态克隆选择算法的工业云数据安全存储与高效计算框架的工业 自动化生产线。
【背景技术】
[0002]进入21世纪以后,随着社会信息化和网络化的快速发展导致各行各业数据量的爆 炸式增长。据不完全统计,2012年全球信息总量达到2.7ZB,而到2015年这一数值预计达到 8ZB。如此大规模数据的有效存储与利用对当下科学计算模式提出了新的要求。同时,互联 网上的海量计算机资源利用率一直处于不平衡状态,例如,一些企业和用户在某段时间内 需要大量的计算和存储资源,而在大部分其他时段内需要的资源量有限。另一方面,数据中 心硬件建设和管理维护所需的成本不断增加。因而继网格计算与并行计算之后,云计算模 式被提出,用来实现资源和计算能力的分布式共享,解决海量数据的存储和处理问题。 [0003]云计算技术作为一种商业模式,它将计算任务分布在大量计算机构成的资源池 上,使用用户能够按需获取计算能力、存储空间和信息服务,从而实现负载均衡,提高硬件 资源的利用率。云计算在迅猛发展的同时,其安全问题,尤其是数据存储的安全性和隐私性 问题日益突出。Gartner 2009年的调查结果显示,七成以上受访企业的首席技术官(Chief Technology Officer,CTO)认为不采用云计算的首要原因是存在对数据安全性与隐私性的 忧虑;而近年来,Amazon、Google等云计算技术发起者不断被爆出各种安全事故更加剧了人 们的担忧。相比于传统的数据安全,云数据中心的数据更加集中,对于企业用户来讲,一旦 其存储在云数据中心的数据遭到泄露将给这些企业带来致命的风险。正如网络巨头思科公 司首席执行官John Chambers预言,数据安全将成为云计算前进道路上的"噩梦"。
[0004] 云计算因其具有资源利用率高、节约成本等各方面的优点而将成为未来的主流计 算模式。然而,包括隐私保护在内的数据安全存储问题却成为云计算推广的巨大障碍。目前 对云计算数据存储安全性技术研究,主要从加密存储、安全审计和密文访问控制三个方面 进行展开。加密无疑是保护云中存储数据的安全性和隐私性的重要方法之一,当前对云数 据加密存储的研究主要围绕云数据安全存储框架和安全存储技术进行,被关注的安全存储 技术包括同态加密技术、基于加解密的数据安全存储技术、支持查询的数据加密技术和面 向可信平台的数据安全存储技术。能解决企业存储与快速计算能力不足是云计算的重要优 势之一,这意味着云数据中心应该支持海量数据的安全存储。显然,对于海量数据,加密存 储并不是一种高效的方式。确实,传统数据加密技术可以给数据带来安全性的保证,但是在 云数据中心,数据的存储与快速的数据计算是几乎同步的,对数据的加密存储会影响数据 计算的速度。同时,加密存储、安全审计和密文访问控制技术都是被动的数据安全防护机 制,对于云环境下实时变化网络环境和高效的计算模式,积极主动的安全防护方式更加适 合。
[0005] 正如以上所说,云安全是制约云计算发展的重要因素。解决云安全难题,提升云计 算的数据处理能力是今后大数据时代的必备前提。
【发明内容】
[0006] 本发明所要解决的技术问题是提供基于动态克隆选择算法的工业云数据安全自 动化生产线,特别是提供一种基于动态克隆选择算法的工业云数据安全存储与高效计算框 架的工业自动化生产线。本发明提出的应用于自动化生产线的基于动态克隆选择算法的工 业云数据安全存储与高效计算框架,面对复杂变化的云计算网络环境采用更加积极主动的 安全防御机制,不但可以实现云数据中心的数据安全更加提升了数据计算速率,为实现智 能化的工业生产提供可靠的技术支持。
[0007] 本发明的基于动态克隆选择算法的工业云数据安全自动化生产线,工业自动化生 产线由若干工业机器人组成,所述工业自动化生产线还包括工业现场数据采集模块、云数 据中心和终端用户;
[0008] 所述工业现场数据采集模块通过安装在每个工业机器人的传感器实时采集工业 现场数据,通过路由协议汇总到簇头节点并进行数据的异常值剔除以及数据压缩后汇聚到 s ink节点,再打包传输到所述云数据中心,在云数据中心中形成待存储数据包;
[0009] 所述云数据中心包括云端数据存储区、云端数据计算区、云端控制节点和云端监 测节点;
[00?0]所述云端数据存储区是由基于Apache的Hadoop分布式系统架构搭建的存储服务 器集群,该集群至少包含现场数据形成的自体集以及由自体集产生的检测器集、"记忆"自 体集和"记忆"检测器;
[0011] 所述自体集由待存储数据包经过特征提取并降维得到数据的低维表示,所述自体 集采用实值形态空间表示的方法,包含数据热度值;所述数据热度值是指存储数据被访问 次数,根据外界访问量自加;根据数据热度值排序,取前η个自体集作为"记忆"自体集,存储 在所述云端数据存储区并传输到所述云端控制节点;根据计算区的访问请求赋予其"记忆" 自体集,用于与存储区自体集快速匹配,实现计算数据的快速提取;
[0012] 所述检测器集由多个检测器构成;检测器同样采用特征提取、降维得到数据的低 维表示并且采用实值形态空间表示的方法,自适应学习实时变化的网络环境,提取环境中 出现的有效特征构成动态疫苗库,对不适合的检测器采用状态变异,实现检测器的动态更 新;选择通过自体耐受并且在生命周期内检测率高的检测器作为"记忆"检测器;
[0013]所述云端控制节点作为Hadoop平台的唯一NameNote节点,完成将待存储数据包分 块存储到各个存储服务器中,各个存储服务器作为DataNote节点,存储区"记忆"自体集传 入控制节点;
[0014] 所述监测节点为监测云端服务器的运行状况;
[0015] 所述终端用户,是指用户所操作的智能终端,用户通过终端提出访问请求,计算区 将用户所需要的计算后的数据回显给用户;
[0016] 计算区访问存储区数据需要先将访问请求发送到所述云端控制节点,提取存放在 所述云端控制节点的"记忆"自体集,然后与所述云端数据存储区的"记忆"自体集进行匹 配,如果能够完全匹配成功则允许数据访问;如果不能完全匹配成功,那么将云端控制节点 的"记忆"自体集与所述云端数据存储区的"记忆"检测器进行匹配,若能匹配则允许访问, 否则启动安全防御机制,即将该访问当做外来入侵,将其数据特征收入疫苗库,为之后的检 测器生成提供资源。
[0017] 数据的存储安全采用动态克隆选择算法,该算法仅相对于检测器而言,存储区成 熟检测器的数量与质量决定了云端数据的安全性,如果成熟检测器在一个寿命周期内检测 到的入侵次数达到设定阈值,则将其上升为"记忆"检测器;云端作为一个分布式入侵检测 系统,每个服务器将自身的"记忆"检测器进行克隆共享,可以大大提升云数据中心的安全 系数;云端存储的各项数据是时变的,可以被随时删除也可以随时有新的数据存入云端,对 于被删除的数据,存储区删除其相应的自体集;对于新存储的数据,存储区相应将其提取的 自体加入自体集,形成自体集的动态更新。
[0018] 作为优选的技术方案:
[0019] 如上所述的基于动态克隆选择算法的工业云数据安全自动化生产线,所述自体集 由待存储数据包经过特征提取得到数据的低维表示是指:
[0020] (1)设定待存储数据包的样本格式;
[0022]其中:
[0023] IP地址:采用IPV4(互联网协议第四版)格式,地址长度32位,占用4个字节;
[0024] 传输协议(Protocol_type):协议类型,离散类型,为TCP、UDP或ICMP;
[0025] 连接持续时间(Duration):以秒为单位,连续类型,范围是[0,58329];定义为从 TCP连接以3次握手建立算起,到FIN/ACK连接结束为止的时间;若为UDP协议类型,则将每个 UDP数据包作为一条连接;数据集中出现大量的durat i on = 0的情况,是因为该条连接的持 续时间不足1秒;
[0026]连接状态(Flag):连接正常或错误的状态,离散类型,共11种。'0ΤΗ','REJ', 'RST0','RSTOSiT,'RSTR','SO','SV,'S2','S3','SF','SH' ;表示该连接是否按照协议要 求开始或完成;例如SF表示连接正常建立并终止;S0表示只接到了 SYN请求数据包,而没有 后面的SYN/ACK。其中SF表示正常,其他10种都是error。
[0027]字节数(SrC_byteS):从源主机到目标主机的数据的字节数,连续类型,范围是[0, 1379963888];
[0028] 位置信息:指生产线上工业机器人的具体位置,用于唯一区分不同工业机器人,采 用编号的方式进行处理,即:1、2、3、4、5、…、N,N=10~1024;
[0029] 指令信息:指系统对工业机器人下达的操作指令,采用数据匹配的方式进行,(假 设采用的工业机器人臂为6自由度,自动化工业生产设备正常情况下是4自由度或者6自由 度),采用数字1~6分别对应表示六个自由度:X、Y、Z的移动自由度及绕X、Y、Z的转动自由 度;
[0030] (2)对于所述待存储数据包中的数据经过Hadoop平台分块存储到存储服务器中, 对存储服务器中的数据采用主成分分析(Principal Component Analysis,PCA)的方法进 行降维,并且在降维后对数据进行标准化与正规化处理,处理后的数据作为实值形态空间 的自体样本,所述自体集合S表示为:
[0031] S = (Sr,S:,……,SV );
[0032] 其中,
[0033] Ns为采样得到的自体个数;
[0034]每个自体表示为:
[0035] Si=(Sii,Si2,......,Sid);
[0036] 其中,
[0037] Si表示第i个自体,i = l,2,3,···,NS;
[0038] 表示第i个自体第j维数据特征,并且d为数据样本特征维数的最大值,即j = l, 2,3, ··· ,d;
[0039] 所述自体集S与自体Si以及其中每个自体数据关系如下:
[0041]所述降维是将采集到的高维自体集S通过主成分分析得到自体集的低维空间表 示,降维过程如下:
[0042]计算自体集S每一维属性均值:
[0044]其中,U」表示第j维的平均值;
[0045]计算自体集S的协方差矩阵Σ = (eab)dxd表示如下:
[0048] 其中,a,b取值为1,2,3,…,d;
[0049] 计算协方差矩阵Σ的特征值与特征向量:
[0050] I Σ_λΕ|=0,其中E为单位矩阵;
[0051] 得到协方差矩阵Σ的特征值\6,其中e = l,2,3, ···,(!,以及与特征值相对应的特征 向量I,即:
[0053] 对特征值心进行降序排序,依次计算每个主成分贡献率为
^累积贡献率为:
;其中,Θ为累积贡献率达到〇. 99的特征值个数,Θ <d;
[0054] 取前Θ个累积贡献率达到0.99的特征值所对应的特征向量,构成转换矩阵A,即:
[0055] Α=[ξ[哲…
[0056] 使得
[0057] Ns\tl
[0058] 其中,T为降维后的自体矩阵;
[0059]完成高维数据的降维;
[0060] 所述标准化是指云计算环境下的数据具有多个属性,各属于不同的度量单位,因 而需要对其标准化,使得各属性均值为〇,方差为1,具体过程为:
[0061] 令为工业现场采集到第i个数据的第j维特征,表示第j维的平均值,^表示第 j维的方差;
[0064]然后,对Sij进行标准化处理为:
[0066]所述正规化是指为了防止某一维或者某几维对数据影响过大,同时可以加快程序 运行的收敛速度,计算正规化如下:
[0068]
分别为每一维数据特征的数值最大值与最小值;
[0069] (3)完成上述(2)的自体集数据处理后,为了实现自体集的匹配和热度值比较需要 对原自体增加两个特征属性如下:
[0070] Si= (Sii,Si2,......,Sid,rsi,hotvaluei);
[0071] 其中:
[0072] rSl表示第i个自体样本在自体区域覆盖区域半径;
[0073] hotvaluei表示第i个自体样本数据的热度值即对应的存储数据被访问的次数。 [0074]如上所述的基于动态克隆选择算法的工业云数据安全自动化生产线,所述检测器 集表示为:
[0075] D = \D',D"……丨.:
[0076] 其中,
[0077] Ndet为检测器个数;
[0078]每个检测器表示为:
[0079] Di= (Dii,Di2,......,Did,rdi,age,num);
[0080] 其中,
[00811 Di表示第i个检测器;
[0082] 表示第i个检测器第j维数据特征,并且d为数据样本特征维数的最大值;
[0083] rcU表示第i个检测器在非自体区域覆盖区域半径;
[0084] age表不第i个检测器样本数据的寿命;
[0085] num表示检测器检测到的入侵样本数量;
[0086] 实值形态空间下,用于亲和度的计算主要是采用Euclidean距离:
[0088]如上所述的基于动态克隆选择算法的工业云数据安全自动化生产线,所述检测器 的动态更新为检测器集合模拟生物体细胞中的生老病死的概念,加入age的维度属性; [0089]如果成熟检测器在生成时间T Sage内未检测到非法入侵,则将该检测器进行移 位,所述的检测器移位变异方式主要有两种:
[0090]在检测器生成初期,无法通过否定选择的检测器样本,通过变异使其远离自体集, 成为成熟检测器,变异的方式如下:
[0093]其中,rs为自体集半径,rd为检测器半径,affinity为自体集与检测器之间的亲和 力数值,也就是超维空间下自体集与检测器的Eucl idean距离;
[0094] (c)在入侵检测阶段,检测器如果在生命周内没有检测到非法入侵,则将其进行变 异,该变异将检测器向自体集靠近,变异方式如下:
[0097]如果成熟检测器在生成时间age内检测到非法入侵,在每次检测器检测到入侵 时,将该检测器age重置,num数值增加一个单位;当num达到设定的检测数目β时,其中β>5 的正整数,该检测器转为"记忆"检测器。
[0098]如上所述的基于动态克隆选择算法的工业云数据安全自动化生产线,对于云计算 环境下存储资源服务器的可扩展性,即当云数据中心服务器需求量增大的时候,将"记忆" 自体集样本与"记忆"检测器样本克隆到新扩展的服务器中,类似于新生体从母体中获得的 先天性免疫机能。
[0099]如上所述的基于动态克隆选择算法的工业云数据安全自动化生产线,所述完全匹 配成功是指云端控制节点的"记忆"自体集与所述云端数据存储区的"记忆"自体集在多维 空间下的欧式距离为〇;所述能匹配成功是指云端控制节点的"记忆"自体集与所述云端数 据存储区的"记忆"检测器在多维空间下的欧氏距离小于相应自体与检测器半径,即:
[0100] af f inity (Di, Sj) <rsi+rdi ;
[0101] 如上所述的基于动态克隆选择算法的工业云数据安全自动化生产线,m的取值如 下:
[0102] 20<m<500,^.meN*;
[0103] 如上所述的基于动态克隆选择算法的工业云数据安全自动化生产线,Θ为取降维 过程中贡献率> 0.99的维数,Θ的取值如下:
[0104] 0<d 且 ΘΕΝ*;
[0105] 本发明对于云计算环境下存储资源服务器的可扩展性,将"记忆"自体集样本与 "记忆"检测器样本克隆到新扩展的服务器中,类似于新生体从母体中获得的先天性免疫机 能。本发明的计算区提取控制节点要访问存储区服务器的自体集,经过存储区"记忆"自体 集的第一轮匹配,如果二者完全匹配,则允许数据访问,类似于生物免疫系统的二次应答机 制,实现快速反应。如果存储服务器第一轮匹配失败则立即经过"记忆"检测器进行匹配,实 现较为快速的外界访问资源识别。如果仍然不能匹配,则启用常规检测器检测入侵。经过如 此三轮的入侵检测,对于正常数据,本框架可以实现快速的数据提取,否则,可以更加有效 的阻止外来入侵,并且提取相应特征组建入侵样本特征库,以实现更加优质的检测器。
[0106] 有益效果
[0107]本发明对比已有技术具有以下创新点:
[0108] (1)将生物免疫机制应用到工业云数据安全自动化生产线,而不再仅仅采用被动 的密码防护机制。
[0109] (2)生物免疫机制能够更加主动的应对外来入侵,同时能够自适应学习网络环境、 动态更新检测器集和自体集,因而更加适合复杂多变的云计算环境应用。
[0110] (3)采用动态克隆选择算法的工业云数据安全自动化生产线,充分利用生物免疫 的"二次应答"机制,能够更加快速地提取存储区数据用于计算,尤其适合海量数据的云存 储,可以加快生产线的整体工作效率。
[0111] (4)对于云计算的可扩展性,当用户需求量变大需要的服务器增加时,可以将该控 制节点的"记忆"自体集与存储区"记忆"检测器集预先克隆到新增的服务器中,使得新增的 服务器具有同等数据安全防护能力,类似于生物体的"先天免疫"。
【附图说明】
[0112] 图1为云数据安全存储与高效计算整体结构图
[0113] 图2为实值形态空间入侵检测模型
[0114] 图3为检测器的两种移位方式图
[0115] (a)为检测器生成初期未成熟检测器的变异方式 [0116] (b)为入侵检测阶段低效率检测器变异方式
[0117]图4为自体集动态更新流程图
[0118] 图5为检测器动态更新流程图
[0119] 图6为数据提取流程图
[0120] 图7为存储区入侵检测流程图
【具体实施方式】
[0121] 下面结合【具体实施方式】,进一步阐述本发明。应理解,这些实施例仅用于说明本发 明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术 人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限 定的范围。
[0122] 本发明的基于动态克隆选择算法的工业云数据安全自动化生产线,该生产线框图 如图1所示。工业自动化生产线由若干工业机器人组成,所述工业自动化生产线还包括工业 现场数据采集模块、云数据中心和终端用户;
[0123] 所述工业现场数据采集模块通过安装在每个工业机器人的传感器实时采集工业 现场数据,通过路由协议汇总到簇头节点并进行数据的异常值剔除以及数据压缩后汇聚到 s ink节点,再打包传输到所述云数据中心,在云数据中心中形成待存储数据包;
[0124] 所述云数据中心包括云端数据存储区、云端数据计算区、云端控制节点和云端监 测节点;
[0125]所述云端数据存储区是由基于Apache的Hadoop分布式系统架构搭建的存储服务 器集群,该集群至少包含现场数据形成的自体集以及由自体集产生的检测器集、"记忆"自 体集和"记忆"检测器,理想化的自体集与检测器分布情况如图2所示,其中图中黑色部分表 示自体集,白色圆圈表示检测器集;
[0126]所述自体集由待存储数据包经过特征提取并降维得到数据的低维表示,如图4所 示,所述自体集采用实值形态空间表示的方法,包含数据热度值;所述数据热度值是指存储 数据被访问次数,根据外界访问量自加;根据数据热度值排序,取前m个自体集作为"记忆" 自体集,存储在所述云端数据存储区并传输到所述云端控制节点;根据计算区的访问请求 赋予其"记忆"自体集,用于与存储区自体集快速匹配,实现计算数据的快速提取;
[0127]所述检测器集由多个检测器构成;检测器同样采用特征提取、降维得到数据的低 维表示并且采用实值形态空间表示的方法,自适应学习实时变化的网络环境,提取环境中 出现的有效特征构成动态疫苗库,对不适合的检测器采用状态变异,实现检测器的动态更 新,如图5所示;选择通过自体耐受并且在生命周期内检测率高的检测器作为"记忆"检测 器;
[0128]所述云端控制节点作为Hadoop平台的唯一NameNote节点,完成将待存储数据包分 块存储到各个存储服务器中,各个存储服务器作为DataNote节点,存储区"记忆"自体集传 入控制节点;
[0129] 所述监测节点为监测云端服务器的运行状况;
[0130] 所述终端用户,是指用户所操作的智能终端,用户通过终端提出访问请求,计算区 将用户所需要的计算后的数据回显给用户;
[0131] 计算区访问存储区数据需要先将访问请求发送到所述云端控制节点,提取存放在 所述云端控制节点的"记忆"自体集,然后与所述云端数据存储区的"记忆"自体集进行匹 配,如果能够完全匹配成功则允许数据访问;如果不能完全匹配成功,那么将云端控制节点 的"记忆"自体集与所述云端数据存储区的"记忆"检测器进行匹配,若能匹配则允许访问, 否则启动安全防御机制,即将该访问当做外来入侵,将其数据特征收入疫苗库,为之后的检 测器生成提供资源。
[0132] 数据的存储安全采用动态克隆选择算法,该算法仅相对于检测器而言,存储区成 熟检测器的数量与质量决定了云端数据的安全性,如果成熟检测器在一个寿命周期内检测 到的入侵次数达到设定阈值,则将其上升为"记忆"检测器;云端作为一个分布式入侵检测 系统,每个服务器将自身的"记忆"检测器进行克隆共享,可以大大提升云数据中心的安全 系数;云端存储的各项数据是时变的,可以被随时删除也可以随时有新的数据存入云端,对 于被删除的数据,存储区删除其相应的自体集;对于新存储的数据,存储区相应将其提取的 自体加入自体集,形成自体集的动态更新。
[0133] 作为优选的技术方案:
[0134]如上所述的基于动态克隆选择算法的工业云数据安全自动化生产线,所述自体集 由待存储数据包经过特征提取得到数据的低维表示是指:
[0135] (1)设定待存储数据包的样本格式;
[0136]
[0137] 其中:
[0138] IP地址:采用IPV4(互联网协议第四版)格式,地址长度32位,占用4个字节;
[0139] 传输协议(Protocol_type):协议类型,离散类型,为TCP、UDP或ICMP;
[0140] 连接持续时间(Duration):以秒为单位,连续类型,范围是[0,58329];定义为从 TCP连接以3次握手建立算起,到FIN/ACK连接结束为止的时间;若为UDP协议类型,则将每个 UDP数据包作为一条连接;数据集中出现大量的durat i on = 0的情况,是因为该条连接的持 续时间不足1秒;
[0141]连接状态(Flag):连接正常或错误的状态,离散类型,共11种。'0ΤΗ','REJ', 'RST0','RSTOSiT,'RSTR','SO','SV,'S2','S3','SF','SH' ;表示该连接是否按照协议要 求开始或完成;例如SF表示连接正常建立并终止;S0表示只接到了 SYN请求数据包,而没有 后面的SYN/ACK。其中SF表示正常,其他10种都是error。
[0142] 字节数(SrC_byteS):从源主机到目标主机的数据的字节数,连续类型,范围是[0, 1379963888];
[0143] 位置信息:指生产线上工业机器人的具体位置,用于唯一区分不同工业机器人,采 用编号的方式进行处理,即:1、2、3、4、5、…、N,N=10~1024;
[0144] 指令信息:指系统对工业机器人下达的操作指令,采用数据匹配的方式进行,(假 设采用的工业机器人臂为6自由度,自动化工业生产设备正常情况下是4自由度或者6自由 度),采用数字1~6分别对应表示六个自由度:X、Y、Z的移动自由度及绕X、Y、Z的转动自由 度;
[0145] (2)对于所述待存储数据包中的数据经过Hadoop平台分块存储到存储服务器中, 对存储服务器中的数据采用主成分分析(Principal Component Analysis,PCA)的方法进 行降维,并且在降维后对数据进行标准化与正规化处理,处理后的数据作为实值形态空间 的自体样本,所述自体集合S表示为:
[0146] ^ -(民.s…'?% );
[0147] 其中,
[0148] Ns为采样得到的自体个数;
[0149] 每个自体表示为:
[0150] Si=(Sii,Si2,......,Sid);
[0151] 其中,
[0152] Si 表示第 i 个自体,i = l,2,3,.",Ns;
[0153] Sy表示第i个自体第j维数据特征,并且d为数据样本特征维数的最大值,即
[0154] j = 1,2,3, ···,(!;
[0155] 所述自体集S与自体Si以及其中每个自体数据关系如下:
[0157]所述降维是将采集到的高维自体集S通过主成分分析得到自体集的低维空间表 示,降维过程如下:
[0158]计算自体集S每一维属性均值:
[0160]其中,表示第j维的平均值;
[0161 ]计算自体集S的协方差矩阵Σ = (eab)dxd表示如下:
[0164] 其中,a,b取值为1,2,3,…,d;
[0165] 计算协方差矩阵Σ的特征值与特征向量:
[0166] | Σ-λΕ|=0,其中E为单位矩阵;
[0167] 得到协方差矩阵Σ的特征值,其中e = l,2,3, ···,(!,以及与特征值相对应的特征 向量I,即:
[0169] 对特征值进行降序排序,依次计算每个主成分贡献率为:
'累积贡献率为:
;其中,Θ为累积贡献率达到〇. 99的特征值个数,Θ < d;
[0170] 取前Θ个累积贡献率达到0.99的特征值所对应的特征向量,构成转换矩阵A,即:
[0171] …civ
[0172] 使得
[0173] 'S- ^ ^cix0. - ;
[0174] 其中,T为降维后的自体矩阵;
[0175] 完成高维数据的降维;
[0176] 所述标准化是指云计算环境下的数据具有多个属性,各属于不同的度量单位,因 而需要对其标准化,使得各属性均值为〇,方差为1,具体过程为:
[0177] 令为工业现场采集到第i个数据的第j维特征,表示第j维的平均值,^表示第 j维的方差;
[0180]然后,对Sij进行标准化处理为:
[0182]所述正规化是指为了防止某一维或者某几维对数据影响过大,同时可以加快程序 运行的收敛速度,计算正规化如下:
[0184]
1分别为每一维数据特征的数值最大值与最小值;
[0185] (3)完成上述(2)的自体集数据处理后,为了实现自体集的匹配和热度值比较需要 对原自体增加两个特征属性如下:
[0186] Si= (Sii,Si2,......,Sid,rsi,hotvaluei);
[0187] 其中:
[0188] rSl表示第i个自体样本在自体区域覆盖区域半径;
[0189] hotvaluei表示第i个自体样本数据的热度值即对应的存储数据被访问的次数。
[0190] 如上所述的基于动态克隆选择算法的工业云数据安全自动化生产线,所述检测器 集表示为:
[0191 ] D = {DvD2,| ;
[0192] 其中,
[0193] Ndet为检测器个数;
[0194] 每个检测器表示为:
[0195] Di= (Dii,Di2,......,Did,rdi,age,num);
[0196] 其中,
[0197] Di表示第i个检测器;
[0198] 表示第i个检测器第j维数据特征,并且d为数据样本特征维数的最大值;
[0199] rcU表示第i个检测器在非自体区域覆盖区域半径;
[0200] age表示第i个检测器样本数据的寿命;
[0201 ] num表示检测器检测到的入侵样本数量;
[0202] 实值形态空间下,用于亲和度的计算主要是采用Euclidean距离:
[0204]如上所述的基于动态克隆选择算法的工业云数据安全自动化生产线,所述检测器 的动态更新为检测器集合模拟生物体细胞中的生老病死的概念,加入age的维度属性; [0205]如果成熟检测器在生成时间T Sage内未检测到非法入侵,则将该检测器进行移 位,所述的检测器移位变异方式主要有两种,如图3所示:
[0206]其中,图3(a)为在检测器生成初期,无法通过否定选择的检测器样本,通过变异使 其远离自体集,成为成熟检测器,变异的方式如下:
[0209] 其中,rs为自体集半径,rd为检测器半径,affinity为自体集与检测器之间的亲和 力数值,也就是超维空间下自体集与检测器的Eucl idean距离;
[0210] 图3(b)为在入侵检测阶段,检测器如果在生命周内没有检测到非法入侵,则将其 进行变异,该变异将检测器向自体集靠近,变异方式如下:
[0213] 如果成熟检测器在生成时间age内检测到非法入侵,在每次检测器检测到入侵 时,将该检测器age重置,num数值增加一个单位;当num达到设定的检测数目β时,其中β>5 的正整数,该检测器转为"记忆"检测器。
[0214] 如上所述的基于动态克隆选择算法的工业云数据安全自动化生产线,对于云计算 环境下存储资源服务器的可扩展性,即当云数据中心服务器需求量增大的时候,将"记忆" 自体集样本与"记忆"检测器样本克隆到新扩展的服务器中,类似于新生体从母体中获得的 先天性免疫机能。
[0215] 如上所述的基于动态克隆选择算法的工业云数据安全自动化生产线,所述完全匹 配成功是指云端控制节点的"记忆"自体集与所述云端数据存储区的"记忆"自体集在多维 空间下的欧式距离为〇;所述能匹配成功是指云端控制节点的"记忆"自体集与所述云端数 据存储区的"记忆"检测器在多维空间下的欧氏距离小于相应自体与检测器半径,即:
[0216] af f inity (Di, Sj) <rsi+rdi ;
[0217] 如上所述的基于动态克隆选择算法的工业云数据安全自动化生产线,m的取值如 下:
[0218] 20<m<500,^.meN*;
[0219] 如上所述的基于动态克隆选择算法的工业云数据安全自动化生产线,Θ为取降维 过程中贡献率> ο. 99的维数,Θ的取值如下:
[0220] 0<d 且 ΘΕΝ%
[0221] 计算区提取控制节点要访问存储区服务器的自体集,提取过程如图6所示,经过存 储区"记忆"自体集的第一轮匹配,如果二者完全匹配,则允许数据访问,类似于生物免疫系 统的二次应答机制,实现快速反应。如果存储服务器第一轮匹配失败则立即经过"记忆"检 测器进行匹配,实现较为快速的外界访问资源识别。如果仍然不能匹配,则启用常规检测器 检测入侵。匹配规则流程图如图7所示,经过如此三轮的入侵检测,对于正常数据,本发明可 以实现快速的数据提取,否则,可以更加有效的阻止外来入侵,并且提取相应特征组建入侵 样本特征库,以实现更加优质的检测器。
【主权项】
1. 基于动态克隆选择算法的工业云数据安全自动化生产线,工业自动化生产线由若干 工业机器人组成,其特征是:所述工业自动化生产线还包括工业现场数据采集模块、云数据 中心和终端用户; 所述工业现场数据采集模块通过安装在每个工业机器人的传感器实时采集工业现场 数据,通过路由协议汇总到簇头节点并进行数据的异常值剔除以及数据压缩后汇聚到Sink 节点,再打包传输到所述云数据中心,在云数据中心中形成待存储数据包; 所述云数据中心包括云端数据存储区、云端数据计算区、云端控制节点和云端监测节 占 . 所述云端数据存储区是由基于Apache的Hadoop分布式系统架构搭建的存储服务器集 群,该集群至少包含现场数据形成的自体集以及由自体集产生的检测器集、"记忆"自体集 和"记忆"检测器; 所述自体集由待存储数据包经过特征提取、标准化和正规化得到数据的低维表示,所 述自体集采用实值形态空间的表示方法,包含数据热度值;所述数据热度值是指存储数据 被访问次数,根据外界访问量自加;根据数据热度值排序,取前m个自体集作为"记忆"自体 集,存储在所述云端数据存储区并传输到所述云端控制节点; 所述检测器集由多个检测器构成;检测器同样采用特征提取、标准化和正规化得到数 据的低维表示,并且采用实值形态空间的表示方法,自适应学习实时变化的网络环境,提取 环境中出现的有效特征构成动态疫苗库,对不适合的检测器采用状态变异,实现检测器的 动态更新;选择通过自体耐受并且在生命周期内检测率高的检测器作为"记忆"检测器; 所述云端控制节点作为Hadoop平台的唯一 NameNote节点,完成将待存储数据包分块存 储到各个存储服务器中,各个存储服务器作为DataNote节点,存储区"记忆"自体集传入控 制节点; 所述监测节点为监测云端服务器的运行状况; 所述终端用户,是指用户所操作的智能终端,用户通过终端提出访问请求,计算区将用 户所需要的计算后的数据回显给用户; 计算区访问存储区数据需要先将访问请求发送到所述云端控制节点,提取存放在所述 云端控制节点的"记忆"自体集,然后与所述云端数据存储区的"记忆"自体集进行匹配,如 果能够完全匹配成功则允许数据访问;如果不能完全匹配成功,那么将云端控制节点的"记 忆"自体集与所述云端数据存储区的"记忆"检测器进行匹配,若能匹配则允许访问,否则启 动安全防御机制,即将该访问当作外来入侵,将其数据特征收入疫苗库,为之后的检测器生 成提供资源。2. 根据权利要求1所述的基于动态克隆选择算法的工业云数据安全自动化生产线,其 特征在于,所述自体集由待存储数据包经过特征提取得到数据的低维表示是指: (1)设定待存储数据包的样本格式;其中: IP地址:采用IPV4; 传输协议:TCP、UDP或ICMP; 连接持续时间:以秒为单位,连续类型,范围是[〇,58329]; 连接状态:连接正常或错误的状态; 字节数:从源主机到目标主机的数据的字节数,连续类型,范围是[0,1379963888]; 位置信息:指生产线上工业机器人的具体位置,用于唯一区分不同工业机器人,采用编 号的方式进行处理,即:1、2、3、4、5、…、N,N=10~1024; 指令信息:指系统对工业机器人下达的操作指令,采用数据匹配的方式进行,采用数字 1~6分别对应表示六个自由度:X、Y、Z的移动自由度及绕X、Y、Z的转动自由度; (2)对于所述待存储数据包中的数据经过Hadoop平台分块存储到存储服务器中,对存 储服务器中的数据采用主成分分析的方法进行降维,并且在降维后对数据进行标准化与正 规化处理,处理后的数据作为实值形态空间的自体,所述自体集S表示为: S = (S"S2,……,5,); 其中, Ns为采样得到的自体个数; 每个自体表示为: Si=(Sii,Si2,......,Sid); 其中, Si表示第i个自体,i = l,2,3,"_,Ns; 表示第i个自体第j维数据特征,并且d为数据样本特征维数的最大值,即j = l,2, 3,…,d; 所述自体集S与自体&以及其中每个自体数据关系如下:所述降维是将采集到的高维自体集S通过主成分分析得到自体集的低维空间表示,降 维过程如下: 计算自体集S每一维属性均值:其中,表示第j维的平均值; 计算自体集S的协方差矩阵Σ = (eab)dxd表示如下:其中,a,b取值为1,2,3,…,d; 计算协方差矩阵Σ的特征值与特征向量: Σ_λΕ | =0,其中E为单位矩阵; 得到协方差矩阵Σ的特征值,其中e = l,2,3,···,(!,以及与特征值相对应的特征向量 le,即: LH '^42 U ^dbj 二y 对特征值I进行降序排序,依次计算每个主成分贡献率为^累积贡献率^ ;其 ,.--1 中,Θ为累积贡献率达到0.99的特征值个数,Θ < d; 取前Θ个累积贡献率达到〇.99的特征值所对应的特征向量,构成转换矩阵A,即: 使得 其中,T为降维后的自体矩阵;完成高维数据的降维; 所述标准化是指云计算环境下的数据具有多个属性,各属于不同的度量单位,因而需 要对其标准化,使得各属性均值为〇,方差为1,具体过程为: 令为工业现场采集到第i个数据的第j维特征,Uj表示第j维的平均值,表示第j维的 方差;i=I 然后,对Su进行标准化处理为:所述正规化是指为了防止某一维或者某几维对数据影响过大,同时可以加快程序运行 的收敛速度,计算正规化如下:其中,max(sj ' mWA:)分别为每一维数据特征的数值最大值与最小值; l<i<Ns H!<Ns (3)完成上述(2)的自体集数据处理后,为了实现自体集的匹配和热度值比较需要对原 自体增加两个特征属性如下: Si - ( Sil , Si2 ,......, Sid , rSi , hotvalllGi ); 其中: rSl表示第i个自体样本在自体区域覆盖区域半径; hotvaluei表示第i个自体样本数据的热度值即对应的存储数据被访问的次数。3. 根据权利要求1所述的基于动态克隆选择算法的工业云数据安全自动化生产线,其 特征在于,所述检测器集表示为: 其中,Ndet为检测器个数; 每个检测器表示为: Di - (Dii,Di2,......,Did,rdi,age,nurn); 其中, Di表示第i个检测器; Du表示第i个检测器第j维数据特征,并且d为数据样本特征维数的最大值; rcU表示第i个检测器在非自体区域覆盖区域半径; age表示第i个检测器样本数据的寿命; num表示检测器检测到的入侵样本数量; 实值形态空间下,用于亲和度的计算主要是采用Euclidean距离:4. 根据权利要求1所述的基于动态克隆选择算法的工业云数据安全自动化生产线,其 特征在于,所述检测器的动态更新为检测器集合模拟生物体细胞中生老病死的概念,加入 age的维度属性; 如果成熟检测器在生成时间age内未检测到非法入侵,则将该检测器进行移位,所 述的检测器移位变异方式主要有两种: (a) 在检测器生成初期,无法通过否定选择的检测器样本,通过变异使其远离自体集, 成为成熟检测器,变异的方式如下:其中,rs为自体集半径,rd为检测器半径,affinity为自体集与检测器之间的亲和力数 值,也就是超维空间下自体集与检测器的Eucl idean距离; (b) 在入侵检测阶段,检测器如果在生命周内没有检测到非法入侵,则将其进行变异, 该变异将检测器向自体集靠近,变异方式如下:如果成熟检测器在生成时间age内检测到非法入侵,在每次检测器检测到入侵时, 将该检测器age重置,num数值增加一个单位;当num达到设定的检测数目β时,其中β>5的正 整数,该检测器转为"记忆"检测器。5. 根据权利要求1所述的基于动态克隆选择算法的工业云数据安全自动化生产线,其 特征在于,对于云计算环境下存储资源服务器的可扩展性,即当云数据中心服务器需求量 增大的时候,将"记忆"自体集样本与"记忆"检测器样本克隆到新扩展的服务器中,类似于 新生体从母体中获得的先天性免疫机能。6. 根据权利要求1所述的基于动态克隆选择算法的工业云数据安全自动化生产线,其 特征在于,所述完全匹配成功是指云端控制节点的"记忆"自体集与所述云端数据存储区的 "记忆"自体集在多维空间下的欧式距离为0;所述能匹配成功是指云端控制节点的"记忆" 自体集与所述云端数据存储区的"记忆"检测器在多维空间下的欧氏距离小于相应自体与 检测器半径,BP :affinity(Di,Sj) <rsi+rdi。7. 根据权利要求1所述的基于动态克隆选择算法的工业云数据安全自动化生产线,其 特征在于,20<m<500,且mEN*。8. 根据权利要求1所述的基于动态克隆选择算法的工业云数据安全自动化生产线,其 特征在于,Θ为取降维过程中贡献率> 0.99的维数,Θ < d且Θ e
【文档编号】G06N3/12GK105867323SQ201610200268
【公开日】2016年8月17日
【申请日】2016年3月31日
【发明人】任立红, 王伟凯, 丁永生, 郝矿荣, 陈磊
【申请人】东华大学