本发明属于数据处理技术领域,特别涉及一种海洋大数据共享分发风险控制模型及方法。
背景技术:
随着海洋技术的发展和进步,数据的来源丰富,而且分散存储在不同的海洋单位中,为了满足信息开放共享的要求,各单位间需要共享分发数据,然而数据在共享分发过程中容易有较大的风险发生。首先,海洋数据量大,数据格式多样,计算过程复杂,难以保证数据的完整;其次,目前还没有一套成熟的海洋大数据共享分发风险控制模型及风险控制方法。
在信息开放共享的全球趋势推动下,海洋大数据共享分发,从跨单位科研合作、社会化合作角度、大数据开放角度来看是不可避免的,使得海洋信息的安全显得尤为重要,然而在海洋大数据共享分发的过程中难免存在风险,如何将风险控制在可接受的范围内,用低成本从最大程度上保障数据的安全就成为急需解决的问题。
目前,保证数据安全的技术主要有统一身份认证与授权访问控制、跨资源池数据资产管理和动态调整、平台内数据交换和计算过程安全审计监管等,通过中心平台化支撑和分级分域运维服务的方式,为各类海洋信息应用与服务,以及海洋大数据分级管理、信息共享与业务协同提供统一的信任管理与服务。通过设立敏感限度机制保证潜在损失不超过中心预定的界限,及时止损,避免过度的风险集中。
现有技术采用符号随机投影哈希方法估计向量间的角度相似度,在工业上得到广泛应用,但是它的估计方差大,需要较长的哈希码来估计角度或角度相似度。
技术实现要素:
针对现有技术存在的不足,本发明提供海洋大数据共享分发风险控制模型及方法,通过量化海洋数据的价值特征并计算数据的敏感相似度,结合敏感等级与敏感数据过滤策略库中的阈值比较,对数据采取数据脱敏、阻断或者输出处理,数据传输过程中,将数据挖掘技术应用于入侵检测系统,建立海洋大数据共享分发风险控制模型;所要解决的技术问题是如何将风险控制在可接受的范围内,用低成本从最大程度上保障数据的安全。
为了解决上述技术问题,本发明采用的技术方案是:
首先,本发明提供一种海洋大数据共享分发风险控制模型,包括:
用于数据价值分析和价值特征量化的层次结构模型和判断矩阵;
用于对共享分发的数据采取数据脱敏或数据阻断或允许数据输出处理的敏感数据感知过滤框架。
进一步的,所述的层次结构模型最上层为目标层,为数据价值,用g表示;最下层为准则层,包括时空价值属性、关联价值属性、独立价值属性、开放共享属性和科研合作要求五个准则,用c1,c2,...,c5分别表示准则层的各个因素,各层间的关系用相连的直线表示;所述判断矩阵用于比五个准则因素对目标层因素的影响大小,判断矩阵m:
aij表示ci和cj对g的影响之比,使用1~9标度法来确定aij的值;
对判断矩阵m计算得到特征向量,判断矩阵m具有一致性时,其特征向量为权向量。
进一步的,所述的敏感数据感知过滤框架用于将输入的特征向量与敏感信息库比较确认敏感等级、计算敏感相似度、并与敏感数据过滤策略库中的阈值比较,对数据采取数据脱敏或数据阻断或允许数据输出处理。
另外,本发明还提供了海洋大数据共享分发风险控制模型建立方法,主要包括以下步骤:
a.找出影响风险评估分析的因素并建立因素间相互联系的层次结构模型;
b.构造判断矩阵,给出各因素间相对重要性的定量表示;计算出各因素相对重要性的权重;
c.建立敏感数据感知过滤框架。
进一步的,步骤b中,对构建的判断矩阵进行一致性检验,进行一致性检验时用判断矩阵的范数代替最大特征值计算。
最后,本发明提供一种海洋大数据共享分发风险控制方法,包括以下步骤:
1)运用改进的层次分析法,分析要共享分发的海洋数据的价值安全,对海洋数据的价值特征进行量化,并确定其权重;
2)经过敏感数据感知过滤框架处理选择要共享分发的海洋数据,对量化的价值特征进行处理并计算数据的敏感相似度,结合海洋大数据敏感信息库查询对应的敏感等级,根据敏感相似度、敏感等级与敏感数据过滤策略库中所设置阈值的关系,对要共享分发的数据分别采取数据脱敏或数据阻断或允许数据输出处理;
3)数据传输过程中,通过改进入侵检测系统,将数据共享分发的风险控制在可接受范围内。
进一步的,步骤1)中,利用前述的风险控制模型的判断矩阵对海洋数据的价值特征进行量化,获得特征向量。
进一步的,步骤2)中,数据的敏感相似度运用符号随机投影哈希方法实现,根据输入的特征向量通过海洋大数据敏感信息库查询其对应的敏感等级,然后根据敏感相似度、敏感等级与敏感数据过滤策略库中所设的阈值进行比较,如果小于阈值,那么允许数据传输;如果大于或等于阈值,那么对关键涉海数据阻断或者信息脱敏过滤处理。
进一步的,步骤3)中,建立入侵检测系统,使用决策树算法对攻击行为进行预测来构建攻击链预判方法,改进入侵检测系统的分类器组,预判数据的未来风险;对选择共享分发的数据中添加一个计时器,在计时器中设置每隔一段时间向数据发出方的监控系统发送短信,短信内容以风险计算结果为主,将风险计算结果与监控系统中所设的风险阈值相比较,若超过阈值,那么就发出报警信号并对数据进行拦截或销毁。
与现有技术相比,本发明优点在于:
运用改进的层次分析法,分析数据的价值安全,对数据的价值特征进行量化,从数据价值角度出发建立风险控制模型;
对量化的价值特征进行处理并计算数据的敏感相似度,结合海洋大数据敏感信息库查询对应的敏感等级,根据敏感相似度、敏感等级与敏感数据过滤策略库中所设置阈值的关系,对要共享分发的数据分别采取数据脱敏、阻断或者允许数据输出处理;
数据传输过程中,将数据挖掘技术应用于入侵检测系统,从共享分发的过程中综合考虑,将数据共享分发的风险控制在最小范围内,用低成本从最大程度上保障数据的安全。
附图说明
图1为本发明的海洋大数据共享分发风险控制模型流程图;
图2为本发明的层次结构模型图;
图3为本发明的敏感数据感知过滤流程图。
具体实施方式
本发明的主要设计思路是:
海洋大数据共享分发过程中容易产生风险的因素主要有数据本身所具有的价值以及传输过程中潜在的威胁。海洋大数据共享分发产生的风险具有可控性,我们要从数据价值角度出发建模,首先要从海洋大数据的时空价值属性(同一时间得到不同空间的数据是具有价值的)、关联价值属性(遥感数据,气象数据,水文数据等之间是有关联价值的)、独立价值属性(数据收集计算后的价值升高)、开放共享属性、科研合作需求对数据要求的最低开放性等多个角度,设计风险控制模型。另外,要从共享分发的途径(线上、线下)、网络状况(是否为内部网络还是开放互联网,保密等级)、网络潜在的受攻击状况、分发形式等角度综合考虑。
由风险的可控性,风险管理并不是将负面风险的可能性抹掉,而是将风险控制在一个可以接受的范围内。海洋大数据共享分发风险控制的流程大致是:1)运用改进的层次分析法,分析数据的价值安全,对数据的价值特征进行量化。2)对量化的价值特征进行处理并计算数据的敏感相似度,结合海洋大数据敏感信息库查询对应的敏感等级,根据敏感相似度、敏感等级与敏感数据过滤策略库中所设置阈值的关系,对要共享分发的数据分别采取数据脱敏、阻断或者允许数据输出处理。3)数据传输过程中,通过改进入侵检测系统,将数据共享分发的风险控制在最小范围内。
海洋大数据的共享分发活动是一个动态的博弈过程,很多风险可以通过改变选择共享分发的数据来控制。通过量化海洋数据的价值特征并计算数据的敏感相似度,结合敏感等级与敏感数据过滤策略库中的阈值比较,对数据采取数据脱敏、阻断或者输出处理,数据传输过程中,将数据挖掘技术应用于入侵检测系统,建立海洋大数据共享分发风险控制模型。
下面结合附图及具体实施例对本发明作进一步的说明。
一、模型建立
结合图1说明本海洋大数据共享分发风险控制模型建立流程。
(1)数据价值分析
因为数据价值是一个难以量化的因素,我们可以通过层次分析法来确定数据价值属性的权重。首先要找出影响风险评估系统的因素并建立因素间相互联系的层次结构模型;其次构造判断矩阵,给出各因素间相对重要性的定量表示;最后计算出各因素相对重要性的权重。其中,第二步通常使用专家打分法为各因素间的相对重要性进行定量表示,会带有人为因素干扰判断矩阵的构建,使得到的判断矩阵复杂多样,而且判断矩阵要进行一致性检验,一致性检验时需要计算矩阵的最大特征值,矩阵最大特征值的计算相对麻烦。因此,本发明对构建的判断矩阵进行一致性检验时用矩阵范数代替最大特征值的计算,提高计算的效率。
具体步骤如下:
a.建立层次结构模型
首先将决策问题分解成两个层次,最上层为目标层,即数据价值;最下层为准则层,即时空价值属性、关联价值属性、独立价值属性、开放共享属性和科研合作要求五个准则,各层间的关系用相连的直线表示,如图2表示。
b.构造判断矩阵
用g表示目标层的数据价值,用c1,c2,...,c5分别表示准则层的各个因素,现在要比较五个准则层因素对目标层因素的影响大小,则需要建立判断矩阵。矩阵的构建步骤为:每次取两个准则层因素ci和cj,用aij表示ci和cj对g的影响之比,全部的比较结果可用判断矩阵m:
表示。
为使矩阵中的各要素的重要性能够进行定量表示,我们使用1~9标度法来确定aij的值,具体如表1所示。
表11~9标度法
那么,元素cj与ci的重要性之比为
c.计算权向量并做一致性检验
计算权向量的具体步骤如下:
a.将m的每一列向量归一化得:
b.对
c.将
d.计算判断矩阵m的f-范数:
对判断矩阵m经过步骤a,b,c计算得到特征向量w,通过步骤d计算得到判断矩阵m的范数。然后对判断矩阵进行一致性检验:
计算一致性比例
(2)敏感数据感知过滤
建立敏感数据感知过滤框架;计算量化的数据价值特征的敏感相似度,查询海洋大数据敏感信息库中数据对应的敏感等级。根据敏感相似度、敏感等级与敏感数据过滤策略库中所设置阈值的关系,对要共享分发的数据分别采取数据脱敏或数据阻断或允许数据输出处理。
敏感数据感知过滤框架的流程图如图3所示。
具体过程如下:
对量化的海洋数据价值特征处理并计算敏感相似度,数据的敏感相似度运用符号随机投影哈希方法实现,符号随机投影哈希方法使用符号随机投影哈希函数作用在数据上,生成哈希码,计算两两哈希码的海明距离快速地估计原始数据对间的角度相似度。在形式上,符号随机投影哈希函数的定义如下:
hv(a):=sgn(vtm)(3)
其中,向量a∈rd是函数的输入,v是采样自d维标准正态分布n(0,id)的随机投影向量,符号函数sgn(·)的定义为:
根据输入的特征向量通过海洋大数据敏感信息库查询其对应的敏感等级,然后根据敏感相似度、敏感等级与敏感数据过滤策略库中所设的阈值进行比较,如果小于阈值,那么允许数据传输;如果大于或等于阈值,那么对关键涉海数据阻断或者信息脱敏过滤处理。
(3)安全数据传输协议及中间件的处理:可参考现有技术的入侵检测系统,建立入侵检测系统,使用决策树算法对攻击行为进行预测来构建攻击链预判方法,改进入侵检测系统的分类器组,预判数据的未来风险。
决策树算法是通过对历史数据进行测算实现对新数据进行分类和预测的算法,我们使用决策树算法中的id3算法对数据传输过程中的攻击行为进行分类和预测,将以往的攻击行为的数据集作为训练样本集,生成决策树,采用自顶向下的贪婪搜索遍历可能的决策空间,以信息增益来度量属性的选择,对传输的数据进行预测其可能的攻击行为。其中,假如一个随机变量x的取值为x={x1,x2,...,xn},每一种取到的概率为{p1,p2,...,pn},那么x的熵定义为
意思是一个变量的变化情况越多,那么它携带的信息量就会越大。
对于入侵检测系统来说,类别c就是变量,它的取值为c1,c2,...,cn,而每种类别出现的概率为p(c1),p(c2),...,p(cn),这里的n就是类别的总数,此时入侵检测系统的信息熵可表示为
进一步,信息增益就是针对一个一个特征而言的,就是看一个特征t,系统有它和没有它时的信息量各是多少,两者的差值就是这个特征给系统带来的信息量,即信息增益。我们应用决策树的分类方法,发现异常事件,从而检测入侵行为,使系统的响应单元起作用,发出报警信号。
数据在传输过程中极易受到攻击,需要入侵检测系统进行异常检测,以便及时阻断数据传输并发出报警信号。将数据挖掘技术应用于入侵检测中,可以从审计数据中提取有用的知识,然后用这些知识去检测异常入侵和已知的入侵,其优点是善于处理大量数据的能力和数据关联分析的能力,但是实时性差。可知,入侵检测系统是一种被动的防御系统,可以使用决策树算法对攻击行为进行预测来构建攻击链预判方法,改进入侵检测系统的分类器组,预判数据的未来风险。
二、海洋大数据共享分发风险控制模型
本实施例提供的海洋大数据共享分发风险控制模型,依据步骤一的方法建立,该模型主要包括:
用于数据价值分析和价值特征量化的层次结构模型和判断矩阵;
用于对共享分发的数据采取数据脱敏或数据阻断或允许数据输出处理的敏感数据感知过滤框架;所述的敏感数据感知过滤框架用于将输入的特征向量与敏感信息库比较确认敏感等级、计算敏感相似度、并与敏感数据过滤策略库中的阈值比较,对数据采取数据脱敏或数据阻断或允许数据输出处理;
以及用于实时监控数据传输过程、预判数据未来风险的入侵检测系统。
其中,所述的层次结构模型最上层为目标层,为数据价值,用g表示;最下层为准则层,包括时空价值属性、关联价值属性、独立价值属性、开放共享属性和科研合作要求五个准则,用c1,c2,...,c5分别表示准则层的各个因素,各层间的关系用相连的直线表示;所述判断矩阵用于比五个准则因素对目标层因素的影响大小,判断矩阵m:
aij表示ci和cj对g的影响之比,使用1~9标度法来确定aij的值;
对判断矩阵m计算得到特征向量,判断矩阵m具有一致性时,其特征向量为权向量,由于前面已经介绍了模型建立方法的详细步骤,包括判断矩阵的建立、权向量的确定及敏感数据感知过滤框架的建立等,关于本发明的模型,此处不再赘述。
三、海洋大数据共享分发风险控制方法
建立前述的海洋大数据共享分发风险控制模型后,利用该模型控制海洋大数据共享分发风险,包括以下步骤:
1)运用改进的层次分析法,分析要共享分发的海洋数据的价值安全,对海洋数据的价值特征进行量化,并确定其权重。
该步骤中,利用前述的判断矩阵对海洋数据的价值特征进行量化,获得特征向量,此处不再赘述。
2)经过敏感数据感知过滤框架处理选择要共享分发的海洋数据,对量化的价值特征进行处理并计算数据的敏感相似度,结合海洋大数据敏感信息库查询对应的敏感等级,根据敏感相似度、敏感等级与敏感数据过滤策略库中所设置阈值的关系,对要共享分发的数据分别采取数据脱敏或数据阻断或允许数据输出处理,如图3所示。
对量化的海洋数据价值特征处理并计算敏感相似度,数据的敏感相似度运用符号随机投影哈希方法实现,符号随机投影哈希方法使用符号随机投影哈希函数作用在数据上,生成哈希码,计算两两哈希码的海明距离快速地估计原始数据对间的角度相似度。在形式上,符号随机投影哈希函数的定义如下:
hv(a):=sgn(vtm)(3)
其中,向量a∈rd是函数的输入,v是采样自d维标准正态分布n(0,id)的随机投影向量,符号函数sgn(·)的定义为:
根据输入的特征向量通过海洋大数据敏感信息库查询其对应的敏感等级,然后根据敏感相似度、敏感等级与敏感数据过滤策略库中所设的阈值进行比较,如果小于阈值,那么允许数据传输;如果大于或等于阈值,那么对关键涉海数据阻断或者信息脱敏过滤处理。
3)数据传输过程中,通过改进入侵检测系统,将数据共享分发的风险控制在可接受范围内。
使用决策树算法对攻击行为进行预测来构建攻击链预判方法,改进入侵检测系统的分类器组,预判数据的未来风险,步骤一中关于安全数据传输协议及中间件的处理已经阐述,此处不再赘述。
为了改进数据挖掘技术实时性差的特点,在入侵检测系统中添加实时风险计算,对选择共享分发的数据中添加一个计时器,在计时器中设置每隔一段时间向数据发出方的监控系统发送短信,短信内容以风险计算结果为主,将风险计算结果与监控系统中所设的风险阈值相比较,若超过阈值,那么就发出报警信号并对数据进行拦截或销毁,以起到对数据传输过程实时监控的效果。
综上所述,本发明通过加大数据价值的分析,对敏感数据感知过滤并对传输过程进行风险控制,对攻击行为进行预测并实时监测传输链路,将风险控制在可接受的范围内。
当然,上述说明并非是对本发明的限制,本发明也并不限于上述举例,本技术领域的普通技术人员,在本发明的实质范围内,做出的变化、改型、添加或替换,都应属于本发明的保护范围。