1.本申请涉及知识图谱技术领域,尤其是涉及一种知识图谱的构建方法、装置、可读存储介质及电子设备。
背景技术:2.大数据时代,数据爆发性增长,海量的、各种类型的数据在快速产生。这些庞大复杂的数据信息,通过转换变换、流转流通等,又生成新的数据,汇聚成数据的海洋,进而产生了数据的血缘关系,主要包括数据的产生、加工融合、流转流通,到最终消亡。与此同时,知识图谱很好的展现了这种数据间的交互关系。知识图谱以结构化的方式描述客观世界中的概念、实体及其键的关系,提供了一种更好的组织、管理和理解互联网海量信息的能力。使用户可以更加快速、准确地访问自己需要的知识信息,并进行一定的知识挖局和智能决策,实现知识的智能获取和管理。
3.现阶段,对于知识图谱的建立通常是直接通过单一的算法,基于原始数据库建立对应的知识图谱,通过这种方式建立的知识图谱对数据的描述方式单一,以及对数据之间的关系无法进行动态感知以及描述,从而导致建立的知识图谱与数据之间的关系匹配性较差,准确性较低。
技术实现要素:4.有鉴于此,本申请的目的在于提供一种知识图谱的构建方法、装置、可读存储介质及电子设备,根据通过数据库建立的初始安全知识图谱,构建出对应的全局知识图谱以及局部知识图谱,进而根据全局知识图谱以及局部知识图谱,构建出最终的校验安全知识图谱,通过全局知识图谱以及局部知识图谱可以实现对数据库中数据之间的相互关系的动态以及准确分析,有助于提高构建出的知识图谱的准确性。
5.本申请实施例提供了一种知识图谱的构建方法,所述构建方法包括:
6.基于预设的安全数据库中存储的数据,生成包括多个实体以及多个实体之间的相互关系的初始安全知识图谱;
7.基于所述初始安全知识图谱分别构建全局知识图谱以及局部知识图谱;
8.基于所述全局知识图谱以及所述局部知识图谱,构建出面向数据安全的校验安全知识图谱。
9.进一步的,所述基于预设的安全数据库中存储的数据,生成包括多个实体以及多个实体之间的相互关系的初始安全知识图谱,包括:
10.将预设的安全数据库中存储的数据,转换为对应的包括实体以及实体之间的相互关系的三元组形式;
11.基于确定出的每一个三元组形式,构建与所述安全数据库对应的图模型;
12.将存储在所述安全数据库中的数据对应的存储至所述图模型中,并构建与所述图模型对应的多个索引关系;
13.基于存储有所述安全数据库中的数据的图模型以及多个所述索引关系,生成面向数据安全的初始安全知识图谱。
14.进一步的,通过以下步骤构建所述全局知识图谱:
15.基于所述初始安全知识图谱中存储的多个三元组,构建所述初始安全知识图谱中存储的实体关系的全局无向图;
16.提取所述全局无向图中包括的每种关系的路径特征,并确定每种关系的路径特征的特征权重;
17.基于每种关系的路径特征以及对应的特征权重,构建所述全局知识图谱。
18.进一步的,通过以下步骤构建所述局部知识图谱:
19.在所述全局无向图中,对全局无向图中包括的每种关系提取特定关系子图;
20.构建每个特定关系子图的邻接矩阵以及转移概率矩阵,并在每个转移概率矩阵中计算每个节点之间的转移概率;
21.基于计算出的多个转移概率,构建所述局部知识图谱。
22.进一步的,所述基于所述全局知识图谱以及所述局部知识图谱,构建出面向数据安全的校验安全知识图谱包括:
23.基于全局知识图谱以及所述局部知识图谱,确定与所述全局知识图谱对应的第一路径分数,以及与所述局部知识图谱对应的第二路径分数;
24.基于确定出第一权重系数以及第二权重系数,对第一路径分数以及第二路径分数进行线性加权,确定出综合路径分数;
25.基于所述综合路径分数,构建出面向数据安全的校验安全知识图谱。
26.进一步的,在所述基于所述全局知识图谱以及所述局部知识图谱之后,所述构建方法还包括:
27.确定待检测数据对应的数据关联关系;
28.当所述数据关联关系与所述校验安全知识图谱中对应的数据的校验关联关系的匹配度大于预设阈值时,确定所述待检测数据为异常数据。
29.本申请实施例还提供了一种知识图谱的构建装置,所述构建装置包括:
30.初始图谱生成模块,用于基于预设的安全数据库中存储的数据,生成包括多个实体以及多个实体之间的相互关系的初始安全知识图谱;
31.知识图谱构建模块,用于基于所述初始安全知识图谱分别构建全局知识图谱以及局部知识图谱;
32.校验图谱构建模块,用于基于所述全局知识图谱以及所述局部知识图谱,构建出面向数据安全的校验安全知识图谱。
33.进一步的,所述初始图谱生成模块在用于基于预设的安全数据库中存储的数据,生成包括多个实体以及多个实体之间的相互关系的初始安全知识图谱,所述初始图谱生成模块用于:
34.将预设的安全数据库中存储的数据,转换为对应的包括实体以及实体之间的相互关系的三元组形式;
35.基于确定出的每一个三元组形式,构建与所述安全数据库对应的图模型;
36.将存储在所述安全数据库中的数据对应的存储至所述图模型中,并构建与所述图
模型对应的多个索引关系;
37.基于存储有所述安全数据库中的数据的图模型以及多个所述索引关系,生成面向数据安全的初始安全知识图谱。
38.进一步的,所述知识图谱构建模块用于通过以下步骤构建所述全局知识图谱:
39.基于所述初始安全知识图谱中存储的多个三元组,构建所述初始安全知识图谱中存储的实体关系的全局无向图;
40.提取所述全局无向图中包括的每种关系的路径特征,并确定每种关系的路径特征的特征权重;
41.基于每种关系的路径特征以及对应的特征权重,构建所述全局知识图谱。
42.进一步的,所述知识图谱构建模块用于通过以下步骤构建所述局部知识图谱:
43.在所述全局无向图中,对全局无向图中包括的每种关系提取特定关系子图;
44.构建每个特定关系子图的邻接矩阵以及转移概率矩阵,并在每个转移概率矩阵中计算每个节点之间的转移概率;
45.基于计算出的多个转移概率,构建所述局部知识图谱。
46.进一步的,所述校验图谱构建模块在用于基于所述全局知识图谱以及所述局部知识图谱,构建出面向数据安全的校验安全知识图谱时,所述校验图谱构建模块用于:
47.基于全局知识图谱以及所述局部知识图谱,确定与所述全局知识图谱对应的第一路径分数,以及与所述局部知识图谱对应的第二路径分数;
48.基于确定出第一权重系数以及第二权重系数,对第一路径分数以及第二路径分数进行线性加权,确定出综合路径分数;
49.基于所述综合路径分数,构建出面向数据安全的校验安全知识图谱。
50.进一步的,所述构建装置还包括数据检测模块,所述数据检测模块用于:
51.确定待检测数据对应的数据关联关系;
52.当所述数据关联关系与所述校验安全知识图谱中对应的数据的校验关联关系的匹配度大于预设阈值时,确定所述待检测数据为异常数据。
53.本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的知识图谱的构建方法的步骤。
54.本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上述的知识图谱的构建方法的步骤。
55.本申请实施例提供的知识图谱的构建方法、装置、可读存储介质及电子设备,基于预设的安全数据库中存储的数据,生成包括多个实体以及多个实体之间的相互关系的初始安全知识图谱;基于所述初始安全知识图谱分别构建全局知识图谱以及局部知识图谱;基于所述全局知识图谱以及所述局部知识图谱,构建出面向数据安全的校验安全知识图谱。
56.这样,根据存储在预设的安全数据库中的数据,生成包括多个实体以及多个实体之间相互关系的初始安全知识图谱,并根据初始安全知识图谱构建出全局知识图谱以及局部知识图谱,根据全局知识图谱以及局部知识图谱,构建出面向数据安全的校验安全知识
图谱,从而可以实现对数据库中数据之间的相互关系的动态以及准确分析,有助于提高构建出的知识图谱的准确性。
57.进一步的,根据确定出的待检测的数据关联关系,与构建出的校验知识图谱进行对比法分析,根据待检测数据的数据关系与校验知识图谱中相应数据的数据关系进行对比,从而确定出待检测数据是否异常,通过对安全数据的整理和游走算法的分析,最终得到目标信息,实现数据安全威胁的准确感知与预测。
58.为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
59.为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
60.图1为本申请实施例所提供的一种知识图谱的构建方法的流程图;
61.图2为本申请另一实施例提供的一种知识图谱的构建方法的流程图;
62.图3为本申请实施例所提供的一种知识图谱的构建装置的结构示意图之一;
63.图4为本申请实施例所提供的一种知识图谱的构建装置的结构示意图之二;
64.图5为本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
65.为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。
66.首先,对本申请可适用的应用场景进行介绍。本申请可应用于知识图谱技术领域,大数据时代,数据爆发性增长,海量的、各种类型的数据在快速产生。这些庞大复杂的数据信息,通过转换变换、流转流通等,又生成新的数据,汇聚成数据的海洋,进而产生了数据的血缘关系,主要包括数据的产生、加工融合、流转流通,到最终消亡。与此同时,知识图谱很好的展现了这种数据间的交互关系。知识图谱以结构化的方式描述客观世界中的概念、实体及其键的关系,提供了一种更好的组织、管理和理解互联网海量信息的能力。使用户可以更加快速、准确地访问自己需要的知识信息,并进行一定的知识挖局和智能决策,实现知识的智能获取和管理。
67.经研究发现,现阶段,对于知识图谱的建立通常是直接通过单一的算法,基于原始数据库建立对应的知识图谱,通过这种方式建立的知识图谱对数据的描述方式单一,以及对数据之间的关系无法进行动态感知以及描述,从而导致建立的知识图谱与数据之间的关
系匹配性较差,准确性较低。
68.基于此,本申请实施例提供了一种知识图谱的构建方法,以提高构建出的知识图谱的准确性。
69.请参阅图1,图1为本申请实施例所提供的一种知识图谱的构建方法的流程图。如图1中所示,本申请实施例提供的知识图谱的构建方法,包括:
70.s101、基于预设的安全数据库中存储的数据,生成包括多个实体以及多个实体之间的相互关系的初始安全知识图谱。
71.该步骤中,根据预设的安全数据库中存储的数据,生成与安全知识数据库对应的,包括多个实体以及多个实体关系的,面向安全数据库的初始安全知识图谱。
72.这里,安全数据库是通过特定安全系统获取到的数据安全攻击数据和数据安全领域知识;数据安全领域知识是指网络安全行业内的对应信息,包括三个信息库分别是数据威胁的位置信息数据、安全威胁对应行业数据、攻击类型信息数据。
73.其中,可以通过自带的查询语言可查询安全数据库中的相关数据信息,并对频繁遭受攻击的网络进行动态预警,提升数据安全监测和预防能力。
74.这里,实体可以是安全威胁对应行业数据或是攻击类型信息数据等,实体关系表征了两个实体之前的关系(可以是位置关系、继承关系等)。
75.这里,生成的初始安全知识图谱包含了安全数据库中的全部安全数据,并可以通过子图匹配的方法行对初始安全知识图谱形式的数据安全库进行查询和目标信息的提取,以判断待判断数据的安全威胁。
76.s102、基于所述初始安全知识图谱分别构建全局知识图谱以及局部知识图谱。
77.该步骤中,根据步骤s101确定出的初始安全知识图谱,采用全局随机游走算法构建全局知识图谱,以及采用局部随机游走算法构建局部知识图谱。
78.这里,随机游走也称随机漫步,随机行走等是指基于过去的表现,无法预测将来的发展步骤和方向。核心概念是指任何无规则行走者所带的守恒量都各自对应着一个扩散运输定律,接近于布朗运动,是布朗运动理想的数学状态。
79.这里,全局随机游走算法需要根据初始安全知识图谱中的每个实体以及对应的至少一个实体关系构建全局无向图,从而遍历无向图中的每条路径以及路径特征,从而构建出全局知识图谱,在实际应用中为了避免穷举搜索导致的计算复杂度过高问题,采用了限制步长和随机采样策略,导致算法对于知识图谱微观结构的建模能力被削弱。而这种局部结构细节对于关系推理任务来说是不可忽略的,因此引入局部随机游走,局部随机游走模块首先从构建好的全局图中提取特定关系的子图,然后基于关系子图构造邻接矩阵并计算出转移概率矩阵,从而确定出对应的局部知识图谱。
80.s103、基于所述全局知识图谱以及所述局部知识图谱,构建出面向数据安全的校验安全知识图谱。
81.该步骤中,对步骤s102中确定的全局知识图谱,以及步骤s102中确定的局部知识图谱,以及确定出的局部知识图谱进而构建出面向数据安全的校验安全知识图谱。
82.这里,确定出的校验安全知识图谱,可以作为对数据安全性分析的重要参考,从而确定待分析数据的安全性,实现数据安全威胁的预测和准确感知。
83.本申请实施例提供的知识图谱的构建方法,基于预设的安全数据库中存储的数
据,生成包括多个实体以及多个实体之间的相互关系的初始安全知识图谱;基于所述初始安全知识图谱分别构建全局知识图谱以及局部知识图谱;基于所述全局知识图谱以及所述局部知识图谱,构建出面向数据安全的校验安全知识图谱。
84.这样,根据存储在预设的安全数据库中的数据,生成包括多个实体以及多个实体之间相互关系的初始安全知识图谱,并根据初始安全知识图谱构建出全局知识图谱以及局部知识图谱,根据全局知识图谱以及局部知识图谱,构建出面向数据安全的校验安全知识图谱,从而可以实现对数据库中数据之间的相互关系的动态以及准确分析,有助于提高构建出的知识图谱的准确性。
85.请参阅图2,图2为本申请另一实施例提供的一种知识图谱的构建方法的流程图。如图2中所示,本申请实施例提供的知识图谱的构建方法,包括:
86.s201、基于预设的安全数据库中存储的数据,生成包括多个实体以及多个实体之间的相互关系的初始安全知识图谱。
87.s202、基于所述初始安全知识图谱分别构建全局知识图谱以及局部知识图谱。
88.s203、基于所述全局知识图谱以及所述局部知识图谱,构建出面向数据安全的校验安全知识图谱。
89.s204、确定待检测数据对应的数据关联关系。
90.该步骤中,确定待检测数据对应的数据关联关系。
91.这里,待检测数据的关联关系,表征出待检测数据与其他数据之间的关联关系,一般构建出的数据关联关系为步骤s203构建出的校验安全知识图谱的子图,即待检测数据一般是包含在安全数据库中的。
92.这里,当检测到未出现在校验安全知识图谱中的数据,可以将该待检测数据同步更新至安全数据库中,并根据相应的全局随机游走算法以及随机游走算法将对应的数据更新至对应的校验安全知识图谱中,更新校验安全知识图谱。
93.s205、当所述数据关联关系与所述校验安全知识图谱中对应的数据的校验关联关系的匹配度大于预设阈值时,确定所述待检测数据为异常数据。
94.该步骤中,当步骤s204确定出的数据关联关系与校验安全知识图谱中对应的数据的校验关联关系的匹配度较高(大于预设阈值)时,确定待检测数据异常。
95.这里,对于待检测数据的关联关系与校验安全知识图谱中对应的数据的校验关联关系的匹配度的定义,一般是定义为100%相同,即待检测数据的关联关系时隶属于校验安全知识图谱的子知识图谱。
96.这里,由于构建的校验安全知识图谱中指示的是具有安全威胁的数据的数据属性,即当待检测数据的关联关系与校验安全知识图谱中对应的数据的关联关系一致时,该待检测数据已经存在校验安全知识图谱中指示的安全威胁,因此可以确定待检测数据是一个存在安全威胁的异常数据。
97.其中,s201至s203的描述可以参照s101至s103的描述,并且能达到相同的技术效果,对此不做赘述。
98.进一步的,步骤s201包括:将预设的安全数据库中存储的数据,转换为对应的包括实体以及实体之间的相互关系的三元组形式;基于确定出的每一个三元组形式,构建与所述安全数据库对应的图模型;将存储在所述安全数据库中的数据对应的存储至所述图模型
中,并构建与所述图模型对应的多个索引关系;基于存储有所述安全数据库中的数据的图模型以及多个所述索引关系,生成面向数据安全的初始安全知识图谱。
99.该步骤中,将安全数据库中存储的数据,根据数据之间的关联关系,转换成对应的三元组形式;根据确定出的多个三元组,构建与安全数据库对应的图模型;并将存储在安全数据库中的数据转移存储到图模型中,并构建与图模型对应的多个索引关系,根据存储有安全数据库中数据的图模型以及确定出的多个索引关系,生成面向数据安全的初始安全知识图谱。
100.这里,三元组的形式为:{实体1,关系,实体2}。
101.其中,同一数据库转换的三元组必须有相同的id值,即属于相同关系型数据库的三元组或嵌套结构中处于同一层的三元组的id值相同;嵌套的键
‑
值对的集合需进行递归转换,为了表示集合的嵌套关系,需增加一个三元组关系,它的value值是子集合的id值。
102.这里,将任意嵌套集合转换为三元组采用如下转换公式:
[0103][0104]
ψ
i
(s)=∪
p∈s
φ
i
(p)
[0105]
其中,s表示嵌套的键
‑
值对集合,p代表其中的一个键值对,函数下标表示同一级的三元组有相同的id值i,函数用来转换单个键值对,用来转换键
‑
值对集合,在函数中定义了变量j,表示嵌套子集的id值,通过上面两个函数的递归调用可以将任意嵌套的键值对结构转换为三元组。
[0106]
这里,构建图模型的过程为:得到三元组形式的资源描述框架(resource description framework,rdf)数据,每个数据列为{实体1,关系,实体2};其中提取实体为v,提取关系为e,构建图模型;一个完整的图集合表示为一个二元组g(v,e),其中:实体v是顶点集合;e是图边的集合,且满足e=v
×
v。
[0107]
这里,确定出的多个索引关系可以是通过实体关系值表进行体现,作为图匹配查询的实体关系的获取,请参阅表1,表1为实例中查询表的具体表示形式:
[0108][0109]
表1实例查询表
[0110]
进一步的,通过以下步骤构建所述全局知识图谱:基于所述初始安全知识图谱中存储的多个三元组,构建所述初始安全知识图谱中存储的实体关系的全局无向图;提取所述全局无向图中包括的每种关系的路径特征,并确定每种关系的路径特征的特征权重;基于每种关系的路径特征以及对应的特征权重,构建所述全局知识图谱。
[0111]
该步骤中,根据初始安全知识图谱中存储的多个三元组,构建与初始安全图谱对应的全局无向图,并从全局无向图中提取出每种关系的路径特征,并确定出每种关系的路径特征的特征权重,根据全局无向图中包括的每种关系路径,以及每条关系路径对应的特
征权重,构建全局知识图谱。
[0112]
这里,边没有方向的图成为无向图,无向图可以表示为:g(v,e),无向图中的边均是顶点的无序对,无序对通常用圆括号表示,例如,无序对(vi,vj)和(vj,vi)表示同一条边。
[0113]
这里,可以通过路径排序算法(pra)的建模思路,将知识图谱中的关系路径作为推理的规则依据,并通过训练获得每个路径特征的权重,权重值的大小体现了不同路径所代表的规则对于预测特定关系的重要性。
[0114]
进一步的,通过以下步骤构建所述局部知识图谱:在所述全局无向图中,对全局无向图中包括的每种关系提取特定关系子图;构建每个特定关系子图的邻接矩阵以及转移概率矩阵,并在每个转移概率矩阵中计算每个节点之间的转移概率;基于计算出的多个转移概率,构建所述局部知识图谱。
[0115]
该步骤中,在根据初始安全知识图谱中存储的多个三元组确定出的全局无向图中,对每种关系提取特定关系子图;并构建每个特定关系子图对应得到邻接矩阵以及转移概率矩阵,并在每个转移概率矩阵中计算每个节点之间的转移概率,根据计算出的多个转移概率,构建对应的局部知识图谱。
[0116]
这里,转移概率矩阵中各元素都是非负的,并且各行元素之和等于1,各元素用概率表示,在一定条件下是互相转移的。
[0117]
其中,p(k)表示k步转移概率矩阵。
[0118]
这里,在构建完转移概率矩阵后,通过获取k步转移概率来构建局部知识图谱,针对任意关系r
i
的局部子图g
i
,通过在g
i
上执行随机游走,得到g
i
中头、尾实体之间的转移概率,并以此作为衡量实体对之间存在关系r
i
的依据。
[0119]
进一步的,步骤s203包括:基于全局知识图谱以及所述局部知识图谱,确定与所述全局知识图谱对应的第一路径分数,以及与所述局部知识图谱对应的第二路径分数;基于确定出第一权重系数以及第二权重系数,对第一路径分数以及第二路径分数进行线性加权,确定出综合路径分数;基于所述综合路径分数,构建出面向数据安全的校验安全知识图谱。
[0120]
该步骤中,确定出与全局知识图谱对应的第一路径分数,以及与所述局部知识图谱对应的第二路径分数,根据相应的第一权重系数以及第二权重系数,对第一路径分数以及第二路径分数进行线性加权,确定出每一条路径的综合路径分数,从而构建出面向数据安全的校验安全知识图谱。
[0121]
这里,全局随机游走算法中需要遍历全局无向图中包括的全部关系路径,为了避免穷举搜索导致的计算复杂度过高问题,采用了限制步长和随机采样策略,导致算法对于知识图谱微观结构的建模能力被削弱。而这种局部结构细节对于关系推理任务来说是不可忽略的,因此需要引入局部随机游走算法,并且对于局部权重系数的确定与应用场景有关,在此不做具体限定。
[0122]
这里,局部知识图谱对应的第二权重系数在整个算法中的重要性,可以根据不同的应用场景进行随机调整,在此不做具体限制。
[0123]
这里,可以通过以下公式对第一路径分数以及第二路径分数进行加权求和:
[0124]
f(h,r,t)=g(h,r,t)+α
·
l(h,r,t);
[0125]
其中,函数f(h,r,t)为trwa算法对于三元组(h,r,t)的正确性给出的评分,f(h,r,t)的结果越大,说明h和r之间包含关系r的概率越大。α≥0为权重因子,表示局部随机知识图谱l(h,r,t)在整个算法中的重要性。通过调节α的取值,有助于构建的校验安全知识图谱更好的适应不同场景下的数据检测需求。
[0126]
本申请实施例提供的知识图谱的构建方法,基于预设的安全数据库中存储的数据,生成包括多个实体以及多个实体之间的相互关系的初始安全知识图谱;基于所述初始安全知识图谱分别构建全局知识图谱以及局部知识图谱;基于所述全局知识图谱以及所述局部知识图谱,构建出面向数据安全的校验安全知识图谱;确定待检测数据对应的数据关联关系;当所述数据关联关系与所述校验安全知识图谱中对应的数据的校验关联关系的匹配度大于预设阈值时,确定所述待检测数据为异常数据。
[0127]
这样,根据存储在预设的安全数据库中的数据,生成包括多个实体以及多个实体之间相互关系的初始安全知识图谱,并根据初始安全知识图谱构建出全局知识图谱以及局部知识图谱,根据全局知识图谱以及局部知识图谱,构建出面向数据安全的校验安全知识图谱,从而可以实现对数据库中数据之间的相互关系的动态以及准确分析,有助于提高构建出的知识图谱的准确性。
[0128]
进一步的,根据确定出的待检测的数据关联关系,与构建出的校验知识图谱进行对比法分析,根据待检测数据的数据关系与校验知识图谱中相应数据的数据关系进行对比,从而确定出待检测数据是否异常,通过对安全数据的整理和游走算法的分析,最终得到目标信息,实现数据安全威胁的准确感知与预测。
[0129]
请参阅图3、图4,图3为本申请实施例所提供的一种知识图谱的构建装置的结构示意图之一,图4为本申请实施例所提供的一种知识图谱的构建装置的结构示意图之二。如图3中所示,所述构建装置300包括:
[0130]
初始图谱生成模块310,用于基于预设的安全数据库中存储的数据,生成包括多个实体以及多个实体之间的相互关系的初始安全知识图谱;
[0131]
知识图谱构建模块320,用于基于所述初始安全知识图谱分别构建全局知识图谱以及局部知识图谱;
[0132]
校验图谱构建模块330,用于基于所述全局知识图谱以及所述局部知识图谱,构建出面向数据安全的校验安全知识图谱。
[0133]
进一步的,如图4所示,所述构建装置300还包括数据检测模块340,所述数据检测模块340用于:
[0134]
确定待检测数据对应的数据关联关系;
[0135]
当所述数据关联关系与所述校验安全知识图谱中对应的数据的校验关联关系的匹配度大于预设阈值时,确定所述待检测数据为异常数据。
[0136]
进一步的,所述初始图谱生成模块310在用于基于预设的安全数据库中存储的数据,生成包括多个实体以及多个实体之间的相互关系的初始安全知识图谱,所述初始图谱生成模块310用于:
[0137]
将预设的安全数据库中存储的数据,转换为对应的包括实体以及实体之间的相互关系的三元组形式;
[0138]
基于确定出的每一个三元组形式,构建与所述安全数据库对应的图模型;
[0139]
将存储在所述安全数据库中的数据对应的存储至所述图模型中,并构建与所述图模型对应的多个索引关系;
[0140]
基于存储有所述安全数据库中的数据的图模型以及多个所述索引关系,生成面向数据安全的初始安全知识图谱。
[0141]
进一步的,所述知识图谱构建模块320用于通过以下步骤构建所述全局知识图谱:
[0142]
基于所述初始安全知识图谱中存储的多个三元组,构建所述初始安全知识图谱中存储的实体关系的全局无向图;
[0143]
提取所述全局无向图中包括的每种关系的路径特征,并确定每种关系的路径特征的特征权重;
[0144]
基于每种关系的路径特征以及对应的特征权重,构建所述全局知识图谱。
[0145]
进一步的,所述知识图谱构建模块320用于通过以下步骤构建所述局部知识图谱:
[0146]
在所述全局无向图中,对全局无向图中包括的每种关系提取特定关系子图;
[0147]
构建每个特定关系子图的邻接矩阵以及转移概率矩阵,并在每个转移概率矩阵中计算每个节点之间的转移概率;
[0148]
基于计算出的多个转移概率,构建所述局部知识图谱。
[0149]
进一步的,所述校验图谱构建模块330在用于基于所述全局知识图谱以及所述局部知识图谱,构建出面向数据安全的校验安全知识图谱时,所述校验图谱构建模块330用于:
[0150]
基于全局知识图谱以及所述局部知识图谱,确定与所述全局知识图谱对应的第一路径分数,以及与所述局部知识图谱对应的第二路径分数;
[0151]
基于确定出第一权重系数以及第二权重系数,对第一路径分数以及第二路径分数进行线性加权,确定出综合路径分数;
[0152]
基于所述综合路径分数,构建出面向数据安全的校验安全知识图谱。
[0153]
本申请实施例提供的知识图谱的构建装置,基于预设的安全数据库中存储的数据,生成包括多个实体以及多个实体之间的相互关系的初始安全知识图谱;基于所述初始安全知识图谱分别构建全局知识图谱以及局部知识图谱;基于所述全局知识图谱以及所述局部知识图谱,构建出面向数据安全的校验安全知识图谱。
[0154]
这样,根据存储在预设的安全数据库中的数据,生成包括多个实体以及多个实体之间相互关系的初始安全知识图谱,并根据初始安全知识图谱构建出全局知识图谱以及局部知识图谱,根据全局知识图谱以及局部知识图谱,构建出面向数据安全的校验安全知识图谱,从而可以实现对数据库中数据之间的相互关系的动态以及准确分析,有助于提高构建出的知识图谱的准确性。
[0155]
请参阅图5,图5为本申请实施例所提供的一种电子设备的结构示意图。如图5中所示,所述电子设备500包括处理器510、存储器520和总线530。
[0156]
所述存储器520存储有所述处理器510可执行的机器可读指令,当电子设备500运行时,所述处理器510与所述存储器520之间通过总线530通信,所述机器可读指令被所述处理器510执行时,可以执行如上述图1以及图2所示方法实施例中的知识图谱的构建方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
[0157]
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有
计算机程序,该计算机程序被处理器运行时可以执行如上述图1以及图2所示方法实施例中的知识图谱的构建方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
[0158]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0159]
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0160]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0161]
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0162]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read
‑
only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0163]
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。