一种基于网络安全的知识图谱构建方法与流程

文档序号:35923249发布日期:2023-11-04 09:45阅读:30来源:国知局
一种基于网络安全的知识图谱构建方法与流程

本发明涉及数字处理,更具体地说,本发明涉及一种基于网络安全的知识图谱构建方法。


背景技术:

1、电子健康记录系统(简称ehr)是用于管理和存储用户电子健康信息的一种综合系统,是数字化的用户健康档案,包含了用户的个人信息、信息记录等相关信息,ehr系统将用户健康信息转化为数字化数据,便于保存、备份和共享,能够及时更新和查看用户的最新数据,增强了信息的准确性和时效性,用户也能够访问自己的电子健康信息,了解自己的健康状况,但是现有的ehr系统在实施和管理上面临着一些挑战,尽管已有的网络安全技术已经取得了良好的防护效果,但是面对海量的网络攻击和未知且层出不穷的漏洞、病毒以及恶意软件,传统的网络安全保护手段利用知识图谱技术无法充分抽取ehr系统中的知识,结合态势分析的方法进行网络安全维护,ehr系统网络环境存在极大的安全隐患,数据隐私的泄露会给用户带来不良影响。为了解决上述问题,现提供一种技术方案。


技术实现思路

1、为了克服现有技术的上述缺陷,本发明提供一种基于网络安全的知识图谱构建方法,通过爬虫技术和图数据库实现ehr系统网络安全领域语料和用户数据的高效存储和获取,基于知识图谱检索的技术通过自然语言体温的方式查询知识图谱,提高查询结果的准确度,同时知识抽取和知识问答能够使得ehr系统的查询更加智能和友好直观,引入态势分析对实体关系的重要性和可信度进行评估,进一步提高实体关系抽取的准确度和可信度,结合态势分析的方法进行网络安全维护,维护ehr系统网络环境数据隐私。

2、为实现上述目的,本发明提供如下技术方案:一种基于网络安全的知识图谱构建方法,包括如下步骤:

3、步骤s1,公共数据获取:利用爬虫技术采用增量爬取模式模拟浏览器发送请求,获取cookie、url、解析网站内容,获取网站id、日期、危险等级、详细描述、时间和字符串转换方法,自动完成对目标网页模拟点击,使用scrapy框架完成ehr系统领域语料获取;

4、步骤s2,ehr系统知识图谱存储:使用图数据库(neo4j)技术存储ehr网络安全语料中的属性图,存储属性图中的节点和属性、边和属性信息;

5、步骤s3,ehr系统知识图谱检索:利用图数据库(neo4j)的cypher查询语句进行人机交互,创建查询节点、关系并更新数据,利用查询数据进行条件过滤,将查询结果返回并展示,并删除冗余数据;

6、步骤s4,ehr系统知识图谱知识抽取:利用检索引擎输入检索问句,并对问句进行分类和解析,基于规则抽取三元知识,依赖分析对特定类别问句进行解析,获取三元组查询知识并查询语句构建所需的知识识别和关系分类;

7、步骤s5,ehr系统知识问答:知识问答模块接收使用自然语言表达的问题,在已有知识的基础上形成自然语言答案返回给用户,对答案系统展示;

8、在步骤s4中,基于规则抽取三元知识采用实体抽取和实体关系抽取的方式,基于bert语言模型抽取实体关系,bert使用遮罩语言模型(mlm)随机对未标注文本的训练语料中15%的词汇遮罩,引入下一句预测(nsp)训练方式训练bert模型,对每个包含两个实体的句子的实体之前插入特殊标记,获取实体的隐状态向量,使用自注意力评估实体每个字符在句子内部的注意力得分,进行归一化获取该字符的权重,获取自注意力加权得分,引入态势分析对自注意力加权得分以及抽取的实体及实体关系进行分析。

9、作为本发明进一步的方案,在步骤s4中,引入态势分析对自注意力得分和抽取的实体及实体关系进行分析的过程包括:

10、步骤a1,定义态势分析参量:在ehr系统知识图谱中,定义态势关系分值为实体之间的关联程度,关系分值为实体关系的自注意力加权得分,定义态势关系距离为实体之间在知识图谱中的欧几里得距离,定义态势时间戳为实体以及实体关系的更新时间,定义态势可信度为实体以及实体关系的可信程度,态势分析可信度计算方法采用基于信任网络的方法;

11、步骤a2,计算态势分析重要性得分:利用态势关系分值、态势关系距离、态势时间戳以及态势分析可信度构建用于计算态势重要性得分的态势分析数值分析模型,态势重要性得分公式为:

12、;

13、式中:为态势重要性得分,为态势关系分值,为态势关系距离,为态势时间戳,为态势可信度;

14、步骤a3,态势分析分类标签标记:对态势重要性得分进行标准化和归一化,获取标准态势重要性分值,利用离散标签对标准态势重要性分值进行标记和分类。

15、作为本发明进一步的方案,态势分析数值分析模型中,离散标签的标记方法如下:

16、当时,标准态势重要性分值的离散标签为低度安全态势;

17、当时,标准态势重要性分值的离散标签为中度安全态势;

18、当时,标准态势重要性分值的离散标签为高度安全态势。

19、作为本发明进一步的方案,在步骤s1中,为确保数据存储的安全性,在获取cookie和登录网站时,采用数据加密技术保护用户的敏感信息,用户的敏感信息包括用户名、密码、病史数据,在进行数据爬取时,设置访问频率为105,只爬取公共网站中最新更新的内容到本地数据库,第一次启动爬虫模块全量爬取数据,后续利用爬虫技术定时检查更新进行爬取,每天设置于早上7:00启动爬虫任务,对于需要登录以及具有访问权限的网站,爬虫以及用户需要经过用户身份验证才能执行,对获取的网站内容利用机器学习分类模型进行数据质量和真实性验证,对数据进行审查和过滤,删除含有恶意信息、不符合要求以及不合法的数据,对于设计用户个人隐私的数据去除或替换个人身份信息。

20、作为本发明进一步的方案,在步骤s2中,ehr系统知识图谱存储的实现过程包括:

21、步骤c1,确定知识图谱的模型和实体关系:确定ehr系统中网络安全领域的实体为攻击类型、威胁等级、安全措施,并定义网络安全领域的实体属性,确定ehr系统中用户数据的实体为个人身份、信息记录,并定义用户数据实体的属性;

22、步骤c2,创建图数据库(neo4j):安装和配置图数据库(neo4j),创建两个新的数据库实例,分别用于存储ehr系统的网络安全语料和用户数据,分别配置这两个图数据库实例的连接参数,确保能够通过api以及驱动程序与数据库进行数据和信息交互;

23、步骤c3,创建节点和添加属性:在图数据库(neo4j)中,创建网络安全领域实体的节点,添加网络安全实体的属性信息,创建用户数据实体的节点,添加用户数据实体的属性信息;

24、步骤c4,创建边和添加属性:根据实体之间的关系,为网络安全领域创建网络安全边,并添加网络安全边的属性信息,对于用户数据的实体,根据其关联的信息记录创建用户数据边和用户数据边的属性;

25、步骤c5,导入网络安全语料数据和用户数据:将步骤c1获取的网络安全数据和ehr系统中的用户数据导入到图数据库(neo4j)中,将网络安全语料数据转化图数据库(neo4j)中的节点和边,并将属性信息关联到相应的节点和边上,将用户的数据转化为图数据库中的节点,并将个人敏感信息进行加密处理;

26、步骤c6,创建索引和约束:对用户数据的节点,设置敏感信息访问权限约束,限制授权人员为管理员和用户本人。

27、作为本发明进一步的方案,在步骤s3中,ehr系统知识图谱检索的步骤包括人机交互和查询构建、创建查询节点和关系、更新数据和条件过滤、返回和展示查询结果以及删除冗余数据,其中人机交互和查询构建通过cypher查询语句实现,查询节点和关系通过用户输入的查询条件构建cypher查询语句,查询的关系包括网络安全领域实体之间的关系以及ehr系统中用户数据实体之间的关系,在删除冗余数据前向用户发出确认提示,并利用区块链技术进行冗余数据备份。

28、作为本发明进一步的方案,在步骤s4中,ehr系统知识图谱知识抽取通过检索引擎输入检索问句,检索问句包括查询实体、关系以及查询条件,利用自然语言处理技术(nlp)技术解析问句,进行分词、词性标准以及命名实体识别,并使用实体识别正则表达式进行匹配,识别问句中的实体、关系分类,根据实体识别和关系分类的结果构建ehr系统查询问句的三元知识。

29、作为本发明进一步的方案,在步骤s4中,对每个包含两个实体的句子的实体之前插入特殊标记分别为“[blg]”和“[elg]”。

30、作为本发明进一步的方案,在步骤s4中,基于bert语言模型抽取实体关系,bert使用遮罩语言模型(mlm)随机对未标注文本的训练语料中15%的词汇遮罩,引入下一句预测(nsp)训练方式训练bert模型,这个过程中态势重要性得分用于衡量实体关系在知识图谱中的重要程度,利用态势重要性得分的排序和分类设置处理和展示实体关系的优先等级,其中低度安全态势的优先等级<中度安全态势的优先等级<高度安全态势的优先等级。

31、本发明一种基于网络安全的知识图谱构建方法的技术效果和优点:

32、本发明通过爬虫技术和图数据库实现ehr系统网络安全领域语料和用户数据的高效存储和获取,基于知识图谱检索的技术通过自然语言体温的方式查询知识图谱,提高查询结果的准确度,同时知识抽取和知识问答能够使得ehr系统的查询更加智能和友好直观,引入态势分析对实体关系的重要性和可信度进行评估,进一步提高实体关系抽取的准确度和可信度,结合态势分析的方法进行网络安全维护,维护ehr系统网络环境数据隐私。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1