一种用于公共安全领域大数据知识图谱的自动化构建方法与流程

文档序号:17587204发布日期:2019-05-03 21:25阅读:322来源:国知局
一种用于公共安全领域大数据知识图谱的自动化构建方法与流程

本发明涉及数据挖掘、人工智能技术领域,具体的说是一种用于公共安全领域大数据知识图谱的自动化构建方法。



背景技术:

信息技术的发展不断推动着互联网技术的变革,搜索引擎由于使得用户寻找信息的范围缩小,已经成为人们查找海量信息不可或缺的工具。

知识图谱的概念在2012年由谷歌公司最先提出,谷歌公司想在知识图谱项目的基础上,构建新一代的智能化搜索引擎。该搜索引擎的思想是从网页上获得各类知识的实体、属性信息,以及各实体之间的关联关系,从而建立知识的语义网络。传统的搜索引擎都是基于字符串的搜索,而不是根据相应的语义信息进行搜索,因此传统的搜索引擎可能会搜索出与语义毫不相关的信息,而仅仅包含该字符串,而基于知识图谱的搜索是基于语义分析的,因而搜索更加精确。

知识图谱的构建对于知识的展示与检索具有很高的研究价值,在国内百度和搜狗分别推出了“知心”和“知立方”来改善其搜索质量。清华大学建立了第一个大规模中英文跨语言知识图谱xlore,中科院在开放网络的基础上研发了“人立方、事立方、知立方”的原型系统。

目前随着中国经济的高速发展以及对外经济的持续开放,结合近几年在公共安全领域内恐暴事件来看,传统公共安全领域业务面临作案手法高科技化、多样化、智能化的挑战,因此知识图谱越来越受到人们的关注。但目前知识图谱在公共安全领域内如何构建还没有成熟技术。



技术实现要素:

本发明针对目前技术发展的需求和不足之处,提供一种用于公共安全领域大数据知识图谱的自动化构建方法。

本发明的一种用于公共安全领域大数据知识图谱的自动化构建方法,解决上述技术问题采用的技术方案如下:

一种用于公共安全领域大数据知识图谱的自动化构建方法,其实现过程包括:

步骤一,根据公共安全所涉及领域建立标准体系,确保多源异构数据的融汇贯通和深度智能挖掘有章可循;

步骤二,建立公共安全领域实体映射库entity-mapping,将实体的主要属性存储到文件存储数据库,将数据推送至内存存储数据库,进行碎片实体自动化串联;

步骤三,将数据抽象成实体、关系、事件三大类,构建公共安全领域知识图谱:

1)通过知识建模工具对公共安全领域所有数据资源进行数据地图分类展示,通过人机协同模式进行语料标注不同数据资源对应数据的实体类型,如人、案件、物品、地点、机构,根据数据元标准自动化标准不同实体的关联规则和标签规则,通过数据地图自动显示不同实体之间的关联关系;

2)依托机器学习和深度学习服务,从关系型数据库、开放知识库、半结构化网页、纯文本中进行文本深度挖掘,提取出结构化的实体、属性以及实体间的关系、事件,并在此基础上形成本体化的知识表达;

3)对多源知识进行实体融合,消除矛盾和歧义,解决同名实体产生歧义的问题,完成公共安全领域知识图谱的构建。

可选的,所涉及自动化构建方法的实现过程还包括:

通过权威度、冗余度、多样性、一致性进行知识验证,判断新知识是否正确;

多次验证,通过对图谱密度、中心性特征、孤立节点和比例、属性填充率完成知识图谱的质量管控。

进一步的,通过自生长优化、应用反馈优化、业务分析人员反馈优化三种数据优化方式对构建的公共安全领域知识图谱进行优化,提升构建公共安全领域知识图谱的完整性;其中,自生长优化主要采用数据挖掘分类算法对实体进行分析,对实体的属性、关联、标签进行自动关联。

可选的,所涉及自动化构建方法的实现过程还包括:

通过公共安全领域知识图谱的建模数据、公共安全领域实体映射库的数据、用户搜索行为数据,通过变长命令序列检测模型分析用户搜索意图,根据用户搜索行为数据建立序列,定义一个集合c={l(1)<l(2)<…<l(n)},在样本序列库建立映射,明确n确定的情况下,c的取值不同范围,进而完成公共安全领域搜索意图解析器的构建。其中,用户搜索行为数据指的是用户搜索关键词、点击搜索选中数据。

进一步的,所涉及步骤三还包括如下操作内容:

构建公共安全领域知识图谱的可视化展现页面,可以进行实体、事件、关键词的检索,同时支持对图谱进行智能挖掘分析,分析实体关联关系和路径之间的连接度。如人与人的关系、人与车关系、人与组织关系、人与物品的关系,车与车关系等,关系类数据的价值挖掘对于提升情报探索、线索追查、研判分析等业务场景的分析效率具有重要的意义。

可选的,所涉及步骤一中,公共安全涉及元数据规范、数据元标准、本体模型、数据分级分类规范、标签分类体系、知识存储、图谱交换与共享规范七部分,对每部分分别建立标准体系。

可选的,所涉及步骤二中,通过mongodb、redis建立公共安全领域实体映射库entity-mapping,将实体的主要属性,如唯一标识id、实体关联id,通过entity-mapping引擎存储到mongodb数据库中,同时为了提升分析效率,将数据推送redis中缓存,实现碎片实体自动化串联。

可选的,所涉及步骤三中,基于实体-链接二维理论,将现实中的人、案、物抽象为实体表示为图标,实体之间的关系抽象为链接表示为连线,基于机器学习和实体识别技术,从公共安全领域的基础数据库和专题数据库中提取各类实体,基于图数据库技术将实体之间的关联关系以知识图谱的形式进行保存。

进一步的,所涉及知识图谱存储采用图数据库titan作为存储介质,将实体定义为图的节点vertex,节点一方面存储实体基本关键信息,比如实体为人则以身份证号为节点id,姓名、性别、居住地等信息作为节点属性信息存储,同时将不同实体的标签信息与实体通过实体entity-mapping映射自动串联存储,标签信息指事实标签和模型标签;同时,实体之间的关系信息、事件信息也进行定义标注,并以边edge的形式进行自动存储。比如实体的关系,将人人、人案、人车、人地、人机、案案、案车等提取出实体之间的关联关系,通过关联关系将实体(概念)联系起来,才能够形成网状的知识结构。事件信息主要以轨迹信息为主,将实体轨迹信息以主谓宾的形式存储图数据库中。

可选的,所涉及步骤三中,对多源知识进行实体融合具体包括实体消歧和共指消解;实体消歧从存储在图数据库中数据中提取实体特征、实体关联数据建立相似度矩阵,利用不同的聚类算法得到不同的划分,采用基于均方误差邻接矩阵聚类算法对划分进行共指消解或集成,实现实体消歧解决同名实体产生歧义的问题,

similar(di,dj)是实体di与实体dj的特征相似度或者数据关联相似度,uik是实体di中第k个特征相似度或者数据关联相似度。

本发明的一种用于公共安全领域大数据知识图谱的自动化构建方法,与现有技术相比具有的有益效果是:

本发明基于知识图谱、图挖掘算法实现对公共安全业务领域知识图谱的自动化构建,该构建过程首先需要针对公共安全所涉及领域建立标准体系,随后建立公共安全领域实体映射库entity-mapping,将实体的主要属性存储到文件存储数据库,将数据推送至内存存储数据库,进行碎片实体自动化串联,前期准备工作完成后,将数据抽象成实体、关系、事件三大类,依托机器学习和深度学习服务,通过知识建模、知识抽取、实体融合依次完成公共安全领域知识图谱的自动化构建;另外,在实现自动化构建能力之外,在构建过程中还进行知识验证,完成知识图谱的质量管控,并不断优化公共安全领域知识图谱,提升构建公共安全领域知识图谱的完整性;还通过公共安全领域知识图谱的建模数据、公共安全领域实体映射库的数据、用户搜索行为数据,通过变长命令序列检测模型分析用户搜索意图,构建公共安全领域搜索意图解析器,促进用户搜索智能化推荐,提高用户搜索获取有效信息的效率。

附图说明

附图1是本发明实施例一流程框图;

附图2是本发明实施例二流程框图。

具体实施方式

为使本发明的技术方案、解决的技术问题和技术效果更加清楚明白,以下结合具体实施例,对本发明的技术方案进行清查、完整的描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下获得的所有实施例,都在本发明的保护范围之内。

实施例一:

结合附图1,本实施例提出一种用于公共安全领域大数据知识图谱的自动化构建方法,其实现过程包括:

步骤一,根据公共安全所涉及领域建立标准体系,确保多源异构数据的融汇贯通和深度智能挖掘有章可循,其中,公共安全涉及元数据规范、数据元标准、本体模型、数据分级分类规范、标签分类体系、知识存储、图谱交换与共享规范七部分,对每部分分别建立标准体系;

步骤二,通过mongodb、redis建立公共安全领域实体映射库entity-mapping,将实体的主要属性,如唯一标识id、实体关联id,通过entity-mapping引擎存储到mongodb数据库中,同时为了提升分析效率,将数据推送redis中缓存,进行碎片实体自动化串联;

步骤三,将数据抽象成实体、关系、事件三大类,构建公共安全领域知识图谱:

1)通过知识建模工具对公共安全领域所有数据资源进行数据地图分类展示,通过人机协同模式进行语料标注不同数据资源对应数据的实体类型,如人、案件、物品、地点、机构,根据数据元标准自动化标准不同实体的关联规则和标签规则,通过数据地图自动显示不同实体之间的关联关系;

2)依托机器学习和深度学习服务,从关系型数据库、开放知识库、半结构化网页、纯文本中进行文本深度挖掘,提取出结构化的实体、属性以及实体间的关系、事件,并在此基础上形成本体化的知识表达;

3)对多源知识进行实体融合,消除矛盾和歧义,解决同名实体产生歧义的问题,完成公共安全领域知识图谱的构建。

在步骤三中,基于实体-链接二维理论,将现实中的人、案、物抽象为实体表示为图标,实体之间的关系抽象为链接表示为连线,基于机器学习和实体识别技术,从公共安全领域的基础数据库和专题数据库中提取各类实体,基于图数据库技术将实体之间的关联关系以知识图谱的形式进行保存。

所涉及知识图谱存储采用图数据库titan作为存储介质,将实体定义为图的节点vertex,节点一方面存储实体基本关键信息,比如实体为人则以身份证号为节点id,姓名、性别、居住地等信息作为节点属性信息存储,同时将不同实体的标签信息与实体通过实体entity-mapping映射自动串联存储,标签信息指事实标签和模型标签;同时,实体之间的关系信息、事件信息也进行定义标注,并以边edge的形式进行自动存储。比如实体的关系,将人人、人案、人车、人地、人机、案案、案车等提取出实体之间的关联关系,通过关联关系将实体(概念)联系起来,才能够形成网状的知识结构。事件信息主要以轨迹信息为主,将实体轨迹信息以主谓宾的形式存储图数据库中。

在步骤三中,对多源知识进行实体融合具体包括实体消歧和共指消解;实体消歧从存储在图数据库中数据中提取实体特征、实体关联数据建立相似度矩阵,利用不同的聚类算法得到不同的划分,采用基于均方误差邻接矩阵聚类算法对划分进行共指消解或集成,实现实体消歧解决同名实体产生歧义的问题,

similar(di,dj)是实体di与实体dj的特征相似度或者数据关联相似度,uik是实体di中第k个特征相似度或者数据关联相似度。

本实施例基于知识图谱、图挖掘算法实现对公共安全业务领域知识图谱的自动化构建,该构建过程首先需要针对公共安全所涉及领域建立标准体系,随后建立公共安全领域实体映射库entity-mapping,将实体的主要属性存储到文件存储数据库,将数据推送至内存存储数据库,进行碎片实体自动化串联,前期准备工作完成后,将数据抽象成实体、关系、事件三大类,依托机器学习和深度学习服务,通过知识建模、知识抽取、实体融合依次完成公共安全领域知识图谱的自动化构建。

实施例二:

结合附图2,本实施例提出一种用于公共安全领域大数据知识图谱的自动化构建方法,其实现过程包括:

步骤一,根据公共安全所涉及领域建立标准体系,确保多源异构数据的融汇贯通和深度智能挖掘有章可循,其中,公共安全涉及元数据规范、数据元标准、本体模型、数据分级分类规范、标签分类体系、知识存储、图谱交换与共享规范七部分,对每部分分别建立标准体系;

步骤二,通过mongodb、redis建立公共安全领域实体映射库entity-mapping,将实体的主要属性,如唯一标识id、实体关联id,通过entity-mapping引擎存储到mongodb数据库中,同时为了提升分析效率,将数据推送redis中缓存,进行碎片实体自动化串联。

步骤三,将数据抽象成实体、关系、事件三大类,构建公共安全领域知识图谱:

1)通过知识建模工具对公共安全领域所有数据资源进行数据地图分类展示,通过人机协同模式进行语料标注不同数据资源对应数据的实体类型,如人、案件、物品、地点、机构,根据数据元标准自动化标准不同实体的关联规则和标签规则,通过数据地图自动显示不同实体之间的关联关系;

2)依托机器学习和深度学习服务,从关系型数据库、开放知识库、半结构化网页、纯文本中进行文本深度挖掘,提取出结构化的实体、属性以及实体间的关系、事件,并在此基础上形成本体化的知识表达;

3)对多源知识进行实体融合,消除矛盾和歧义,解决同名实体产生歧义的问题,完成公共安全领域知识图谱的构建。

所涉及自动化构建方法的实现过程还包括:

通过权威度、冗余度、多样性、一致性进行知识验证,判断新知识是否正确;

多次验证,通过对图谱密度、中心性特征、孤立节点和比例、属性填充率完成知识图谱的质量管控。

在本实施例中,通过自生长优化、应用反馈优化、业务分析人员反馈优化三种数据优化方式对构建的公共安全领域知识图谱进行优化,提升构建公共安全领域知识图谱的完整性;其中,自生长优化主要采用数据挖掘分类算法对实体进行分析,对实体的属性、关联、标签进行自动关联。

所涉及自动化构建方法的实现过程还包括:

通过公共安全领域知识图谱的建模数据、公共安全领域实体映射库的数据、用户搜索行为数据,通过变长命令序列检测模型分析用户搜索意图,根据用户搜索行为数据建立序列,定义一个集合c={l(1)<l(2)<…<l(n)},在样本序列库建立映射,明确n确定的情况下,c的取值不同范围,进而完成公共安全领域搜索意图解析器的构建。其中,用户搜索行为数据指的是用户搜索关键词、点击搜索选中数据。

所涉及步骤三还包括如下操作内容:

构建公共安全领域知识图谱的可视化展现页面,可以进行实体、事件、关键词的检索,同时支持对图谱进行智能挖掘分析,分析实体关联关系和路径之间的连接度。如人与人的关系、人与车关系、人与组织关系、人与物品的关系,车与车关系等,关系类数据的价值挖掘对于提升情报探索、线索追查、研判分析等业务场景的分析效率具有重要的意义。

在步骤三中,基于实体-链接二维理论,将现实中的人、案、物抽象为实体表示为图标,实体之间的关系抽象为链接表示为连线,基于机器学习和实体识别技术,从公共安全领域的基础数据库和专题数据库中提取各类实体,基于图数据库技术将实体之间的关联关系以知识图谱的形式进行保存。

所涉及知识图谱存储采用图数据库titan作为存储介质,将实体定义为图的节点vertex,节点一方面存储实体基本关键信息,比如实体为人则以身份证号为节点id,姓名、性别、居住地等信息作为节点属性信息存储,同时将不同实体的标签信息与实体通过实体entity-mapping映射自动串联存储,标签信息指事实标签和模型标签;同时,实体之间的关系信息、事件信息也进行定义标注,并以边edge的形式进行自动存储。比如实体的关系,将人人、人案、人车、人地、人机、案案、案车等提取出实体之间的关联关系,通过关联关系将实体(概念)联系起来,才能够形成网状的知识结构。事件信息主要以轨迹信息为主,将实体轨迹信息以主谓宾的形式存储图数据库中。

在步骤三中,对多源知识进行实体融合具体包括实体消歧和共指消解;实体消歧从存储在图数据库中数据中提取实体特征、实体关联数据建立相似度矩阵,利用不同的聚类算法得到不同的划分,采用基于均方误差邻接矩阵聚类算法对划分进行共指消解或集成,实现实体消歧解决同名实体产生歧义的问题,

similar(di,dj)是实体di与实体dj的特征相似度或者数据关联相似度,uik是实体di中第k个特征相似度或者数据关联相似度。

在实施例一的基础上,本实施例在实现自动化构建能力之外,还进行知识验证,完成知识图谱的质量管控,并不断优化公共安全领域知识图谱,提升构建公共安全领域知识图谱的完整性;还通过公共安全领域知识图谱的建模数据、公共安全领域实体映射库的数据、用户搜索行为数据,通过变长命令序列检测模型分析用户搜索意图,构建公共安全领域搜索意图解析器,促进用户搜索智能化推荐,提高用户搜索获取有效信息的效率。

以上应用具体个例对本发明的原理及实施方式进行了详细阐述,这些实施例只是用于帮助理解本发明的核心技术内容,并不用于限制本发明的保护范围,本发明的技术方案不限制于上述具体实施方式内。基于本发明的上述具体实施例,本技术领域的技术人员在不脱离本发明原理的前提下,对本发明所作出的任何改进和修饰,皆应落入本发明的专利保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1