自动构建知识图谱的方法、系统、计算机设备及存储介质与流程

文档序号:33649258发布日期:2023-03-29 06:43阅读:52来源:国知局
自动构建知识图谱的方法、系统、计算机设备及存储介质与流程

1.本发明涉及数据处理技术领域,尤其涉及一种自动构建知识图谱的方法、一种自动构建知识图谱的系统、一种计算机设备以及一种计算机可读存储介质。


背景技术:

2.关系型数据库的基础设计理念是以实体为核心建模,缺乏对实体之间关系的直接支持,需要通过关联表间接地维护实体之间的关系。这使得在实际使用关系型数据库做业务支撑时存在关联表繁多,查询等操作执行效能低下等问题。
3.图数据库分别以点和边代表实体和关系,能更清晰地揭示复杂的数据模型。随着移动互联网、物联网等业务的快速发展,数据之间的隐形关联价值日益凸显,作为图数据库最为基础的底层应用场景,知识图谱充分利用图数据模型在存储和查询方面的优势为众多行业提供大规模的知识库进而支撑业务应用。关系数据库自上世纪80年代以来一直是数据库领域发展的主流,各行各业积累了大量关系型数据,对于天然具有图拓扑结构的行业,如电信、交通、互联网社交等行业,如何快速有效地构建知识图谱成为了知识图谱应用中首先需要解决的问题。
4.传统的知识图谱构建方式多依赖人工经验,需要人工设计知识图谱schema,然后将提前准备的节点数据、关系数据和属性数据与图谱schema做映射,然后导入数据完成图谱的构建。这种传统构建方式对专业人员依赖较重,构建效率低下,且构建的图谱泛化性弱,难以有效地复用。


技术实现要素:

5.为了至少部分解决现有技术中存在的对专业人员依赖较重,构建效率低下,且构建的图谱泛化性弱,难以有效地复用的技术问题而完成了本发明。
6.根据本发明的一方面,提供一种自动构建知识图谱的方法,所述方法可以包括以下步骤:s1、根据业务需求输入查询信息;s2、根据所述查询信息从关系型数据库自动筛选构建知识图谱所需的关系型数据;以及s3、将筛选出的所述关系型数据自动转换为图数据,从而构建知识图谱。
7.可选地,还可以包括以下步骤:s4、根据构建出的所述知识图谱,执行图分析业务;以及s5、输出与所述业务需求相关的查询结果。
8.可选地,步骤s2可以包括以下步骤:s21、收集与所述业务需求相关的语料信息;s22、根据所述语料信息进行自然语言处理建模,获得自然语言处理模型;s23、通过所述自然语言处理模型对所述查询信息进行分析,获得业务操作的语义;s24、补充和确认所述业务操作所需的详细信息;以及s25、根据所述详细信息从所述关系型数据库筛选构建知识图谱所需的所述关系型数据。
9.可选地,所述语料信息可以包括业务管理规范、数据模型规范、应用场景白皮书和业务开展工作指引中的一种或多种。
10.可选地,所述自然语言处理建模可以包括对所述语料信息进行清洗,并以清洗后的语料信息为基础采用大规模预训练模型进行自然语言处理模型训练。
11.可选地,步骤s3可以包括以下步骤:s31、将筛选出的所述关系型数据可视化呈现为概念数据模型;s32、自定义调整所述概念数据模型;s33、选择所述关系型数据到图数据的映射规则;s34、根据所述映射规则,将调整后的所述概念数据模型映射得到知识图谱的schema;以及s35、根据所述知识图谱的schema构建知识图谱。
12.可选地,所述概念数据模型可以构造为:呈现所筛选出的所述关系型数据的表信息,包括实体表和关系表;所述关系型数据的数据表仅显示出名称、字段名称和数据类型,并标记出主键和外键;并且所述数据表之间基于主键和外键的关联关系通过连线显示。
13.可选地,步骤s32可以包括用户通过拖、拉、拽的可视化操作按需对所述概念数据模型进行的以下调整:对数据表、字段信息和连线进行增加、删除;以及拆分、合并数据表。
14.可选地,所述映射规则可以包括:所筛选出的所述关系型数据的数据表中的每一行转换为所述图数据中的一个节点;每个数据表的名称转换为所述图数据中节点的标签;数据表中的每个字段转换为所述图数据中节点的属性;每个外键转换为所述图数据中的一个关系,并且外键的字段名转换为关系的标签;或者所筛选出的所述关系型数据的实体表中的每一行转换为所述图数据中的一个节点;每个实体表的名称转换为所述图数据中节点的标签;实体表中的每个字段转换为所述图数据中节点的属性;关系表中的每一行转换为所述图数据中的一个关系;每个关系表的名称转换为所述图数据中关系的标签;关系表中的每个字段转换为所述图数据中关系的属性;每个外键转换为所述图数据中的一个关系,并且外键的字段名转换为关系的标签;或者在所筛选出的所述关系型数据的数据表中指定一部分关系表,该部分关系表设置成转换类型为关系,其它关系表及实体表的转换类型设置为节点;对于转换类型为节点的数据表,数据表中的每一行转换为所述图数据中的一个节点,每个数据表的名称转换为所述图数据中节点的标签,数据表中的每个字段转换为所述图数据中节点的属性;对于转换类型为关系的关系表,关系表中的每一行转换为所述图数据中的一个关系,每个关系表的名称转换为所述图数据中关系的标签,关系表中的每个字段转换为所述图数据中关系的属性;每个外键转换为所述图数据中的一个关系,外键的字段名转换为关系的标签。
15.根据本发明的另一方面,提供一种自动构建知识图谱的系统,所述系统可以包括:输入模块,其设置为根据业务需求输入查询信息;筛选模块,其设置为根据所述查询信息从关系型数据库(例如根据前述自动构建知识图谱的方法中的步骤s2)自动筛选构建知识图谱所需的关系型数据;构建模块,其设置为将筛选出的所述关系型数据自动转换为图数据,从而构建知识图谱(例如根据前述自动构建知识图谱的方法中的步骤s3构建知识图谱);执行模块,其设置为根据构建出的所述知识图谱,执行图分析业务;以及输出模块,其设置为输出与所述业务需求相关的查询结果。
16.根据本发明的又一方面,提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行前述自动构建知识图谱的方法。
17.根据本发明的再一方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,所述处理器执行前述社区划分方法。
18.本发明提供的技术方案可以包括以下有益效果:
19.本发明提供的自动构建知识图谱的方法,提出一种更为高效的知识图谱构建方式,实现以业务需求为核心自动地构建知识图谱,减少知识图谱构建过程中对专业人员的依赖性,提高构建效率,降低构建成本。此外,这种以业务需求为导向的知识图谱自动构建方式通用性更强,可以在众多行业复制推广,便于企业将业务与数据资源关联,进一步挖掘数据应用价值。
20.本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
21.附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
22.图1为本发明实施例提供的一种自动构建知识图谱的方法的流程示意图;
23.图2为本发明实施例提供的一种自动构建知识图谱的方法中筛选步骤(自动获取关系型数据)的流程示意图;
24.图3为本发明实施例提供的一种自动构建知识图谱的方法中构建步骤(关系型数据自动转换为图数据)的流程示意图;
25.图4为本发明实施例提供的自动构建知识图谱的系统的结构示意图;
26.图5为本发明实施例提供的计算机设备的结构示意图。
具体实施方式
27.为使本发明实施例的目的、技术方案和优点更加清楚,以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
28.本发明提供一种以业务需求为导向的自动构建知识图谱的方法,参考图1,该方法包括以下步骤:
29.s1、根据业务需求输入查询信息(输入查询信息);
30.s2、根据查询信息从关系型数据库(例如传统关系型数据库)自动筛选构建知识图谱所需的关系型数据(自动获取关系型数据);以及
31.s3、将筛选出的关系型数据自动转换为图数据,从而构建知识图谱(关系型数据自动转换为图数据)。
32.可选地,自动构建知识图谱的方法还可以包括在步骤s3之后的以下步骤:
33.s4、根据构建出的知识图谱,执行图分析业务(执行图分析业务);以及
34.s5、输出与业务需求相关的查询结果(输出查询信息)。
35.步骤s1至s3为以业务需求为导向的知识图谱自动构建流程,并且步骤s4和s5为知识图谱应用流程。
36.参考图2,上述步骤s2为以业务需求为导向的数据筛选,具体地可以包括以下步骤:
37.s21、收集与业务需求相关的语料信息。例如,该语料信息可以为企业的相关标准、指南、白皮书等。更具体地,该语料信息可以包括但不限于业务管理规范、数据模型规范、应用场景白皮书和业务开展工作指引中的一种或多种。
38.s22、根据上述语料信息进行自然语言处理建模,获得自然语言处理模型。例如,自然语言处理建模可以包括对语料信息进行清洗(主要包括异常符号处理等),并以清洗后的语料信息为基础采用大规模预训练模型(例如bert)进行自然语言处理模型训练。
39.s23、通过自然语言处理模型对查询信息(业务操作信息)进行分析,获得业务操作的语义(例如,企业相关业务操作语义)。
40.s24、补充和确认业务操作所需的详细信息。例如,根据业务操作的语义匹配业务场景模板,用户以业务场景模板为基础补充和确认相关业务操作所需详细信息。
41.s25、根据该详细信息从关系型数据库(例如,企业多领域传统关系型数据库)筛选构建知识图谱所需的关系型数据。该关系型数据例如包括数据库、数据表和字段信息等。
42.参考图3,上述步骤s3为从已筛选关系型数据自动构建知识图谱,具体地可以包括以下步骤:
43.s31、将筛选出的关系型数据可视化呈现为概念数据模型。例如,该概念数据模型可以构造为:呈现所筛选出的关系型数据的表信息,包括实体表和关系表;关系型数据的数据表仅显示出名称、字段名称和数据类型,并标记出主键和外键;并且数据表之间基于主键和外键的关联关系通过连线显示。
44.s32、自定义调整概念数据模型。例如,用户可以通过拖、拉、拽等简易的可视化操作按需对概念数据模型进行的以下调整:对数据表、字段信息和连线进行增加、删除;以及拆分、合并数据表(将在下文中详细描述)。
45.s33、选择关系型数据到图数据的映射规则(将在下文中详细描述)。
46.s34、根据映射规则,将调整后的概念数据模型映射得到知识图谱的schema。
47.s35、根据知识图谱的schema构建知识图谱。具体而言,根据已创建的知识图谱的schema导入数据,完成所需知识图谱的构建。
48.如上所述,在步骤s32中,用户通过拖、拉、拽等简易的可视化操作按需对概念数据模型进行调整。对于对数据表、字段信息和连线进行增加、删除,其中可增加范围为企业多领域传统关系型数据库。对于拆分、合并数据表,拆分操作为选定字段范围,将数据表拆分为主表和从表,从表复用主表主键,主表增加外键匹配从表主键。合并操作为选定不同数据表的同性质的字段范围,创建为新的数据表并删除原数据表中相关字段,新的数据表自定义设置主键,并增加外键匹配原数据表主键。应注意的是,若选定字段在原数据表中为外键,则在新的数据表中保留其外键性质和关联关系。
49.如上所述,在步骤s33中,选择关系型数据到图数据的映射规则,该映射规则可选地可以包括以下映射规则1至3中的一种。
50.映射规则1:所筛选出的关系型数据的数据表中的每一行转换为图数据中的一个节点;每个数据表的名称转换为图数据中节点的标签;数据表中的每个字段转换为图数据中节点的属性;每个外键转换为图数据中的一个关系,并且外键的字段名转换为关系的标签。
51.映射规则2:所筛选出的关系型数据的实体表中的每一行转换为图数据中的一个
节点;每个实体表的名称转换为图数据中节点的标签;实体表中的每个字段转换为图数据中节点的属性;关系表中的每一行转换为图数据中的一个关系;每个关系表的名称转换为图数据中关系的标签;关系表中的每个字段转换为图数据中关系的属性;每个外键转换为图数据中的一个关系,并且外键的字段名转换为关系的标签。
52.映射规则3:在所筛选出的关系型数据的数据表中指定一部分关系表,该部分关系表设置成转换类型为关系,其它关系表及实体表的转换类型设置为节点;对于转换类型为节点的数据表,数据表中的每一行转换为图数据中的一个节点,每个数据表的名称转换为图数据中节点的标签,数据表中的每个字段转换为图数据中节点的属性;对于转换类型为关系的关系表,关系表中的每一行转换为图数据中的一个关系,每个关系表的名称转换为图数据中关系的标签,关系表中的每个字段转换为图数据中关系的属性;每个外键转换为图数据中的一个关系,外键的字段名转换为关系的标签。
53.本发明还提供一种自动构建知识图谱的系统10,如图4所示,该系统10包括:输入模块11,其设置为根据业务需求输入查询信息;筛选模块12,其设置为根据前述自动构建知识图谱的方法中的步骤s2自动筛选构建知识图谱所需的关系型数据;构建模块13,其设置为根据前述自动构建知识图谱的方法中的步骤s3构建知识图谱;执行模块14,其设置为根据构建出的知识图谱,执行图分析业务;以及输出模块15,其设置为输出与业务需求相关的查询结果。
54.基于相同的技术构思,本发明实施例相应还提供一种计算机设备20,如图5所示,计算机设备20包括存储器21和处理器22,存储器21中存储有计算机程序,当处理器22运行存储器21存储的计算机程序时,处理器22执行前述自动构建知识图谱的方法。
55.基于相同的技术构思,本发明实施例相应还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时,处理器执行前述自动构建知识图谱的方法。
56.以业务需求为导向的知识图谱自动构建方法通用性较强,尤其适用于天然具有图拓扑结构的行业,如电信、交通、互联网社交等行业。这种方法在不同企业的实际应用中的区别主要在于业务操作语义分析模型的语料收集和训练,以及业务场景模板的设置。以电信行业为例,运营商拥有b域、o域等多维度数据,多存储在关系型数据库中,数据范围可包括客户、产品、服务、资源、市场营销、企业管理等。若以图数据库为载体构建网络基础设施拓扑、用户的通信行为拓扑等知识图谱,并以此为数据模型基础,能更便利的挖掘海量数据之中潜藏的价值,典型的业务应用场景可包括资源域的通信链路查询、客户域的高价值用户维系等。
57.综上所述,本发明实施例提供的自动构建知识图谱的方法、系统、计算机设备及存储介质,通过提出一种更为高效的知识图谱构建方式,实现以业务需求为核心自动地构建知识图谱,减少知识图谱构建过程中对专业人员的依赖性,提高构建效率,降低构建成本。此外,这种以业务需求为导向的知识图谱自动构建方式通用性更强,可以在众多行业复制推广。
58.本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个
物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
59.最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1