一种知识图谱的构建方法及装置

文档序号:33121458发布日期:2023-02-01 03:56阅读:71来源:国知局
一种知识图谱的构建方法及装置

1.本技术涉及人工智能技术领域,尤其涉及一种知识图谱的构建方法及装置。


背景技术:

2.通常,知识图谱的构建包括知识抽取、知识融合和知识补全等过程。并且,用于构建知识图谱的原始数据可以包括多种模态的数据,例如,原始数据可以包括文本模态数据和图像模态数据。
3.现有技术中,在知识图谱的构建过程中,原始数据包含的每种模态的数据,都需要单独进行知识抽取,分别得到各自独立的抽取结果,之后,再对各模态知识抽取的结果进行知识融合和知识补全,从而构建原始数据对应的知识图谱。按照这样的构建方式,抽取的各模态知识之间相互独立,割裂了各模态知识之间的联系,无法很好的表达原始数据蕴含的知识信息,知识图谱的精确度较低。


技术实现要素:

4.本技术提供了一种知识图谱的构建方法及装置,以解决现有方法构建的知识图谱,割裂了多个模态知识之间的联系,精确度较低的问题。
5.第一方面,本技术提供了一种知识图谱的构建方法,该方法包括:确定第一数据的模态类别,所述第一数据是指从用于构建知识图谱的原始数据中提取得到的单模态数据;如果所述模态类别包括多个类别,获取各模态类别分别对应的第一数据的表示向量;构建第一知识图谱,所述第一知识图谱是指基于所有所述表示向量进行知识抽取后,由抽取得到的知识构建得到的知识图谱;构建第二知识图谱,所述第二知识图谱是指对所述第一知识图谱包含的知识进行知识融合和知识补全得到的知识图谱。
6.一种可能的实现方式中,所述模态类别包括文本模态和图像模态;所述获取各模态类别分别对应的第一数据的表示向量,包括:获取所述文本模态对应的第一数据的文本表示向量和所述图像模态对应的第一数据的图像表示向量。
7.一种可能的实现方式中,所述构建第一知识图谱,包括:生成第一表示向量,所述第一表示向量是指由所述文本表示向量和所述图像表示向量拼接得到的表示向量;生成第二表示向量,所述第二表示向量是指对所述第一表示向量进行全连接层编码得到的表示向量;生成第三表示向量,所述第三表示向量是指对所述第二表示向量进行卷积处理得到的表示向量;根据所述第三表示向量的归一化处理结果,构建所述第一知识图谱。
8.一种可能的实现方式中,所述方法还包括:如果所述模态类别包括一个类别,构建第一实体图谱,所述第一实体图谱是指采用基于所述模态类别对应的预训练模型和/或表示学习模型训练得到的知识抽取模型,对所述第一数据进行实体知识抽取后,由抽取得到的知识构建得到的知识图谱;构建第一属性图谱,所述第一属性图谱是指采用基于所述预训练模型和/或所述表示学习模型训练得到的知识抽取模型对所述第一实体图谱进行属性知识抽取得到的知识图谱;构建第一关系图谱,所述第一关系图谱是指采用基于所述预训
练模型和/或所述表示学习模型训练得到的知识抽取模型对所述第一实体图谱进行关系知识抽取得到的知识图谱;构建第一事件图谱,所述第一事件图谱是指采用基于所述预训练模型和/或所述表示学习模型训练得到的知识抽取模型对所述第一实体图谱进行事件知识抽取得到的知识图谱;构建第三知识图谱,所述第三知识图谱是指由所述第一实体图谱、所述第一属性图谱、所述第一关系图谱和所述第一事件图谱合并得到的知识图谱;构建第四知识图谱,所述第四知识图谱是指对所述第三知识图谱包含的知识进行知识融合和知识补全得到的知识图谱。
9.一种可能的实现方式中,所述方法还包括:获取第一训练语料,所述第一训练语料是指根据所述模态类别对应的现有知识和/或通用语言学规则,通过自动标注的方式,对第二数据进行标注,得到的标注数据;所述第二数据为用于生成训练语料的原始数据;生成初始抽取模型,所述初始抽取模型是指使用所述第一训练语料对所述模态类别对应的预训练模型进行训练,得到的用于抽取知识的模型;生成第二训练语料,所述第二训练语料是指通过所述初始抽取模型对第三数据进行知识抽取后,通过自动标注的方式,对抽取得到的知识进行标注,得到的标注数据,所述第三数据为用于生成训练语料的原始数据;基于所述第二训练语料训练所述初始抽取模型,得到所述知识抽取模型。
10.第二方面,本技术提供了一种知识图谱的构建装置,该装置包括:确定模块,用于确定第一数据的模态类别,所述第一数据是指从用于构建知识图谱的原始数据中提取得到的单模态数据;第一获取模块,用于如果所述模态类别包括多个类别,获取各模态类别分别对应的第一数据的表示向量;第一构建模块,用于构建第一知识图谱,所述第一知识图谱是指基于所有所述表示向量进行知识抽取后,由抽取得到的知识构建得到的知识图谱;第二构建模块,用于构建第二知识图谱,所述第二知识图谱是指对所述第一知识图谱包含的知识进行知识融合和知识补全得到的知识图谱。
11.一种可能的实现方式中,所述模态类别包括文本模态和图像模态;所述第一获取模块用于获取各模态类别分别对应的第一数据的表示向量,具体为:所述第一获取模块用于获取所述文本模态对应的第一数据的文本表示向量和所述图像模态对应的第一数据的图像表示向量。
12.一种可能的实现方式中,所述第一构建模块用于构建第一知识图谱,具体为:所述第一构建模块用于:生成第一表示向量,所述第一表示向量是指由所述文本表示向量和所述图像表示向量拼接得到的表示向量;生成第二表示向量,所述第二表示向量是指对所述第一表示向量进行全连接层编码得到的表示向量;生成第三表示向量,所述第三表示向量是指对所述第二表示向量进行卷积处理得到的表示向量;根据所述第三表示向量的归一化处理结果,构建所述第一知识图谱。
13.一种可能的实现方式中,所述装置还包括:第三构建模块,用于如果所述模态类别包括一个类别,构建第一实体图谱,所述第一实体图谱是指采用基于所述模态类别对应的预训练模型和/或表示学习模型训练得到的知识抽取模型,对所述第一数据进行实体知识抽取后,由抽取得到的知识构建得到的知识图谱;第四构建模块,用于构建第一属性图谱,所述第一属性图谱是指采用基于所述预训练模型和/或所述表示学习模型训练得到的知识抽取模型对所述第一实体图谱进行属性知识抽取得到的知识图谱;第五构建模块,用于构建第一关系图谱,所述第一关系图谱是指采用基于所述预训练模型和/或所述表示学习模
型训练得到的知识抽取模型对所述第一实体图谱进行关系知识抽取得到的知识图谱;第六构建模块,用于构建第一事件图谱,所述第一事件图谱是指采用基于所述预训练模型和/或所述表示学习模型训练得到的知识抽取模型对所述第一实体图谱进行事件知识抽取得到的知识图谱;第七构建模块,用于构建第三知识图谱,所述第三知识图谱是指由所述第一实体图谱、所述第一属性图谱、所述第一关系图谱和所述第一事件图谱合并得到的知识图谱;第八构建模块,用于构建第四知识图谱,所述第四知识图谱是指对所述第三知识图谱包含的知识进行知识融合和知识补全得到的知识图谱。
14.一种可能的实现方式中,所述装置还包括:第二获取模块,用于获取第一训练语料,所述第一训练语料是指根据所述模态类别对应的现有知识和/或通用语言学规则,通过自动标注的方式,对第二数据进行标注,得到的标注数据;所述第二数据为用于生成训练语料的原始数据;第一生成模块,用于生成初始抽取模型,所述初始抽取模型是指使用所述第一训练语料对所述模态类别对应的预训练模型进行训练,得到的用于抽取知识的模型;第二生成模块,用于生成第二训练语料,所述第二训练语料是指通过所述初始抽取模型对第三数据进行知识抽取后,通过自动标注的方式,对抽取得到的知识进行标注,得到的标注数据,所述第三数据为用于生成训练语料的原始数据;训练模块,用于基于所述第二训练语料训练所述初始抽取模型,得到所述知识抽取模型。
15.第三方面,本技术提供了一种网络设备,该网络设备包括处理器、存储器和收发器;所述收发器用于接收信号或者发送信号;所述存储器用于存储计算机程序或指令;所述处理器用于执行所述存储器所存储的计算机程序或指令,以使所述网络设备执行如第一方面所述的方法。
16.第四方面,本技术提供了一种计算机存储介质,所述计算机存储介质用于存储计算机程序或指令,当所述计算机程序或指令被执行时,使得第一方面所述的方法被实现。
17.第五方面,本技术提供了一种包括计算机程序或指令的计算机程序产品,当所述计算机程序或指令被执行时,使得第一方面所述的方法被实现。
18.为解决现有方法构建的知识图谱,割裂了多个模态知识之间的联系,精确度较低的问题,本技术实施例提供了一种知识图谱的构建方法及装置。该方法中,当用于构建知识图谱的第一原始数据包括多个模态类别的单模态数据时,可以先从第一原始数据中提取出各单模态数据,然后分别获取各单模态数据的表示向量,然后可以将所有模态的表示向量拼接为一个表示向量,基于拼接后的表示向量进行知识抽取,抽取得到的实体知识、属性知识、关系知识和属性知识均融合了多种模态的信息,使得根据抽取得到的知识构建的知识图谱,充分蕴含了各种模态关联的信息,不会割裂各种模态信息之间的关联关系,准确度更高,适用性更好。
附图说明
19.图1为本技术提供的一种知识图谱构建的场景示意图;
20.图2为本技术提供的另一种知识图谱构建的场景示意图;
21.图3为本技术提供的知识图谱的构建方法的一种实施方式的流程示意图;
22.图4为本技术提供的构建第一知识图谱的一种实施方式的流程示意图;
23.图5为本技术提供的知识图谱的构建方法的另一种实施方式的流程示意图;
24.图6为本技术提供的知识图谱的构建方法的另一种实施方式的流程示意图;
25.图7为本技术提供的知识图谱的构建装置的一种实施方式的结构框图。
具体实施方式
26.下面,结合附图对本技术提供的技术方案进行示例性说明。
27.首先,需要说明的是,本技术提供的实施例仅仅是本技术的一部分实施例,不是本技术的全部实施例,本技术不受以下所描述实施例的限制。
28.此外,在本技术的示例性描述中,“/”表示“或”的意思,例如,a/b可以表示a或b。本技术中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。此外,“至少一个”是指一个或多个,“多个”是指两个或两个以上。“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
29.本技术可以应用于知识图谱构建的应用场景中。例如,参见图1,图1为本技术提供的一种知识图谱构建的场景示意图。结合图1可知,在知识图谱的构建过程中,可以包括知识抽取、知识融合和知识补全等步骤。
30.其中,知识抽取过程又涉及实体抽取(也可以称为实体知识抽取)、关系抽取(也可以称为关系知识抽取)、属性抽取(也可以称为属性知识抽取)和事件抽取(也可以称为事件知识抽取)等环节。所以,知识抽取是指从用于构建知识图谱的原始数据中抽取实体、关系、属性和事件等基础知识,然后基于抽取出的基础知识构建知识图谱,也就是说,以知识图谱的形式,对抽取出的基础知识进行表征。
31.知识融合过程又涉及实体对齐、关系融合和属性融合等环节。所以,知识融合是指对前述基于抽取出的基础知识构建得到的知识图谱中包含的知识进行实体对齐、关系融合和属性融合等处理,从而去掉重复表征的知识,使得知识图谱更加简洁清楚。
32.知识补全是指对知识融合后得到的知识图谱中缺失的知识进行补全,例如,补全实体之间的关系等,使得最终得到的知识图谱表征的知识信息更加完善。
33.此外,用于构建知识图谱的原始数据通常包括一个或多个模态的数据。例如,原始数据可以包括文本模态数据、图像模态数据、图模态数据、视频模态数据、语音模态数据和时空模态数据等。在构建原始数据对应的知识图谱的过程中,首先需要对原始数据进行模态划分,从原始数据中提取出单模态数据,例如可以从原始数据中提取文本模态数据和图像模态数据等,本技术中,不对提取单模态数据的具体实施方式进行限制。
34.而目前知识图谱的构建方式中,通常都是基于文本模态数据和/或图像模态数据,构建知识图谱。对于音频模态数据,需要通过语音识别模型将语音转换成文本模态数据,然后按照文本模态数据,构建知识图谱。对于视频模态数据,通常需要获取视频模态数据的关键帧,从而得到视频模态数据的图像模态数据,以及将视频模态数据中的语音数据转换成文本模态数据,然后基于图像模态数据和文本模态数据,构建知识图谱。
35.基于此,下面以原始数据包含文本模态数据和图像模态数据为例,对构建知识图谱的过程进行说明。
36.参见图2,图2为本技术提供的另一种知识图谱构建的场景示意图。结合图2可知,该应用场景下,知识图谱的构建过程可以包括:
37.通过文本模态的实体抽取模型,对文本模态数据进行实体抽取,得到文本模态的实体图谱;以及,通过图像模态的实体抽取模型,对图像模态数据进行实体抽取,得到图像模态的实体图谱。
38.分别通过文本模态的属性抽取模型、关系抽取模型和事件抽取模型对文本模态的实体图谱进行属性抽取、关系抽取和事件抽取,得到文本模态的属性图谱、关系图谱和事件图谱;以及,分别通过图像模态的属性抽取模型、关系抽取模型和事件抽取模型对图像模态的实体图谱进行属性抽取、关系抽取和事件抽取,得到图像模态的属性图谱、关系图谱和事件图谱。
39.对文本模态的属性图谱、关系图谱和事件图谱,以及图像模态的属性图谱、关系图谱和事件图谱进行知识融合和知识补全,得到知识图谱。
40.可见,采用图2所示的方式,需要分别采用每一个模态类别对应的、与相应抽取任务适配的网络模型对各模态数据进行知识抽取,期间需要训练大量的网络模型,适用性较差。并且,在知识抽取过程中,针对每一个模态类别的数据单独进行实体抽取、属性抽取、关系抽取和事件抽取,各模态之间的抽取结果相互独立,没有关联,割裂了原始数据中各模态信息之间的联系,构建的知识图谱不能较为准确的表征各模态知识之间的关系,准确度较低。
41.为了解决上述技术问题,本技术提供了一种知识图谱的构建方法。下面结合附图,对本技术实施例提供的知识图谱的构建方法进行详细说明。
42.参见图3,图3为本技术提供的知识图谱的构建方法的一种实施方式的流程示意图。该方法可以应用于可以用于构建知识图谱的网络设备,该方法可以包括以下步骤:
43.步骤s101、确定第一数据的模态类别。
44.结合前述实施例的内容可知,在根据用于构建知识图谱的原始数据(以下简称第一原始数据)构建知识图谱之前,需要对第一原始数据进行模态划分,从第一原始数据中提取单模态数据。本技术中,将从第一原始数据中提取得到的单模态数据定义为第一数据。
45.基于第一原始数据可以包括一个或多个模态的数据,第一数据对应的模态类别也可以包括一个或多个类别。所以,从第一原始数据中提取得到第一数据之后,需要确定第一数据的模态类别,即确定第一数据包括几种模态的数据。
46.一种可能的实现方式中,第一原始数据仅包含一种模态的数据,即第一原始数据本身只包含单模态数据,例如第一原始数据只包含文本模态数据或图像模态数据。此种应用场景下,通过从第一原始数据中提取单模态数据,得到的第一数据仅对应一种模态的数据,也就是说,第一数据的模态类别包含一个类别。
47.一种可能的实现方式中,第一原始数据可以包含多种模态的数据,例如,第一原始数据可以包含文本模态数据、图像模态数据、图模态数据和时空模态数据等。此种应用场景中,通过从第一原始数据中提取单模态数据,可以得到多种模态的第一数据,也就是说,第一数据的模态类别包含多种类别。
48.步骤s102、如果所述模态类别包括多个类别,获取各模态类别分别对应的第一数据的表示向量。
49.如果在步骤s101中,确定第一数据的模态类别包含多种类别,则按照多个模态类别的处理方式,构建知识图谱,具体过程请参考后续实施例的内容。
50.结合前述实施例的内容可知,在构建知识图谱时,通常根据文本模态数据和/或图像模态数据,构建知识图谱。此外,根据两种或两种以上的单模态数据构建知识图谱的实现方式类同。基于此,以下实施例中,以第一数据的模态类别包括文本模态和图像模态为例,对本技术提供的技术方案进行说明。
51.一种可能的实现方式中,第一数据的模态类别包括文本模态和图像模态,也就是说,从第一原始数据中提取的第一数据既包含文本模态数据,也包含图像模态数据。则获取各模态类别分别对应的第一数据的表示向量,包括:获取文本模态对应的第一数据的文本表示向量和图像模态对应的第一数据的图像表示向量。
52.一种可能的实现方式中,获取文本模态对应的第一数据的文本表示向量和图像模态对应的第一数据的图像表示向量,可以按照下述方式实现:采用基于本文模态的预训练模型和/或表示学习模型(例如文本模态的知识图谱表示学习模型)训练得到的知识抽取模型,获取文本模态对应的第一数据的文本表示向量;采用基于图像模态的预训练模型和/或表示学习模型(例如图像模态的知识图谱表示学习模型)训练得到的知识抽取模型,获取图像模态对应的第一数据的图像表示向量。
53.可选地,采用基于文本模态的预训练模型和/或表示学习模型训练得到的知识抽取模型,获取文本表示向量时,首先将文本模态的预训练模型和表示学习模型的任务类别设置为获取表示向量,然后训练设置好任务类别的预训练模型和/或表示学习模型,得到知识抽取模型(该知识抽取模型可以记为文本表示向量抽取模型),然后通过训练得到的知识抽取模型(即文本表示向量抽取模型)获取文本模态对应的第一数据的文本表示向量。
54.同理,采用基于图像模态的预训练模型和/或表示学习模型训练得到的知识抽取模型,获取图像表示向量时,首先将图像模态的预训练模型和表示学习模型的任务类别设置为获取表示向量,然后训练设置好任务类别的预训练模型和/或表示学习模型,得到知识抽取模型(该知识抽取模型可以记为图像表示向量抽取模型),然后通过训练得到的知识抽取模型(即图像表示向量抽取模型)获取图像模态对应的第一数据的图像表示向量。
55.步骤s103、构建第一知识图谱。
56.其中,第一知识图谱是指基于所有所述表示向量进行知识抽取后,由抽取得到的知识构建得到的知识图谱。
57.一种可能的实现方式中,步骤s102获得的第一数据的表示向量包括文本表示向量和图像表示向量。基于此,构建第一知识图谱的具体实现过程,可以参见图4,图4为本技术提供的构建第一知识图谱的一种实施方式的流程示意图。结合图4可知,构建第一知识图谱的实现方式,可以包括下述步骤:
58.步骤s201、生成第一表示向量,所述第一表示向量是指由文本表示向量和图像表示向量拼接得到的表示向量。
59.可选地,文本表示向量和图像表示向量都是以向量序列的形式表征。文本表示向量和图像表示向量拼接是指将表征文本表示向量的向量序列与表征图像表示向量的向量序列拼接成一个向量序列。
60.步骤s202、生成第二表示向量,所述第二表示向量是指对所述第一表示向量进行全连接层编码得到的表示向量。
61.得到由文本表示向量和图像表示向量拼接成的第一表示向量之后,将第一表示向
量输入至预先设置好的全连接网络模型(也可以称为全连接层)中,对第一表示向量进行全连接层编码后,输出第二表示向量。
62.步骤s203、生成第三表示向量,所述第三表示向量是指对所述第二表示向量进行卷积处理得到的表示向量。
63.得到全连接网络模型输出的第二表示向量之后,将第二表示向量输入至预先设置好的卷积网络模型(也可以称为卷积层)中,对第二表示向量进行卷积处理后,输出第三表示向量。
64.步骤s204、根据所述第三表示向量的归一化处理结果,构建第一知识图谱。
65.得到第三表示向量后,将第三表示向量输入至设置有多个分类任务的softmax层(也可以称为归一化层或归一化网络模型)中,通过softmax层设置的多个分类任务,从第三表示向量中获取实体知识、属性知识、关系知识和事件知识,然后根据获得的实体知识、属性知识、关系知识和事件知识,构建知识图谱(记为第一知识图谱)。
66.其中,第三表示向量是基于文本表示向量和图像表示向量拼接生成,在根据第三表示向量进行分类预测时,是同时基于文本表示向量和图像表示向量进行分类预测,得到的实体知识、属性知识、关系知识和事件知识,充分蕴含了文本模态与图像模态关联的信息,生成的知识图谱可以更加充分的表征第一原始数据的文本信息和图像信息,不会割裂文本信息和图像信息之间的关联,准确度更高。
67.步骤s104、构建第二知识图谱。
68.得到第一知识图谱之后,依次对第一知识图谱进行知识融合和知识补全,便可以得到第一原始数据对应的知识图谱(记为第二知识图谱)。所以,第二知识图谱是指对所述第一知识图谱包含的知识进行知识融合和知识补全得到的知识图谱。
69.需要说明的是,图3和图4所示的实施例,是以第一数据的模态类别包含文本模态和图像模态为例进行说明。在其他应用场景中,第一数据的模态类别还可以包括其它模态,例如图模态和时空模态。此种应用场景中,在步骤s102中,还需要获取图模态和时空模态对应的第一数据的表示向量(以下简称为图表示向量和时空表示向量)。然后在步骤s201中生成第一表示向量时,将文本表示向量、图像表示向量、图表示向量和时空表示向量拼接为第一表示向量即可。
70.此外,第一原始数据还可以包括视频模态数据和/或音频模态数据,此种应用场景下,只需将音频模态数据转换成文本模态数据,以及获取视频模态数据的关键帧,得到视频模态数据的图像模态数据,并且将视频模态数据中的语音数据转换成文本模态数据,然后基于图像模态数据和文本模态数据,按照图3和图4所示的方式,构建第二知识图谱即可。
71.本技术提供的知识图谱的构建方法中,当用于构建知识图谱的原始数据(第一原始数据)包括多个模态类别的单模态数据时,可以先从第一原始数据中提取出各单模态数据,然后分别获取各单模态数据的表示向量,然后可以将所有模态的表示向量拼接为一个表示向量,基于拼接后的表示向量进行知识抽取,抽取得到的实体知识、属性知识、关系知识和属性知识均融合了多种模态的信息,使得根据抽取得到的知识构建的知识图谱,充分蕴含了各种模态关联的信息,不会割裂各种模态信息之间的关联关系,准确度更高,适用性更好。
72.在其他一些可选的应用场景中,第一原始数据中也可以只包括一种模态的数据,
即,第一数据对应的模态类别包括一个类别。此种应用场景下,构建原始数据对应的知识图谱的实现方式,可以参见图5,图5为本技术提供的知识图谱的构建方法的另一种实施方式的流程示意图,如图5所示,该方法可以包括以下步骤:
73.步骤s301、确定第一数据的模态类别。
74.步骤s301的具体实现方式可以参考前述实施例中步骤s101的内容,此处不再赘述。
75.步骤s302、如果所述模态类别包括一个类别,构建第一实体图谱。
76.其中,第一实体图谱是指采用基于第一数据的模态类别对应的预训练模型和/或表示学习模型训练得到的知识抽取模型,对第一数据进行实体知识抽取后,由抽取得到的知识构建得到的知识图谱。
77.可选地,在构建第一实体图谱的过程中,需要先将第一数据的模态类别对应的预训练模型和表示学习模型的任务类别设置为实体抽取,然后对设置好任务类别的预训练模型和/或表示学习模型进行训练,得到训练好的知识抽取模型(该知识抽取模型可以记为第一实体抽取模型),之后,将第一数据输入至前述训练好的知识抽取模型(即第一实体抽取模型)中,对第一数据进行实体知识抽取,然后,便可以根据抽取得到的知识构建知识图谱(以下简称第一实体图谱)。
78.步骤s303、构建第一属性图谱。
79.其中,第一属性图谱是指采用基于第一数据的模态类别对应的预训练模型和/或表示学习模型训练得到的知识抽取模型对第一实体图谱进行属性知识抽取得到的知识图谱。
80.可选地,在构建第一属性图谱的过程中,需要先将第一数据的模态类别对应的预训练模型和表示学习模型的任务类别设置为属性抽取,然后对设置好任务类别的预训练模型和/或表示学习模型进行训练,得到训练好的知识抽取模型(该知识抽取模型可以记为第一属性抽取模型),之后,将第一实体图谱输入至前述训练好的知识抽取模型(即第一属性抽取模型)中,对第一实体图谱进行属性知识抽取,然后,便可以根据抽取得到的知识构建知识图谱(以下简称第一属性图谱),可见,第一属性图谱不仅可以表征第一数据中实体与属性的信息,还可以表征第一数据中实体与属性的关联关系。
81.步骤s304、构建第一关系图谱。
82.其中,第一关系图谱是指采用基于第一数据的模态类别对应的预训练模型和/或表示学习模型训练得到的知识抽取模型对第一实体图谱进行关系知识抽取得到的知识图谱。
83.同理,可选地,在构建第一关系图谱的过程中,需要先将第一数据的模态类别对应的预训练模型和表示学习模型的任务类别设置为关系抽取,然后对设置好任务类别的预训练模型和/或表示学习模型进行训练,得到训练好的知识抽取模型(该知识抽取模型可以记为第一关系抽取模型),之后,将第一实体图谱输入至前述训练好的知识抽取模型(即第一关系抽取模型)中,对第一实体图谱进行关系知识抽取,然后,便可以根据抽取得到的知识构建知识图谱(以下简称第一关系图谱),可见,第一关系图谱不仅可以表征第一数据中实体与关系的信息,还可以表征第一数据中实体与关系的关联关系。
84.步骤s305、构建第一事件图谱。
85.其中,第一事件图谱是指采用基于第一数据的模态类别对应的预训练模型和/或表示学习模型对第一实体图谱进行事件知识抽取得到的知识图谱。
86.同理,可选地,在构建第一事件图谱的过程中,需要先将第一数据的模态类别对应的预训练模型和表示学习模型的任务类别设置为事件抽取,然后对设置好任务类别的预训练模型和/或表示学习模型进行训练,得到训练好的知识抽取模型(该知识抽取模型可以记为第一事件抽取模型),之后,将第一实体图谱输入至前述训练好的知识抽取模型(即第一事件抽取模型)中,对第一实体图谱进行事件知识抽取,然后,便可以根据抽取得到的知识构建知识图谱(以下简称第一事件图谱),可见,第一事件图谱不仅可以表征第一数据中实体与事件的信息,还可以表征第一数据中实体与事件的关联关系。
87.步骤s306、构建第三知识图谱。
88.其中,第三知识图谱是指由第一实体图谱、第一属性图谱、第一关系图谱和第一事件图谱合并得到的知识图谱。即,第三知识图谱是将第一实体图谱、第一属性图谱、第一关系图谱和第一事件图谱中包含的知识合并(取并集)后得到的知识图谱。
89.步骤s307、构建第四知识图谱。
90.其中,第四知识图谱是指对第三知识图谱包含的知识进行知识融合和知识补全得到的知识图谱。知识融合和知识补全的具体内容可以参考前述实施例的的内容,此处不再赘述。
91.需要说明的是,本技术中不对步骤s303、步骤s304和步骤s305的执行顺序进行限制,可以按照任意顺序顺次执行步骤s303、步骤s304和步骤s305,也可以同时执行。
92.本技术提供的知识图谱的构建方法中,当用于构建知识图谱的原始数据只包括一种模态的数据时,可以通过改变同一个预训练模型的任务类别,分别实现对第一数据的实体知识抽取、属性知识抽取、关系知识抽取和事件知识抽取,然后根据抽取得到的知识分别构建得到的第一实体图谱、第一属性图谱、第一关系图谱和第一事件图谱,构建第三知识图谱和第四知识图谱,从而得到原始数据对应的知识图谱。可见,通过本技术提供的方法,无需训练多种网络模型,只需不断改变同一个预训练模型的任务类别,就可以实现不同任务的知识抽取,从而可以更加简单快速的构建得到原始数据对应的知识图谱,适用性更好。
93.此外,本技术提供的上述实施例中,需要基于预训练模型训练得到知识抽取模型。基于此,在本技术另一种可选的实施方式中,还可以参见图6,图6为本技术提供的知识图谱的构建方法的另一种实施方式的流程示意图,结合图6可知,本技术提供的知识图谱的构建方法,在上述图3至图5所示实施例的基础上,还可以包括以下步骤:
94.步骤s401、获取第一训练语料。
95.其中,第一训练语料是指根据第一数据的模态类别对应的现有知识和/或通用语言学规则,通过自动标注的方式,对第二数据进行标注,得到的标注数据。第二数据为用于生成训练语料的原始数据。通常第一训练语料和第二数据的数据量都较小。
96.步骤s402、生成初始抽取模型。
97.其中,初始抽取模型是指使用第一训练语料对第一数据的模态类别对应的预训练模型进行训练,得到的用于抽取知识的模型。预训练模型可以为新范式(prompt)预训练模型。
98.步骤s403、生成第二训练语料。
99.其中,第二训练语料是指通过所述初始抽取模型对第三数据进行知识抽取后,通过自动标注的方式,对抽取得到的知识进行标注,得到的标注数据,所述第三数据为用于生成训练语料的原始数据。第三数据的数据量远远大于第二数据的数据量,第二训练语料的数据量也远远大于第一训练语料的数据量。可见,通过初始抽取模型可以自动扩大训练语料,无需再通过人工的方式获取大量的训练语料,极大地提高了训练语料的获取效率,适用性更好。
100.步骤s404、基于所述第二训练语料训练所述初始抽取模型,得到所述知识抽取模型。
101.本技术提供的知识图谱的构建方法中,任意模态下,任意任务类别的知识抽取模型都可以按照上述图6所示的方法训练得到。需要说明的是,还可以利用知识抽取模型再次从用于生成训练语料的原始数据中获取新的训练语料,更新知识抽取模型,本技术对此不进行限制。
102.按照图6所示的方法,只需根据现有知识和/或通用语言学规则,获取少量训练语料,后续便可以通过根据少量训练语料训练生成的知识抽取模型提取大量的训练语料,无需再通过人工标定的方式获取大量训练语料,模型训练更加简单高效,适用性更好。
103.本文中描述的各个方法实施例可以为独立的方案,也可以根据内在逻辑进行组合,这些方案都落入本技术的保护范围中。
104.可以理解的是,上述各个方法实施例中,由网络设备实现的方法和操作,也可以由可用于网络设备的部件(例如芯片或者电路)实现。
105.上述实施例对本技术提供的知识图谱的构建方法进行了介绍。可以理解的是,网络设备为了实现上述功能,其包含了执行每一个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本技术能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
106.本技术实施例可以根据上述方法示例对网络设备进行功能模块的划分,例如,可以对应每一个功能划分每一个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本技术实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
107.以上,结合图1至图6详细说明了本技术实施例提供的方法。以下,结合图7详细说明本技术实施例提供的装置。应理解,装置实施例的描述与方法实施例的描述相互对应,因此,未详细描述的内容可以参见上文方法实施例,为了简洁,这里不再赘述。
108.参见图7,图7为本技术提供的知识图谱的构建装置的一种实施方式的结构框图。如图7所示,该装置700可以包括:确定模块701、第一获取模块702、第一构建模块703和第二构建模块704。该装置700可以执行上述图3至图6所示方法实施例中网络设备执行的操作。
109.例如,在本技术一种可选的实施例中,所述确定模块701,可以用于确定第一数据的模态类别,所述第一数据是指从用于构建知识图谱的原始数据中提取得到的单模态数
据。
110.所述第一获取模块702,可以用于如果所述模态类别包括多个类别,获取各模态类别分别对应的第一数据的表示向量。
111.所述第一构建模块703,可以用于构建第一知识图谱,所述第一知识图谱是指基于所有所述表示向量进行知识抽取后,由抽取得到的知识构建得到的知识图谱。
112.所述第二构建模块704,可以用于构建第二知识图谱,所述第二知识图谱是指对所述第一知识图谱包含的知识进行知识融合和知识补全得到的知识图谱。
113.一种可能的实现方式中,所述模态类别包括文本模态和图像模态;所述第一获取模块702用于获取各模态类别分别对应的第一数据的表示向量,具体为:所述第一获取模块702用于获取所述文本模态对应的第一数据的文本表示向量和所述图像模态对应的第一数据的图像表示向量。
114.一种可能的实现方式中,所述第一构建模块703用于构建第一知识图谱,具体为:所述第一构建模块703用于:生成第一表示向量,所述第一表示向量是指由所述文本表示向量和所述图像表示向量拼接得到的表示向量;生成第二表示向量,所述第二表示向量是指对所述第一表示向量进行全连接层编码得到的表示向量;生成第三表示向量,所述第三表示向量是指对所述第二表示向量进行卷积处理得到的表示向量;根据所述第三表示向量的归一化处理结果,构建所述第一知识图谱。
115.一种可能的实现方式中,所述装置700还可以包括:第三构建模块,用于如果所述模态类别包括一个类别,构建第一实体图谱,所述第一实体图谱是指采用基于所述模态类别对应的预训练模型和/或表示学习模型训练得到的知识抽取模型,对所述第一数据进行实体知识抽取后,由抽取得到的知识构建得到的知识图谱;第四构建模块,用于构建第一属性图谱,所述第一属性图谱是指采用基于所述预训练模型和/或所述表示学习模型训练得到的知识抽取模型对所述第一实体图谱进行属性知识抽取得到的知识图谱;第五构建模块,用于构建第一关系图谱,所述第一关系图谱是指采用基于所述预训练模型和/或所述表示学习模型训练得到的知识抽取模型对所述第一实体图谱进行关系知识抽取得到的知识图谱;第六构建模块,用于构建第一事件图谱,所述第一事件图谱是指采用基于所述预训练模型和/或所述表示学习模型训练得到的知识抽取模型对所述第一实体图谱进行事件知识抽取得到的知识图谱;第七构建模块,用于构建第三知识图谱,所述第三知识图谱是指由所述第一实体图谱、所述第一属性图谱、所述第一关系图谱和所述第一事件图谱合并得到的知识图谱;第八构建模块,用于构建第四知识图谱,所述第四知识图谱是指对所述第三知识图谱包含的知识进行知识融合和知识补全得到的知识图谱。
116.一种可能的实现方式中,所述装置700还可以包括:第二获取模块,用于获取第一训练语料,所述第一训练语料是指根据所述模态类别对应的现有知识和/或通用语言学规则,通过自动标注的方式,对第二数据进行标注,得到的标注数据;所述第二数据为用于生成训练语料的原始数据;第一生成模块,用于生成初始抽取模型,所述初始抽取模型是指使用所述第一训练语料对所述模态类别对应的预训练模型进行训练,得到的用于抽取知识的模型;第二生成模块,用于生成第二训练语料,所述第二训练语料是指通过所述初始抽取模型对第三数据进行知识后,通过自动标注的方式,对抽取得到的知识进行标注,得到的标注数据,所述第三数据为用于生成训练语料的原始数据;训练模块,用于基于所述第二训练语
料训练所述初始抽取模型,得到所述知识抽取模型。
117.也就是说,该装置700可以实现对应于图3至图6所示方法实施例中网络设备所执行的步骤或者流程,该装置700可以包括用于执行图3至图6所示方法实施例中网络设备执行的方法的模块。应理解,各模块执行上述相应步骤的具体过程在上述方法实施例中已经详细说明,为了简洁,在此不再赘述。
118.本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各种说明性逻辑块(illustrative logical block)和步骤(step),能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
119.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
120.在本技术所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
121.所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
122.另外,在本技术各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。
123.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
124.上述本技术实施例提供的知识图谱的构建装置用于执行上文所提供的方法,因此,其所能达到的有益效果可参考上文所提供的方法对应的有益效果,在此不再赘述。
125.应理解,在本技术的各个实施例中,各步骤的执行顺序应以其功能和内在逻辑确定,各步骤序号的大小并不意味着执行顺序的先后,不对实施例的实施过程构成限定。
126.本说明书的各个部分均采用递进的方式进行描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点介绍的都是与其他实施例不同之处。尤其,对于知识图谱的构建装置的实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。
127.尽管已描述了本技术的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本技术范围的所有变更和修改。
128.以上所述的本技术实施方式并不构成对本技术保护范围的限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1