知识图谱构建方法、装置、计算机设备和存储介质与流程

文档序号:30595244发布日期:2022-07-01 20:32阅读:76来源:国知局
知识图谱构建方法、装置、计算机设备和存储介质与流程

1.本公开涉及计算机技术领域,尤其涉及一种知识图谱构建方法、装置、计算机设备和存储介质。


背景技术:

2.现有的知识图谱构建通常采用单一的文本识别算法实现,但单一的文本识别算法得到的识别结果准确度较低,无法得到准确度较高的知识图谱。


技术实现要素:

3.为了解决上述技术问题,本公开提供了一种知识图谱构建方法、装置、计算机设备和存储介质。
4.第一方面,本公开提供了一种知识图谱构建方法,包括:
5.获取原始文本和预设分词规则;
6.根据分词算法和所述预设分词规则对所述原始文本进行预处理,得到第一知识图谱;
7.接收修改指令;
8.根据所述修改指令修改所述第一知识图谱,得到目标知识图谱。
9.可选地,所述根据分词算法和所述预设分词规则对所述原始文本进行预处理,得到第一知识图谱,包括:
10.根据各个分词算法和所述预设分词规则对所述原始文本进行预处理,得到对应的预处理知识图谱,所述预处理知识图谱中的每个分词对应一个字索引数组;
11.根据各个所述预处理知识图谱进行合并,得到所述第一知识图谱。
12.可选地,知识图谱包括多个节点以及各个节点之间的关系,所述根据各个所述预处理知识图谱进行合并,得到所述第一知识图谱,包括:
13.在各个所述预处理知识图谱中,统计各个节点对应的出现概率,得到对应的第一节点概率;
14.在各个所述预处理知识图谱中,统计各个关系对应的出现概率,得到对应的第一关系概率;
15.根据满足第一预设条件的第一节点概率对应的节点,以及满足第二预设条件的第一关系概率对应的关系,得到所述第一知识图谱。
16.可选地,所述修改指令包括第一修改指令和第二修改指令,所述第一修改指令和所述第二修改指令对应的输入来源不同,所述根据所述修改指令修改所述第一知识图谱,得到目标知识图谱,包括:
17.当接收到第一修改指令时,根据所述第一修改指令修改所述第一知识图谱,得到第二知识图谱;
18.根据所述第二修改指令修改所述第二知识图谱,得到所述目标知识图谱。
19.可选地,当未接收到第一修改指令时,所述方法还包括:
20.根据所述第二修改指令修改所述第一知识图谱,得到所述目标知识图谱。
21.可选地,所述根据所述第一修改指令修改所述第一知识图谱,得到第二知识图谱,包括:
22.根据多个所述第一修改指令修改所述第一知识图谱,得到对应的修改知识图谱;
23.根据各个所述修改知识图谱进行合并,得到所述第二知识图谱。
24.可选地,知识图谱包括多个节点以及各个节点之间的关系,所述根据各个所述修改知识图谱进行合并,得到所述第二知识图谱,包括:
25.在各个所述修改知识图谱中,统计各个节点对应的出现概率,得到对应的第二节点概率;
26.在各个所述修改知识图谱中,统计各个关系对应的出现概率,得到对应的第二关系概率;
27.根据满足第三预设条件的第二节点概率对应的节点,以及满足第四预设条件的第二关系概率对应的关系,得到所述第二知识图谱。
28.第二方面,本公开提供了一种知识图谱构建装置,包括:
29.文本获取模块,用于获取原始文本和预设分词规则;
30.预处理模块,用于根据分词算法和所述预设分词规则对所述原始文本进行预处理,得到第一知识图谱;
31.指令接收模块,用于接收修改指令;
32.修改模块,用于根据所述修改指令修改所述第一知识图谱,得到目标知识图谱。
33.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
34.获取原始文本和预设分词规则;
35.根据分词算法和所述预设分词规则对所述原始文本进行预处理,得到第一知识图谱;
36.接收修改指令;
37.根据所述修改指令修改所述第一知识图谱,得到目标知识图谱。
38.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
39.获取原始文本和预设分词规则;
40.根据分词算法和所述预设分词规则对所述原始文本进行预处理,得到第一知识图谱;
41.接收修改指令;
42.根据所述修改指令修改所述第一知识图谱,得到目标知识图谱。
43.上述知识图谱构建方法、装置、计算机设备和存储介质,所述方法包括:获取原始文本和预设分词规则;根据分词算法和所述预设分词规则对所述原始文本进行预处理,得到第一知识图谱;接收修改指令;根据所述修改指令修改所述第一知识图谱,得到目标知识图谱。基于上述方法将经过分词算法预处理的第一知识图谱进行主观修改,结合多种输入来源的修改,弥补算法识别的不足,从而提高知识图谱的准确性。
附图说明
44.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
45.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
46.图1为一个实施例中知识图谱构建方法的应用环境图;
47.图2为一个实施例中知识图谱构建方法的流程示意图;
48.图3为一个实施例中一种知识图谱构建的界面显示示意图;
49.图4为一个实施例中一种知识图谱构建的界面显示示意图;
50.图5为一个实施例中一种知识图谱构建的界面显示示意图;
51.图6为一个实施例中一种知识图谱构建的界面显示示意图;
52.图7为一个实施例中知识图谱构建装置的结构框图;
53.图8为一个实施例中计算机设备的内部结构图。
具体实施方式
54.为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
55.图1为一个实施例中知识图谱构建方法的应用环境图。参照图1,该知识图谱构建方法应用于知识图谱构建系统。该知识图谱构建系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110具体可以是台式终端或移动终端,移动终端具体可以是手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
56.在一个实施例中,图2为一个实施例中一种知识图谱构建方法的流程示意图,参照图2,提供了一种知识图谱构建方法。本实施例主要以该方法应用于上述图1中的终端110来举例说明,该知识图谱构建方法具体包括如下步骤:
57.步骤s210,获取原始文本和预设分词规则。
58.具体地,原始文本为未经过任何识别处理的文本,原始文本由多个语句构成,每个语句由字词组成。预设分词规则用于确定存储分词结果的数据结构,预设分词规则通过配置开放式定义模板生成,预设分词规则包括分词标注规则、标注类型(tag)、分词适用范围(range)、分词抽取规则(rangecontent)等,分词标注规则具体可以包括按词标注(wordindex)和按字标注(charindexarray)。标注类型具体可以包括日期、人名、地名、名词、动词等。分词适用范围用于确定分词的提取范围,例如,如图3所示,原始文本的文本类型为法律类型,若分词适用范围为法律,则分词时仅提取与法律的相关的句子主干;若分词适用范围为无,表示不限定分词的提取范围,则无领域限制进行开放式分词。分词抽取规则为选取与预设分词相匹配的分词的规则,预设分词为分词适用范围对应的常用词组,例如,分词适用范围为法律时,分词抽取规则对应的预设分词包括协议、纠纷、谅解书、被告人、辩
护人等。
59.步骤s220,根据分词算法和所述预设分词规则对所述原始文本进行预处理,得到第一知识图谱。
60.具体地,根据分词算法和预设分词规则提取原始文本中的句子主干,句子主干包括主语、谓语和宾语,提取出的句子主干形成第一知识图谱,参考图4,第一知识图谱包括多个词组,每个词组对应一个字索引数组或分词索引号,若每个词组对应一个字索引数组,表示分词时按字标注,该词组对应相同位数的数组,例如,如图3所示,其中第一行的第一个词组“审理”对应的字索引数组为“12”;若每个词组对应一个分词索引号,表示分词时按词标注,该词组对应一个索引号,则“审理”对应的分词索引号为“1”。在本实施例中,分词标注规则选择按字标注,便于后续根据修改指令将分词按字进行拆分。且每个词组都有对应的标注类型,例如,图4中的“李股”对应的标注类型为人名。
61.步骤s230,接收修改指令。
62.具体地,修改指令对应至少一个输入来源的指令,每个输入来源代表一个用户,用户具体可以为普通用户和/或专家用户,各个用户的想法不同,对应的修改指令就可能不同,修改指令包括合并、删除、修改、鞥见、靠背、粘贴、拆分等操作对应的指令。
63.步骤s240,根据所述修改指令修改所述第一知识图谱,得到目标知识图谱。
64.具体地,根据各个输入来源对应的修改指令修改第一知识图谱,得到最终的目标知识图谱,根据多维度的修改从而提高了目标知识图谱的准确度。例如,由于分词算法的准确性较低,导致图4中的“吴铁所”被分词算法和预设分词规则定义为人名,根据修改指令将“吴铁所”进行拆分修改为图5中的“吴铁”,得到目标知识图谱,从而提高了知识图谱的准确性。
65.在一个实施例中,根据各个分词算法和所述预设分词规则对所述原始文本进行预处理,得到对应的预处理知识图谱,所述预处理知识图谱中的每个分词对应一个字索引数组;根据各个所述预处理知识图谱进行合并,得到所述第一知识图谱。
66.具体地,分词算法分为基于词典分词算法和基于统计的机器学习算法,分词算法具体可以为ansj分词算法、ltp分词算法、thulac分词算法等。每个分词算法结合预设分词规则对原始文本进行分词预处理,得到对应的预处理知识图谱,预处理知识图谱包括多个预处理分词,每个预处理分词都有对应的标注类型和字索引数组。每种分词算法得到的预处理知识图谱可能存在差异,将各个分词算法对应的预处理知识图谱进行统计结合,得到第一知识图谱,第一知识图谱的准确度高于根据某一种分词算法得到的预处理知识图谱的准确度。
67.在一个实施例中,知识图谱包括多个节点以及各个节点之间的关系,在各个所述预处理知识图谱中,统计各个节点对应的出现概率,得到对应的第一节点概率;在各个所述预处理知识图谱中,统计各个关系对应的出现概率,得到对应的第一关系概率;根据满足第一预设条件的第一节点概率对应的节点,以及满足第二预设条件的第一关系概率对应的关系,得到所述第一知识图谱。
68.具体地,知识图谱包括多个词组,一个节点对应一个名词词组,一个关系对应一个动词词组,例如图5中的“达成”为“双方”和“协议”之间的关系。在各个预处理知识图谱中统计各个节点对应的第一节点概率,例如,共有5种分词算法,则对应五个预处理知识图谱,若
有三个预处理知识图谱中出现“被告人”,有两个预处理知识图谱中出现“被告”,则“被告人”这个节点对应的第一节点概率为60%;若有五个预处理知识图谱中出现了“达成”这个关系,则“达成”这个关系对应的第一关系概率为100%。第一预设条件为第一节点概率大于50%,第二预设条件为第一关系概率大于50%,根据满足第一预设条件和第二预设条件的节点和关系形成第一知识图谱,即选择概率高的节点和关系形成第一知识图谱。
69.在一个实施例中,所述修改指令包括第一修改指令和第二修改指令,所述第一修改指令和所述第二修改指令对应的输入来源不同,当接收到第一修改指令时,根据所述第一修改指令修改所述第一知识图谱,得到第二知识图谱;根据所述第二修改指令修改所述第二知识图谱,得到所述目标知识图谱。
70.具体地,第一修改指令对应至少一个普通用户的修改指令,第二修改指令对应至少一个专家用户的修改指令,当接收到第一修改指令时,根据第一修改指令对第一知识图谱进行修改,得到第二知识图谱,第二知识图谱为用户在第一知识图谱的基础上进行修正,提高了第一知识图谱的准确性。由于专家用户比普通用户更专业,专家用户在第二知识图谱的基础上进行修正,从而得到准确度更高的目标知识图谱。
71.例如,图6中的“推”则是根据专家用户的修改指令修正得到的关系,以此得到“李股-推-吴铁”的句子主干,从而得到更新后的目标知识图谱。
72.在一个具体实施例中,将第二知识图谱与第一知识图谱进行比对,根据第二知识图谱和第一知识图谱的差异程度对分词算法和预设分词规则进行校正,从而提高分词算法的准确性,在下一次构建知识图谱时提高了知识图谱的准确度。
73.在一个具体实施例中,将目标知识图谱和第二知识图谱进行比对,并展示目标知识图谱和第二知识图谱的差异程度,可为普通用户提供修改参考,从而提高普通用户修改后得到的知识图谱的准确度,若普通用户对于目标知识图谱存在异议,可通过邮件或其他联系方式告知专家用户,专家用户和普通用户之间形成相互反馈,从而提高了最终的知识图谱的准确性和可靠性。
74.在一个实施例中,当未接收到第一修改指令时,根据所述第二修改指令修改所述第一知识图谱,得到所述目标知识图谱。
75.具体地,若没有普通用户对第一知识图谱进行修改或普通用户未对第一知识图谱进行修改,则在第一知识图谱的基础上根据专家用户的修改指令进行修改,得到准确度较高的目标知识图谱。
76.在一个实施例中,根据多个所述第一修改指令修改所述第一知识图谱,得到对应的修改知识图谱;根据各个所述修改知识图谱进行合并,得到所述第二知识图谱。
77.具体地,当存在多个普通用户对应的修改指令时,根据各个修改指令修改第一知识图谱,得到各个修改指令对应的修改知识图谱,各个修改知识图谱之间可能存在差异,将各个修改知识图谱进行统计结合,得到第二知识图谱,第二知识图谱的准确度高于根据某一个普通用户对应的修改指令得到的预处理知识图谱的准确度。
78.在一个实施例中,知识图谱包括多个节点以及各个节点之间的关系,在各个所述修改知识图谱中,统计各个节点对应的出现概率,得到对应的第二节点概率;在各个所述修改知识图谱中,统计各个关系对应的出现概率,得到对应的第二关系概率;根据满足第三预设条件的第二节点概率对应的节点,以及满足第四预设条件的第二关系概率对应的关系,
得到所述第二知识图谱。
79.具体地,知识图谱包括多个词组,一个节点对应一个名词词组,一个关系对应一个动词词组,例如,存在5个普通用户对应的修改指令修改第一知识图谱,得到对应的修改知识图谱,若有四个修改知识图谱中出现“被告人”,有一个修改知识图谱中出现“被告人系”,则“被告人”对应的第二节点概率为80%;若有五个修改知识图谱中出现“打”,则“打”对应的第二关系概率为100%。第三预设条件为第二节点概率大于50%,第四预设条件为第二关系概率大于50%,根据满足第三预设条件和第四预设条件的节点和关系形成第二知识图谱,即选择概率高的节点和关系形成第二知识图谱。
80.图2为一个实施例中知识图谱构建方法的流程示意图。应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
81.在一个实施例中,如图7所示,提供了一种知识图谱构建装置,包括:
82.文本获取模块310,用于获取原始文本和预设分词规则;
83.预处理模块320,用于根据分词算法和所述预设分词规则对所述原始文本进行预处理,得到第一知识图谱;
84.指令接收模块330,用于接收修改指令;
85.修改模块340,用于根据所述修改指令修改所述第一知识图谱,得到目标知识图谱。
86.在一个实施例中,所述预处理模块320包括:
87.预处理单元,用于根据各个分词算法和所述预设分词规则对所述原始文本进行预处理,得到对应的预处理知识图谱,所述预处理知识图谱中的每个分词对应一个字索引数组;
88.第一合并单元,用于根据各个所述预处理知识图谱进行合并,得到所述第一知识图谱。
89.在一个实施例中,知识图谱包括多个节点以及各个节点之间的关系,所述第一合并单元包括:
90.第一节点统计单元,用于在各个所述预处理知识图谱中,统计各个节点对应的出现概率,得到对应的第一节点概率;
91.第一关系统计单元,用于在各个所述预处理知识图谱中,统计各个关系对应的出现概率,得到对应的第一关系概率;
92.第一图谱生成单元,用于根据满足第一预设条件的第一节点概率对应的节点,以及满足第二预设条件的第一关系概率对应的关系,得到所述第一知识图谱。
93.在一个实施例中,所述修改指令包括第一修改指令和第二修改指令,所述第一修改指令和所述第二修改指令对应的输入来源不同,所述修改模块340包括:
94.第一修改单元,用于当接收到第一修改指令时,根据所述第一修改指令修改所述
第一知识图谱,得到第二知识图谱;
95.第二修改单元,用于根据所述第二修改指令修改所述第二知识图谱,得到所述目标知识图谱。
96.在一个实施例中,所述修改模块340还包括:
97.第三修改单元,用于当未接收到第一修改指令时,根据所述第二修改指令修改所述第一知识图谱,得到所述目标知识图谱。
98.在一个实施例中,所述第一修改单元包括:
99.修改图谱生成单元,用于根据多个所述第一修改指令修改所述第一知识图谱,得到对应的修改知识图谱;
100.第二合并单元,用于根据各个所述修改知识图谱进行合并,得到所述第二知识图谱。
101.在一个实施例中,知识图谱包括多个节点以及各个节点之间的关系,所述第二合并单元包括:
102.第二节点统计单元,用于在各个所述修改知识图谱中,统计各个节点对应的出现概率,得到对应的第二节点概率;
103.第二关系统计单元,用于在各个所述修改知识图谱中,统计各个关系对应的出现概率,得到对应的第二关系概率;
104.第二图谱生成单元,用于根据满足第三预设条件的第二节点概率对应的节点,以及满足第四预设条件的第二关系概率对应的关系,得到所述第二知识图谱。
105.图8示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110(或服务器120)。如图8所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现知识图谱构建方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行知识图谱构建方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
106.本领域技术人员可以理解,图8中示出的结构,仅仅是与本公开方案相关的部分结构的框图,并不构成对本公开方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
107.在一个实施例中,本公开提供的知识图谱构建装置可以实现为一种计算机程序的形式,计算机程序可在如图8所示的计算机设备上运行。计算机设备的存储器中可存储组成该知识图谱构建装置的各个程序模块,比如,图7所示的文本获取模块310、预处理模块320、指令接收模块330和修改模块340。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本公开各个实施例的知识图谱构建方法中的步骤。
108.图8所示的计算机设备可以通过如图7所示的知识图谱构建装置中的文本获取模块310执行获取原始文本和预设分词规则。计算机设备可通过预处理模块320执行根据分词算法和所述预设分词规则对所述原始文本进行预处理,得到第一知识图谱。计算机设备可
通过指令接收模块330执行接收修改指令。计算机设备可通过修改模块340执行根据所述修改指令修改所述第一知识图谱,得到目标知识图谱。
109.在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:获取原始文本和预设分词规则;根据分词算法和所述预设分词规则对所述原始文本进行预处理,得到第一知识图谱;接收修改指令;根据所述修改指令修改所述第一知识图谱,得到目标知识图谱。
110.处理器执行存储器中存储的程序还可实现上述实施例中任意一项实施例所要实现的方法步骤。
111.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取原始文本和预设分词规则;根据分词算法和所述预设分词规则对所述原始文本进行预处理,得到第一知识图谱;接收修改指令;根据所述修改指令修改所述第一知识图谱,得到目标知识图谱。
112.该计算机程序被处理器执行时还可实现上述实施例中任意一个实施例所要实现的方法步骤。
113.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指示相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本公开所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双倍速率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
114.需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
115.以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1