一种领域知识处理方法及装置与流程

文档序号:11829905阅读:202来源:国知局
一种领域知识处理方法及装置与流程

本发明涉及数据挖掘技术领域,特别涉及一种领域知识处理方法及装置。



背景技术:

领域知识通常是以文本形式存在,现有技术中通常采用人工整理的方式来对文本进行数据表格的制作,用以表示结构化的领域知识,使得现有技术中对领域知识进行结构化处理时具有效率较低的问题,因此,亟需一种能够对领域知识进行高效的结构化处理的方案。



技术实现要素:

本发明的目的在于,提供一种领域知识处理方法及装置,用以解决现有技术中通过人工整理的方式对领域知识进行结构化处理时效率较低的技术问题。

本发明提供了一种领域知识处理方法,包括:

获取目标文本数据,所述目标文本数据中包括至少一条领域知识;

基于预设的语义描述规则,对所述目标文本数据进行解析,得到所述目标文本数据中每条所述领域知识的两个知识实体及其之间的实体关系;

将每条所述领域知识中的两个知识实体及实体关系进行组合,以生成每条所述领域知识的知识三元组;

基于所述知识三元组,构建所述目标文本数据对应的结构化的领域知识本体。

上述方法,优选的,所述基于预设的语义描述规则,对所述目标文本数据进行解析,得到所述目标文本数据中每条所述领域知识的两个知识实体及其之间的实体关系,包括:

确定所述目标文本数据中每条领域知识的目标谓词;

对每个所述目标谓词进行分类,得到分类结果;

基于每个所述目标谓词的分类结果,确定其各自对应的领域知识的知识实体及其之间的实体关系。

上述方法,优选的,所述基于每个所述目标谓词的分类结果,确定其各自对应的领域知识的知识实体及其之间的实体关系,包括:

依据每个所述目标谓词的分类结果,确定每个所述分类结果对应的文本识别模板,所述文本识别模板的模板类别与所述目标谓词的分类结果相对应;

基于所述文本识别模板,对每个所述目标谓词所在的领域知识进行实体分析,得到每条所述领域知识的两个知识实体及其之间的实体关系。

上述方法,优选的,在得到所述目标文本数据中每条所述领域知识的两个知识实体及其之间的实体关系之后,所述方法还包括:

获取所述目标文本数据中未经过所述文本识别模板分析的剩余领域知识;

对所述剩余领域知识进行词句解析,得到满足模板生成规则的目标领域知识;

基于所述目标领域知识,生成与当前存在的所述文本识别模板属于不同模板类别的新的文本识别模板。

上述方法,优选的,在基于所述目标领域知识,生成与当前存在的所述文本识别模板属于不同模板类别的新的文本识别模板之后,所述方法还包括:

利用区别于所述目标文本数据的领域知识文本对所述新的文本识别模板进行准确率判断,以剔除准确率低于预设阈值的文本识别模板。

上述方法,优选的,所述基于所述知识三元组,构建所述目标文本数据对应的结构化的领域知识本体,包括:

对所有所述知识三元组进行归一化操作,得到所述目标文本数据对应的结构化的领域知识库;

基于所述领域知识库中每个所述知识三元组中的实体关系,建立所述领域知识库对应的领域知识图谱;

对所述领域知识图谱进行属性的逻辑判断,以构建出所述领域知识图谱对应的领域知识本体。

上述方法,优选的,在基于所述知识三元组,构建所述目标文本数据对应的结构化的领域知识本体之前,所述方法还包括:

获取每个所述知识三元组的文本语境属性值及文本语料属性值;

基于所述文本语境属性值及文本语料属性值,获取每个所述知识三元组的准确率;

在每个所述知识三元组的准确率均处于预设准确率值范围时,执行所述基于所述知识三元组,构建所述目标文本数据对应的结构化的领域知识本体,否则,删除其准确率值未处于其各自对应的准确率值范围的三元组,执行所述基于所述知识三元组,构建所述目标文本数据对应的结构化的领域知识本体。

本发明还提供了一种领域知识处理装置,所述装置包括:

数据获取单元,用于获取目标文本数据,所述目标文本数据中包括至少一条领域知识;

数据解析单元,用于基于预设的语义描述规则,对所述目标文本数据进行解析,得到所述目标文本数据中每条所述领域知识的两个知识实体及其之间的实体关系;

三元组生成单元,用于将每条所述领域知识中的两个知识实体及实体关系进行组合,以生成每条所述领域知识的知识三元组;

本体构建单元,用于基于所述知识三元组,构建所述目标文本数据对应的结构化的领域知识本体。

上述装置,优选的,所述数据解析单元包括:

谓词确定子单元,用于确定所述目标文本数据中每条领域知识的目标谓词;

谓词分类子单元,用于对每个所述目标谓词进行分类,得到分类结果;

实体确定子单元,用于基于每个所述目标谓词的分类结果,确定其各自对应的领域知识的知识实体及其之间的实体关系。

上述装置,优选的,所述实体确定子单元包括:

模板确定模块,用于基于每个所述目标谓词的分类结果,确定每个所述分类结果对应的文本识别模板,所述文本识别模板的模板类别与所述目标谓词的分类结果相对应;

知识分析模块,用于基于所述文本识别模板,对每个所述目标谓词所在的领域知识进行实体分析,得到每条所述领域知识的两个知识实体及其之间的实体关系。

上述装置,优选的,还包括:

知识获取单元,用于在所述数据解析单元得到每条所述领域知识的两个知识实体及其之间的实体关系之后,获取所述目标文本数据中未经过所述文本识别模板分析的剩余领域知识;

词句解析单元,用于对所述剩余领域知识进行词句解析,得到满足模板生成规则的目标领域知识;

模板生成单元,用于基于所述目标领域知识,生成与所述文本识别模板属于不同模板类别的文本识别模板。

上述装置,优选的,还包括:

模板校验单元,用于在所述模板生成单元生成与当前存在的所述文本识别模板属于不同模板类别的新的文本识别模板之后,利用区别于所述目标文本数据的领域知识文本对所述新的文本识别模板进行准确率判断,以剔除准确率低于预设阈值的文本识别模板。

上述装置,优选的,所述本体构建单元包括:

归一化操作子单元,用于对所有所述知识三元组进行归一化操作,得到所述目标文本数据对应的结构化的领域知识库;

知识图谱建立子单元,用于基于所述领域知识库中每个所述知识三元组中的实体关系,建立所述领域知识库对应的领域知识图谱;

图谱逻辑判断子单元,用于对所述领域知识图谱进行属性的逻辑判断,以构建出所述领域知识图谱对应的领域知识本体。

上述装置,优选的,还包括:

文本属性获取单元,用于在所述本体构建单元构建所述目标文本数据对应的结构化的领域知识本体之前,获取每个所述知识三元组的文本语境属性值及文本语料属性值;

准确率获取单元,用于基于所述文本语境属性值及文本语料属性值,获取每个所述知识三元组的准确率,在每个所述知识三元组的准确率均处于预设准确率值范围时,触发所述本体构建单元,否则,触发三元组删除单元;

三元组删除单元,用于删除其准确率值未处于其各自对应的准确率值范围的三元组,触发所述本体构建单元。

由上述方案可知,本发明提供的一种领域知识处理方法及装置,通过对含有领域知识的目标文本数据进行获取之后,基于语义描述规则对目标文本进行解析,以得到每条领域知识中的知识实体及实体关系,进而组合生成每条领域知识的知识三元组,进而基于这些三元组构建出目标文本数据所对应的领域知识本体。区别于现有技术中通过人工整理的方式来对领域知识进行结构化处理的方式使得效率较低的情况,本发明利用语义解析方案获取领域知识中的知识实体及实体关系进而组成结构化的知识三元组合,进而构建出领域知识本体,由此提高领域知识结构化处理的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本发明提供的一种领域知识处理方法实施例一的流程图;

图2至图5分别为本发明提供的一种领域知识处理方法实施例二的部分流程图;

图6为本发明提供的一种领域知识处理方法实施例三的部分流程图;

图7为本发明提供的一种领域知识处理方法实施例四的流程图;

图8为本发明提供的一种领域知识处理装置实施例五的结构示意图;

图9至图12分别为本发明提供的一种领域知识处理装置实施例六的部分结构示意图;

图13为本发明提供的一种领域知识处理方法实施例七的部分结构示意图;

图14为本发明提供的一种领域知识处理装置实施例八的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

参考图1,为本发明提供的一种领域知识处理方法实施例一的流程图,其中,所述方法可以包括以下步骤,以实现对领域知识的结构化处理:

步骤101:获取目标文本数据,所述目标文本数据中包括至少一条领域知识。

其中,所述领域知识即为以文本形式存在的数据,例如,所述目标文本数据包括三条领域知识,每条所述领域知识包括主语、谓词(如系动词等)及宾语等三部分,以表达一个语义。

步骤102:基于预设的语义描述规则,对所述目标文本数据进行解析,得到所述目标文本数据中每条所述领域知识的两个知识实体及其之间的实体关系。

其中,所述语义描述规则可以理解为:日常应用中含义表达所常用的语句描述结果,如人们日常讲话习惯所对应的规则等。本实施例中基于这些语 义描述规则,对所述目标文本数据进行解析,以得到每条所述领域知识中的两个知识实体及其之间的实体关系,其中,所述知识实体与所述领域知识中的主语或宾语等相对应,所述实体关系与所述谓词等相对应,例如,所述领域知识:“手机是一种智能设备”,其中,“手机”及“智能设备”均为知识实体,“是”为两个知识实体“手机”及“智能设备”之间的实体关系。

需要说明的是,这里的知识实体可以为概念性实体,也可以为实例性实体,如所述领域知识中,“手机”为实例性实体,“智能设备”为概念性实体,而实体关系“是”表明该领域知识所属的知识侧面,如上下位的知识侧面,相应的,“手机”为该上下位知识侧面中的下位,“智能设备”为该上下位知识侧面中的上位。再如,领域知识“副总经理属于公司领导班子”中,其实体关系“属于”表明该领域知识所属的部分整体的知识侧面,实体“副总经理”为该部分整体知识侧面中的部分,属于实例性实体;实体“公司领导班子”为该部分整体知识侧面中的整体,属于概念性实体。

步骤103:将每条所述领域知识中的两个知识实体及实体关系进行组合,以生成每条所述领域知识的知识三元组。

例如,将所述领域知识“手机是一种智能设备”中的两个知识实体“手机”和“智能设备”及实体关系“是”进行组合,得到结构化的知识三元组“是/is(手机,智能设备)”,在该知识三元组中,“是/is”表示为知识实体“手机”及“智能设备”之间的关系。

步骤104:基于所述知识三元组,构建所述目标文本数据对应的结构化的领域知识本体。

其中,由前文中控制,所述知识三元组为结构化的包含三个实体的三元组,由此,在本实施例中,基于这些知识三元组以构建出所述目标文本数据所对应的领域知识本体,该领域知识本体为结构化本体,且该领域知识本体与所述目标文本数据中的领域知识相对应。

由上述方案可知,本发明提供的一种领域知识处理方法实施例一,通过对含有领域知识的目标文本数据进行获取之后,基于语义描述规则对目标文本进行解析,以得到每条领域知识中的知识实体及实体关系,进而组合生成 每条领域知识的知识三元组,进而基于这些三元组构建出目标文本数据所对应的领域知识本体。区别于现有技术中通过人工整理的方式来对领域知识进行结构化处理的方式使得效率较低的情况,本实施例利用语义解析方案获取领域知识中的知识实体及实体关系进而组成结构化的知识三元组合,进而构建出领域知识本体,由此提高领域知识结构化处理的效率。

参考图2,为本发明提供的一种领域知识处理方法实施例二中所述步骤102的实现流程图,其中,所述步骤102可以通过以下步骤实现:

步骤121:确定所述目标文本数据中每条领域知识的目标谓词。

其中,所述目标谓词可以为动词、形容词等,如系动词“是”或“为”等。本实施例中对每条所述领域知识中的谓词进行确定。

步骤122:对每个所述目标谓词进行分类,得到分类结果。

也就是说,本实施例通过对所述目标谓词进行分类判断,以得到能够表明所述目标谓词属于领域知识侧面的分类结果,如:上下位、部分整体、属性、指代关系、态度关系、时序关系、位置关系、开始事件、变化事件及结束事件等,本实施例中通过识别该目标谓词所表达的语义来判断出其所属领域知识所对应的领域知识侧面,如上下位或整体部分等知识侧面。

步骤123:基于每个所述目标谓词的分类结果,确定其各自对应的领域知识的知识实体及其之间的实体关系。

具体的,如图3中所示,为所述步骤123的实现流程图,其中,所述步骤123可以通过以下步骤实现:

步骤301:依据每个所述目标谓词的分类结果,确定每个所述分类结果对应的文本识别模板。

其中,所述文本识别模板的模板类别与所述目标谓词的分类结果相对应。

步骤302:基于所述文本识别模板,对每个所述目标谓词所在的领域知识进行实体分析,得到每条所述领域知识的两个知识实体及其之间的实体关系。

也就是说,本实施例中基于该目标谓词所对应的领域知识侧面的类别来确定能够对领域知识进行文本中实体结构识别的文本识别模板,例如,所述目标谓词为“是”,对应上下位知识侧面,此时,确定与该上下位知识侧面对应的上下位文本识别模板,进而利用该文本识别模板对每个所述目标谓词所在的领域知识进行文本中实体结构识别,以得到每个所述领域知识中的两个知识实体及这两个知识实体之间的实体关系。

在具体应用中,所述文本识别模板为有限个数的文本识别模板,因此,在所述目标文本数据中存在无法采用当前存在的文本识别模板进行其内领域知识的文本实体结构的识别,为解决这一问题,本实施例中通过以下步骤实现对新的文本识别模板的获取,参考图4,为本发明实施例的另一部分流程图,其中,在所述步骤102之后,所述方法还可以包括以下步骤:

步骤105:获取所述目标文本数据中未经过所述文本识别模板分析的剩余领域知识。

也就是说,本实施例中每次对文本数据中的领域知识基于当前存在的文本识别模板进行处理之后,对剩余的无法基于当前存在的文本识别模板进行处理的领域知识进行获取,并将这些剩余领域知识作为新的文本识别模板的基础数据。

步骤106:对所述剩余领域知识进行词句解析,得到满足模板生成规则的目标领域知识。

具体的,本实施例中对这些剩余领域知识中的语句进行词频分析、聚类、频繁序列分析等机器学习处理,以得到可能会产生新的文本识别模板的目标领域知识。

步骤107:基于所述目标领域知识,生成与当前存在的所述文本识别模板属于不同模板类别的新的文本识别模板。

具体的,本实施例中对所述目标领域知识中的语句进行中心谓词学习、语义概念标注、模板对比合并等机器自动学习操作,进而得到新的文本识别模板,这些新的文本识别模板能够对之前已经存在的文本识别模板无法识别出来的知识侧面的领域知识进行处理。

另外,参考图5,为本发明实施例中的另一部分流程图,其中,在所述步骤107之后,所述方法还可以包括以下步骤:

步骤108:利用区别于所述目标文本数据的领域知识文本对所述新的文本识别模板进行准确率判断,以剔除准确率低于预设阈值的文本识别模板。

具体的,本实施例中可以重新获取区别于所述目标文本数据的其他文本数据,这些重新获取的文本数据中同样可以含有多条领域知识,利用所述新的文本识别模板对这些重新获取的领域知识进行领域语料解析,以获取这些新的文本识别模板中领域语料解析准确率较高如准确率高于预设阈值的文本识别模板,即:剔除准确率低于所述阈值的文本识别模板,进而将准确率比较高如高于所述预设阈值的文本识别模板置于模板库中。

参考图6,为本发明提供的一种领域知识处理方法实施例三中所述步骤104的实现流程图,其中,所述步骤104可以通过以下步骤实现:

步骤141:对所有所述知识三元组进行归一化操作,得到所述目标文本数据对应的结构化的领域知识库。

其中,本实施例中通过对这些知识三元组进行三元组合并、概念归一化等操作,以得到领域知识库。具体的,本实施例中的归一化操作可以采用统计验证的方式,通过迭代计算的方法获取到最终的结构化的领域知识库。

步骤142:基于所述领域知识库中每个所述知识三元组中的实体关系,建立所述领域知识库对应的领域知识图谱。

由前文中可知,所述知识三元组中的实体关系是可以反映到该知识三元组对应领域知识所属的知识侧面的,如上下位知识侧面或部分整体知识侧面等,因此,本实施例中基于所述领域知识库中知识三元组的实体关系即每条所述领域知识所属的知识侧面来绘制建立该领域知识库所对应的领域知识图谱,所述领域知识图谱中可以采用节点相连的形式来实现三元组的结构化表示,如图谱中的节点为知识实体,而节点之间的连接对应实体关系。

步骤143:对所述领域知识图谱进行属性的逻辑判断,以构建出所述领域知识图谱对应的领域知识本体。

具体的,由前文中可以推出,该领域知识图谱中是包含有所述领域知识库中每条领域知识对应的知识侧面的,即图谱中节点之间的连接对应于实体关系进而对应该领域知识所属知识侧面,如上下位知识侧面或部分整体知识侧面等,因此,本实施例中通过对所述领域知识图谱中的这些知识侧面所对应的逻辑关系进行判断,如结合各个领域知识对应的三元组中知识实体及实体关系,来区分每个知识实体的属性,如概念还是实例,进而构建出所述领域知识图谱所对应的领域知识本体。需要说明的是,所述领域知识本体中,概念性实体与实例性实体是区分开的。

在具体实现中,为了提高最终得到的领域知识本体的准确性,需要对每条领域知识的知识三元组进行准确率的统计验证,由此,参考图7,为本发明提供的一种领域知识处理方法实施例四的流程图,其中,在所述步骤104之前,所述方法还可以包括以下步骤:

步骤109:获取每个所述知识三元组的文本语境属性值及文本语料属性值。

其中,所述文本语境属性值可以为:所述知识三元组的语境完整性属性值,所述文本语料属性值可以包括有:所述知识三元组的语料支持度属性值、语料一致性属性值及语料孤立度属性值等。

步骤110:基于所述文本语境属性值及文本语料属性值,获取每个所述知识三元组的准确率,在每个所述知识三元组的准确率均处于预设准确率值范围时,执行所述步骤104,否则,执行步骤111。

在本实施例中,通过对每个所述知识三元组的文本语境属性值及所述文本语料属性值是否均处于其各自对应的预设阈值范围进行判断,进而得出该知识三元组的准确率。例如,本实施例对每个所述知识三元组的各个统计指标,如:所述文本语境属性值如语境完整性属性值及所述文本语料属性值如语料支持度属性值、语料一致性属性值及语料孤立度属性值等,进行统计验 证,以得到每个所述知识三元组的准确率,并在每个所述知识三元组的准确率均处于其对应的准确率值范围时,执行步骤104,以基于所述知识三元组,构建所述目标文本数据对应的结构化的领域知识本体,否则,执行步骤111。

步骤111:删除其文本语境属性值或文本语料属性值未处于其各自对应的阈值范围的三元组,执行所述步骤104。

也就是说,本实施例会将其统计指标不满足要求(与所述准确率值范围相对应)的知识三元组进行删除,以基于剩余的知识三元组,构建所述目标文本数据对应的结构化的领域知识本体。

需要说明的是,本本实施例中可以将其统计指标满足要求的知识三元组首先置入正式知识库中,以作为后续操作的数据基础,如生成领域知识库、建立领域知识图谱及构建领域知识本体等。

另外,本实施例还可以将删除的知识三元组进行进一步的准确率判断,进而,将其准确率低于预设淘汰阈值的知识三元组置入淘汰知识库,将剩余的知识三元组置入备选知识库中。

需要说明的是,通过前文中本发明所提及的对三元组进行统计验证,即获取三元组准确率值的方法,可以对前文中获取到的新的文本识别模板的正确性进行验证,例如,利用新的文本识别模板对新的文本数据中的领域知识进行结构化处理之后,能够得到各个领域知识所对应的三元组,通过基于前文中对三元组进行准确率判断的统计验证方法,对这些新得到的三元组进行统计验证,以得到该新得到的三元组的准确率,通过判断该新得到的三元组的准确率来判断该新的文本识别模板的准确率,进而将准确率比较高如高于所述预设阈值的文本识别模板置于模板库中。

另外,本实施例中对领域知识所对应的三元组进行统计验证时,可以采用迭代递增的方案实现,例如,本实施例可以在对新的文本识别模板进行验证之后,利用准确率高的文本识别模板对新的文本数据中所获取的一批三元组合进行统计验证,并将统计验证结果与前一次迭代的结果进行合并,以计 算出新的三元组的准确率,然后将新的三元组和已经发生变化的三元组分别写入到正式知识库、备选知识库或淘汰知识库中,以备后续操作。

参考图8,为本发明提供的一种领域知识处理装置实施例五的结构示意图,其中,所述装置可以通过以下结构,以实现对领域知识的结构化处理:

数据获取单元801,用于获取目标文本数据,所述目标文本数据中包括至少一条领域知识。

其中,所述领域知识即为以文本形式存在的数据,例如,所述目标文本数据包括三条领域知识,每条所述领域知识包括主语、谓词(如系动词等)及宾语等三部分,以表达一个语义。

数据解析单元802,用于基于预设的语义描述规则,对所述目标文本数据进行解析,得到所述目标文本数据中每条所述领域知识的两个知识实体及其之间的实体关系。

其中,所述语义描述规则可以理解为:日常应用中含义表达所常用的语句描述结果,如人们日常讲话习惯所对应的规则等。本实施例中基于这些语义描述规则,对所述目标文本数据进行解析,以得到每条所述领域知识中的两个知识实体及其之间的实体关系,其中,所述知识实体与所述领域知识中的主语或宾语等相对应,所述实体关系与所述谓词等相对应,例如,所述领域知识:“手机是一种智能设备”,其中,“手机”及“智能设备”均为知识实体,“是”为两个知识实体“手机”及“智能设备”之间的实体关系。

需要说明的是,这里的知识实体可以为概念性实体,也可以为实例性实体,如所述领域知识中,“手机”为实例性实体,“智能设备”为概念性实体,而实体关系“是”表明该领域知识所属的知识侧面,如上下位的知识侧面,相应的,“手机”为该上下位知识侧面中的下位,“智能设备”为该上下位知识侧面中的上位。再如,领域知识“副总经理属于公司领导班子”中,其实体关系“属于”表明该领域知识所属的部分整体的知识侧面,实体“副总经理”为该部分整体知识侧面中的部分,属于实例性实体;实体“公司领导班子”为该部分整体知识侧面中的整体,属于概念性实体。

三元组生成单元803,用于将每条所述领域知识中的两个知识实体及实体关系进行组合,以生成每条所述领域知识的知识三元组。

例如,将所述领域知识“手机是一种智能设备”中的两个知识实体“手机”和“智能设备”及实体关系“是”进行组合,得到结构化的知识三元组“是/is(手机,智能设备)”,在该知识三元组中,“是/is”表示为知识实体“手机”及“智能设备”之间的关系。

本体构建单元804,用于基于所述知识三元组,构建所述目标文本数据对应的结构化的领域知识本体。

其中,由前文中控制,所述知识三元组为结构化的包含三个实体的三元组,由此,在本实施例中,基于这些知识三元组以构建出所述目标文本数据所对应的领域知识本体,该领域知识本体为结构化本体,且该领域知识本体与所述目标文本数据中的领域知识相对应。

由上述方案可知,本发明提供的一种领域知识处理装置实施例五,通过对含有领域知识的目标文本数据进行获取之后,基于语义描述规则对目标文本进行解析,以得到每条领域知识中的知识实体及实体关系,进而组合生成每条领域知识的知识三元组,进而基于这些三元组构建出目标文本数据所对应的领域知识本体。区别于现有技术中通过人工整理的方式来对领域知识进行结构化处理的方式使得效率较低的情况,本实施例利用语义解析方案获取领域知识中的知识实体及实体关系进而组成结构化的知识三元组合,进而构建出领域知识本体,由此提高领域知识结构化处理的效率。

参考图9,为本发明提供的一种领域知识处理装置实施例六中所述数据解析单元802的结构示意图,其中,所述数据解析单元802可以包括以下结构:

谓词确定子单元821,用于确定所述目标文本数据中每条领域知识的目标谓词。

其中,所述目标谓词可以为动词、形容词等,如系动词“是”或“为”等。本实施例中对每条所述领域知识中的谓词进行确定。

谓词分类子单元822,用于对每个所述目标谓词进行分类,得到分类结果。

也就是说,本实施例通过对所述目标谓词进行分类判断,以得到能够表明所述目标谓词属于领域知识侧面的分类结果,如:上下位、部分整体、属性、指代关系、态度关系、时序关系、位置关系、开始事件、变化事件及结束事件等,本实施例中通过识别该目标谓词所表达的语义来判断出其所属领域知识所对应的领域知识侧面,如上下位或整体部分等知识侧面。

实体确定子单元823,用于基于每个所述目标谓词的分类结果,确定其各自对应的领域知识的知识实体及其之间的实体关系。

具体的,如图10中所示,为所述实体确定子单元823的结构示意图,其中,所述实体确定子单元823可以通过以下结构实现:

模板确定模块1001,用于基于每个所述目标谓词的分类结果,确定每个所述分类结果对应的文本识别模板。

其中,所述文本识别模板的模板类别与所述目标谓词的分类结果相对应。

知识分析模块1002,用于基于所述文本识别模板,对每个所述目标谓词所在的领域知识进行实体分析,得到每条所述领域知识的两个知识实体及其之间的实体关系。

也就是说,本实施例中基于该目标谓词所对应的领域知识侧面的类别来确定能够对领域知识进行文本中实体结构识别的文本识别模板,例如,所述目标谓词为“是”,对应上下位知识侧面,此时,确定与该上下位知识侧面对应的上下位文本识别模板,进而利用该文本识别模板对每个所述目标谓词所在的领域知识进行文本中实体结构识别,以得到每个所述领域知识中的两个知识实体及这两个知识实体之间的实体关系。

在具体应用中,所述文本识别模板为有限个数的文本识别模板,因此,在所述目标文本数据中存在无法采用当前存在的文本识别模板进行其内领域知识的文本实体结构的识别,为解决这一问题,本实施例中通过以下步骤实现对新的文本识别模板的获取,参考图11,为本发明实施例的另一部分结构示意图,其中,所述装置还可以包括以下结构:

知识获取单元805,用于在所述数据解析单元802得到每条所述领域知识的两个知识实体及其之间的实体关系之后,获取所述目标文本数据中未经过所述文本识别模板分析的剩余领域知识。

也就是说,本实施例中每次对文本数据中的领域知识基于当前存在的文本识别模板进行处理之后,对剩余的无法基于当前存在的文本识别模板进行处理的领域知识进行获取,并将这些剩余领域知识作为新的文本识别模板的基础数据。

词句解析单元806,用于对所述剩余领域知识进行词句解析,得到满足模板生成规则的目标领域知识。

具体的,本实施例中对这些剩余领域知识中的语句进行词频分析、聚类、频繁序列分析等及其学习处理,以得到可能会产生新的文本识别模板的目标领域知识。

模板生成单元807,用于基于所述目标领域知识,生成与所述文本识别模板属于不同模板类别的文本识别模板。

具体的,本实施例中对所述目标领域知识中的语句进行中心谓词学习、语义概念标注、模板对比合并等机器自动学习操作,进而得到新的文本识别模板,这些新的文本识别模板能够对之前已经存在的文本识别模板无法识别出来的知识侧面的领域知识进行处理。

另外,参考图12,为本发明实施例中的另一部分结构示意图,其中,所述装置还可以包括以下结构:

模板校验单元808,用于在所述模板生成单元807生成与当前存在的所述文本识别模板属于不同模板类别的新的文本识别模板之后,利用区别于所述目标文本数据的领域知识文本对所述新的文本识别模板进行准确率判断,以剔除准确率低于预设阈值的文本识别模板。

具体的,本实施例中可以重新获取区别于所述目标文本数据的其他文本数据,这些重新获取的文本数据中同样可以含有多条领域知识,利用所述新的文本识别模板对这些重新获取的领域知识进行领域语料解析,以获取这些新的文本识别模板中领域语料解析准确率较高如准确率高于预设阈值的文 本识别模板,即:剔除准确率低于所述阈值的文本识别模板,进而将准确率比较高如高于所述预设阈值的文本识别模板置于模板库中。

参考图13,为本发明提供的一种领域知识处理方法实施例七中所述本体构建单元804的结构示意图,其中,所述本体构建单元804可以包括以下结构实现:

归一化操作子单元841,用于对所有所述知识三元组进行归一化操作,得到所述目标文本数据对应的结构化的领域知识库。

其中,本实施例中通过对这些知识三元组进行三元组合并、概念归一化等操作,以得到领域知识库。具体的,本实施例中的归一化操作可以采用统计验证的方式,通过迭代计算的方法获取到最终的结构化的领域知识库。

知识图谱建立子单元842,用于基于所述领域知识库中每个所述知识三元组中的实体关系,建立所述领域知识库对应的领域知识图谱。

由前文中可知,所述知识三元组中的实体关系是可以反映到该知识三元组对应领域知识所属的知识侧面的,如上下位知识侧面或部分整体知识侧面等,因此,本实施例中基于所述领域知识库中知识三元组的实体关系即每条所述领域知识所属的知识侧面来绘制建立该领域知识库所对应的领域知识图谱,所述领域知识图谱中可以采用节点相连的形式来实现三元组的结构化表示,如图谱中的节点为知识实体,而节点之间的连接对应实体关系。

图谱逻辑判断子单元843,用于对所述领域知识图谱进行属性的逻辑判断,以构建出所述领域知识图谱对应的领域知识本体。

具体的,由前文中可以推出,该领域知识图谱中是包含有所述领域知识库中每条领域知识对应的知识侧面的,即图谱中节点之间的连接对应于实体关系进而对应该领域知识所属知识侧面,如上下位知识侧面或部分整体知识侧面等,因此,本实施例中通过对所述领域知识图谱中的这些知识侧面所对应的逻辑关系进行判断,如结合各个领域知识对应的三元组中知识实体及实体关系,来区分每个知识实体的属性,如概念还是实例,进而构建出所述领 域知识图谱所对应的领域知识本体。需要说明的是,所述领域知识本体中,概念性实体与实例性实体是区分开的。

在具体实现中,为了提高最终得到的领域知识本体的准确性,需要对每条领域知识的知识三元组进行准确率的统计验证,由此,参考图14,为本发明提供的一种领域知识处理装置实施例八的结构示意图,其中,所述装置还可以包括以下结构:

文本属性获取单元809,用于在所述本体构建单元804构建所述目标文本数据对应的结构化的领域知识本体之前,获取每个所述知识三元组的文本语境属性值及文本语料属性值。

其中,所述文本语境属性值可以为:所述知识三元组的语境完整性属性值,所述文本语料属性值可以包括有:所述知识三元组的语料支持度属性值、语料一致性属性值及语料孤立度属性值等。

准确率获取单元810,用于基于所述文本语境属性值及文本语料属性值,获取每个所述知识三元组的准确率,在每个所述知识三元组的准确率均处于预设准确率值范围时,触发所述本体构建单元804,否则,触发三元组删除单元811。

在本实施例中,通过对每个所述知识三元组的文本语境属性值及所述文本语料属性值是否均处于其各自对应的预设阈值范围进行判断,进而得出该知识三元组的准确率。例如,本实施例对每个所述知识三元组的各个统计指标,如:所述文本语境属性值如语境完整性属性值及所述文本语料属性值如语料支持度属性值、语料一致性属性值及语料孤立度属性值等,进行统计验证,以得到每个所述知识三元组的准确率,并在每个所述知识三元组的准确率均处于其对应的准确率值范围时,触发所述本体构建单元804,以基于所述知识三元组,构建所述目标文本数据对应的结构化的领域知识本体,否则,触发所述三元组删除单元811。

三元组删除单元811,用于删除其准确率值未处于其各自对应的准确率值范围的三元组,触发所述本体构建单元804。

也就是说,本实施例会将其统计指标不满足要求(与所述准确率值范围相对应)的知识三元组进行删除,以基于剩余的知识三元组,构建所述目标文本数据对应的结构化的领域知识本体。

需要说明的是,本本实施例中可以将其统计指标满足要求的知识三元组首先置入正式知识库中,以作为后续操作的数据基础,如生成领域知识库、建立领域知识图谱及构建领域知识本体等。

另外,本实施例还可以将删除的知识三元组进行进一步的准确率判断,进而,将其准确率低于预设淘汰阈值的知识三元组置入淘汰知识库,将剩余的知识三元组置入备选知识库中。

需要说明的是,通过前文中本发明所提及的对三元组进行统计验证,即获取三元组准确率值的方法,可以对前文中获取到的新的文本识别模板的正确性进行验证,例如,利用新的文本识别模板对新的文本数据中的领域知识进行结构化处理之后,能够得到各个领域知识所对应的三元组,通过基于前文中对三元组进行准确率判断的统计验证方法,对这些新得到的三元组进行统计验证,以得到该新得到的三元组的准确率,通过判断该新得到的三元组的准确率来判断该新的文本识别模板的准确率,进而将准确率比较高如高于所述预设阈值的文本识别模板置于模板库中。

另外,本实施例中对领域知识所对应的三元组进行统计验证时,可以采用迭代递增的方案实现,例如,本实施例可以在对新的文本识别模板进行验证之后,利用准确率高的文本识别模板对新的文本数据中所获取的一批三元组合进行统计验证,并将统计验证结果与前一次迭代的结果进行合并,以计算出新的三元组的准确率,然后将新的三元组和已经发生变化的三元组分别写入到正式知识库、备选知识库或淘汰知识库中,以备后续操作。

需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。

最后,还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或 者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本申请所提供的一种领域知识处理方法及装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1