一种数据增强方法、装置、设备及存储介质与流程

文档序号:21639218发布日期:2020-07-29 02:50阅读:191来源:国知局
一种数据增强方法、装置、设备及存储介质与流程

本申请涉及数据处理技术领域,尤其涉及一种数据增强方法、装置、设备及存储介质。



背景技术:

数据增强作为一种数据预处理方法,在计算机视觉领域应用非常广泛,例如对图像样本进行旋转、裁剪、翻转、平移等等,使用数据增强可以有效的提升模型的泛化能力,减少标注数据的需求量。但是在自然语言处理领域,数据增强的方法比较少,而且需要针对不同的任务设计不同的数据增强方法。

实体识别作为自然语言处理的底层任务之一,是各种上游应用的基础。目前实体识别模型大多基于深度学习模型为主,但是模型如果想要达到理想的准确率和召回率就需要非常多的标注语料。因此,对数量有限的实体识别标注语料进行数据增强,也就是获取实体识别标注语料的扩充语料,从而扩充语料数量,是实体识别领域的现实需求。



技术实现要素:

基于上述需求,本申请提出一种数据增强方法、装置、设备及存储介质,能够获取语料的扩充语料,从而实现语料数据增强的目的。

一种数据增强方法,包括:

从知识图谱中确定出目标实体,所述目标实体为目标语料中的实体指称对应的实体;

从所述知识图谱中,确定出所述目标实体的各个相关实体;

利用所述目标实体的相关实体,替换所述目标语料中的实体指称,得到的替换后的各语料组成所述目标语料的扩充语料。

一种数据增强装置,包括:

目标实体确定单元,用于从知识图谱中确定出目标实体,所述目标实体为目标语料中的实体指称对应的实体;

相关实体确定单元,用于从所述知识图谱中,确定出所述目标实体的各个相关实体;

实体替换单元,用于利用所述目标实体的相关实体,替换所述目标语料中的实体指称,得到的替换后的各语料组成所述目标语料的扩充语料。

一种数据增强设备,包括:

存储器和处理器;

其中,所述存储器与所述处理器连接,用于存储程序;

所述处理器,用于通过运行所述存储器中的程序,实现上述的数据增强方法。

一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现上述的数据增强方法。

本申请提出的数据增强方法应用于对实体识别语料进行数据增强时,先从知识图谱中确定出与目标语料中的实体指称对应的目标实体,然后从该知识图谱中确定出上述目标实体的相关实体;利用目标实体的相关实体,替换目标语料中的实体指称,得到的替换后的各语料组成所述目标语料的扩充语料。上述处理过程从知识图谱中查找与目标语料中的实体指称对应的目标实体的相关实体,作为目标语料中的实体指称的替换内容,利用该替换内容替换目标语料中的实体指称,可以得到新的语料,从而能够实现语料扩充。同时,基于知识图谱的海量数据量,通过上述的处理可以得到较多数量的相关实体,从而使得通过执行上述方案能够一次性得到与目标语料对应的大量扩充语料,快速地达到数据增强的目的。

进一步的,由于知识图谱内部完善地记录了各实体之间的关系,以及各实体的属性、类别等信息,因此从知识图谱中选择与实体指称对应的目标实体的相关实体作为实体指称的替换内容,可以保证该替换信息与实体指称的相关性更全面,利用该替换内容替换原目标语料中的实体指称得到的新语料,可以更充分地保留原目标语料的语义信息。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1是本申请实施例提供的一种数据增强方法的流程示意图;

图2是本申请实施例提供的一种实体图谱网络结构示意图;

图3是本申请实施例提供的另一种数据增强方法的流程示意图;

图4是本申请实施例提供的知识图谱中的实体信息示意图;

图5是本申请实施例提供的一种数据增强装置的结构示意图;

图6是本申请实施例提供的一种数据增强设备的结构示意图。

具体实施方式

本申请实施例技术方案适用于对语料数据进行数据增强处理的应用场景,尤其是适用于对实体识别语料进行数据增强处理的应用场景。采用本申请实施例技术方案,能够对已有的语料进行扩充得到扩充语料,从而实现数据增强的目的。

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请实施例提出一种数据增强方法,参见图1所示,该方法包括:

s101、从知识图谱中确定出目标实体,所述目标实体为目标语料中的实体指称对应的实体。

上述的知识图谱描述了真实世界中存在的各种概念(如人物、地点等)和实体的属性,以及它们之间的关系。通过知识图谱,可以查询得到任意实体的属性、类别、标签等信息,而且能够基于知识图谱的网络结构明确各实体之间的关系。上述知识图谱的结构和内容等可以参照现有技术中常见的知识图谱,本申请实施例不再详述。

作为可选的实现方式,上述的知识图谱可以是针对某一领域构建的专用知识图谱,例如对应自然领域、社科领域、体育领域等均可以构建对应的知识图谱。本申请实施例所采用的知识图谱,可以是全领域适用的知识图谱,也可以是与上述的目标语料属于相同领域的知识图谱。

上述的目标语料,是指已经标注了实体指称的实体识别语料。上述的实体识别语料,是指用于实体识别的语料,该实体识别是指从语料中识别出实体指称。

例如,假设目标语料为“苏州姑苏区人口有950,000。”,则对其进行实体识别及标注后,可得语料识别及标注结果为“<gpe>苏州姑苏区</gpe>人口有<misc>950,000</misc>。”,其中,“苏州姑苏区”和“950,000”是两个实体指称,类型分别为行政地点和杂项(时间、数字)。

可以理解,在获取目标语料后,基于已知的目标语料实体识别结果,可以确定该目标语料中的实体指称。

在上述的知识图谱中的实体名称,是规范的实体名称。但是上述目标语料中的实体指称,有可能是规范的实体名称,也可能是口语化或不规范的实体名称。例如,在知识图谱中的实体“账簿”,在实体识别语料中可能会被写作“账本”,两者虽然对应同一事物,但是“账簿”是规范的名称,而“账本”是比较口语的称谓。

基于上述现实情况,本申请实施例将目标语料中的对应某一实体的字或词组称为实体指称,而将知识图谱中的实体视为规范的实体。

进一步的,在确定目标预料中的实体指称后,本申请实施例还从知识图谱中确定出该实体指称对应的实体,作为目标实体。其中,与实体指称对应的实体,是指在知识图谱中,与实体指称对应同一事物的实体。例如在目标语料中有“账本”这一实体指称,可以确定在知识图谱中与“账本”对应的实体为“账簿”,则将知识图谱中的“账簿”这一实体作为与实体指称“账本”对应的目标实体。

实体指称对应的目标实体,可能是与实体指称相同名称的实体,也可能是与实体指称不同名称的实体。

作为示例性的实现方式,上述的从知识图谱中确定出目标实体,可以借助语义识别、相似度比对等方式,通过比对实体指称与知识图谱中的实体而实现。

s102、从所述知识图谱中,确定出所述目标实体的各个相关实体。

具体的,在确定与目标语料中的实体指称对应的目标实体后,本申请实施例进一步从知识图谱中查找该目标实体的相关实体。

其中,上述目标实体的相关实体,是指与目标实体相关的实体,包括但不限于与目标实体的属性、类别等相关或相似,或者与目标实体搭配时能够构成具有公认或规范的关联关系的词组或语句,或者在知识图谱中处于相同或相似的网络结构中等。

基于上述的相关实体的确定标准的不同,通过与相关实体的确定标准相对应的相关实体查找方法,从上述的知识图谱中查找与目标实体相关的实体,得到目标实体的相关实体。

例如,针对目标语料“苏州姑苏区人口有950,000。”中的实体指称“苏州姑苏区”,假设其对应的目标实体也为“苏州姑苏区”,则从知识图谱中确定目标实体“苏州姑苏区”的相关实体。

假设该相关实体是指与目标实体相同类别的实体,由于“苏州姑苏区”为表示城市地区的实体指称,则在确定“苏州姑苏区”的相关实体时,从知识图谱中查找表示城市地区的实体,例如可能找出“上海浦东区”、“北京东城区”等实体,则找出的“上海浦东区”、“北京东城区”等实体即作为目标实体“苏州姑苏区”的相关实体。

基于知识图谱的海量数据量,在通常情况下,对应一个目标实体,可以从知识图谱中确定出其多个相关实体。

s103、利用所述目标实体的相关实体,替换所述目标语料中的实体指称,得到的替换后的各语料组成所述目标语料的扩充语料。

具体的,对应于目标语料中的实体指称,利用该实体指称对应的目标实体的每个相关实体,分别替换该实体指称,得到替换后的各个新的语料,该各个新的语料组成目标语料的扩充语料。

当目标语料中有多个实体指称时,对应于每一个实体指称,都通过上述的相关实体替换处理,得到目标语料的扩充语料。

例如,对于目标语料“苏州姑苏区人口有950,000。”中的实体指称“苏州姑苏区”,利用其对应的目标实体的相关实体“上海浦东区”、“北京东城区”等,分别替换目标语料“苏州姑苏区人口有950,000。”中的实体指称“苏州姑苏区”,分别得到替换后的语料“上海浦东区人口有950,000。”和“北京东城区人口有950,000。”等,这些替换后的语料即为目标语料“苏州姑苏区人口有950,000。”的扩充语料。

同样,对于目标语料“苏州姑苏区人口有950,000。”中的实体指称“950,000”,也可以参照上述方案从知识图谱中查找相关实体进行替换,得到替换后的语料。

对目标语料中的实体指称分别按照上述方案利用相关语料进行替换,可以得到目标语料的扩充语料,实现对目标语料的数据增强。

通过上述介绍可见,本申请提出的数据增强方法应用于对实体识别语料进行数据增强时,先从知识图谱中确定出与目标语料中的实体指称对应的目标实体,然后从该知识图谱中确定出上述目标实体的相关实体;利用目标实体的相关实体,替换目标语料中的实体指称,得到的替换后的各语料组成所述目标语料的扩充语料。上述处理过程从知识图谱中查找与目标语料中的实体指称对应的目标实体的相关实体,作为目标语料中的实体指称的替换内容,利用该替换内容替换目标语料中的实体指称,可以得到新的语料,从而能够实现语料扩充。同时,基于知识图谱的海量数据量,通过上述的处理可以得到较多数量的相关实体,从而使得通过执行上述方案能够一次性得到与目标语料对应的大量扩充语料,快速地达到数据增强的目的。

进一步的,由于知识图谱内部完善地记录了各实体之间的关系,以及各实体的属性、类别等信息,因此从知识图谱中选择与实体指称对应的目标实体的相关实体作为实体指称的替换内容,可以保证该替换信息与实体指称的相关性更全面,利用该替换内容替换原目标语料中的实体指称得到的新语料,可以更充分地保留原目标语料的语义信息。

作为一种可选的实现方式,本申请实施例在从知识图谱中确定出目标实体的各个相关实体时,具体是根据目标实体的类别标签和目标语料,从知识图谱中确定出目标实体的各个相关实体。

上述的目标实体的类别标签,是指目标实体所具备的,用于表示目标实体的类别的标签。在知识图谱中,每个实体的类别标签都被明确记载,并且,一个实体通常具备多个类别标签。因此,通过从知识图谱中查询目标实体的相关信息,可以确定目标实体所具备的各个类别标签。

本申请实施例以目标实体的类别标签为依据,从知识图谱中选择具有与目标实体相同或相似类别标签的实体,作为目标实体的相关实体。

由于目标实体的类别标签通常有多个,而在目标语料中,可能只体现了与目标实体的某一种类别标签相关的语义信息。因此,当根据目标语料的类别标签从知识图谱中筛选实体时,应当首先确定与目标语料的语义相关的类别标签,然后从知识图谱中筛选具备该与目标语料的语义相关的类别标签的实体作为目标实体的相关实体。这样在后期利用筛选出的相关实体替换目标语料中的实体指称时,不会出现替换的实体与原语料的语义不匹配的问题。

因此,当以目标实体的类别标签为依据从知识图谱中选择相关实体时,还需要参考目标语料的语义信息,即根据目标实体的类别标签和目标语料的语义信息,从知识图谱中确定出目标实体的各个相关实体。

示例性的,上述的根据目标实体的类别标签和目标语料,从所述知识图谱中,确定出目标实体的各个相关实体,具体包括:

首先,根据所述目标实体的类别标签和所述目标语料,从所述目标实体的类别标签中筛选出与目标语料的相似度最大的类别标签,作为目标类别标签。

为了便于比较目标实体的类别标签和目标语料的相似度,本申请实施例借助目标实体的类别标签的特征向量,与目标语料的特征向量,来度量类别标签与目标语料的相似度。

其中,目标语料的特征向量利用目标语料所包含的所有词的向量的平均值表示,该特征向量也能够用于表示目标语料的语义信息。

假设s表示目标语料的特征向量,cate(e0)表示目标实体e0的各个类别标签的特征向量的集合,则按照如下公式,分别计算目标实体的各个类别标签的特征向量与目标语料的特征向量的相似度,并且根据相似度度量结果,从目标实体的类别标签中,筛选出其特征向量与目标语料的特征向量的相似度最大的类别标签,作为目标类别标签csim:

csim=argmaxccossim(ci,s),(ci∈cate(e0))

其中,cossim(·,·)表示计算两个特征向量之间的余弦相似度,该余弦相似度仅作为示例用于计算两个特征向量之间的相似度,利用cossim(·,·)函数分别计算目标实体的各个类别标签的特征向量与目标语料的特征向量的相似度后,再通过argmaxc函数从目标实体的各个类别标签中,选出使函数的值最大的类别标签c,作为目标类别标签csim。

在实际实施本申请实施例技术方案时也可以采用其他的相似度度量方式度量目标实体的类别标签的特征向量与目标语料的特征向量的相似度,或者也可以利用其他的相似度度量方法来度量目标实体的类别标签与目标语料的相似度。

然后,再从知识图谱中,筛选出具有上述目标类别标签的实体,作为目标实体的相关实体。

其中,ent(csim)表示获取具有csim类别标签的实体集合,则表示包含实体e0的所有相关实体的集合。

示例性的,利用上述的目标类别标签作为检索条件,从知识图谱中检索具有该目标类别标签的实体,作为与目标实体的相关实体。

可以理解,通过执行上述方案得到的包含了目标实体的所有相关实体,由于上述获取目标实体的相关实体的过程充分考虑了目标实体的标签与目标语料的语义关联,因此,按照上述方案确定出的目标实体的相关实体均为与目标语料的语义相关的实体,利用该相关实体替换目标语料中的实体指称,可以保证替换后的语料与目标语料的语义相关。

作为另一种可选的实现方式,在从知识图谱中,确定出目标实体的相关实体时,还可以根据知识图谱的网络结构,从知识图谱中,确定出目标实体的相关实体。

在知识图谱中,实体是图谱网络结构中的节点,而节点与节点之间的边则用于表示实体的属性或者实体之间的关系等信息。本申请发明人在实践中发现,在知识图谱的网络结构中,如果两个实体周围的网络结构越相似,则两个实体之间的差异就越小;如果两个实体周围的网络结构的差异越大,则两个实体之间的差异也就越大。比如在极端情况下,两个完全一样的实体周围的网络结构是一样的,这时两个实体周围的网络结构差异最小,两个实体之间的差异也越小。

因此,根据知识图谱的网络结构,通过从知识图谱中筛选周围网络结构相同或相似的实体,可以用于从知识图谱中查找相似实体,也就是可以用于确定目标实体的相关实体。

基于上述思想,本申请实施例根据知识图谱的网络结构,确定知识图谱中每个实体的图谱网络结构,然后以实体的图谱网络结构为依据,从知识图谱中确定出目标实体的相关实体。

具体的,首先基于知识图谱的网络结构,分别确定知识图谱中的每个实体的图谱网络特征向量。

其中,上述的实体的图谱网络特征向量,是指包含实体的图谱网络结构的特征的特征向量,该图谱网络特征向量可以通过提取实体的图谱网络结构的特征而得到。上述的实体的图谱网络结构,是指在上述的知识图谱中,由实体及其相邻实体构成的网络结构。

例如,可以通过计算实体的图谱网络结构所包含的各个实体节点之间的边上的属性或关系等信息的特征向量,作为实体的图谱网络特征向量。

在分别确定知识图谱中的每个实体的图谱网络特征向量后,也就确定了上述的目标实体的图谱网络特征向量。此时,通过将目标实体的图谱网络特征向量与知识图谱中的其它实体的图谱网络特征向量进行相似度对比,从知识图谱中确定出目标实体的相关实体。

例如图2所示,图中的实心节点分别表示实体1、实体2和实体3,各实心节点周围的空心节点表示实体的相邻实体,实体节点之间的边表示实体与实体之间的关系。当两个实体周围的网络结构很相似时,也就是两个实体的图谱网络结构很相似时,两个实体间的图谱网络特征向量的相似度就很高。如图2中,节点1和节点3周围的网络结构相似度较高,则节点1和节点3的相似度更高。因此,通过比较实体的图谱网络特征向量的相似度,可以实现对实体的图谱网络结构的相似度比对,也就是实现了对实体的相似度比对。

示例性的,上述的将目标实体的图谱网络特征向量与知识图谱中的其它实体的图谱网络特征向量进行相似度对比,可以通过计算目标实体的图谱网络特征向量与知识图谱中的其它实体的图谱网络特征向量的曼哈顿距离实现,目标实体的图谱网络特征向量与知识图谱中的其它实体的图谱网络特征向量的曼哈顿距离越小,表示目标实体的图谱网络特征向量与知识图谱中的其它实体的图谱网络特征向量的相似度越大,反之表示相似度越小。

本申请实施例通过将目标实体的图谱网络特征向量与知识图谱中的其它实体的图谱网络特征向量进行相似度对比,从知识图谱中找出其图谱网络特征向量与目标实体的图谱网络特征向量的相似度大于设定的相似度阈值的实体,作为目标实体的相关实体。

作为一种示例性的实现方式,本申请实施例还公开了,上述的基于知识图谱的网络结构,分别确定知识图谱中的每个实体的图谱网络特征向量,具体包括:

首先,初始化知识图谱中的每个实体的特征向量,得到知识图谱的实体特征矩阵。

示例性的,本申请实施例使用随机正态分布的向量初始化知识图谱中的每个实体节点的特征向量,得到知识图谱的实体特征矩阵h。

上述的实体特征矩阵h是一个n×d的表示节点特征的矩阵。其中,n表示整个知识图谱网络中的实体个数,d表示实体的特征维度(在本申请中,该特征维度具体是16维)。

然后,利用预先训练的图卷积神经网络对上述知识图谱的实体特征矩阵进行处理,将知识图谱中的实体的特征向量转化为图谱网络特征向量,从而确定上述知识图谱中的每个实体的图谱网络特征向量。

具体的,本申请实施例预先对图卷积神经网络进行训练,使其能够对知识图谱的实体特征矩阵进行处理,得到知识图谱中的实体的新的特征表示,即得到实体的图谱网络特征向量。

示例性的,上述的卷积神经网络被训练为通过对知识图谱的实体的特征向量进行处理,将其处理为embedding向量,作为实体的图谱网络特征向量。

基于图卷积神经网络的上述功能,本申请实施例使用上述的图卷积神经网络在知识图谱的网络结构上进行训练,使其对网络中的实体节点特征向量进行处理,得到网络中各实体节点的embedding向量,作为知识图谱中的实体的图谱网络特征向量。

基于上述的图卷积神经网络的特征处理过程如下:

上述的图卷积神经网络按照如下公式,对知识图谱的实体特征矩阵进行处理:

hl+1=δ(ahlwl)

其中,hl和hl+1分别是知识图谱的第l层和第l+1层的实体特征矩阵的表示,a表示知识图谱网络中的邻接矩阵,wl表示第l层的网络权重,h0就是初始化后的知识图谱实体特征矩阵,δ表示图卷积神经网络根据第层实体特征矩阵计算第层实体特征矩阵的运算函数。

则通过按照上述公式不断地迭代运算,使得知识图谱的实体的特征向量逐步趋向于embedding向量。

在上述的图卷积神经网络的运算过程中,本申请实施例使用负采样技术,将知识图谱网络中的节点e和除了它本身以外的节点e'进行配对,使用margin-based函数作为损失函数,执行上述图卷积神经网络的特征处理过程。

上述的margin-based函数的公式如下:

l=max(d(e,e')-d(e,e)+γ,0)

其中,e表示单个实体的特征向量,该特征向量可从h中获取;d(·,·)表示计算曼哈顿距离,γ表示运算参数。

上述的训练过程的目标是使得损失越小越好,实体周围的网络结构越相似,实体之间的距离就越小,损失也就越小。因此经过上述训练后,得到的实体的特征向量与实体所处的图谱网络的结构相关,也就是得到实体的图谱网络特征向量。

上述的图卷积神经网络的训练处理过程以及上述的损失函数计算,为常规的图卷积神经网络的训练过程,和损失函数处理内容,本申请实施例只是简要概述,并不严格限定其处理过程,在具体实施本申请实施例技术方案时,可以做适应性调整。另外,也可以采用其它方式实现对实体特征的转化。

按照上述方案在根据知识图谱的网络结构,从知识图谱中确定出目标实体e0的相关实体时,也可以将相关实体组成集合,得到集合

需要说明的是,本申请上述实施例介绍了两种获取目标实体的相关实体的方案,两种方案分别从不同的角度着手,分别获取了目标实体的相关实体集合和。

以上两种确定目标实体的相关实体的方案并不矛盾,两者可以择一采用,也可以组合应用。

作为优选的实现方式,本申请实施例在从知识图谱中确定出目标实体的相关实体时,将以上实施例介绍的根据目标实体的类别标签和目标语料,从知识图谱中确定出目标实体的相关实体,以及根据知识图谱的网络结构,从知识图谱中确定出所述目标实体的相关实体这两种方法组合应用,即采用以上两种方法分别从知识图谱中确定出目标实体的相关实体,然后将各自确定出的目标实体的相关实体相组合,共同作为最终确定的目标实体的相关实体。

例如对于上述的目标实体e0,当根据目标实体的类别标签和目标语料,从知识图谱中确定出目标实体的相关实体,得到相关实体集合以及根据知识图谱的网络结构,从知识图谱中确定出所述目标实体的相关实体,得到相关实体集合后,最终确定该目标实体e0的相关实体集合为

按照本申请上述实施例介绍,可以从知识图谱中确定出与目标语料中的实体指称对一个的目标实体的相关实体,并且基于知识图谱的海量数据量,按照上述方案获取的相关实体的数量较多。

当利用获取的相关实体替换目标语料中的实体指称时,为了保证替换后的语料与原目标语料的语义相似度,本申请实施例对所获取的相关实体做筛选,从中选出更为优选的相关实体替换目标语料中的实体指称。

参见图3所示,本申请实施例提出,上述的利用所述目标实体的相关实体,替换所述目标语料中的实体指称,得到的替换后的各语料组成所述目标语料的扩充语料,具体包括:

s303、从所述目标实体的相关实体中选择相关实体,作为替换实体。

示例性的,上述的替换实体,可以是将单个的相关实体分别作为替换实体,也可以是由两个或两个以上的相关实体组合构成的相关实体组。

上述从目标实体的相关实体中选择相关实体,可以根据相关实体的类别、属性、与目标语料中的实体指称的关系等进行选择,其选择宗旨是至少保证利用所选择的相关实体替换目标语料中的实体指称后得到的替换后的语料与目标语料的语义相似性。

s304、利用所述替换实体替换所述目标语料中的实体指称,得到的替换后的各语料组成所述目标语料的扩充语料。

当利用上述的替换实体替换目标语料中的实体指称时,需要根据目标语料中的实体指称的数量,采取相应的替换方式。

例如,如果目标语料中只有一个实体指称,则当确定该实体指称对应的目标实体的相关实体,并且从相关实体中选出替换实体后,利用每个替换实体,分别替换目标语料中的实体指称,得到的每个替换后的语料,皆作为目标语料的扩充语料。

如果目标语料中有多个实体指称,并且所确定的替换实体也由多个相关实体构成时(替换实体所包含的相关实体的数量与目标语料中的实体指称的数量相同),利用替换实体中所包含的各个相关实体分别替换目标语料中的各个实体指称,得到替换后的语料。按照上述方式,每一个替换实体所包含的各个相关实体替换目标语料中的各个实体指称后得到的替换后的语料,均作为目标语料的扩充语料。

图3所示的实施例中的步骤s301、s302分别对应图1所示的方法实施例中的步骤s101、s102,其具体内容请参见图1所示的方法实施例的内容,此处不再赘述。

作为一种示例性的实现方式,本申请实施例在从上述目标实体的相关实体中选择相关实体作为替换实体时,根据目标语料中的实体指称的数量不同而采取不同的选择方案。

一方面,当目标语料中的实体指称的数量为1个时,直接从上述目标实体的相关实体中选择相关实体,作为替换实体。

示例性的,目标语料中的实体指称的数量为1个,也就是说该目标语料为单实体语料,此时在选择替换实体时,主要考虑所选择的替换实体与该实体指称的相似性或关联性即可。

因此当本申请实施例从与目标语料中的实体指称对应的目标实体的相关实体中选择相关实体时,选择与上述目标实体的相似度最高的设定数量的相关实体,作为替换实体。

例如,在得到与目标语料中的实体指称对应的目标实体的相关实体集合后,从该相关实体集合中,按照与上述目标实体的相似度,筛选设定数量的相关实体,构成替换实体集合则在替换实体集合中的每个替换实体,均可以直接用于替换目标语料中的实体指称。

假设上述的设定数量为nmax,上述的替换实体集合可以依据如下公式得到:

其中,表示相关实体集合中的相关实体数量;表示从相关实体集合中获取与实体e0最相似的top-nmax个实体;如果相关实体集合中的实体数量不足nmax个,则将相关实体集合中的所有相关实体均作为替换实体;在度量相关实体集合中的实体与实体的相似度时,依然可通过度量实体的特征向量的余弦相似度实现。

一般情况下,实体的特征向量由知识图谱中关于实体的描述中的前3句描述文本的向量拼接得到,不足3句的,使用0向量补齐,超过3句的进行截断。另外,上述的设定数量可根据实际情况而灵活调整。

进一步的,为了使得选出的替换实体与目标语料的实体指称的相关性更强,从而保证利用替换实体替换实体指称后的语料与目标语料的语义相似度更高,本申请实施例在按照上述介绍选出替换实体后,还进一步对替换实体进行筛选。

示例性的,本申请实施例从上述各个替换实体中,选择具有目标属性的替换实体,用于替换目标语料中的实体指称。

其中,上述的目标属性,是指与目标语料中的实体指称对应的目标实体所具备的属性中的、在该目标语料中所包含的属性。

可以理解,对于任意的实体来说,其可能具备多种不同的属性,但是在上述目标语料中,通常不会包含实体的所有属性信息,而通常只是包含实体的某些或某种属性信息。对于该目标语料中的实体指称对应的目标实体来说亦是如此,在该目标语料中,通常只包含该目标实体的部分属性信息,因此,当从该目标实体的相关实体中选择替换实体时,理应选择具有目标语料中所包含的属性信息相匹配的属性的相关实体,这样才能保证替换实体的属性与目标语料中包含的属性信息相匹配,从而保证替换后的语料与目标语料的语义相似。

基于上述思想,本申请实施例从各个替换实体中,选择具有目标属性的替换实体时,先通过从目标语料中查找上述目标实体的属性标签,确定在该目标语料中包含的上述目标实体的属性,作为目标属性。

示例性的,通过文本检索或语义识别等方法,可以实现对目标语料中的属性信息的查找。

然后,从上述的各个替换实体中,选择具有上述目标属性的替换实体,作为最终用于替换目标语料中的实体指称的替换实体。

具体的,在知识图谱中,存储着各实体的属性标签,因此,通过从知识图谱中获取目标实体的属性标签,以及获取各替换实体的属性标签并进行属性标签的对比,可以从替换实体中选择出具有上述目标属性的替换实体。

为了更形象地介绍本申请上述的筛选替换实体的处理过程,下面结合举例说明:

假设目标语料中的实体指称“巴格达”(其对应的知识图谱中的目标实体也为“巴格达”)在知识图谱中的信息如图4所示。

如图4可知,实体指称“巴格达”的属性标签包括“国家”、“省”、“面积”、“人口”等。则将实体指称“巴格达”的各个属性标签分别放到目标语料中进行字符串匹配,假设最终匹配到了“人口”这一属性标签,则可以确定在该目标语料中,包含实体指称“巴格达”的“人口”属性,此时将“人口”这一属性视为目标属性。

然后,从与实体指称“巴格达”对应的替换实体集合(该替换实体集合中的各个替换实体从与实体指称“巴格达”对应的目标实体的相关实体中筛选得到)中,选出具有“人口”这一属性的实体,作为最终确定的用于替换实体指称“巴格达”的替换实体。例如,如果与实体指称“巴格达”对应的替换实体集合中的实体“科罗斯坚”具有“人口”这一属性,则可以将“科罗斯坚”作为最终确定的可以用于替换目标语料中的“巴格达”这一实体指称的实体。

需要说明的是,上述的从目标实体的相关实体中选择与目标实体的相似度最大的相关实体,以及从替换实体中选择具有目标属性的替换实体的处理,是从不同角度对目标实体的相关实体进行了筛选。

为了提高所选出的替换实体与目标实体的相关度,作为优选的实现方式,本申请实施例将上述两种角度的实体筛选方案组合应用,使得选出的替换实体既是与目标实体足够相似的的实体,又是与目标语料所包含的属性信息相匹配的实体,从而可以严格保证利用该替换实体替换目标语料中的实体指称后,得到的替换后的语料与目标语料的语义相似度更高。

在实际实施本申请申请实施例技术方案时,也可以从上述基于不同角度的实体筛选方案中任选其一用于确定替换实体,例如只从目标实体的相关实体中选择与目标实体的相似度最大的相关实体,作为替换实体,或者,只从目标实体的相关实体中选择具有目标属性的相关实体,作为替换实体,在一定程度上也能保证利用所选出的替换实体替换目标语料中的实体指称得到的替换后语料与目标语料的语义相似度,并不影响本申请实施例技术方案的实施。

另一方面,当目标语料中的实体指称的数量大于1个时,确定由目标语料中的各实体指称组成的实体指称组对应的各个相关实体组,作为替换实体。

其中,与所述实体指称组对应的相关实体组包括所述实体指称组中每一实体指称对应的目标实体的一个相关实体;所述实体指称组所包含的实体指称之间的关系,与所述实体指称组对应的相关实体组所包含的实体之间的关系相同。

具体的,当目标语料中包含多个实体指称时,通常各实体指称之间具有某种特定的关系,多个实体指称,以及多个实体指称之间的关系,共同构成目标语料的内容。

当分别确定目标语料中的每个实体指称对应的目标实体的相关实体后,本申请实施例分别从每个实体指称对应的目标实体的相关实体中选择一个相关实体,组合得到相关实体组,这样可以得到多个相关实体组。然后从各个相关实体组中,选出其所包含的各个相关实体之间的关系与上述目标语料中所包含的各个实体指称之间的关系相同的相关实体组,作为与上述的实体指称组对应的相关实体组,该各个相关实体组即作为替换实体。

当进行实体指称替换时,利用相关实体组所包含的各个相关实体,同时分别替换目标语料中的各个实体指称,得到替换后的语料。对应每个作为提花实体的相关实体组,分别执行上述替换处理,可以分别得到各个替换后的语料。

通常情况下,当实体识别语料中的实体指称数量为多个时,具体是包含两个实体指称,两个实体指称及其之间的关系可以构成三元组。上述的三元组通常可以表示为(subject,predicate,object)形式,特殊的,关系三元组为(entity,relation,entity),属性三元组则是(entity,attribute,value)。对于具有两个实体指称的实体识别语料,该两个实体指称及其之间的关系可以构成关系三元组。

当上述的目标语料中包括两个实体指称时,上述的确定由所述目标语料中的各实体指称组成的实体指称组对应的各个相关实体组,作为替换实体,包括:

首先,分别将所述实体指称组所包含的第一实体指称对应的目标实体的相关实体,与所述实体指称组所包含的第二实体指称对应的目标实体的相关实体进行两两组合,得到各个相关实体组。

示例性的,找出目标语料中的第一实体指称h和第二实体指称t在该目标语料中的所有关系,得到三元组集合t0,在该三元组集合t0中,每个三元组ti,分别是第一实体指称h和第二实体指称t及其两者之间的一种关系组成的三元组。

同时,分别确定第一实体指称h对应的目标实体的相关实体,得到相关实体集合以及确定第二实体指称t对应的目标实体的相关实体,得到相关实体集合

将相关实体集合和相关实体集合中的实体进行两两组合,得到各个相关实体组。可以理解的是,由于每个相关实体组都包含两个实体,则两个实体之间必定存在某种关系,因此,每个相关实体组也可以构成一个三元组。

上述处理过程也可以表示为如下公式:

其中,t0表示三元组集合,该集合中的每一个元素t皆为一个由相关实体组及相关实体组包含的相关实体之间的关系构成的三元组;τ表示知识图谱中所有的三元组;ri的取值可以为知识图谱中的任意的三元组关系。

可以理解,通过上述公式计算得到的单元组集合中的每个三元组所包含的实体均可构成一个实体组,即本申请实施例上述的相关实体组。

然后,从所述各个相关实体组中,选出其所包含的相关实体之间的关系,与所述实体指称组所包含的实体指称之间的关系相同的各个相关实体组,作为替换实体。

可以理解,上述的获取相关实体组的过程,只是将两个实体指称各自对应的相关实体进行两两组合得到了相关实体组,各相关实体组包含的相关实体之间的关系可能是任意的关系。而事实上,只有当相关实体组包含的相关实体之间的关系,与实体指称组所包含的实体指称之间的关系相同时,利用相关实体组替换实体指称组得到的替换后的语料,才能保证与目标语料的语义相似性。

因此,本申请实施例在分别获取各个相关实体组后,进一步从各个相关实体组中,选出其所包含的相关实体之间的关系,与上述实体指称组所包含的实体指称之间的关系相同的各个相关实体组,作为替换实体。

例如,对于每一个关系三元组ti∈t0,ti=(h,r,t),可以按照如下公式计算出该三元组ti对应的三元组集合

其中,三元组集合中的每个三元组t所包含的两个实体s和o之间的关系p,与关系三元组ti中的实体指称h和t之间的关系r相同。

将各个关系三元组对应的三元组集合进行综合,可以得到对应目标语料的替换三元组集合,分别提取上述的替换三元组集合中的每个三元组所包含的相关实体组,即可得到相关实体组集合可以理解,该相关实体组集合中的每个相关实体组所包含的相关实体之间的关系,均与目标语料中的实体指称组所包含的实体指称之间的关系相同,因此该相关实体组集合中的每个相关实体组,都可以作为替换实体,用于替换目标语料中的实体指称组。

与上述的数据增强方法相对应的,本申请实施例还提出一种数据增强装置,参见图5所示,该装置包括:

目标实体确定单元100,用于从知识图谱中确定出目标实体,所述目标实体为目标语料中的实体指称对应的实体;

相关实体确定单元110,用于从所述知识图谱中,确定出所述目标实体的各个相关实体;

实体替换单元120,用于利用所述目标实体的相关实体,替换所述目标语料中的实体指称,得到的替换后的各语料组成所述目标语料的扩充语料。

本申请实施例提出的数据增强装置应用于对实体识别语料进行数据增强时,先从知识图谱中确定出与目标语料中的实体指称对应的目标实体,然后从该知识图谱中确定出上述目标实体的相关实体;利用目标实体的相关实体,替换目标语料中的实体指称,得到的替换后的各语料组成所述目标语料的扩充语料。上述处理过程从知识图谱中查找与目标语料中的实体指称对应的目标实体的相关实体,作为目标语料中的实体指称的替换内容,利用该替换内容替换目标语料中的实体指称,可以得到新的语料,从而能够实现语料扩充。同时,基于知识图谱的海量数据量,通过上述的处理可以得到较多数量的相关实体,从而使得通过执行上述方案能够一次性得到与目标语料对应的大量扩充语料,快速地达到数据增强的目的。

进一步的,由于知识图谱内部完善地记录了各实体之间的关系,以及各实体的属性、类别等信息,因此从知识图谱中选择与实体指称对应的目标实体的相关实体作为实体指称的替换内容,可以保证该替换信息与实体指称的相关性更全面,利用该替换内容替换原目标语料中的实体指称得到的新语料,可以更充分地保留原目标语料的语义信息。

作为一种可选的实现方式,所述相关实体确定单元110从所述知识图谱中,确定出所述目标实体的各个相关实体时,具体用于:

根据所述目标实体的类别标签和所述目标语料,从所述知识图谱中,确定出所述目标实体的各个相关实体。

作为一种可选的实现方式,所述根据所述目标实体的类别标签和所述目标语料,从所述知识图谱中,确定出所述目标实体的各个相关实体,包括:

根据所述目标实体的类别标签和所述目标语料,从所述目标实体的类别标签中筛选出与所述目标语料的相似度最大的类别标签,作为目标类别标签;

从所述知识图谱中,筛选出具有所述目标类别标签的实体,作为所述目标实体的相关实体。

作为一种可选的实现方式,所述根据所述目标实体的类别标签和所述目标语料,从所述目标实体的类别标签中筛选出与所述目标语料的相似度最大的类别标签,作为目标类别标签,包括:

分别计算所述目标实体的各个类别标签的特征向量与所述目标语料的特征向量的相似度;

从所述目标实体的类别标签中,筛选出其特征向量与所述目标语料的特征向量的相似度最大的类别标签,作为目标类别标签。

作为一种可选的实现方式,所述相关实体确定单元110从所述知识图谱中,确定出所述目标实体的相关实体时,具体用于:

根据所述知识图谱的网络结构,从所述知识图谱中,确定出所述目标实体的相关实体。

作为一种可选的实现方式,所述根据所述知识图谱的网络结构,从所述知识图谱中,确定出所述目标实体的相关实体,包括:

基于所述知识图谱的网络结构,分别确定所述知识图谱中的每个实体的图谱网络特征向量;其中,实体的图谱网络特征向量是指包含实体的图谱网络结构的特征的特征向量,所述实体的图谱网络结构,是指在所述知识图谱中,由实体及其相邻实体构成的网络结构;

通过将所述目标实体的图谱网络特征向量与所述知识图谱中的其它实体的图谱网络特征向量进行相似度对比,从所述知识图谱中确定出所述目标实体的相关实体。

作为一种可选的实现方式,所述基于所述知识图谱的网络结构,分别确定所述知识图谱中的每个实体的图谱网络特征向量,包括:

初始化所述知识图谱中的每个实体的特征向量,得到所述知识图谱的实体特征矩阵;

利用预先训练的图卷积神经网络对所述知识图谱的实体特征矩阵进行处理,确定所述知识图谱中的每个实体的图谱网络特征向量;

其中,所述图卷积神经网络通过将实体样本的特征向量优化为图谱网络特征向量训练得到。

作为一种可选的实现方式,所述实体替换单元120利用所述目标实体的相关实体,替换所述目标语料中的实体指称,得到的替换后的各语料组成所述目标语料的扩充语料时,具体用于:

从所述目标实体的相关实体中选择相关实体,作为替换实体;

利用所述替换实体替换所述目标语料中的实体指称,得到的替换后的各语料组成所述目标语料的扩充语料。

作为一种可选的实现方式,所述从所述目标实体的相关实体中选择相关实体,作为替换实体,包括:

当所述目标语料中的实体指称的数量为1个时,从所述目标实体的相关实体中选择相关实体,作为替换实体;

当所述目标语料中的实体指称的数量大于1个时,确定由所述目标语料中的各实体指称组成的实体指称组对应的各个相关实体组,作为替换实体;

其中,与所述实体指称组对应的相关实体组包括所述实体指称组中每一实体指称对应的目标实体的一个相关实体;所述实体指称组所包含的实体指称之间的关系,与所述实体指称组对应的相关实体组所包含的实体之间的关系相同。

作为一种可选的实现方式,所述从所述目标实体的相关实体中选择相关实体,作为替换实体,包括:

从所述目标实体的相关实体中,选择与所述目标实体的相似度最高的设定数量的相关实体,作为替换实体。

作为一种可选的实现方式,所述从所述目标实体的相关实体中选择相关实体,作为替换实体,还包括:

从各个替换实体中,选择具有目标属性的替换实体;

其中,所述目标属性为所述目标实体所具备的,并且在所述目标语料中所包含的属性。

作为一种可选的实现方式,所述从各个替换实体中,选择具有目标属性的替换实体,包括:

通过从所述目标语料中查找所述目标实体的属性标签,确定所述目标语料中所包含的所述目标实体的属性,作为目标属性;

从各个替换实体中,选择具有所述目标属性的替换实体。

作为一种可选的实现方式,当所述目标语料包括两个实体指称时,所述确定由所述目标语料中的各实体指称组成的实体指称组对应的各个相关实体组,作为替换实体,包括:

分别将所述实体指称组所包含的第一实体指称对应的目标实体的相关实体,与所述实体指称组所包含的第二实体指称对应的目标实体的相关实体进行两两组合,得到各个相关实体组;

从所述各个相关实体组中,选出其所包含的相关实体之间的关系,与所述实体指称组所包含的实体指称之间的关系相同的各个相关实体组,作为替换实体。

上述的数据增强装置的各个单元的具体工作内容,请参见上述方法实施例的内容,此处不再重复。

本申请另一实施例还公开了一种数据增强设备,参见图6所示,该设备包括:

存储器200和处理器210;

其中,所述存储器200与所述处理器210连接,用于存储程序;

所述处理器210,用于通过运行所述存储器200中存储的程序,实现上述任一实施例公开的数据增强方法。

具体的,上述目标检测结果的评测设备还可以包括:总线、通信接口220、输入设备230和输出设备240。

处理器210、存储器200、通信接口220、输入设备230和输出设备240通过总线相互连接。其中:

总线可包括一通路,在计算机系统各个部件之间传送信息。

处理器210可以是通用处理器,例如通用中央处理器(cpu)、微处理器等,也可以是特定应用集成电路(application-specificintegratedcircuit,asic),或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

处理器210可包括主处理器,还可包括基带芯片、调制解调器等。

存储器200中保存有执行本发明技术方案的程序,还可以保存有操作系统和其他关键业务。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。更具体的,存储器200可以包括只读存储器(read-onlymemory,rom)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(randomaccessmemory,ram)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。

输入设备230可包括接收用户输入的数据和信息的装置,例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。

输出设备240可包括允许输出信息给用户的装置,例如显示屏、打印机、扬声器等。

通信接口220可包括使用任何收发器一类的装置,以便与其他设备或通信网络通信,如以太网,无线接入网(ran),无线局域网(wlan)等。

处理器2102执行存储器200中所存放的程序,以及调用其他设备,可用于实现本申请实施例所提供的数据增强方法的各个步骤。

本申请另一实施例还提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器执行时,实现上述任一实施例提供的数据增强方法的各个步骤。

上述的数据增强设备的各个部分的具体工作内容,以及上述的存储介质中的计算机程序被处理器执行时的具体处理内容,均可参见本申请上述方法实施例的内容,此处不再重复。

对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。

需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可,并且,各实施例中所记载的技术特征可以相互替换或者组合。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本申请各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。

本申请所提供的几个实施例中,应该理解到,所揭露的终端,装置和方法,可以通过其它的方式实现。例如,以上所描述的终端实施例仅仅是示意性的,例如,模块或子模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个子模块或模块可以结合或者可以集成到另一个模块,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。

作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的,作为模块或子模块的部件可以是或者也可以不是物理模块或子模块,即可以位于一个地方,或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中,也可以是各个模块或子模块单独物理存在,也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现,也可以采用软件功能模块或子模块的形式实现。

专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元,或者二者的结合来实施。软件单元可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1