一种基于实体话题关联度的领域命名实体去噪方法及系统与流程

文档序号:23004859发布日期:2020-11-20 11:55阅读:195来源:国知局
一种基于实体话题关联度的领域命名实体去噪方法及系统与流程

本发明属于人工智能技术领域,尤其涉及一种基于实体话题关联度的领域命名实体去噪方法及系统。



背景技术:

命名实体识别(namedentityrecognition,简称ner),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。

命名实体识别是构建知识图谱的基本步骤。在知识图谱构建中,命名实体构成了图谱中的点,实体之间的关系构成了图谱中的边。另外,相同领域的实体具有大量相似的语义元素,不同类型的语义元素通常意味着不同领域的实体,例如,“华为智慧屏”的相似的语义元素有“智慧”、“护眼”、“屏”、“手机”等。

但是,由于命名实体识别模型无法做到100%的准确率,在构建图谱当中,常常会混入识别错误的非领域实体,影响用户对图谱的使用体验度。因此,需要一种对领域命名实体去噪的技术方案,提高实体识别准确率、提升用户体验。



技术实现要素:

为解决上述的技术问题,本发明提出一种基于实体话题关联度的领域命名实体去噪声方法及系统,针对识别出来的命名实体,进行噪声识别过滤,去除识别错误的与领域不相关实体,以保留正确的实体进行知识图谱的构建。

一方面,本发明公开了一种基于实体话题关联度的领域命名实体去噪方法,包括:

s1,获取待识别语料并通过一命名实体识别模型进行实体识别,得到实体列表;

s2,将所述实体列表中的每一命名实体拆分为语义元素并通过一相似语义元素模型经学习、筛选得到多个领域相关主题及其权重;

s3,基于所述步骤s2得到的每一所述领域相关主题及主题的权重计算得到所述命名实体的评分;

s4,设定一噪音阈值并根据噪音阈值筛选、过滤所述命名实体中的噪音实体。

进一步,所述步骤s2进一步包括:

s21,将所述命名实体拆分为语义元素;

s22,获取一主题数量n并将经所述步骤s21得到的命名实体输入到所述相似语义元素模型中,计算得到n个主题;

s23,根据所述步骤s22得到的主题获取多个所述领域相关主题并设置每一所述领域相关主题的权重,具体的,所述领域相关主题根据所述主题应用领域进行筛选。

进一步,所述步骤s4进一步包括:

s41,设定所述噪音阈值;

s42,根据所述评分对所述命名实体进行排序并筛选、过滤所述噪音实体,所述噪音实体为所述评分低于所述噪音阈值的命名实体。

进一步,所述步骤s22进一步包括:

s221,获取所述主题数量n,并根据所述主题数量n在所述语义元素中选取n个代表元素;

s222,计算每一主题中每一语义元素与所述代表元素的距离;

s223,通过组合所述语义元素及与所述语义元素距离最小的代表元素,得到n个主题;

s224,确定主题中的中心元素,所述中心元素为与主题中其他元素的距离之和最小的元素。

s225,重复步骤s221~s224直至每个主题内的中心元素不再变化,此过程为确定中心元素收敛的过程。

进一步,所述距离为所述语义元素出现在同一实体内次数的倒数。

进一步,所述步骤s23中的权重为领域相关实体数/总实体数,所述领域相关实体数为领域内实体数,所述总实体数为所述实体列表中的实体数。

进一步,所述步骤s3中,所述实体的评分为每一实体中所述领域相关主题的权重的平均分,步骤s3中不限于采用平均分计算评分,也可以采用最大值、最小值、调和平均值,可根据应用场景选择最优评分计算方法。

进一步,所述步骤s41中,

所述噪音阈值=avg-3×σ;

其中,所述avg为所述实体列表中实体的平均评分;σ为所述实体列表中实体评分的标准差。

进一步,所述步骤s22通过一btm主题模型实现。

另一方面,本发明公开了一种基于实体话题关联度的领域命名实体去噪系统,包括:

命名实体识别模块,获取待识别语料并通过一命名实体识别模型进行实体识别,得到实体列表;

命名实体特点学习模块,用于将所述实体列表中的每一命名实体拆分为语义元素并通过一相似语义元素模型经学习、筛选得到多个领域相关主题及其权重;

命名实体噪音评分模块,根据所述命名实体特点学习模块得到的每一所述领域相关主题及主题的权重计算得到所述命名实体的评分;

命名实体过滤模块,用于设定一噪音阈值并根据噪音阈值筛选、过滤所述命名实体中的噪音实体。

与现有技术相比,本发明的优点和积极效果在于:

本发明的技术方案利用所述距离、权重、评分等参数作为参考评价所述实体之间的关联度,通过学习正确命名实体之间的关系,计算实体是否是噪音的评分,以去除领域内识别错误的命名实体,优化图谱构建,实现了提高实体识别准确率,提升用户体验度的技术效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例基于实体话题关联度的领域命名实体去噪方法的优选流程示意图;

图2为本发明实施例基于实体话题关联度的领域命名实体去噪方法的另一优选流程示意图;

图3为本发明实施例基于实体话题关联度的领域命名实体去噪系统的系统框图。

其中:

0、领域命名实体去噪系统;1、命名实体识别模块;2、命名实体特点学习模块;3、命名实体噪音评分模块;4、命名实体过滤模块。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。

需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。

另外,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。

图1-2为本发明实施例的领域命名实体去噪方法的优选流程示意图,参考图1-2所示,本发明实施例公开了一种基于实体话题关联度的领域命名实体去噪方法,包括:

s1,获取待识别语料并通过一命名实体识别模型进行实体识别,得到实体列表,本实施例的实体识别采用crf模型进行实体识别;

s2,将实体列表中的每一命名实体拆分为语义元素并通过一相似语义元素模型经学习、筛选得到多个领域相关主题及其权重;

s3,基于s2得到的每一领域相关主题及主题的权重计算得到命名实体的评分,实体的评分为每一实体中领域相关主题的权重的平均分,值得注意的是,步骤s3中不限于采用平均分计算评分,也可以采用最大值、最小值、调和平均值,可根据应用场景选择最优评分计算方法;

s4,设定一噪音阈值并根据噪音阈值筛选、过滤命名实体中的噪音实体。

其中,s2进一步包括:

s21,将命名实体拆分为语义元素;

s22,获取一主题数量n并将经s21得到的命名实体输入到相似语义元素模型中,计算得到n个主题;

s23,根据s22得到的主题获取多个领域相关主题并设置每一领域相关主题的权重,具体的,领域相关主题根据主题应用领域进行筛选,权重为领域相关实体数/总实体数,领域相关实体数为领域内实体数,总实体数为实体列表中的实体数。

s4进一步包括:

s41,设定噪音阈值,具体的,噪音阈值=avg-3×σ,其中,avg为实体列表中实体的平均评分;σ为实体列表中实体评分的标准差;

s42,根据评分对命名实体进行排序并筛选、过滤噪音实体,噪音实体为评分低于噪音阈值的命名实体。

步骤s22可通过一btm主题模型实现,也可以通过如下步骤实现:

s221,获取主题数量n,并根据主题数量n在语义元素中选取n个代表元素;

s222,计算每一主题中每一语义元素与代表元素的距离,距离为语义元素出现在同一实体内次数的倒数;

s223,通过组合语义元素及与语义元素距离最小的代表元素,得到n个主题;

s224,确定主题中的中心元素,中心元素为与主题中其他元素的距离之和最小的元素。

s225,重复步骤s221~s224直至每个主题内的中心元素不再变化,此过程为确定中心元素收敛的过程。

另一方面,参考图3所示,本发明公开了一种基于实体话题关联度的领域命名实体去噪系统,包括:

命名实体识别模块1,获取待识别语料并通过一命名实体识别模型进行实体识别,得到实体列表;

命名实体特点学习模块2,用于将实体列表中的每一命名实体拆分为语义元素并通过一相似语义元素模型经学习、筛选得到多个领域相关主题及其权重;

命名实体噪音评分模块3,根据命名实体特点学习模块得到的每一领域相关主题及主题的权重计算得到命名实体的评分;

命名实体过滤模块4,用于设定一噪音阈值并根据噪音阈值筛选、过滤命名实体中的噪音实体。

举一例说明采用上述的命名实体去噪方法及系统进行去噪的工作原理。

假设对以下多条语料实体进行去噪,如:

1:百雀羚草本精华帮助肌肤延缓衰老;

2:欧舒丹樱花沐浴露今日在京东展开促销活动;

3:力士草本沐浴露,祛痱止痒,夏日必备;

4~n-1:………………多个类似实体;

n:红杉资本本月投资的包括百雀羚和小米;

n+1:小米note5昨日上市。

经过步骤s1对上述语料通过crf模型进行实体识别,分别得到实体列表如下:

1.百雀羚草本精华

2.欧舒丹樱花沐浴露京东

3.力士草本沐浴露

4.红杉资本百雀羚小米

5.小米note5

然后通过步骤s2对上述语料进行分词,训练,假设主题数为4,并得到如下主题:

主题a:百雀羚,欧舒丹,力士,红杉资本,小米,其中,中心元素为百雀羚;

主题b:草本,樱花

主题c:精华,沐浴露

主题d:note5。

假设,在步骤s3中得到的,“欧舒丹”权重为0.01、“樱花”的权重为0.02、“沐浴露”的权重为0.03,而小米和红杉资本出现的次数很少,与中心元素的距离较大;那么实体2的评分为0.02分,同样假设“小米”的权重为0.0001,“红杉资本”的权重为0.0002;

根据业务方式或主题内出现次数占总元素的排序,我们可以认为主题d是无关主题,因此note5的权重为0;

欧舒丹樱花沐浴露的评分为:(0.01+0.02+0.03)/3=0.02

小米note5的评分为:(0.0001+0)/1=0.0001

因而小米note5是噪声主体

实际应用中,主题判定也可以选用btm模型。

本实施例的技术方案通过学习正确命名实体之间的关系,计算实体是否是噪音的评分,以去除领域内识别错误的命名实体,优化图谱构建,实现了提高实体识别准确率,提升用户体验度的技术效果。

以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其它领域,但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1