一种实体的链接方法、装置和存储介质与流程

文档序号:32296382发布日期:2022-11-23 03:13阅读:来源:国知局

技术特征:
1.一种实体的链接方法,其特征在于,包括以下步骤:s1、输入数据,所述数据包括文档、文档中的提及和提及对应的第一候选实体集合;s2、获取每个所述提及与其对应的所述第一候选实体集合中的候选实体的第一链接分数,所述第一链接分数越高,所述候选实体与所述提及的相似度越高;每个所述提及从其对应的所述第一候选实体集合中选取第一链接分数最高的实体作为链接实体;所述第一候选实体集合中包括多个候选实体;s3、检测步骤s2所述提及选取的所述链接实体是否正确,若正确将所述链接实体添加到证据集合中;s4、若不正确,纠正所述提及选取的所述链接实体。2.根据权利要求1所述的实体的链接方法,其特征在于,在步骤s2中,每个所述提及从其对应的所述第一候选实体集合中选取最高相似度的实体作为链接实体包括:s21、获取所述候选实体的先验分布;s22、利用所述提及的上下文信息获得所述提及的表示,计算候选实体的表示与所述提及的表示的相似度;s23、计算所述提及的类型与所述候选实体的类型相似度;s24、聚合链接实体在知识图谱中的邻域实体,得到邻域实体表示,计算所述邻域实体与所述候选实体的相似度;s25、利用注意力机制聚合证据集合中的实体的信息,得到证据集合中的实体的表示,计算链接实体与候选实体的相似度;s26、聚合、、、和,得到所述候选实体最终的第一链接分数,第一链接分数最高的所述候选实体作为链接实体。3.根据权利要求1所述的实体的链接方法,其特征在于,在步骤s3中,所述检测步骤s2所述提及选取的所述链接实体是否正确包括:s31、确定所述链接实体的类别空间,所述类别空间包括:正确、不正确和不确定;s32、利用分类函数和证据集合中的实体判断当前链接实体的类别;s33、选择具有最大概率的类别作为链接实体的类别。4.根据权利要求3所述的实体的链接方法,其特征在于,在步骤s33之后还包括:步骤s34、若链接实体的类别是正确,则将该实体添加到证据集合中。5.根据权利要求4所述的实体的链接方法,其特征在于,在步骤s4中,所述若不正确,纠正所述提及选取的所述链接实体包括:s41、若所述连接实体的类别不正确,则按照步骤s2的方法获取所述链接实体的类别为不正确所对应的提及与第一候选实体集合中候选实体的第二链接分数;s42、聚合步骤s2的候选实体的所述第一链接分数和所述第二链接分数,得到单向决策最终的候选实体的第三链接分数,选取第三链接分数最高的实体作为链接实体。
6.根据权利要求5所述的实体的链接方法,其特征在于,在步骤s4之后还包括:s5、根据所述第三链接分数,对每个提及的不同候选实体进行排序,计算排名第一和排名第二的候选实体的第三链接分数差值,按照该差值重新对序列中的提及进行排序,得到第二次决策的提及序列;s6、利用双向lstm网络对第一次决策得到的所述证据集合中的实体进行编码,得到历史向量;s7、将所述历史向量或者将第一次决策得到的所述证据集合中的实体作为证据集合;s8、获取所述第二次决策的提及序列的每个所述提及与其对应的所述第一候选实体集合中的候选实体的第四链接分数;s9、聚合所述第三链接分数和所述第四链接分数得到第五链接分数,选取最高的第五链接分数的实体作为链接实体。7.根据权利要求2所述的实体的链接方法,其特征在于,在步骤s21中,所述获取所述候选实体的先验分布包括:,其中锚链接指的是维基百科描述页中的超链接。8.根据权利要求2所述的实体的链接方法,其特征在于,在步骤s21中,所述相似度的计算公式如下:其中,表示候选实体,表示对角矩阵,t表示置换,为提及的上下文表示向量。9.一种实体的链接装置,其特征在于,包括:数据模块,用于输入数据,所述数据包括文档、文档中的提及和提及对应的第一候选实体集合;实体选择模块,用于获取每个所述提及与其对应的所述第一候选实体集合中的候选实体的第一链接分数,所述第一链接分数越高,所述候选实体与所述提及的相似度越高;每个所述提及从其对应的所述第一候选实体集合中选取第一链接分数最高的实体作为链接实体;所述第一候选实体集合中包括多个候选实体;检测模块,用于检测提及选取的所述链接实体是否正确,若正确将所述链接实体添加到证据集合中;纠正模块,若不正确,纠正所述提及选取的所述链接实体。10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述实体的链接方法的步骤。

技术总结
本发明涉及一种实体的链接方法、装置和存储介质。该方法包括:S1、输入数据,所述数据包括文档、文档中的提及和提及对应的第一候选实体集合;S2、获取每个所述提及与其对应的所述第一候选实体集合中的候选实体的第一链接分数;每个所述提及从其对应的所述第一候选实体集合中选取第一链接分数最高的实体作为链接实体;所述第一候选实体集合中包括多个候选实体;S3、检测步骤S2所述提及选取的所述链接实体是否正确,若正确将所述链接实体添加到证据集合中;S4、若不正确,纠正所述提及选取的所述链接实体。本发明还包括一种实体的链接装置和存储介质。本发明提出的方法能够对潜在链接错误的提及进行纠正。误的提及进行纠正。


技术研发人员:周玉 孙建 宗成庆
受保护的技术使用者:北京中科凡语科技有限公司
技术研发日:2022.04.19
技术公布日:2022/11/22
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1