词义消歧的方法及装置与流程

文档序号:35528726发布日期:2023-09-21 05:53阅读:30来源:国知局
词义消歧的方法及装置与流程

本技术涉及人工智能,尤其涉及一种词义消歧的方法及装置。


背景技术:

1、随着人工智能技术的迅速发展,对让计算机更准确识别人类语言的相关研究也越来越多。

2、而现有的识别技术中,对传统词义消歧多采用候选文本与待消歧文本之间的语义相似度实现,并且以字为单位进行分析,对候选文本与待消歧文本自身内的相关特征分析较为单薄,且特征提取方法较为单一,而且需要大量的训练样本,不利于应用于小规模标记样本的场景,在语料指令差或者信息缺失的情况下,性能下降明显。如何充分的提取文本的相关信息,并结合提取的相关信息,自动高效地对文本中词义进行消歧,成为业界当前亟需攻克的难题。


技术实现思路

1、针对现有技术存在的问题,本技术提供一种词义消歧的方法及装置。

2、第一方面,本技术提供一种词义消歧的方法,包括:

3、基于rpa知识图谱,确定待消歧文本中存在的待消歧实体,以及对应的候选实体列表;

4、基于所述候选实体列表中每个候选实体,和所述待消歧实体,通过rpa特征提取,确定所述候选实体对应的嵌入特征,和所述待消歧实体对应的嵌入特征;

5、基于词义消歧模型,每个所述候选实体对应的嵌入特征,以及所述待消歧实体对应的嵌入特征,确定所述待消歧实体是否和所述候选实体为同一个实体;

6、其中,所述嵌入特征包括:实体嵌入特征、实体上下文嵌入特征和词语嵌入特征。

7、可选地,所述基于所述候选实体列表中每个候选实体,和所述待消歧实体,通过rpa特征提取,确定每个所述候选实体对应的嵌入特征,和所述待消歧实体对应的嵌入特征,包括:

8、基于改进后的bert字典,分别确定所述候选实体文本对应的索引编码序列,作为所述候选实体文本的词语嵌入特征,和所述待消歧文本对应的索引编码序列,作为所述待消歧文本对应的词语嵌入特征;所述候选实体文本是基于所述候选实体列表中任一候选实体以及rpa知识图谱确定的;

9、基于实体嵌入模型和rpa知识图谱,确定每个所述候选实体对应的实体嵌入特征,和/或所述待消歧文本中已确定的实体对应的实体嵌入特征;

10、基于rpa知识图谱和距离权重算法,确定每个所述候选实体对应的实体上下文嵌入特征,和/或所述待消歧文本中已确定的实体对应的实体上下文嵌入特征。

11、可选地,所述基于改进后的bert字典,分别确定所述候选实体文本对应的索引编码序列,作为所述候选实体文本的词语嵌入特征,和所述待消歧文本对应的索引编码序列,作为所述待消歧文本对应的词语嵌入特征,包括:

12、分别对所述候选实体文本和所述待消歧文本进行预分词,确定第一预分词集合,和第二预分词集合;

13、基于改进后的bert字典,确定所述第一预分词集合对应的索引编码序列,和所述第一预分词集合对应的索引编码序列。

14、可选地,所述实体嵌入模型基于如下方法训练得到:

15、基于transparse方法,确定第一损失函数中的第一空间向量和第二空间向量;所述第一空间向量是rpa知识图谱中每个实体间关系下头实体和实体间关系的空间向量,所述第二空间向量是rpa知识图谱中每个实体间关系下尾实体和实体间关系的空间向量;

16、基于所述第一损失函数,以及构建的第一样本数据和第二样本数据,确定第一损失函数值;

17、在所述第一损失函数值小于第一阈值的情况下,得到所述实体嵌入模型。

18、可选地,所述基于实体嵌入模型和rpa知识图谱,确定所述候选实体对应的实体嵌入特征,和/或所述待消歧文本中已确定的实体对应的实体嵌入特征,包括:

19、基于rpa知识图谱,确定所述候选实体存在对应实体间关系的第一集合,和/或所述待消歧实体文本中已确定的实体存在对应实体间关系的第二集合;所述第一集合包括与所述候选实体存在实体间关系的所有实体和对应的实体间关系,所述第二集合包括与所述待消歧实体文本中以确定的实体存在实体间关系的所有实体和对应的实体间关系;

20、基于实体嵌入模型,确定所述的第一集合对应的第一空间向量的值和第二空间向量的值,作为所述候选实体对应的实体嵌入特征,和/或,确定所述的第二集合对应的第一空间向量的值和第二空间向量的值,作为所述待消歧文本中已确定的实体对应的实体嵌入特征。

21、可选地,所述基于rpa知识图谱和距离权重算法,确定每个所述候选实体对应的实体上下文嵌入特征,和/或所述待消歧文本中已确定的实体对应的实体上下文嵌入特征,包括:

22、基于rpa知识图谱,确定每个所述候选实体对应的第一知识图谱子图,和/或所述待消歧文本中已确定的实体对应的第二知识图谱子图;

23、基于所述第一知识图谱子图以及距离权重算法,确定所述候选实体对应的实体上下文嵌入特征,和/或基于所述第二知识图谱子图以及距离权重算法,确定所述待消歧文本中已确定的实体对应的实体上下文嵌入特征。

24、可选地,所述基于词义消歧模型,每个所述候选实体对应的嵌入特征,以及所述待消歧实体对应的嵌入特征,确定所述待消歧实体是否和所述候选实体为同一个实体,包括:

25、基于所述词义消歧模型,确定所述候选实体文本和所述待消歧文本的相似度;所述候选实体文本是基于所述候选实体列表中任一候选实体以及rpa知识图谱确定的;

26、基于预设置信度规则,以及所述候选实体文本和所述待消歧文本的相似度,确定所述待消歧实体是否和所述候选实体为同一个实体。

27、可选地,所述词义消歧模型是基于如下方法训练得到:

28、基于预设的掩码规则,以及构建的第一样本数据和第二样本数据,确定用于训练词义消歧模型的第三样本数据和第四样本数据;

29、基于第二损失函数,以及所述第三样本数据和第四样本数据,确定第二损失函数值;所述第二损失函数为改进的交叉熵损失函数;

30、在所述第二损失函数值小于第二阈值的情况下,得到所述词义消歧模型。

31、可选地,所述第一样本数据是基于rpa知识图谱的三元组通过标记得到;所述第二样本数据是将所述第一样本中任一实体关系对应的头实体或尾实体,替换成不同实体间关系对应的头实体或尾实体得到。

32、可选地,所述改进的交叉熵损失函数是基于bert中的交叉损失函数确定的。

33、可选地,所述基于预设置信度规则,以及所述候选实体文本和所述待消歧文本的相似度,确定所述待消歧实体是否和所述候选实体为同一个实体,包括:

34、若所述相似度满足所述预设置信度规则,则确定所述待消歧实体和所述候选实体是同一个实体;

35、若所述相似度不满足所述预设置信度规则,则确定所述待消歧实体和所述候选实体不是同一个实体。

36、可选地,所述基于预设置信度规则,以及所述候选实体文本和所述待消歧文本的相似度,确定所述待消歧实体是否和所述候选实体为同一个实体之后,包括:

37、若所述待消歧实体和所述候选实体是同一个实体,则以所述待消歧实体的实体名称作为别名,更新rpa知识图谱;

38、若所述待消歧实体和所述候选实体不是同一个实体,则在rpa知识图谱中新增所述待消歧实体,并更新对应的实体间关系。

39、第二方面,本技术还提供一种词义消歧的装置,包括:

40、候选实体模块,用于基于rpa知识图谱,确定待消歧文本中存在的待消歧实体,以及对应的候选实体列表;

41、嵌入特征模块,用于基于所述候选实体列表中每个候选实体,和所述待消歧实体,通过rpa特征提取,确定所述候选实体对应的嵌入特征,和所述待消歧实体对应的嵌入特征;

42、消歧模块,用于基于词义消歧模型,每个所述候选实体对应的嵌入特征,以及所述待消歧实体对应的嵌入特征,确定所述待消歧实体是否和所述候选实体为同一个实体;

43、其中,所述嵌入特征包括:实体嵌入特征、实体上下文嵌入特征和词语嵌入特征。

44、第三方面,本技术还提供一种电子设备,包括处理器和存储有计算机程序的存储器,所述处理器执行所述程序时实现第一方面所述的词义消歧的方法。

45、第四方面,本技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上所述第一方面所述的词义消歧的方法。

46、本技术提供的词义消歧的方法及装置,通过综合实体嵌入特征、实体上下文嵌入特征和词语嵌入特征,实现对待消歧文本和候选文本的嵌入特征的对比,确定所述待消歧实体是否和所述候选实体为同一个实体,获取的文本信息更丰富和全面,有利于准确分析文本词义,提升词义消歧准确率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1