命名实体识别方法和系统

文档序号:34655398发布日期:2023-06-29 23:39阅读:54来源:国知局
命名实体识别方法和系统

本发明涉及实体识别,尤其涉及一种命名实体识别方法和系统。


背景技术:

1、命名实体识别(named entity recognition,ner)任务的目的是识别出给定文本中具有特定意义的实体,并判断实体所属的类型,比如,人名、地名、机构名、时间和专有名词等。命名实体识别是信息抽取、问答系统和机器翻译等上层应用系统的重要基础,在自然语言处理技术走向实用化的过程中占有重要地位,受到学术界和产业界越来越多的关注。

2、现有的命名实体识别方法,一般仅考虑了文本信息,而在很多情况下仅利用文本中的信息不足以正确地识别出所包含的实体及其类别,例如,在句子“汤姆在追逐杰瑞”中,仅根据文本并不能确定“汤姆”和“杰瑞”是人名还是动物名,进而导致命名实体识别准确率不高。


技术实现思路

1、本发明实施例的目的在于提供一种命名实体识别方法和系统,旨在解决现有的命名实体识别准确率不高的问题。

2、本发明实施例是这样实现的,一种命名实体识别方法,所述方法包括:

3、对各样本文本进行文本编码,得到文本表示,并对各样本文本对应的样本图片进行图片编码,得到图片表示;

4、根据各图片表示对各文本表示进行信息增强,得到文本增强表示,并分别基于各文本表示和各文本增强表示进行命名实体预测,得到第一预测结果和第二预测结果;

5、根据所述第一预测结果和所述第二预测结果确定模型总训练代价,并最小化所述模型总训练代价对命名实体识别模型进行参数更新,直至所述命名实体识别模型收敛;

6、将待识别文本和/或对应的图片输入收敛后的所述命名实体识别模型进行识别,得到命名实体识别结果。

7、本发明实施例的另一目的在于提供一种命名实体识别系统,所述系统包括:

8、编码模块,包括文本编码模块和图片编码模块,文本编码模块用于对各样本文本进行文本编码,得到文本表示,图片编码模块用于对各样本文本对应的样本图片进行图片编码,得到图片表示;

9、多级图文交互模块,用于根据各图片表示对各文本表示进行信息增强,通过多级信息交互,得到文本增强表示;

10、解码模块,包括第一解码层和第二解码层,第一解码层以各文本表示作为输入,得到第一预测结果,第二解码层以各文本增强表示作为输入,得到第二预测结果;

11、命名实体识别模块,用于得到不同实际应用场景下的命名实体识别结果,当输入待识别文本和对应图片时,依次调用文本编码模块、图片编码模块、多级图文交互模块和解码模块中的第二解码层,将第二解码层输出第二预测结果作为命名实体识别结果;当仅输入待识别文本时,依次调用文本编码模块和解码模块中的第一解码层,将第一解码层输出的第一预测结果作为命名实体识别结果。

12、本发明实施例,能有效地建立文本中的实体与图片中的物体之间的联系,从而充分利用图片中的信息学习更好的文本表示,提高了命名实体识别的性能,还能应用于有对应图片的文本和仅有文本两种真实场景下的命名实体识别。



技术特征:

1.一种命名实体识别方法,其特征在于,所述方法包括:

2.如权利要求1所述的命名实体识别方法,其特征在于,所述对各样本文本进行文本编码,得到文本表示,并对各样本文本对应的样本图片进行图片编码,得到图片表示,包括:

3.如权利要求2所述的命名实体识别方法,其特征在于,所述根据各图片表示对各文本表示进行信息增强,包括:

4.如权利要求3所述的命名实体识别方法,其特征在于,第个交叉注意力机制层输出的各文本增强表示为:

5.如权利要求1所述的命名实体识别方法,其特征在于,所述分别基于各文本表示和各文本增强表示进行命名实体预测,包括:

6.如权利要求5所述的命名实体识别方法,其特征在于,所述根据所述第一解码层对文本进行命名实体识别采用的公式包括:

7.如权利要求6所述的命名实体识别方法,其特征在于,所述根据所述第一预测结果和所述第二预测结果确定模型总训练代价,计算模型总训练代价的函数包括:

8.一种命名实体识别系统,其特征在于,应用上述权利要求1至7任一项所述的命名实体识别方法,所述系统包括:


技术总结
本发明提供了一种命名实体识别方法和系统,该方法包括:对各样本文本和对应的样本图片分别进行编码得到文本表示和图片表示;根据各图片表示对各文本表示进行信息增强得到文本增强表示,并分别基于文本表示和文本增强表示进行命名实体预测,得到第一预测结果和第二预测结果;根据第一预测结果和第二预测结果确定模型总训练代价,通过最小化模型总训练代价对命名实体识别模型进行参数更新,直至收敛;将待识别文本和/或对应的图片输入收敛后的命名实体识别模型进行识别,得到命名实体识别结果。本发明能有效地建立文本中的实体与图片中的物体之间的联系,从而充分利用图片中的信息学习更好的文本表示,提高了命名实体识别的性能。

技术研发人员:邬昌兴,王琛,姚浩,熊锦晖,杨亚连
受保护的技术使用者:华东交通大学
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1