一种面向多语种自然场景文本图像的结构化信息抽取方法

文档序号:41093731发布日期:2025-02-28 17:28阅读:18来源:国知局
一种面向多语种自然场景文本图像的结构化信息抽取方法

本发明涉及多语种自然场景文本图像的信息处理相关问题,具体涉及一种面向多语种自然场景文本图像的结构化信息抽取方法。


背景技术:

1、现有关于文本图像信息抽取的研究主要面向文档图像,以文档图像中的布局信息和文本语义信息为依据实现文档图像的信息抽取。与文档图像相比,自然场景文本图像的背景更为复杂,包含具体的视觉目标,存在有意义的视觉场景信息。同时,自然场景文本图像中的文字内容以及文本呈现的形式更加灵活多样,给结构化知识抽取的研究带来了挑战。对于自然场景文本图像来说,其中包含的文本区域中的文字个数通常较少。自然场景文本图像中文本类型的上下文语境对于信息抽取的支撑相对更弱。


技术实现思路

1、本发明为了解决上述现有技术存在的不足之处,提出一种面向多语种自然场景文本图像的结构化信息抽取方法,以期能同时理解多语种环境下文本图像中的视觉目标、文本图像中的文本内容、文本图像的描述语句对应的三种不同模态的信息,从而能实现结构化知识的高效抽取。

2、本发明为达到上述发明目的,采用如下技术方案:

3、本发明一种面向多语种自然场景文本图像的结构化信息抽取方法的特点在于,包括以下步骤:

4、步骤1:获取多语种文本信息抽取数据集,其中,表示第i个多语种文本,表示结构化知识的语种,表示对应的结构化知识,表示中多语种文本的个数;

5、获取带标注的多语种自然场景文本图像集,其中,表示第j个多语种自然场景文本图像,表示结构化知识标注的语种,表示的结构化知识标注,表示中多语种自然场景文本图像的个数;

6、步骤2:构建面向多语种自然场景文本图像的结构化信息抽取网络,包括:一个文本分支,一个视觉分支,一个图像描述器,一个多模态信息抽取器;

7、所述文本分支,包括:1个多语种文本信息编码模块、1个transformer模块,1个文本信息抽取模块;

8、所述视觉分支,包括:1个多语种图文检测与识别模块、1个多语种视觉信息编码模块、1个多语种文本信息编码模块、1个预训练的多模态transformer模块;

9、所述多模态信息抽取器,包含:1个多模态信息融合模块、1个解码模块;

10、步骤3:将输入对结构化信息抽取网络中的文本分支进行预训练,得到预训练后的文本分支;

11、步骤4:将输入结构化信息抽取网络中进行训练,得到训练后的结构化信息抽取模型;

12、步骤5:使用训练后的结构化信息抽取模型对任意输入的多语种文本图像进行信息抽取,得到预测的结构化的知识表示,并作为信息抽取结果输出。

13、本发明所述的一种面向多语种自然场景文本图像的结构化信息抽取方法的特点也在于,所述步骤3包括以下步骤:

14、步骤3.1:将输入多语种文本信息编码模块中,并利用mt5的编码器对进行处理,得到中每个位置的嵌入表示矩阵,其中,表示中第个位置的嵌入表示向量,表示中的字符数,表示嵌入维度;

15、步骤3.2:将输入transformer层中,并经过多个堆叠的多头注意力机制、前馈操作和残差连接处理,得到的语义特征矩阵,其中,表示中第个位置的语义特征;

16、步骤3.3:将输入所述文本信息抽取器中进行预测,得到线性化知识表示,其中,表示对应的线性化知识表示中的第个字符,表示线性化知识表示中的字符个数;

17、步骤3.4:将通过基于树结构的规则转化为线性化知识表示,再与预测的线性化知识表示进行比对,以构建损失函数,用于而对文本分支进行反向传播,以更新文本分支中的网络参数,从而得到预训练后的文本分支。

18、进一步的,所述步骤4包括以下步骤:

19、步骤4.1:将步骤3中训练好的文本分支网络各节点的权重迁移到多语种多模态信息抽取网络对应位置的节点上;

20、步骤4.2:将输入所述视觉分支中的多语种图文检测与识别模块进行文本检测与识别,分别得到文本区域位置坐标、文本区域裁剪图像和识别结果;

21、步骤4.3:将和输入所述多语种视觉信息编码模块中进行处理,得到文本图像整体的视觉嵌入表示和文本区域裁剪图像的视觉嵌入表示,其中,表示中的第个表征向量,表示中的第个表征向量,表示中的向量个数,表示中的向量个数;

22、步骤4.4:基于和中的各部分分别在中的位置,计算和中的各部分分别在中对应的位置表示和;

23、将与在对应位置上拼接后,得到文本图像整体的视觉特征编码;

24、将与在对应位置上拼接后,得到文本区域裁剪图像的视觉特征编码;

25、步骤4.5:将输入所述多语种文本信息编码模块中进行处理,得到文本嵌入表示,其中,表示中的第个表示向量,表示嵌入向量的个数;

26、基于中的各部分在中的相对位置,计算得到中的各部分对应的位置编码;

27、将与拼接后,得到文本特征编码;

28、步骤4.6:将、、输入所述预训练的多模态transformer层中进行处理,输出多语种文本图像对应的语义增强视觉特征编码,文本区域裁剪图像对应的语义增强视觉特征编码、识别结果对应的语义增强文本特征编码;

29、步骤4.7:将输入所述图像描述模块中进行处理,得到的图像描述语句;

30、步骤4.8:将输入所述预训练后的文本分支中,依次经过多语种文本信息编码模块和transformer层的处理后,输出对应的语义增强文本特征编码,其中,表示中第个编码向量,表示向量的个数;

31、步骤4.9:将、、和输入所述多模态信息抽取器中进行多语种文本图像的信息抽取,得到文本图像线性化知识表示的预测结果;

32、步骤4.10:将通过基于树的规则转化为第i个线性化知识表示,并与第i个预测的线性化知识表示进行比对,以构建损失函数,用于对结构化信息抽取网络进行反向传播,以更新网络参数,从而得到训练后的结构化信息抽取模型。

33、进一步的,所述步骤4.9包括以下步骤:

34、步骤4.9.1:所述多模态信息融合模块对、、和进行融合,得到第i个融合后的特征编码,其中,表示的第个融合特征向量,表示融合特征向量的个数;

35、步骤4.9.2:将输入所述解码模块中进行预测,得到第i个预测的线性化知识表示,其中,表示对应的线性化知识表示中的第个字符;表示字符总数;

36、本发明一种电子设备,包括存储器以及处理器的特点在于,所述存储器用于存储支持处理器执行所述结构化信息抽取方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。

37、本发明一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序的特点在于,所述计算机程序被处理器运行时执行所述结构化信息抽取方法的步骤。

38、与现有技术相比,本发明的有益效果在于:

39、1、本发明可以实现多语种自然场景文本图像的信息抽取,可以在图像内包含复杂视觉场景的情况下,使用多语种自然场景文本图像的结构化信息抽取网络同时理解文本图像内的多语种文本信息和视觉场景信息,克服了现有技术只利用图像内文本信息和文本布局信息进行信息抽取的不足,能更好地应用于多语种多模态的环境。

40、2、本发明将信息抽取模型在海量文本模态信息抽取数据集上学习到的知识迁移到多语种多模态信息抽取模型中,通过外部知识的使用缓解了多语种文本图像信息抽取数据集样本量不足的问题。通过知识的迁移,提升了多语种文本图像结构化知识抽取的效果。

41、3、本发明设计的网络框架融合了多语种文本图像内不同来源、不同模态、不同粒度的信息,使得各种信息能够相互补充,从不同的角度支撑模型对多语种自然场景文本图像的深度理解,从而实现更好的结构化信息抽取性能。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1