文本信息的提取方法、系统、设备以及存储介质与流程

文档序号:40052924发布日期:2024-11-22 17:14阅读:5来源:国知局
文本信息的提取方法、系统、设备以及存储介质与流程

本说明书实施例涉及计算机,特别涉及一种文本信息的提取方法、系统、设备以及存储介质。


背景技术:

1、随着计算机技术的发展,越来越多的场景会引入计算机技术来提高效率。比如,在需要从图像中提取文本信息的场景下,通常会引入计算机技术。

2、相关技术中,从图像中提取文本信息通常是采用模板匹配的方法,也即是利用预先配置的文本模板在图像中进行匹配,以实现对图像中文本信息的提取。

3、但是,由于文本模板的数量通常是有限的,利用模板匹配的方法来从图像中提取文本信息的方式泛化能力较差,无法满足日益增长的需求。


技术实现思路

1、本说明书实施例提供了一种文本信息的提取方法、系统、设备以及存储介质,能够提高从图像中提取文本信息的泛化能力,技术方案如下:

2、一方面,提供了一种文本信息的提取方法,所述方法包括:

3、获取目标图像和针对所述目标图像的目标问题文本,所述目标图像携带文本信息,所述目标问题文本用于指示从所述目标图像中提取目标文本信息;

4、对所述目标图像进行文本识别,得到所述目标图像对应的图像文本;

5、将所述目标图像、所述图像文本以及所述目标问题文本输入多模态处理模型,通过所述多模态处理模型对所述目标图像、所述图像文本以及所述目标问题文本进行处理,得到所述目标文本信息。

6、一方面,提供了一种文本信息的提取系统,所述系统包括:获取模块、识别模块、输入模块以及多模态处理模型;

7、所述获取模块,用于获取目标图像和针对所述目标图像的目标问题文本,所述目标图像携带文本信息,所述目标问题文本用于指示从所述目标图像中提取目标文本信息;

8、所述识别模块,用于对所述目标图像进行文本识别,得到所述目标图像对应的图像文本;

9、所述输入模块,用于将所述目标图像、所述图像文本以及所述目标问题文本输入所述多模态处理模型;

10、所述多模态处理模型,用于对所述目标图像、所述图像文本以及所述目标问题文本进行处理,得到所述目标文本信息。

11、在一种可能的实施方式中,所述多模态处理模型,包括嵌入编码层、注意力编码层以及文本信息提取层;

12、所述嵌入编码层,用于对所述目标图像、所述图像文本以及所述目标问题文本进行编码,得到所述目标图像的图像特征、所述图像文本的图像文本特征以及所述目标问题文本的问题文本特征;

13、所述注意力编码层,用于基于注意力机制对所述目标图像的图像特征、所述图像文本的图像文本特征以及所述目标问题文本的问题文本特征进行编码,得到目标注意力特征;

14、所述文本信息提取层,用于基于所述目标注意力特征,从所述图像文本中提取所述目标文本信息。

15、在一种可能的实施方式中,所述嵌入编码层包括图像嵌入编码层、图像文本嵌入编码层以及问题文本嵌入编码层;

16、所述图像嵌入编码层,用于对所述目标图像进行分块,得到所述目标图像的多个图像块;对各个所述图像块以及各个所述图像块在所述多个图像块和所述目标图像中的位置进行编码,得到所述图像特征;

17、所述图像文本嵌入编码层,用于对所述图像文本进行分词,得到所述图像文本的多个第一词汇;对各个所述第一词汇以及各个所述第一词汇在所述多个第一词汇和所述图像文本中的位置进行编码,得到所述图像文本特征;

18、所述问题文本嵌入编码层,用于对所述目标问题文本进行分词,得到所述目标问题文本的多个第二词汇;对各个所述第二词汇以及各个所述第二词汇在所述多个第二词汇和所述目标问题文本中的位置进行编码,得到所述目标问题文本特征。

19、在一种可能的实施方式中,所述图像嵌入编码层包括图像内容编码子层、第一图像位置编码子层、第二图像位置编码子层以及图像特征拼接子层;

20、所述图像内容编码子层,用于对于所述多个图像块中的任一图像块,对所述图像块进行全连接,得到所述图像块的图像块特征;

21、所述第一图像位置编码子层,用于对所述图像块在所述多个图像块中的序号进行嵌入编码,得到所述图像块的第一图像块位置特征;

22、所述第二图像位置编码子层,用于对所述图像块在所述目标图像中的坐标进行嵌入编码,得到所述图像块的第二图像块位置特征;

23、所述图像特征拼接子层,用于将各个所述图像块的图像块特征、第一图像块位置特征以及第二图像块位置特征进行拼接,得到各个所述图像块的图像块嵌入特征,各个所述图像块的图像块嵌入特征组成所述图像特征。

24、在一种可能的实施方式中,所述图像文本嵌入编码层包括图像文本内容编码子层、第一图像文本位置编码子层、第二图像文本位置编码子层以及图像文本特征拼接子层;

25、所述图像文本内容编码子层,用于对于所述多个第一词汇中的任一第一词汇,对所述第一词汇进行嵌入编码,得到所述第一词汇的第一词汇特征;

26、所述第一图像文本位置编码子层,用于对所述第一词汇在所述多个第一词汇中的序号进行嵌入编码,得到所述第一词汇的第一词汇位置特征;

27、所述第二图像文本位置编码子层,用于对所述第一词汇在所述图像文本中所属的词汇集合进行嵌入编码,得到所述第一词汇的第二词汇位置特征;

28、所述图像文本特征拼接子层,用于将各个所述第一词汇的第一词汇特征、第一词汇位置特征以及第二词汇位置特征进行拼接,得到各个所述第一词汇的第一词汇嵌入特征,各个所述第一词汇的第一词汇嵌入特征组成所述图像文本特征。

29、在一种可能的实施方式中,所述问题文本嵌入编码层包括问题文本内容编码子层、第一问题文本位置编码子层、第二问题文本位置编码子层以及问题文本特征拼接子层;

30、所述问题文本内容编码子层,用于对于所述多个第二词汇中的任一第二词汇,对所述第二词汇进行嵌入编码,得到所述第二词汇的第二词汇特征;

31、所述第一问题文本位置编码子层,用于对所述第二词汇在所述多个第二词汇中的序号进行嵌入编码,得到所述第二词汇的第三词汇位置特征;

32、所述第二问题文本位置编码子层,用于对所述第二词汇在所述目标问题文本中所属的词汇集合进行嵌入编码,得到所述第二词汇的第四词汇位置特征;

33、所述问题文本特征拼接子层,用于将各个所述第二词汇的第二词汇特征、第三词汇位置特征以及第四词汇位置特征进行拼接,得到各个所述第二词汇的第二词汇嵌入特征,各个所述第二词汇的第二词汇嵌入特征组成所述目标问题文本特征。

34、在一种可能的实施方式中,所述文本信息提取层包括解码层和提取层;

35、所述解码层,用于对所述目标注意力特征进行多轮迭代解码,得到所述目标文本信息在所述图像文本中的起始位置和终止位置;

36、所述提取层,用于按照所述起始位置和所述终止位置在所述图像文本中进行文本信息提取,得到所述目标文本信息。

37、在一种可能的实施方式中,所述解码层包括第一解码器以及第二解码器,所述第一解码器和所述第二解码器的参数不同;

38、所述第一解码器,用于对所述目标注意力特征进行多轮迭代解码,得到所述目标文本信息在所述图像文本中的起始位置;

39、所述第二解码器,用于对所述目标注意力特征进行多轮迭代解码,得到所述目标文本信息在所述图像文本中的终止位置。

40、在一种可能的实施方式中,所述识别模块,用于对所述目标图像进行卷积,得到所述目标图像的图像特征;对所述图像特征进行序列编码和序列解码,得到所述目标图像对应的图像文本;

41、或者,基于注意力机制对所述目标图像进行编码,得到所述目标图像的图像特征;基于注意力机制对所述图像特征进行解码,得到所述目标图像对应的图像文本。

42、在一种可能的实施方式中,所述系统还包括样本数据引擎和训练模块;

43、所述获取模块,还用于获取多个样本图像,所述样本图像携带文本信息;

44、所述识别模块,还用于对各个所述样本图像进行文本识别,得到各个所述样本图像对应的样本图像文本;

45、所述样本数据引擎,用于基于各个所述样本图像对应的样本图像文本,确定各个所述样本图像的多个标注文本信息以及各个所述标注文本信息对应的样本问题文本;

46、所述训练模块,用于基于所述多个样本图像、各个所述样本图像对应的样本图像文本、各个所述样本图像的多个标注文本信息以及各个所述标注文本信息对应的样本问题文本,对初始模型进行多轮训练,得到所述多模态处理模型。

47、在一种可能的实施方式中,所述样本数据引擎,用于对于所述多个样本图像中的任一样本图像,对所述样本图像的对应的样本图像文本进行字段分割,得到多个字段组,一个所述字段组包括字段名和字段内容;将所述多个字段组中的字段内容确定为所述样本图像的多个标注文本信息;对所述多个字段组中各个所述标注文本信息对应的字段名进行问句转换,得到各个所述标注文本信息对应的样本问题文本。

48、在一种可能的实施方式中,所述训练模块,用于在任一轮训练中,将所述多个样本图像中当前轮的样本图像、所述当前轮的样本图像对应的样本图像文本以及样本问题文本输入所述初始模型,通过所述初始模型对所述当前轮的样本图像、所述当前轮的样本图像对应的样本图像文本以及样本问题文本进行处理,得到所述当前轮的样本图像对应的预测文本信息;基于所述当前轮的样本图像对应的标注文本信息和预测文本信息之间的差异信息,对所述初始模型的模型参数进行调整。

49、在一种可能的实施方式中,所述训练模块,用于基于所述当前轮的样本图像对应的标注文本信息的标注起始位置和所述当前轮的样本图像对应的预测文本信息在样本图像文本中的预测起始位置之间的第一差异信息,以及所述当前轮的样本图像对应的标注文本信息的标注终止位置和所述当前轮的样本图像对应的预测文本信息在样本图像文本中的预测终止位置之间的第二差异信息,对所述初始模型的模型参数进行调整。

50、一方面,提供了一种计算机设备,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条计算机程序,所述计算机程序由所述一个或多个处理器加载并执行以实现所述文本信息的提取方法。

51、一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序,所述计算机程序由处理器加载并执行以实现所述文本信息的提取方法。

52、一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括程序代码,该程序代码存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取该程序代码,处理器执行该程序代码,使得该计算机设备执行上述文本信息的提取方法。

53、通过本说明书实施例提供的技术方案,获取待处理的目标图像和针对该目标图像的目标问题文本,该目标图像携带文本信息,该目标问题文本用于指示从该目标图像中提取目标文本信息,该目标问题文本能够反映提取文本信息的需求。对该目标图像进行文本识别,得到该目标图像对应的图像文本,该图像文本包括该目标图像中所携带的文本信息。将该目标图像、该图像文本以及该目标问题文本输入多模态处理模型,通过该多模态处理模型对该目标图像、该图像文本以及该目标问题文本进行处理,得到该目标文本信息,实现了对目标图像进行智能化的文本信息提取,在上述过程中,利用多模态处理模型的多模态理解能力,也即是利用不同模态的信息来进行文本信息提取,泛化能力较强。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1