表格处理方法、装置、电子设备、介质及程序产品与流程

文档序号:39574750发布日期:2024-10-11 12:36阅读:25来源:国知局
表格处理方法、装置、电子设备、介质及程序产品与流程

本公开涉及计算机视觉,具体涉及表格处理方法、装置、电子设备、介质及程序产品。


背景技术:

1、相关技术中,针对带有表格信息的图像进行表格处理时,是根据当前表格任务采用对应的表格理解模型进行处理,进而得到与当前表格任务对应的处理结果。不同表格任务对应不同表格理解模型。

2、通过该种方式处理多个表格任务时,不仅会增加资源的消耗成本,还会降低视觉处理效率。


技术实现思路

1、有鉴于此,本公开提供了一种表格处理方法、装置、电子设备、介质及程序产品,以解决针对表格处理效率低的问题。

2、第一方面,本公开提供了一种表格处理方法,方法包括:

3、获取目标表格处理任务的目标表格图像以及对应的提示文本;

4、将目标表格图像以及提示文本输入目标表格理解模型中,确定提示文本对应的第一词元集,并利用目标表格理解模型中的多个视觉编码器分别对目标表格图像进行多个特征提取粒度的特征提取,得到多个特征粒度的图像特征,对多个特征粒度的图像特征进行词元转换处理,得到第二词元集,以及利用目标表格理解模型中的语言处理模块对第一词元集和第二词元集进行处理,得到目标表格处理任务的处理结果,视觉编码器与特征提取粒度一一对应;

5、显示处理结果。

6、第二方面,本公开提供了一种表格处理装置,装置包括:

7、第一获取模块,用于获取目标表格处理任务的目标表格图像以及对应的提示文本;

8、处理模块,用于将目标表格图像以及提示文本输入目标表格理解模型中,确定提示文本对应的第一词元集,并利用目标表格理解模型中的多个视觉编码器分别对目标表格图像进行多个特征提取粒度的特征提取,得到多个特征粒度的图像特征,对多个特征粒度的图像特征进行词元转换处理,得到第二词元集,以及利用目标表格理解模型中的语言处理模块对第一词元集和第二词元集进行处理,得到目标表格处理任务的处理结果,视觉编码器与特征提取粒度一一对应;

9、显示模块,用于显示处理结果。

10、第三方面,本公开提供了一种电子设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第一方面或其对应的任一实施方式的表格处理方法。

11、第四方面,本公开提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的表格处理方法。

12、第五方面,本发明提供了一种计算机程序产品,包括计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的表格处理方法。

13、本实施例提供的表格处理方法,通过目标表格理解模型中的多个视觉编码器从多个特征提取粒度的提取图像特征,能够更全面地捕捉表格的结构和内容信息,进而通过语言处理模块对提示文本对应的第一词元集以及多个特征粒度的图像特征对应的第二词元集进行处理,能够提高表格理解的准确性,从而能够有效提高目标表格处理任务的处理效率。



技术特征:

1.一种表格处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述多个视觉编码器包括第一视觉编码器和第二视觉编码器,所述第二视觉编码器的分辨率大于所述第一视觉编码器的分辨率;

3.根据权利要求1或2所述的方法,其特征在于,所述对所述多个特征粒度的图像特征进行词元映射,得到第二词元集,包括:

4.根据权利要求3所述的方法,其特征在于,所述利用所述目标表格理解模型中的语言处理模块对所述第一词元集和所述第二词元集进行处理,得到所述目标表格处理任务的处理结果,包括:

5.根据权利要求1所述的方法,其特征在于,所述显示所述处理结果,包括:

6.根据权利要求1所述的方法,其特征在于,所述目标表格理解模型的训练方法包括:

7.根据权利要求6所述的方法,其特征在于,所述多个视觉编码器还包括第二视觉编码器,所述初始表格理解模型还包括与所述第一视觉编码器对应的第一映射层以及与所述第二视觉编码器对应的第二映射层,所述第一映射层用于对所述第一视觉编码器输出的图像特征进行词元转换处理,所述第二映射层用于对所述第二视觉编码器输出的图像特征进行词元转换处理;

8.根据权利要求6或7所述的方法,其特征在于,在调节所述初始表格理解模型的初始模型参数的过程中,还包括:

9.根据权利要求8所述的方法,其特征在于,所述获取多个训练集包括:

10.一种表格处理装置,其特征在于,所述装置包括:

11.一种电子设备,其特征在于,包括:

12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使计算机执行权利要求1至9中任一项所述的表格处理方法。

13.一种计算机程序产品,其特征在于,包括计算机指令,所述计算机指令用于使计算机执行权利要求1至9中任一项所述的表格处理方法。


技术总结
本公开涉及计算机视觉技术领域,公开了表格处理方法、装置、电子设备、介质及程序产品。本公开提供了一种表格处理方法,包括:获取目标表格处理任务的目标表格图像以及对应的提示文本;将目标表格图像以及提示文本输入目标表格理解模型中,确定提示文本对应的第一词元集,并利用目标表格理解模型中的多个视觉编码器分别对目标表格图像进行多个特征提取粒度的特征提取,得到多个特征粒度的图像特征,对多个特征粒度的图像特征进行词元转换处理,得到第二词元集,以及利用目标表格理解模型中的语言处理模块对第一词元集和第二词元集进行处理,得到目标表格处理任务的处理结果;显示处理结果。能够有效提高模型的理解能力,进而提高处理效率。

技术研发人员:赵伟超,刘皓,冯浩,刘琦,黄灿
受保护的技术使用者:抖音视界有限公司
技术研发日:
技术公布日:2024/10/10
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1