数据处理的方法和相关设备与流程

文档序号:34922437发布日期:2023-07-28 03:04阅读:19来源:国知局
数据处理的方法和相关设备与流程

本技术涉及人工智能领域,尤其涉及一种数据处理的方法、装置、系统和数据处理芯片。


背景技术:

1、图像表格识别(简称为表格识别)是将图像中的表格转换为可编辑的表格(例如,超文本标记语言(hypertext markup language,html)等格式)的人工智能(artificialintelligence,ai)技术。图像表格识别在文档格式的自动化处理中扮演着重要角色。

2、相关技术中提供的表格识别方法,首先对图像中的表格进行行列线检测,然后计算该表格包括的所有行列线之间的交叉点,即可还原出该表格包括的每个单元格的坐标(即单元格位置)。在获得所有单元格位置后,按照单元格位置对所有单元格进行排列,并通过启发式算法获取单元格的行列信息(例如,起始行、起始列、跨行或者跨列),以得到表格识别结果。这种实现方式中,当行列线不明显或者行列线倾斜时,会存在行列线漏检或者交叉点计算错误,基于这种方式得到的表格识别结果的准确性较差。

3、因此,亟需一种数据处理的方法,该方法可以提高表格识别结果的准确性。


技术实现思路

1、本技术提供一种数据处理的方法、装置、系统和数据处理芯片,可以提高表格识别结果的准确性。

2、第一方面,提供了一种数据处理的方法,包括:获取待处理的表格图像;根据该表格图像按照生成式表格识别策略确定表格识别结果,其中,该生成式表格识别策略用于指示利用标记语言和包围框不重叠属性确定该表格图像的表格识别结果,该包围框用于指示该表格图像所关联的表格中的单元格包括的文本所在位置,该表格识别结果用于指示该表格所包括的全局结构和内容;输出该表格识别结果。

3、标记语言可以用于指示表格局部结构,该表格局部结构为表格全局结构中的部分结构。其中,表格结构可以包括:表格的行、表格的列、表格包括的单元格、表格中的每个单元格、以及表格中的每个单元格包括的文本对应的包围框。文本对应的包围框,可以是指包围该单元格包括的文本的任意多边形的包围框。表格中的单元格包括的文本所在位置,可以理解为,表格中的单元格包括的文本对应的包围框的位置。

4、上述技术方案中,能够根据用于标识表格结构的标记语言和该表格中的单元格包括的文本位于表格中的位置对表格进行识别,以得到表格识别的结果,避免了传统技术中仅根据表格的行列结构(该表格的行列结构不包括包围框)对表格进行识别存在识别结果的准确性较差的问题,本技术提供的方法可以提高表格识别结果的准确性。

5、在一种可能的设计中,该包围框不重叠属性用于指示该表格所包括的各个单元格所对应的区域无重叠。

6、其中,该表格所包括的各个单元格所对应的区域无重叠,即该表格包括的各个单元格不存在重叠,且该各个单元格包括的文本对应的包围框也不存在重叠。包围框可以是指包围一个单元格包括的文本的任意多边形的框。包围框,又可称为文本对应的包围框或单元格文本块。

7、可选的,在一些实现方式中,表格包括的单元格是按照行的顺序排列的。

8、上述技术方案中,对表格图像进行表格识别时,不仅利用了用于标记表格结构的标记语言,同时还利用了表格中的包围框不重叠属性。也就是说,该方法充分利用了表格的特征,有利于提高表格识别结果的鲁棒性和准确性。

9、在另一种可能的设计中,该根据该表格图像按照生成式表格识别策略确定表格识别结果,包括:根据该表格图像特征和该标记语言通过迭代处理获得该表格识别结果。

10、其中,该表格图像特征可以用于指示以下一种或多种特征:表格的行数目,表格的列数目,表格的大小,表格的跨行特征,表格的跨列特征,或表格的布局。其中,表格的布局包含用于指示该表格结构的标记语言,以及表格中的每个单元格或者表格中的每个单元格包括的文本对应的包围框。上述技术方案中,根据表格图像特征和标记语言通过迭代的方式预测表格识别结果,使得预测的表格识别结果更准确,可以提高表格识别结果的准确性。

11、在另一种可能的设计中,该迭代处理包括多轮迭代,该方法还包括:根据该表格图像特征和该标记语言确定第一迭代获得的第一包围框和局部结构,该第一迭代为该多轮迭代的任意一轮迭代处理过程,该第一包围框用于指示该第一迭代所获得的该局部结构的包围框,该局部结构为该全局结构的部分结构;当第二迭代获得该全局结构时,确定该第二迭代获得的处理结果为该表格识别结果,该第二迭代是该迭代处理中在该第一迭代处理后执行的一次迭代处理,该处理结果包括该全局结构和该内容。

12、其中,第一迭代所获得的局部结构的包围框,即第一迭代所获得的表格的局部结构中的单元格包括的文本所在位置。可以理解的是,当局部结构不包括任何单元格,或该局部结构包括的任意一个单元格为空单元格(即,单元格不包括任何文本)时,该局部结构的包围框为空。

13、可选的,当第二迭代为第一迭代之后的最近一次迭代时,在第二迭代过程中,会根据第一迭代获得的第一包围框和局部结构,确定该第二迭代获得的处理结果为该表格识别结果。

14、上述技术方案中,在本轮迭代(例如,第二迭代)时,通过根据上一轮迭代(例如,第一迭代)获得的包围框和局部结构,确定本轮迭代的结果。当执行该方法的主体为ai模型时,即在每轮迭代时,该方法不仅会使用已生成的局部结构(该局部结构可以利用标记语言进行标记)作为先验,并且会将已生成的包围框作为先验,一同输入到该ai模型中,指导该ai模型下一步的生成。这种方法相当于不仅告诉该ai模型在本轮迭代前已经生成了多少单元格,而且还告诉该ai模型在本轮迭代前已经生成的单元格位于表格中的具体位置,这样该ai模型的注意力就会关注未生成的单元格,该方法能够有效减轻ai模型注意力发散现象,有利于提高表格识别结果的准确性。

15、上述多轮迭代处理的流程,可以由本技术提供的数据处理的模型中的transformer解码器执行。该transformer解码器可以包括2个解码器,分别记为第一解码器和第二解码器。下面,以transformer解码器根据该表格图像特征和该标记语言确定第一迭代获得的第一包围框和局部结构为例进行介绍。示例性的,transformer解码器根据该表格图像特征和该标记语言确定第一迭代获得的第一包围框和局部结构,可以包括以下步骤:通过该第一解码器对该表格图像特征和该标记语言进行处理,得到第一输出结果,该第一输出结果指示非空单元格或不是非空单元格;该数据处理的模型对该第一输出结果进行第一运算,得到该局部结构。其中,第一运算可以包括归一化指数函数softmax处理。上述通过该第一解码器对该表格图像特征和该标记语言进行处理,得到第一输出结果,包括:通过该第一解码器对该表格图像特征和该标记语言进行处理,得到该第一解码器的输出结果;该数据处理的模型对该第一解码器的输出结果进行线性化处理,得到该第一输出结果。

16、在一些可能的设计中,该第一解码器包括第一残差支路、第二残差支路和第三残差支路,该第一残差支路包括第一注意力头,该第二残差支路包括第二注意力头,该第三残差支路包括第一前馈神经网络ffn层,该通过该第一解码器对该表格图像特征和该标记语言进行处理,得到该第一解码器的输出结果,包括:该第一残差支路对目标向量进行处理,得到该第一残差支路的输出结果,该目标向量为根据该标记语言得到的向量;该第二残差支路对该表格图像特征和该第一残差支路的输出结果进行处理,得到该第二残差支路的输出结果;该第三残差支路对该第一ffn的输出结果进行该目标运算,得到该第一解码器的输出结果,该第一ffn的输出结果为根据该第二残差支路的输出结果进行第二运算得到的。其中,第二运算可以是线性运算,该线性运算具体可以是:线性变换和线性整流函数relu激活运算。

17、在一些可能的设计中,该第一残差支路还包括第一残差单元,该第一残差支路对目标向量进行处理,得到该第一残差支路的输出结果,包括:该第一残差单元对该第一注意力头的输出进行目标运算,得到该第一残差支路的输出结果,该第一注意力头的输出为根据第一向量,第二向量和第三向量进行乘法运算得到的,该第一向量为根据该目标向量得到的查询向量,该第二向量为根据该目标向量得到的键向量,该第三向量为根据该目标向量得到的值向量。其中,该乘法运算可以包括点乘和叉乘。

18、在一些可能的设计中,该第二残差支路还包括第二残差单元,该第二残差支路对该表格图像特征和该第一残差支路的输出结果进行处理,得到该第二残差支路的输出结果,包括:该第二残差单元对该第二注意力头的输出进行该目标运算,得到该第二残差支路的输出结果,该第二注意力头的输出为根据第四向量,第五向量和第六向量进行乘法运算得到的,该第四向量为根据该表格图像特征得到的键向量,该五向量为根据该表格图像特征得到的值向量,该第六向量为根据该第一残差支路的输出结果得到的查询向量。

19、在一些可能的设计中,该目标向量为根据位置编码信息,第二包围框和该标记语言进行第三运算得到的向量,该位置编码信息指示该标记语言指示的局部结构位于表格中的位置,该第二包围框用于指示该局部结构的包围框。其中,第三运算可以包括加法运算。该局部结构的包围框,用于指示该表格中该局部结构中的单元格包括的文本所在位置。可以理解的是,当该局部结构不包括单元格,或该局部结构包括的任意一个单元格不包括文本时,该局部结构的包围框为空。

20、上述技术方案中,目标向量是根据位置编码信息,第二包围框和标记语言得到的,通过该位置编码信息指示该标记语言指示的局部结构位于表格中的位置,利于提高表格识别结果的鲁棒性和准确性。

21、在一些可能的设计中,当该第一输出结果指示该非空单元格时,该数据处理的方法还包括:通过该第二解码器对该表格图像特征和该第一输出结果进行处理,得到第二输出结果,该第二输出结果用于指示该第一包围框;该数据处理的模型对该第二输出结果进行目标运算,得到该第一包围框。第二解码器可以通过多轮迭代获取第二输出结果。可以理解的是,第二解码器执行每次迭代的工作原理与第一解码器执行每次迭代的工作原理相同,仅是这个两个解码器的输入和输出数据存在差别。

22、可以理解的是,上述技术方案中,可以仅在第一解码器的输出用于指示非空单元格时触发第二解码器根据该第一解码器的输出确定该第一解码器的输出对应的包围框,该方法能够减少预测包围框的冗余和提高表格识别结果的效率。此外,该方法通过迭代的方式预测表格包括的所有包围框,使得预测的包围框更准确,还有利于提高表格识别结果的准确性。

23、上述技术方案可以应用于本技术提供的数据处理模型中的transformer解码器,该transformer解码器可以包括解码器#1和解码器#2。解码器#1可以根据用于标识表格结构的标记语言和该表格中的单元格包括的文本位于表格中的位置,通过多轮迭代对表格图像包括的表格进行表格识别,避免了传统技术中仅根据表格的行列结构(该表格的行列结构不包括包围框)对表格进行识别存在识别结果的准确性较差的问题。当该解码器#1的输出结果用于指示非空单元格时,该解码器#1的输出可以作为解码器#2的输入,以使解码器#2基于该解码器#1的输出结果和表格图像特征,确定该解码器#1的输出所指示的非空单元格包括的文本位于表格中的具体位置。综上,该方法可以提高表格识别结果的准确性和识别效率。

24、在另一种可能的设计中,该方法还包括:对该第一迭代获得的该第一包围框进行纠正。

25、可选的,在第一迭代之后的下一轮迭代时,可以基于该纠正后的包围框进行表格识别。

26、上述技术方案中,可以对第一迭代获取的第一包围框进行实时纠正,能够进一步提高第一包围框的精度。在第一迭代后的下一迭代时,基于该纠正后的第一包围框进行处理时,能够进一步提高该下一迭代的输出结果的鲁棒性和准确性,该方法有利于进一步提高表格识别结果的准确性。

27、在另一种可能的设计中,该对该第一迭代获得的该第一包围框进行纠正,包括:根据输入参数和该表格图像对该第一包围框进行纠正。

28、可选的,上述输入参数可以是用户根据表格图像获取的一个或多个参数,该一个或多个参数用于对第一包围框进行纠正。

29、上述技术方案中,用户可以根据实际需求确定对第一包围框进行纠正的输入参数,并通过用户手动输入该输入参数以对该第一包围框进行实时纠正,该方法在进一步提高表格识别结果的准确性的前提下,还可以提高用户使用的满意度。

30、在另一种可能的设计中,该对该第一迭代获得的该第一包围框进行纠正,包括:在第二包围框与该第一包围框的匹配度大于或等于预设阈值的情况下,根据该第二包围框对该第一包围框进行纠正,该第二包围框为误差纠偏检测模型对该局部结构进行处理得到的,该误差纠偏检测模型为经过训练的人工智能ai模型。

31、可选的,本技术提供的数据处理的模型还可以包括误差纠偏检测模型。

32、上述技术方案中,可以通过数据处理的模型中纠偏检测模型自动地对模型预测得到的第一包围框进行实时纠正,有利于进一步提高表格识别结果的准确性和识别效率。

33、在另一种可能的设计中,该方法还包括:根据该表格图像对该表格识别结果进行纠正,并输出纠正后的表格识别结果。

34、上述技术方案中,通过对获取的表格识别结果进行纠正,有利于进一步提高表格识别结果的准确性。

35、在另一种可能的设计中,该方法还包括:对该表格图像进行特征提取,获得该表格图像特征。

36、其中,该表格图像特征可以用于指示以下一种或多种特征:表格的行数目,表格的列数目,表格的大小,表格的跨行特征,表格的跨列特征,或表格的布局。其中,表格的布局包含用于指示该表格结构的标记语言,以及表格中的每个单元格或者表格中的每个单元格包括的文本对应的包围框。

37、上述获得表格图像特征的流程,可以由本技术提供的数据处理的模型中的特征提取模型执行。该特征提取模型是一种具有特征提取功能的神经网络模型,对特征提取模型的结构不作具体限定。

38、在另一种可能的设计中,采用以下任意一种标记语言标识该表格识别结果:超文本标记语言html,可扩展标记语言xml,或者拉泰赫latex。

39、上述技术方案中,可以利用标记语言标识表格识别结果,有利于后续对表格识别结果的进一步处理。

40、第二方面,提供了一种数据处理的装置,该装置包括用于执行第一方面或第一方面任一种可能实现方式中的数据处理方法的各个模块。

41、第三方面,提供了一种数据处理的装置,该数据处理的装置具有实现上述第一方面或第一方面的任意一种可能的实现方式,以及第二方面或第二方面中任意一种可能的实现方式所描述的数据处理的装置的功能。该功能可以基于硬件实现,也可以基于硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。

42、在一种可能的实现方式中,数据处理的装置的结构中包括处理器,该处理器被配置为支持数据处理的装置执行上述方法中相应的功能。

43、该数据处理的装置还可以包括存储器,该存储器用于与处理器耦合,其保存数据处理的装置必要的程序指令和数据。

44、在另一种可能的实现方式中,该数据处理的装置包括:处理器、发送器、接收器、随机存取存储器、只读存储器以及总线。其中,处理器通过总线分别耦接发送器、接收器、随机存取存储器以及只读存储器。其中,当需要运行数据处理的装置时,通过固化在只读存储器中的基本输入/输出系统或者嵌入式系统中的bootloader引导系统进行启动,引导数据处理的装置进入正常运行状态。在数据处理的装置进入正常运行状态后,在随机存取存储器中运行应用程序和操作系统,使得该处理器执行第一方面或第一方面的任意可能的实现方式中的方法。

45、第四方面,提供了一种计算机程序产品,该计算机程序产品包括:计算机程序代码,当该计算机程序代码在计算机上运行时,使得计算机执行上述第一方面或第一方面的任意一种可能执行的方法。

46、第五方面,提供了一种计算机可读介质,该计算机可读介质存储有程序代码,当该计算机程序代码在计算机上运行时,使得计算机执行上述第一方面或第一方面的任意一种可能执行的方法。这些计算机可读存储包括但不限于如下的一个或者多个:只读存储器(read-only memory,rom)、可编程rom(programmable rom,prom)、可擦除的prom(erasableprom,eprom)、flash存储器、电eprom(electrically eprom,eeprom)以及硬盘驱动器(harddrive)。

47、第六方面,提供一种芯片系统,该芯片系统包括处理器与数据接口,其中,处理器通过该数据接口读取存储器上存储的指令,以执行上述第一方面或第一方面的任意一种可能的实现方式中的方法。在具体实现过程中,该芯片系统可以以中央处理器(centralprocessing unit,cpu)、微控制器(micro controller unit,mcu)、微处理器(microprocessing unit,mpu)、数字信号处理器(digital signal processing,dsp)、片上系统(system on chip,soc)、专用集成电路(application-specific integrated circuit,asic)、现场可编程门阵列(field programmable gate array,fpga)或可编辑逻辑器件(programmable logic device,pld)的形式实现。

48、第七方面,提供了一种数据处理的系统,该系统包括处理器,该处理器用于执行上述第一方面或第一方面的任意一种可能的实现方式中的方法。

49、第八方面,提供了一种数据处理的集群,该集群包括上述第二方面或第二方面的任意一种可能的实现方式,以及第三方面或第三方面中任意一种可能的实现方式所描述的多个数据处理的装置,该多个数据处理的装置可以用于执行上述第一方面或第一方面的任意一种可能的实现方式中的方法。

50、本技术在上述各方面提供的实现方式的基础上,还可以进行进一步组合以提供更多实现方式。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1