基于图像去噪模型的文档图像处理方法及相关装置与流程

文档序号：35869925发布日期：2023-10-28 02:08阅读：33来源：国知局

所属的技术人员能够理解，本技术的各个方面可以实现为系统、方法或程序产品。因此，本技术的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。基于相同的发明构思，本技术实施例还提供一种电子设备。在一种实施例中，该电子设备可以是服务器，也可以是终端设备。参阅图17所示，其为本技术实施例中提供的一种可能的电子设备的结构示意图，图17中，电子设备1700包括：处理器1710和存储器1720。其中，存储器1720存储有可被处理器1710执行的计算机程序，处理器1710通过执行存储器1720存储的指令，可以执行上述文档图像处理或图像去噪模型训练方法的步骤。存储器1720可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，ram)；存储器1720也可以是非易失性存储器(non-volatilememory)，例如只读存储器(read-only memory，rom)，快闪存储器(flash memory)，硬盘(hard disk drive，hdd)或固态硬盘(solid-state drive，ssd)；或者存储器1720是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器1720也可以是上述存储器的组合。处理器1710可以包括一个或多个中央处理单元(central processing unit，cpu)或者为数字处理单元等等。处理器1710，用于执行存储器1720中存储的计算机程序时实现上述文档图像处理或图像去噪模型训练方法。在一些实施例中，处理器1710和存储器1720可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。本技术实施例中不限定上述处理器1710和存储器1720之间的具体连接介质。本技术实施例中以处理器1710和存储器1720之间通过总线连接为例，总线在图17中以粗线描述，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线可以分为地址总线、数据总线、控制总线等。为便于描述，图17中仅用一条粗线描述，但并不描述仅有一根总线或一种类型的总线。基于同一发明构思，本技术实施例提供了一种计算机可读存储介质，其包括计算机程序，当计算机程序在电子设备上运行时，计算机程序用于使电子设备执行上述文档图像处理或图像去噪模型训练方法的步骤。在一些可能的实施方式中，本技术提供的文档图像处理或图像去噪模型训练方法的各个方面还可以实现为一种程序产品的形式，其包括计算机程序，当程序产品在电子设备上运行时，计算机程序用于使电子设备执行上述摘要生成方法中的步骤，例如，电子设备可以执行如图7、8或13中所示的步骤。程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、ram、rom、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(compact disk read only memory，cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。本技术的实施方式的程序产品可以采用cd-rom并包括计算机程序，并可以在电子设备上运行。然而，本技术的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储计算机程序的有形介质，该计算机程序可以被命令执行系统、装置或者器件使用或者与其结合使用。可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的计算机程序。尽管已描述了本技术的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本技术范围的所有变更和修改。显然，本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样，倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内，则本技术也意图包含这些改动和变型在内。

背景技术：

1、随着计算机技术的不断发展，图像作为一种可传递大量信息的载体，在诸多领域被广泛的应用。针对包含文档元素的文档图像，由于文档图像中可能包含水印、印章、重叠文本等噪声，为了提高后续的文档识别的准确率，需要对文档图像进行去噪。

2、相关技术中，通常采用以下两种方式对文档图像进行去噪：

3、第一种方式：基于设定的颜色、形状，从文档图像中确定出噪声区域，并对噪声区域进行处理。然而，在实际应用过程中，文档噪声的形态多样的，根据固定的噪声形态确定噪声区域，泛化能力较差，去噪准确率较低。

4、第二种方式：将文档图像输入至对抗生成式网络或变分自编码网络等生成式模型，输出去噪后的文档图像。然而，由于生成式模型在输入文档图像后直接输出去噪后的文档图像，图像处理过程不受控制，导致模型泛化能力较差，进而导致去噪准确率难以得到保证。

技术实现思路

1、本技术实施例提供一种基于图像去噪模型的文档图像处理方法及相关装置，用以提高图像去噪模型的模型泛化能力，同时提高文档图像的去噪准确性。

2、第一方面，本技术实施例提供一种基于图像去噪模型的文档图像处理方法，所述图像去噪模型包括：特征映射子模型、对象提取子模型和去噪子模型，所述方法包括：

3、将待处理文档图像输入至所述特征映射子模型中进行特征映射，获得初始图像特征；

4、将所述待处理文档图像输入至所述对象提取子模型中进行对象提取处理，确定包含文档对象的对象区域，所述文档对象包括文档元素和文档噪声；

5、将所述初始图像特征中，除所述对象区域之外的其他区域的特征值设置为预设特征值，得到目标图像特征；

6、将所述目标图像特征输入至所述去噪子模型中进行去噪处理，获得去噪后的文档图像。

7、第二方面，本技术实施例提供一种图像去噪模型训练方法，待训练的图像去噪模型包括：特征映射子模型、对象提取子模型和去噪子模型，所述方法包括：

8、获取各训练样本，每个训练样本中包含一个无噪声文档图像和一个带噪声文档图像，所述一个带噪声文档图像是基于所述无噪声文档图像生成的；

9、将所述各训练样本各自的带噪声文档图像，分别输入至所述特征映射子模型中进行特征映射，获得相应的初始图像特征，并将所述各带噪声文档图像，分别输入至所述对象提取子模型中进行对象提取处理，确定相应的对象区域；

10、分别将获得的各初始图像特征中，除所述对象区域之外的其他区域的特征值设置为预设特征值，得到相应的目标图像特征，并将得到的各目标图像特征，分别输入至所述去噪子模型中进行去噪处理，获得相应的去噪后的文档图像；

11、基于所述各训练样本各自的无噪声文档图像及其对应的去噪后的文档图像，确定模型损失，并基于所述模型损失进行模型参数调整。

12、第三方面，本技术实施例提供一种基于图像去噪模型的文档图像装置，所述图像去噪模型包括：特征映射子模型、对象提取子模型和去噪子模型，所述装置包括：

13、特征映射单元，用于将待处理文档图像输入至所述特征映射子模型中进行特征映射，获得初始图像特征；

14、对象提取单元，用于将所述待处理文档图像输入至所述对象提取子模型中进行对象提取处理，确定包含文档对象的对象区域，所述文档对象包括文档元素和文档噪声；

15、特征处理单元，用于将所述初始图像特征中，除所述对象区域之外的其他区域的特征值设置为预设特征值，得到目标图像特征；

16、图像去噪单元，用于将所述目标图像特征输入至所述去噪子模型中进行去噪处理，获得去噪后的文档图像。

17、作为一种可能的实现方式，所述将所述待处理文档图像输入至所述对象提取子模型中进行对象提取处理，确定包含文档对象的对象区域时，对象提取单元具体用于：

18、将所述待处理文档图像输入至所述对象提取子模型中进行对象提取处理，获得图像掩码，所述图像掩码中，包含采用非设定掩码值表示文档对象的对象区域，采用设定掩码值表示除所述对象区域之外的其他区域；

19、所述将所述初始图像特征中，除所述对象区域之外的其他区域的特征值设置为预设特征值，得到目标图像特征时，特征处理单元具体用于：

20、基于所述图像掩码，从所述初始图像特征中，确定所述其他区域对应的特征，并将相应的特征值设置为预设特征值，得到目标图像特征。

21、作为一种可能的实现方式，所述将待处理文档图像输入至所述特征映射子模型中进行特征映射，获得初始图像特征时，特征映射单元具体用于：

22、基于预设图像分辨率大小，对所述待处理文档图像进行切分，得到各子图；

23、将所述各子图输入至所述特征映射子模型中的编码器中，基于子图与词向量之间的映射关系，获得所述各子图各自的词嵌入；

24、将获得的各词嵌入输入至特征映射子模型中的解码器中，基于所述映射关系，获得初始图像特征。

25、作为一种可能的实现方式，所述基于所述图像掩码，从所述初始图像特征中，确定所述其他区域对应的特征时，特征处理单元具体用于：

26、基于所述预设图像分辨率大小，对所述图像掩码进行切分，得到各掩码子图；

27、基于所述各掩码子图在所述图像掩码中的位置，以及基于所述各子图特征各自对应的子图在所述待处理文档图像中的位置，确定所述各掩码子图与所述各子图特征之间的对应关系；

28、基于所述对应关系，从所述各子图特征中，筛选出归属于所述其他区域的子图特征，并将筛选出的子图特征，作为所述其他区域对应的特征。

29、作为一种可能的实现方式，所述基于所述对应关系，从所述各子图特征中，筛选出归属于所述其他区域的子图特征时，特征处理单元具体用于：

30、针对所述各子图特征中的每个子图特征，分别执行以下操作：

31、针对一个子图特征，基于所述对应关系，确定所述一个子图特征对应的一个掩码子图；

32、当所述一个子图特征与所述一个掩码子图的掩码值的乘积不大于设定取值时，确定所述一个子图特征归属于所述其他区域。

33、作为一种可能的实现方式，所述去噪子模型采用扩散模型，所述将所述目标图像特征输入至所述去噪子模型中进行去噪处理，获得去噪后的文档图像时，图像去噪单元具体用于：

34、按照设定迭代次数，将所述目标图像特征输入至所述去噪子模型中进行迭代去噪，获得去噪图像特征，并基于所述去噪图像特征进行特征编码，获得去噪后的文档图像，其中，在每次迭代过程中，执行以下操作：

35、获取上一次迭代输出的迭代图像特征；

36、基于当前次迭代对应的噪声参数，对所述上一次迭代输出的迭代图像特征进行去噪处理，输出所述当前次迭代的迭代图像特征。

37、第四方面，本技术实施例一种图像去噪模型训练装置，待训练的图像去噪模型包括：特征映射子模型、对象提取子模型和去噪子模型，所述装置包括：

38、样本获取单元，用于获取各训练样本，每个训练样本中包含一个无噪声文档图像和一个带噪声文档图像，所述一个带噪声文档图像是基于所述无噪声文档图像生成的；

39、特征处理单元，用于将所述各训练样本各自的带噪声文档图像，分别输入至所述特征映射子模型中进行特征映射，获得相应的初始图像特征，并将所述各带噪声文档图像，分别输入至所述对象提取子模型中进行对象提取处理，确定相应的对象区域；

40、图像去噪单元，用于分别将获得的各初始图像特征中，除所述对象区域之外的其他区域的特征值设置为预设特征值，得到相应的目标图像特征，并将得到的各目标图像特征，分别输入至所述去噪子模型中进行去噪处理，获得相应的去噪后的文档图像；

41、参数调整单元，用于基于所述各训练样本各自的无噪声文档图像及其对应的去噪后的文档图像，确定模型损失，并基于所述模型损失进行模型参数调整。

42、作为一种可能的实现方式，特征处理单元还用于：

43、将获得的各初始图像特征，分别输入至所述特征映射子模型中，获得相应初始图像特征；

44、基于各带噪声文档图像，以及基于各初始图像特征各自对应恢复图像，确定映射损失；

45、基于所述各训练样本各自包含的所述无噪声文档图像及其对应的损失去噪后的文档图像，确定模型损失时，参数调整单元具体用于：

46、基于所述各训练样本各自包含的所述无噪声文档图像及其对应的去噪后的文档图像，得到去噪损失，并基于去噪损失和所述映射损失，确定模型损失。

47、作为一种可能的实现方式，将所述各训练样本各自包含的带噪声文档图像，分别输入至所述特征映射子模型中进行特征映射，获得相应的初始图像特征时，特征处理单元具体用于：

48、针对所述各训练样本中的每个训练样本，分别执行以下操作：

49、针对一个训练样本，对所述一个训练样本中包含的带噪声文档图像进行掩盖处理，得到处理后的带噪声文档图像；

50、将所述处理后的带噪声文档图像，输入至所述特征映射子模型中进行特征映射，获得相应的初始图像特征。

51、作为一种可能的实现方式，样本获取单元具体用于：

52、获取至少一个文档元素，并基于预设的所述至少一个文档元素之间的排列关系，对所述至少一个文档元素进行组合，获得所述一个无噪声文档图像；

53、从各候选文档噪声中，选取出至少一个目标文档噪声，并将所述至少一个目标文档噪声，添加至所述一个无噪声文档图像，获得所述一个带噪声文档图像。

54、第五方面，本技术实施例提供一种电子设备，包括处理器和存储器，其中，所述存储器存储有计算机程序，当所述计算机程序被所述处理器执行时，使得所述处理器执行上述第一方面或第二方面中任一方法的步骤。

55、第六方面，本技术实施例提供一种计算机可读存储介质，其包括计算机程序，当所述计算机程序在电子设备上运行时，所述计算机程序用于使所述电子设备执行上述第一方面或第二方面中任一方法的步骤。

56、第七方面，本技术实施例提供一种计算机程序产品，所述程序产品包括计算机程序，所述计算机程序存储在计算机可读存储介质中，电子设备的处理器从所述计算机可读存储介质中读取并执行所述计算机程序，使得电子设备执行上述第一方面或第二方面中任一方法的步骤。

57、本技术实施例中，通过特征映射子模型对待处理文档图像进行特征映射，获得初始图像特征，通过对象提取子模型对待处理文档图像进行对象提取处理，确定包含文档对象的对象区域，然后，将初始图像特征中，除对象区域之外的其他区域的特征值设置为预设特征值，得到目标图像特征，最后，将目标图像特征输入至去噪子模型中进行去噪处理，获得去噪后的文档图像。

58、这样，由于特征映射子模型、对象提取子模型均会输出中间结果，使得图像处理流程可控，提高了模型泛化能力，同时，通过特征映射子模型，将高维图像转换为低维的特征表示，降低后续模块的输入数据尺度，从而提高后续的数据处理效率，并且，通过对象提取子模型，使得图像特征关注于文本区域和噪声区域，从而提高了去噪精度和准确率，且进一步降低输入信息的维度，减小去噪子模型的求解空间，从而提高后续的数据处理效率。

59、本技术的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本技术而了解。本技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：胡益清
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。