一种应用于扭曲文档的文档图像校正方法及其装置

文档序号:39551506发布日期:2024-09-30 13:16阅读:31来源:国知局
一种应用于扭曲文档的文档图像校正方法及其装置

本发明属于图像处理,具体涉及一种应用于扭曲文档的文档图像校正方法及其装置。


背景技术:

1、与传统的纸质文档相比,数字文档更容易归档、编辑、签名和共享。在如今信息化高度发展的社会中,数字文件也对企业发挥了重要作用。无处不在的智能手机配备了高质量的相机,使拍照成为将文件数字化的标准方式。然而,由于纸张几何形状和捕获条件是难以预料的,这些照片中的文件经常是歪曲的。这些歪曲阻碍了从这些文档的信息提取,降低了可读性,并破坏了下游应用程序,如光学字符识别(optical character recognition,ocr)。

2、对于文档图像校正,在神经网络算法普及以前,常用的校正算法大多通过对文档图像进行三维重建来实现。然而,这些传统的文档图像校正方法或是基于辅助硬件,或是采用多视图图像开发的,限制了其在个人应用中的普及。其他方法是在文档表面上假设一个参数化模型,并通过提取特定的表示来优化模型,如阴影、边界、文本线或纹理流。然而,过于简化的参数模型通常会导致性能受限,而优化过程中引入了不可忽略的计算代价。

3、尽管这些方法在处理速度和效果上均有所提升,但仍存在模糊和伪影等问题,表明在全局上下文建模和光照变化建模方面仍有改进的空间。如何设计出一种高鲁棒性的校正算法用于消除纸质文档在成像过程中产生的几何畸变和照明失真,是当前计算机视觉领域研究的重点与难点。总体来看,尽管基于深度学习的文档图像校正算法在性能上已显著超越传统算法,但其在几何表示学习和亮度表征方面仍有较大的探索空间,未来的研究有望在这些方向上取得更为显著的进展。

4、有鉴于此,提出一种应用于扭曲文档的文档图像校正方法及其装置是非常具有意义的。


技术实现思路

1、本发明提供一种应用于扭曲文档的文档图像校正方法及其装置,能够避免多级处理中的误差传播问题,并更好地消除上下文冗余信息的干扰,提高模型的校正性能,以解决上述存在的技术缺陷问题。

2、第一方面,本发明提出了一种应用于扭曲文档的文档图像校正方法,该方法包括如下步骤:

3、响应于构建并训练获得基于几何失真和照明表征的文档图像校正模型;

4、将待检测的文档图像信息输入获得的所述校正模型中,得到几何校正后的文档图像,再根据所述文档图像所受的环境光信息区分是否需要进行亮度表征学习;

5、对于所受的环境光信息很差的文档图像,将经过几何表示学习后把图像输入到亮度表征模型中,得到亮度表征学习后的文档图像;对于照明条件良好的图像,则不需要进行亮度表征学习;

6、将输出的文档图像结果,输出至下游任务进行文字识别或者关键信息提取处理。

7、优选的,还包括:

8、对校正后的图像ir进行图像质量评价,选取峰值信噪比psnr和视觉信息保真度vif作为评价指标,界定阈值t1、t2,将低于所述阈值的图像作为文档照明校正的输入。

9、进一步优选的,具体包括:

10、通过卷积、批归一化和relu激活函数、预处理输入图像ir′,再将预处理输入图像ir′分割成小块,为每个图像块添加位置信息,提取图像特征f6,f7,...,fn;

11、通过一系列包含注意力机制和前馈网络的编码器层,对特征f6,f7,...,fn进行编码,再经过使用注意力机制和前馈网络的解码器层,将得到的编码进一步转换成特征f6′,f7′,...,fn′;

12、将经过编码器和解码器处理的特征f6′,f7′,...,fn′′重新组合成图像格式,使用卷积层将重构后的特征转换为最终的输出图像,对输出图像进行激活和裁剪,得到输出图像is。

13、进一步优选的,构建并训练获得基于几何失真和照明表征的文档图像校正模型包括:通过两个u-nets网络对图像进行分割,定义为u2-net,其包含一个用于边缘检测的sobel_net模块,六个rsu(recursive u-net)模块用于图像分割以及一个decoder部分;具体包括:

14、输入图像为rgb图像,输入图像的通道数为3,获取文档的图像的1/4、1/8、1/16和1/32的特征n1、n2、n3、n4,sobel_net神经网络模型用于计算图像的sobel边缘检测;网络包括两个3x3卷积操作,分别用于计算x方向和y方向的梯度,这些卷积层的权重被初始化为sobel算子,并且在训练过程中不断更新;在前向传播过程中,首先将输入的rgb图像i转换为灰度图igrey,然后计算其梯度的模长,并进行标准化处理,最后将计算得到的边缘特征与原始rgb图像i在通道维度上进行拼接,得到通道数对应的四个特征f1、f2、f3、f4;

15、包含一个卷积层、一个二维批归一化层以及一个relu激活层的rebnconv的网络模块,该模块接受输入特征f1、f2、f3、f4,首先通过卷积层提取特征,然后通过批归一化层进行规范化处理,最后通过relu激活函数增加非线性,输出处理后的特征fconv1,fconv2,fconv3,fconv4;

16、使用双线性插值作为上采样方法,将源张量tsrc上采样到目标张量ttar相同的空间尺寸;

17、再经过rsu模块和池化层,通过六个阶段的下采样并在每个尺度上应用rebnconv,然后再通过对应的上采样和特征融合步骤恢复到原始尺寸,特征融合后得到特征f;

18、在解码器的每个阶段,通过使用上采样函数和特征融合f得到中间特征fmiddle,然后将这些特征通过卷积层生成最终的输出,得到丰富的多尺度特征表示fconv1_rsu,fconv2_rsu,fconv3_rsu,fconv4_rsu,再通过网络进行前向传播,最终打印出网络输出的特征图形状iseg。

19、进一步优选的,构建并训练获得基于几何失真和照明表征的文档图像校正模型,还包括:

20、将得到的去除集群背景的图像iseg首先经过cnn卷积操作,提取图像的局部特征fs1、fs2、fs3、fs4,将特征fs1、fs2、fs3、fs4按照维度1进行合并得到融合特征fs,将融合特征fs经过一层注意力处理,得到特征fatt,随后通过归一化操作,对特征fatt进行处理,最后通过激活函数relu对特征进行激活,得到特征fsr;

21、将特征fsr传递给自注意力层中,包括两个全连接层和归一化层,通过比较序列中不同位置的元素,注意力层捕获全局上下文信息,经过多个自注意力层叠加,提取文本特征ftext、光流特征fwc,特征ftext、fwc经过预测模块,输出特征ftext_pred,fwc_pred以及文本线的二进制掩码图itmask;

22、融合特征ftext_pred,fwc_pred,得到特征图fmap,再将特征图fmap经过bm_encoder进行编码,得到像素特征fbm,将光流上采样得到上采样后的光流与像素特征fbm相加,得到更新后的像素特征fbm_pred;

23、对光流特征fwc、像素特征fbm_pred进行上采样得到掩码图iwmask、ibmask,加上先前得到的掩码图ibmask;在训练阶段通过计算输出掩码图与原始标签掩码图的最小化损失函数来调整网络参数,得到几何校正的模型和经过几何校正后的图像igeo_train。

24、进一步优选的,构建并训练获得基于几何失真和照明表征的文档图像校正模型还包括:

25、输入经过几何校正后的图像igeo_train,获取输入图像的高度和宽度,根据输入图像的尺寸和预定的块patch大小进行填充和切割,每个图像块的维度被设置为128*128,对应于rgb的三个颜色通道;

26、将每个图像块从numpy数组转换为pytorch张量,并调整维度以符合模型的输入要求,每个图像块对应一个特征fill1,fill2,fill3,....,fill128,经过一系列包含注意力机制和前向网络的编码器层,对特征进行编码;

27、接着使用注意力机制和前向网络,经过一系列解码器层,将得到的编码进一步转换成特征fill1′,fill2′,fill3′,...,fill128′,再将这些特征重新组合成图像格式,使用卷积层将重构后的特征转换为最终的输出图像,得到最终的照明校正的训练模型。

28、第二方面,本发明实施例提供了一种应用于扭曲文档的文档图像校正装置,包括:

29、模型构建及训练模块,配置用于构建并训练获得基于几何失真和照明表征的文档图像校正模型;

30、处理模块,配置用于将待检测的文档图像信息输入获得的所述校正模型中,得到几何校正后的文档图像,再根据所述文档图像所受的环境光信息区分是否需要进行亮度表征学习;

31、亮度表征学习模块,配置用于对于所受的环境光信息很差的文档图像,将经过几何表示学习后把图像输入到亮度表征模型中,得到亮度表征学习后的文档图像;

32、输出模块,配置用于将输出的文档图像结果,输出至下游任务进行文字识别或者关键信息提取处理。

33、第三方面,本发明实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。

34、第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

35、与现有技术相比,本发明的有益成果在于:

36、(1)本发明使用u2net直接分割文档图像中的掩码。采用这种分割方法有效地避免了从分割和校正过程到下游任务的误差传播。

37、(2)本发明实现了一种高鲁棒性的文档图像校正模型,可以实现对于歪曲的和环境光差的文档图像分别进行几何表示学习和亮度表征学习;同时为了提高文档图像校正的精度,引入了多层注意力机制来提取复杂文档图像信息。

38、(3)本发明通过在基准文档图像数据集上进行实验并与其他方法进行比较,评估了本发明提出的方法的性能;实验结果表明,本发明的方法取得了最佳性能。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1