基于注意力增强薄板样条变换的图像文本矫正方法

文档序号:35053207发布日期:2023-08-06 06:34阅读:32来源:国知局
基于注意力增强薄板样条变换的图像文本矫正方法

本发明属于图像文本矫正,具体涉及一种基于注意力增强薄板样条变换的图像文本矫正方法。


背景技术:

1、图像文本矫正是计算机视觉中的重要研究任务,在自动驾驶、图像检索等应用中扮演着关键角色。随着摄像头的普及,自然场景中的文本识别成为目前最活跃的研究主题之一。然而,场景文本存在视角、方向、扭曲、模糊等不规则形变和扰动,导致识别精度并不令人满意。因此,提高场景文本的识别精度成为了重要的研究课题。由于不规则形变和扰动在图像文本中普遍存在,解决这类问题,有助于提升数字化办公、智能文档识别、手写公式识别、街景图像理解等场景的精度。相关技术也受到了诸多企业的高度关注。

2、文本矫正通过调整字符像素的几何位置关系,解决文本的不规则形变问题。通常情况下,它作为一种文本预处理方法,旨在采用某种几何变换来修正不规则的图像文本,纠正形变并生成一个聚焦于文本前景和接近标准水平分布形式的剪裁图像。将该图像输入到识别器可以大幅降低识别任务的难度。在当前的主流方法中,文本矫正与识别器通常以弱监督的形式进行端到端的训练,建模过程只需要文本识别的标签,不需要额外的标注文本形变程度等信息。因此,文本矫正被认为是处理不规则文本最高效简洁的方法之一。文本矫正方法主要经历了如下发展阶段:

3、第一阶段中技术人员使用仿射变换设计了首个专门针对图像文本矫正的矫正方法。它预测一组仿射变换的参数,通过仿射变换参数预测全图像素的旋转、偏移、缩放等移动,最后通过双线性插值填充其他像素。仿射变换参数以弱监督端到端训练的方式获得。在测试时,文本矫正作为预处理步骤在识别之前进行。

4、第二阶段中技术人员公开了利用薄板样条变换进行文本矫正。它首先在文本图像上下边界预设一组前景控制点,学习目标可表述为弱监督的将控制点从图像边界回归到文本边界。然后,这些控制点的位移情况被用来计算薄板样条变换参数,这些参数被进一步应用于对图像文本的裁剪和矫正。

5、第三阶段中技术人员设计了一种基于序列变换的注意网络,其中包括用于文本矫正的序列变换网络和基于注意力机制的文本识别网络。序列变换网络通过将矫正任务分解为一系列基于局部图像块的仿射变换,对不规则局部图像文本进行修正,然后使用网格投影子模块来平滑相邻图像块之间的连接。由于缺乏全图层次的几何关系约束,该方法存在部分情况下矫正结果不够鲁棒的不足。

6、目前的矫正网络大部分都是基于前景控制点的位置移动关系对图像进行矫正,很少考虑到文本图像前景像素点之间的语境关联性对图像矫正的影响。现有的仅考虑几何位置而不考虑字符图像的前景内容的矫正存在如下的问题:无法在矫正阶段进行字符对齐、无法处理字符不规则间距问题、容易造成部分字符被移出边界、训练不稳定收敛困难以及严重形变时的矫正效果经常不理想等。


技术实现思路

1、本发明是为了解决上述问题而进行的,目的在于提供基于注意力增强薄板样条变换的图像文本矫正方法。

2、本发明提供了一种基于注意力增强薄板样条变换的图像文本矫正方法,用于对不规则文本图像进行矫正,具有这样的特征,包括以下步骤:步骤s1,对不规则文本图像进行图像分辨率归一化,得到预处理文本图像;步骤s2,将预处理文本图像进行特征提取,得到n个不同尺寸的阶段特征图,再将n个不同尺寸的阶段特征图进行拼接融合,得到尺度特征图;步骤s3,将尺度特征图进行编码-解码特征提取,得到编码特征图和解码特征图;步骤s4,根据编码特征图的空间分辨率,对编码特征图进行网格化均匀划分,再将网格的交叉点作为前景控制点;步骤s5,对编码特征图进行重塑得到编码特征序列,再根据编码特征序列,得到各个前景控制点的x方向预测偏移量和y方向预测偏移量;步骤s6,根据各个前景控制点对应的坐标、x方向预测偏移量和y方向预测偏移量,计算得到对应的回归前景控制点;步骤s7,将解码特征图的空间分辨率作为特征图采样点;步骤s8,根据编码特征序列和解码特征图,得到注意力权重矩阵;步骤s9,根据前景控制点、回归前景控制点和注意力权重矩阵构建得到注意力增强的薄板样条变换公式;步骤s10,根据注意力增强的薄板样条变换公式对各个特征图采样点进行插值,得到矫正特征图采样点,再将所有矫正特征图采样点作为矫正特征图;步骤s11,根据矫正特征图,生成不规则文本图像的矫正结果。

3、在本发明提供的基于注意力增强薄板样条变换的图像文本矫正方法中,还可以具有这样的特征:其中,步骤s2包括以下子步骤:步骤s2-1,将预处理文本图像依次经由n个卷积阶段,每个卷积阶段对应生成一个阶段特征图;步骤s2-2,根据各个阶段特征图的宽和高进行下采样,得到尺寸相同的n个特征图,再对n个特征图进行拼接,得到尺度特征图。

4、在本发明提供的基于注意力增强薄板样条变换的图像文本矫正方法中,还可以具有这样的特征:其中,步骤s3包括以下子步骤:步骤s3-1,对尺度特征图进行卷积和下采样,得到编码特征图;步骤s3-2,对编码特征图依次进行上采样和反卷积计算,得到解码特征图。

5、在本发明提供的基于注意力增强薄板样条变换的图像文本矫正方法中,还可以具有这样的特征:其中,步骤s8包括以下子步骤:步骤s8-1,根据解码特征图的高和宽,对解码特征图进行维度平均,得到高序列特征和宽序列特征;步骤s8-2,将高序列特征和宽序列特征分别与编码特征序列进行拼接再进行维度对齐,分别得到新高序列特征和新宽序列特征;步骤s8-3,对新高序列特征和新宽序列特征分别进行线性运算,分别得到列重要性得分和行重要性得分;步骤s8-4,将新高序列特征和新宽序列特征分别进行softmax运算,分别得到高置信度矩阵和列置信度矩阵;步骤s8-5,将高置信度矩阵和列重要性得分相乘并维度广播后的特征序列与宽置信度矩阵和行重要性得分相乘并维度广播后的特征序列合并,得到合并特征图;步骤s8-6,将合并特征图与编码特征图进行结合,再依次进行缩放和tanh激活,得到注意力权重矩阵。

6、在本发明提供的基于注意力增强薄板样条变换的图像文本矫正方法中,还可以具有这样的特征:其中,在步骤s9中,注意力增强的薄板样条变换公式为:式中p'i为第i个特征图采样点,pi为p'i插值后得到的矫正特征图采样点,t为变换函数,f(·)为偏移向量,c'为所有回归前景控制点的集合的矩阵,c't为矩阵c'的转置,s为所有回归前景控制点的两两距离矩阵,ct为所有前景控制点的集合的矩阵的转置,eu为欧几里得距离计算公式,c'k为第k个回归前景控制点,ai,k为注意力权重矩阵中特征图采样点p'i与第k个回归前景控制点的注意力权重,λ为注意力参数的权重系数,ρ为注意力偏置的权重系数。

7、在本发明提供的基于注意力增强薄板样条变换的图像文本矫正方法中,还可以具有这样的特征:其中,注意力参数的权重系数λ设置为0.5,注意力偏置的权重系数ρ设置为1。

8、在本发明提供的基于注意力增强薄板样条变换的图像文本矫正方法中,还可以具有这样的特征:其中,矫正特征图采样点pi不为整数值时,根据双线性插值公式,将与矫正特征图采样点pi在水平和垂直方向上距离最近的四个矫正特征图采样点的灰度值进行加权平均,得到位置值作为矫正特征图采样点pi。

9、在本发明提供的基于注意力增强薄板样条变换的图像文本矫正方法中,还可以具有这样的特征:其中,根据四个矫正特征图采样点与矫正特征图采样点pi的距离,计算得到四个矫正特征图采样点对应的权重,距离越远则对应的权重越小。

10、发明的作用与效果

11、根据本发明所涉及的基于注意力增强薄板样条变换的图像文本矫正方法,因为通过网格状初始化,将前景控制点均匀地分布在文本图像中进而能够更好地捕捉文本内容,再通过前景控制点和特征图采样点建立注意力权重矩阵,从而构建注意力增强的薄板样条变换公式,对特征图采样点即图像特征级别上进行矫正,使得矫正结果更加精准。所以,本发明的基于注意力增强薄板样条变换的图像文本矫正方法能够提高图像文本的矫正质量进而提高识别准确性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1