文本图像矫正方法、训练方法、装置、电子设备以及介质与流程

文档序号:29310535发布日期:2022-03-19 19:57阅读:83来源:国知局
文本图像矫正方法、训练方法、装置、电子设备以及介质与流程

1.本公开涉及人工智能技术领域,尤其涉及计算机视觉、深度学习技术、智能交通和高精地图领域。具体地,涉及一种文本图像矫正方法、训练方法、装置、电子设备以及存储介质。


背景技术:

2.文本图像可以指包括文字的图像。文本图像具有多种用途。例如,基于计算机视觉的街景目标识别在实时导航领域扮演着较为重要的角色,通过车载摄像头拍摄包括的路标以及广告牌等文本信息的文本图像,为场景理解和导航提供了较为丰富的语义信息。


技术实现要素:

3.本公开提供了一种文本图像矫正方法、训练方法、装置、电子设备以及介质。
4.根据本公开的一方面,提供了一种文本图像矫正方法,包括:基于门控策略,对待矫正文本图像进行多个第一层级处理,得到多个层级各自的特征图,其中,每个上述特征图包括与上述待矫正文本图像相关的文本结构性特征,上述门控策略用于增加上述文本结构性特征的关注度;以及,对上述多个层级各自的特征图进行多个第二层级处理,得到与上述待矫正文本图像对应的矫正后文本图像。
5.根据本公开的另一方面,提供了一种文本图像矫正模型的训练方法,包括:基于门控策略,对待矫正样本文本图像进行多个第一层级处理,得到多个层级各自的样本特征图,其中,每个上述样本特征图包括与上述待矫正样本文本图像相关的文本结构性特征,上述门控策略用于增加上述文本结构性特征的关注度;对上述多个层级各自的样本特征图进行多个第二层级处理,得到上述多个层级各自的预测结果;以及,利用上述多个层级各自的预测结果和真实结果训练预定模型,得到上述文本图像矫正模型。
6.根据本公开的另一方面,提供了一种文本图像矫正装置,包括:第一获得模块,用于基于门控策略,对待矫正文本图像进行多个第一层级处理,得到多个层级各自的特征图,其中,每个上述特征图包括与上述待矫正文本图像相关的文本结构性特征,上述门控策略用于增加上述文本结构性特征的关注度;以及,第二获得模块,用于对上述多个层级各自的特征图进行多个第二层级处理,得到与上述待矫正文本图像对应的矫正后文本图像。
7.根据本公开的另一方面,提供了一种文本图像矫正模型的训练装置,包括:第六获得模块,用于基于门控策略,对待矫正样本文本图像进行多个第一层级处理,得到多个层级各自的样本特征图,其中,每个上述样本特征图包括与上述待矫正样本文本图像相关的文本结构性特征,上述门控策略用于增加上述文本结构性特征的关注度;第七获得模块,用于对上述多个层级各自的样本特征图进行多个第二层级处理,得到上述多个层级各自的预测结果;以及,第八获得模块,用于利用上述多个层级各自的预测结果和真实结果训练预定模型,得到上述文本图像矫正模型。
8.根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与上
述至少一个处理器通信连接的存储器;其中,上述存储器存储有可被上述至少一个处理器执行的指令,上述指令被上述至少一个处理器执行,以使上述至少一个处理器能够执行如上所述的方法。
9.根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,上述计算机指令用于使上述计算机执行如上所述的方法。
10.根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,上述计算机程序在被处理器执行时实现如上所述的方法。
11.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
12.附图用于更好地理解本方案,不构成对本公开的限定。其中:
13.图1示意性示出了根据本公开实施例的可以应用文本图像矫正方法、文本图像矫正模型的训练方法及装置的示例性系统架构;
14.图2示意性示出了根据本公开实施例的文本图像矫正方法的流程图;
15.图3a示意性示出了根据本公开实施例的文本图像矫正过程的示例示意图;
16.图3b示意性示出了根据本公开实施例的利用通道层单元处理处理第一下采样特征图,得到通道权重特征图的过程的示例示意图;
17.图3c示意性示出了根据本公开实施例的利用细粒度层单元处理通道权重特征图,得到第一细粒度特征图的过程的示例示意图;
18.图3d示意性示出了根据本公开实施例的利用粗粒度层单元处理第2层级的第一下采样特征图,得到第2层级的第一粗粒度特征图的过程的示例示意图;
19.图3e示意性示出了根据本公开实施例的待矫正文本图像、矫正后文本图像和正常文本图像的示例示意图;
20.图4示意性示出了根据本公开的文本图像矫正模型的训练方法的流程图;
21.图5示意性示出了根据本公开实施例的文本图像矫正装置的框图;
22.图6示意性示出了根据本公开实施例的丈本图像矫正模型的训练装置的框图;以及
23.图7示意性示出了根据本公开实施例的适于实现文本图像矫正方法和文本图像矫正模型的训练方法的电子设备的框图。
具体实施方式
24.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
25.文本图像可能存在着畸变,畸变将影响文本图像的质量,进而影响文本图像的应用。例如,畸变可以包括以下至少一项:扭曲、弯曲和褶皱。因此,针对自然场景下待矫正文本图像的几何矫正是有必要的。通过对待矫正文本图像的几何矫正,可以得到具有规则形
状的矫正后文本图像(即正常文本图像),进而可以降低几何形变以及背景干扰,从而提高文本图像的应用效果。例如,将矫正后文本图像应用于文本识别,可以提高文本识别的准确性。将文本识别应用于导航服务中,将对导航服务中的路径规划、智能交通以及规范驾驶行为带来有益影响。
26.为此,本公开实施例提出了一种文本图像矫正方案。即,基于门控策略,对待矫正文本图像进行多个第一层级处理,得到多个层级各自的特征图。每个特征图包括与待矫正文本图像相关的文本结构性特征,门控策略用于增加文本结构性特征的关注度。对多个层级各自的特征图进行多个第二层级处理,得到与待矫正文本图像对应的矫正后文本图像。
27.上述门控策略能够用于增加文本结构性特征的关注度,文本结构性特征对于文本图像矫正具有指导性作用,因此,基于门控策略获取包括待矫正文本图像的文本结构性特征的多个层级各自的特征图,对多个层级各自层的特征图进行处理,能够降低密集网格的局部扰动带来的不利影响,得到矫正质量较高的矫正后文本图像,由此提高了矫正质量。
28.图1示意性示出了根据本公开实施例的可以应用文本图像矫正方法、文本图像矫正模型的训练方法及装置的示例性系统架构。
29.需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如,在另一实施例中,可以应用文本图像矫正方法、文本图像矫正模型的训练方法及装置的示例性系统架构可以包括终端设备,但终端设备可以无需与服务器进行交互,即可实现本公开实施例提供的文本图像矫正方法、文本图像矫正模型的训练方法及装置。
30.如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和/或无线通信链路等。
31.用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。
32.终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等。
33.服务器105可以是提供各种服务的各种类型的服务器。例如,服务器105可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务(virtual private server,vps)中,存在的管理难度大,业务扩展性弱的缺陷。服务器105也可以为分布式系统的服务器,或者是结合了区块链的服务器。
34.需要说明的是,本公开实施例所提供的文本图像矫正方法一般可以由终端设备101、102、或103执行。相应地,本公开实施例所提供的文本图像矫正装置也可以设置于终端设备101、102、或103中。
35.或者,本公开实施例所提供的丈本图像矫正方法一般也可以由服务器105执行。相应地,本公开实施例所提供的文本图像矫正装置一般可以设置于服务器105中。本公开实施例所提供的文本图像矫正方法也可以由不同于服务器105且能够与终端设备101、102、103
和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的文本图像矫正装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
36.本公开实施例所提供的文本图像矫正模型的训练方法一般可以由服务器105执行。相应地,本公开实施例所提供的文本图像矫正模型的训练装置一般可以设置于服务器105中。本公开实施例所提供的文本图像矫正模型的训练方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的文本图像矫正模型的训练装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
37.本公开实施例所提供的文本图像矫正模型的训练方法一般可以由终端设备101、102、或103执行。相应地,本公开实施例所提供的文本图像矫正模型的训练装置也可以设置于终端设备101、102、或103中。
38.应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
39.图2示意性示出了根据本公开实施例的文本图像矫正方法的流程图。
40.如图2所示,该方法200包括操作s210~s220。
41.在操作s210,基于门控策略,对待矫正文本图像进行多个第一层级处理,得到多个层级各自的特征图。每个特征图包括与待矫正文本图像相关的文本结构性特征,门控策略用于增加文本结构性特征的关注度。
42.在操作s220,对多个层级各自的特征图进行多个第二层级处理,得到与待矫正文本图像对应的矫正后文本图像。
43.根据本公开的实施例,文本图像可以指包括文本的图像。文本图像可以是利用采集装置采集的。采集装置可以包括摄像头。待矫正文本图像可以指具有扭曲、弯曲和褶皱中的至少一项的文本图像。文本结构性特征可以包括以下至少一项:丈本行、文本块、图表边界和丈本边界。
44.根据本公开的实施例,丈本结构性特征对于文本矫正具有指导性作用,因此,需要增加文件结构性特征的关注度。由此,可以生成针对用于增加文本结构性特征的关注度的门控策略。例如,可以从通道层级、细粒度层级和粗粒度层级中的至少一项来增加文本结构性特征的关注度。通道层级可以指特征图的通道层级。不同通道的作用可能不同。通道的作用可以用通道权重来表征。细粒度层级可以指特征图的像素层级。不同像素的作用可能不同。像素的作用可以用像素权重表征。粗粒度层级可以指空间层级。门控策略可以包括通道层级策略、细粒度层级策略和粗粒度层级策略中的至少一项。通道层级策略可以指确定特征图中的每个通道的权重的策略。细粒度层级策略可以指从全局角度确定每个像素的权重的策略。粗粒度层级策略可以指用于提供更为精确的文本结构性特征的策略。
45.根据本公开的实施例,待矫正文本图像和矫正后文本图像的分辨率相同。
46.根据本公开的实施例,第一层级处理可以包括特征提取、下采样和融合等。第二层级处理可以包括特征提取、上采样和融合等。层级可以包括多个。每个层级具有对应的第一层级处理和第二层级处理。可以基于门控策略,对待矫正文本图像进行多个第一层级处理,得到与多个层级中的每个层级对应的特征图。例如,可以基于通道层级策略、细粒度层级策
略和粗粒度层级策略中的至少一项,对待矫正文本图像进行多个第一层级处理,得到多个层级各自的特征图。在获得多个层级各自的特征图之后,可以基于门控策略,对多个层级各自的特征图进行多个第二层级处理,得到与待矫正文本图像对应的矫正后文本图像。例如,可以基于粗粒度层级策略对多个层级各自的特征图进行多个第二层级处理,得到与待矫正文本图像对应的矫正后文本图像。
47.根据本公开的实施例,门控策略能够用于增加文本结构性特征的关注度,文本结构性特征对于文本图像矫正具有指导性作用,因此,基于门控策略获取包括待矫正文本图像的文本结构性特征的多个层级各自的特征图,对多个层级各自层的特征图进行处理,能够降低密集网格的局部扰动带来的不利影响,得到矫正质量较高的矫正后文本图像,由此提高了矫正质量。
48.根据本公开的实施例,操作s210可以包括如下操作。
49.基于文本图像矫正模型,对待矫正文本图像进行多个第一层级处理,得到多个层级各自的特征图。丈本图像矫正模型可以包括门控模块。门控模块是根据门控策略创建的。
50.根据本公开的实施例,门控策略可以利用门控模块实现,即,可以根据门控策略创建门控模块。文本图像矫正模型可以包括用于实现门控策略的门控模块。文本图像矫正模型还可以包括实现与特征提取、下采样和上采样相关的模块。例如,可以包括编码器和解码器,编码器可以用于实现特征提取和下采样。解码器可以用于实现特征提取和上采样。
51.根据本公开的实施例,可以基于包括门控模块的文本图像矫正模型,对待矫正文本图像进行多个第一层级处理,得到多个层级各自的特征图。此外,还可以基于文本图像矫正模型对多个层级各自的特征图进行多个第二层级处理,得到矫正后文本图像。
52.根据本公开的实施例,文本图像矫正模型还可以包括编码器。门控模块可以包括多个通道层单元。每个通道层单元用于确定与通道层单元对应的特征图中每个通道的通道权重。
53.根据本公开的实施例,基于文本图像矫正模型,对待矫正文本图像进行多个第一层级处理,得到多个层级各自的特征图,可以包括如下操作。
54.基于编码器和多个通道层单元,对待矫正文本图像进行多个第一层级处理,得到多个层级各自的特征图。
55.根据本公开的实施例,每个层级具有与该层级对应的通道层单元。每个通道层单元可以用于处理利用编码器获得的与该层级对应的下采样特征图,确定与该层级对应的下采样特征图中每个通道的通道权重。
56.根据本公开的实施例,文本图像矫正模型还可以包括解码器。
57.根据本公开的实施例,操作s220可以包括如下操作。
58.基于解码器,对多个层级各自的特征图进行多个第二层级处理,得到与待矫正文本图像对应的矫正后文本图像。
59.根据本公开的实施例,解码器可以用于实现特征提取和上采样,使得矫正后文本图像的分辨率与待矫正文本图像的分辨率一致。
60.根据本公开的实施例,编码器可以包括n个级联的下采样模块。解码器可以包括n个级联的上采样模块。门控模块可以包括n个通道层单元。n是大于1的整数。
61.根据本公开的实施例,基于编码器和多个通道层单元,对待矫正文本图像进行多
个第一层级处理,得到多个层级各自的特征图,可以包括如下操作。
62.在1<i≤n的情况下,利用第(i-1)个通道层单元处理第(i-1)层级的第一下采样特征图,得到第(i一1)层级的通道权重特征图。利用第i个下采样模块处理第(i-1)层级的通道权重特征图,得到第i层级的第一下采样特征图。
63.根据本公开的实施例,基于解码器,对多个层级各自的特征图进行多个第二层级处理,得到与待矫正文本图像对应的矫正后文本图像,可以包括如下操作。
64.在1≤i<n的情况下,利用第i个上采样模块处理第(i+1)个层级的第一输出特征图,得到第i个层级的第一上采样特征图。将第i层级的第一下采样特征图和第一上采样特征图进行融合处理,得到第i层级的第一融合特征图。利用第i个上采样模块处理第i层级的第一融合特征图,得到第i层级的第一输出特征图。根据第1层级的第一输出特征图,确定与待矫正文本图像对应的矫正后文本图像。
65.根据本公开的实施例,下采样模块可以用于实现特征提取和下采样。上采样模块可以用于实现特征提取和上采样。下采样模块可以包括卷积层和残差模块。卷积层的步长可以设置为2。上采样模块可以包括反卷积层和残差模块。n可以是大于1的整数。可以根据实际业务需求进行配置,在此不作限定。例如,n=5。第i个下采样模块与第i个通道层单元连接。第i个下采样模块与第i个上采样模块相对应。i∈{1,2,.....,n-1,n}。
66.根据本公开的实施例,在i=1的情况下,可以利用第1个下采样模块处理待矫正文本图像,得到第1层级的第一下采样特征图。在1<i≤n的情况下,可以利用第(i-1)个通道层单元处理第(i-1)层级的第一下采样特征图,得到第(i-1)层级的通道权重特征图。可以利用第i个下采样模块处理第(i-1)层级的通道权重特征图,得到第i层级的第一下采样特征图。
67.根据本公开的实施例,在i=n的情况下,可以利用第n个上采样模块处理第n层级的通道权重特征图,得到第n层级的第一上采样特征图。将第n层级的第一上采样特征图和第一下采样特征图进行融合处理,得到第n层级的第一融合特征图。利用第n个上采样模块处理第n层级的第一融合特征图,得到第n层级的第一输出特征图。
68.根据本公开的实施例,通过利用通道层单元为特征图的每个通道确定通道权重,从通道层方面,增加了针对文本结构性特征的关注度,进而有助于提高矫正质量。
69.根据本公开的实施例,第(i-1)个通道层单元包括m个级联的第一处理层组合,每个第一处理层组合包括级联的第一处理层和第二处理层,每个第一处理层包括q个并联的池化层,每个第二处理层包括u个级联的第一卷积层,m、q和u均是大于或等于1的整数。
70.根据本公开的实施例,利用第(i-1)个通道层单元处理第(i-1)层级的第一下采样特征图,得到第(i-1)层级的通道权重特征图,可以包括如下操作。
71.利用第(i-1)个通道层单元的m个级联的第一处理层组合处理第(i-1)层级的第一下采样特征图,得到与第(i-1)层级的q个并联的第一处理层各自对应的第一中间特征图。根据第(i-1)层级的q个第一中间特征图,得到第(i-1)层级的第一门控图。将第(i-1)层级的第一下采样特征图与第(i-1)层级的第一门控图进行点乘处理,得到第(i-1)层级的第二中间特征图。根据第(i-1)层级的第一下采样特征图和第二中间特征图,得到第(i-1)层级的通道权重特征图。
72.根据本公开的实施例,每个通道层单元可以包括m个级联的第一处理层组合。每个
第一处理层组合可以包括级联的第一处理层和第二处理层。即,第一处理层的输出端与第二处理层的输入端连接。第一处理层可以包括q个并联的池化层。第二处理层可以包括u个级联的第一卷积层。和第二处理层池化层和第一卷积层。即,池化层的输出端与第一卷积层的输入端连接。每个第一处理层中池化层的输入端与相应的下采样模块的输出端连接。第一卷积层包括的卷积层可以是1
×
1的卷积层。m、q和u的数值均可以根据实际业务需求进行配置,在此不作限定。
73.例如,m=1,q=u=2。可以将q=2个并联的池化层分别称为第一池化层和第二池化层。可以将u=2个级联的第一卷积层分别称为第一卷积子层和第二卷积子层。针对第(i-1)层级,可以利用第一池化层处理第(i-1)层级的第一下采样特征图,得到第(i-1)层级的第五中间特征图。利用第二池化层处理第(i-1)层级的第一下采样特征图,得到第(i-1)层级的第六中间特征图。利用第一卷积子层处理第(i-1)层级的第五中间特征图,得到第(i-1)层级的第七中间特征图。利用第二卷积子层处理第(i-1)层级的第七中间特征图,得到第(i-1)层级的第八中间特征图。利用第一卷积子层处理第(i-1)层级的第六中间特征图,得到第(i-1)层级的第九中间特征图。利用第二卷积子层处理第(i-1)层级的第九中间特征图,得到第(i-1)层级的第十中间特征图。根据第(i-1)层级的第八中间特征图和第十中间特征图,得到第(i-1)层级的第一门控图。
74.根据本公开的实施例,根据第(i-1)层级的第八中间特征图和第十中间特征图,得到第(i-1)层级的第一门控图,可以包括:将第(i-1)层级的第八中间特征图和第十中间特征图进行相加处理,得到第(i-1)层级的拼接特征图。再对第(i-1)层级的拼接特征图进行通道复制,得到第(i-1)层级的第一门控图。
75.根据本公开的实施例,根据第(i-1)层级的第一下采样特征图和第二中间特征图,得到第(i-1)层级的通道权重特征图,可以包括:将第(i-1)层级的第一下采样特征图和第二中间特征图进行相加处理,得到第(i-1)层级的通道权重特征图。
76.根据本公开的实施例,门控模块还可以包括细粒度层单元。
77.根据本公开的实施例,上述文本图像矫正方法还可以包括如下操作。
78.利用细粒度层单元处理第n层级的通道权重特征图,得到第n层级的第一细粒度特征图。
79.根据本公开的实施例,基于解码器,对多个层级各自的特征图进行多个第二层级处理,得到与待矫正文本图像对应的矫正后文本图像,可以包括如下操作。
80.在i=n的情况下,利用第n个上采样模块处理第n层级的第一细粒度特征图,得到第n层级的第一上采样特征图。将第n层级的第一上采样特征图和第一下采样特征图进行融合处理,得到第n层级的第一融合特征图。利用第n个上采样模块处理第n层级的第一融合特征图,得到第n层级的第一输出特征图。
81.根据本公开的实施例,可以在编码器和解码器之间设置细粒度层单元。即,细粒度层单元与第n个下采样模块连接。细粒度层单元用于确定第n层级的第一上采样特征图中每个像素的像素权重。即,利用细粒度层单元处理第n层级的通道权重特征图,得到第n层级的第一细粒度特征图。
82.根据本公开的实施例,通过利用细粒度层单元为特征图的像素确定像素权重,从细粒度层方面,增加了针对文本结构性特征的关注度,进而有助于提高矫正质量。
83.根据本公开的实施例,细粒度层单元可以包括p个并联的第二处理层组合。每个第二处理层组合可以包括v个并联的第三处理层,每个第三处理层组合包括s个级联的第二卷积层。p、v和s均是大于或等于1的整数。
84.根据本公开的实施例,利用细粒度层单元处理第n层级的通道权重特征图,得到第n层级的第一细粒度特征图,可以包括如下操作。
85.分别利用p个并联的第二处理层组合处理第n层级的通道权重特征图,得到与p个并联的第二处理层组合各自对应的第三中间特征图。根据与p个并联的第二处理层组合各自对应的第三中间特征图,得到第n层级的第二门控图。根据第n层级的通道权重特征图和第二门控图,得到第n层级的第四中间特征图。根据第n层级的通道权重特征图和第四中间特征图,得到第n层级的细粒度特征图。
86.根据本公开的实施例,p、v和s的数值可以根据实际业务需求进行配置,在此不作限定。
87.例如,p=1。v=s=2。利用第1个第二卷积层处理第n层级的通道权重特征图,得到与第1个第二卷积层对应的第十一中间特征图。将第2个第二卷积层处理与第1个第二卷积层对应的第十一中间特征图,得到与第2个第二卷积层对应的第十二中间特征图,即,将第n层级的通道权重特征图映射到第一特征空间。利用第3个第二卷积层处理第n层级的通道权重特征图,得到与第3个第二卷积层对应的第十三中间特征图。利用第4个第二卷积层处理与第3个第二卷积层对应的第十三中间特征图,得到与第4个第二卷积层对应的第十四中间特征值图,即,将第n层级的通道权重特征图映射到第二特征空间。根据与第2个第二卷积层对应的第十二中间特征图和与第4个第二卷积层对应的第十四中间特征图,得到与第二处理层组合对应的第三中间特征图。根据与第二处理层组合对应的第三中间特征图,得到第n层级的第二门控图。根据第n层级的通道权重特征图和第二门控图,得到第n层级的第四中间特征图。根据第n层级的通道权重特征图和第四中间特征图,得到第n层级的细粒度特征图。
88.根据本公开的实施例,根据与第二处理层组合对应的第三中间特征图,得到第n层级的第二门控图,可以包括:将与第二处理层组合对应的第三中间特征图确定为第n层级的第二门控图。
89.根据本公开的实施例,根据与第2个第二卷积层对应的第十二中间特征图和与第4个第二卷积层对应的第十四中间特征图,得到与第二处理层组合对应的第三中间特征图,可以包括:将与第2个第二卷积层对应的第十二中间特征图和与第4个第二卷积层对应的第十四中间特征图进行相乘处理,得到与第二处理层组合对应的第三中间特征图。
90.根据本公开的实施例,根据第n层级的通道权重特征图和第二门控图,得到第n层级的第四中间特征图,可以包括:将第n层级的通道权重特征图和第二门控图进行相乘处理,得到第n层级的第四中间特征图。根据第n层级的通道权重特征图和第四中间特征图,得到第n层级的细粒度特征图,可以包括:将第n层级的通道权重特征图与第n层级的第四中间特征图进行相机,得到第n层级的细粒度特征图。
91.根据本公开的实施例,门控模块还可以包括n个粗粒度层单元。
92.利用第i个粗粒度层单元处理第i层级的第一下采样特征图,得到第i层级的第一粗粒度特征图。
93.根据本公开的实施例,将第i层级的第一下采样特征图和第i层级的第一上采样特征图进行融合处理,得到第i层级的第一融合特征图,可以包括如下操作。
94.将第i层级的第一粗粒度特征图和第i层级的的第一上采样特征图进行融合处理,得到第i层级的第一融合特征图。
95.根据本公开的实施例,粗粒度层单元可以用于提供更为精确的文本结构性特征。第i个粗粒度层单元可以与第i个下采样模块连接。
96.根据本公开的实施例,将粗粒度层单元与跳跃连接进行结合,可以在将编码器中多个层级各自的特征图直接传递到对应层级的解码器,有助于解码的基础上,提供更为精度的文本结构性特征,从而提高矫正质量。
97.根据本公开的实施例,第i个粗粒度层单元可以包括t个级联的空洞卷积层。不同空间卷积层的卷积扩张率不同,t是大于或等于1的整数。
98.根据本公开的实施例,利用第i个粗粒度层单元处理第i层级的第一下采样特征图,得到第i层级的第一粗粒度特征图,可以包括如下操作。
99.利用第i层级的t个级联的空洞卷积层处理第i层级的第一下采样特征图,得到第i层级的第三门控图。将第i层级的第一下采样特征图和第三门控图进行点乘处理,得到第i层级的第一粗粒度特征图。
100.根据本公开的实施例,每个粗粒度层可以包括t个级联的空洞卷积层。不同空洞卷积层的卷积扩张率可以不同。例如,可以随着级联层级的增加,增加卷积扩张利率。t的数值可以根据实际业务需求进行配置,在此不作限定。
101.根据本公开的实施例,可以利用t个级联的空洞卷积层处理第i层级的第一下采样特征图,得到t个第九中间特征图。根据t个第九中间特征图,得到第i层级的第三门控图。例如,可以将t个第九中间特征图进行相加处理,得到第i层级的第三门控图。
102.例如,t=3。t=3个级联的空洞卷积层可以称为第一空洞卷积层、第二空洞卷积层和第三空洞卷积层。第一空洞卷积层的卷积扩张率为1。
103.第二空洞卷积层的卷积扩张率为2。第三空洞卷积层的卷积扩张率为4。可以利用第一空洞卷积层处理第i层级的第一下采样特征图,得到第i层级的第1个第九中间特征图。利用第二空洞卷积层处理第i层级的第1个第九中间特征图,得到第i层级的第2个第九中间特征图。利用第三空洞卷积层处理第i层级的第2个第九中间特征图,得到第i层级的第3个第九中间特征图。将第i层级的第1个第九中间特征图、第2个第九中间特征图和第3个第九中间特征图进行相加处理,得到第i层级的第三门控图。
104.根据本公开的实施例,文本图像矫正模型还可以包括编码器和解码器。门控模块可以包括细粒度层单元。
105.根据本公开的实施例,基于丈本图像矫正模型,对待矫正文本图像进行多个第一层级处理,得到多个层级各自的特征图,可以包括如下操作。
106.基于编码器和细粒度层单元,对待矫正丈本图像进行多个第一层级处理,得到多个层级各自的特征图。
107.根据本公开的实施例,对多个层级各自的特征图进行多个第二层级处理,得到与待矫正文本图像对应的矫正后文本图像,可以包括如下操作。
108.基于解码器,对多个层级各自的特征图进行多个第二层级处理,得到与待矫正文
本图像对应的矫正后文本图像。
109.根据本公开的实施例,细粒度层单元可以用于处理利用编码器获得的与最末层级对应的下采样特征图,确定与最末层级对应的下采样特征图中每个像素的像素权重。
110.根据本公开的实施例,编码器可以包括n个级联的下采样模块。解码器可以包括n个级联的上采样模块。n是大于1的整数。
111.根据本公开的实施例,基于编码器和细粒度层单元,对待矫正文本图像进行多个第一层级处理,得到多个层级各自的特征图,可以包括如下操作。
112.在1<i≤n的情况下,利用第i个下采样模块处理第(i-1)层级的第二下采样特征图,得到第i层级的第二下采样特征图。利用细粒度层单元处理第n层级的第二下采样特征图,得到第n层级的第二细粒度特征图。
113.根据本公开的实施例,基于解码器,对多个层级各自的特征图进行多个第二层级处理,得到与待矫正文本图像对应的矫正后文本图像,可以包括如下操作。
114.在i=n的情况下,利用第n个上采样模块处理第n层级的细粒度特征图,得到第n层级的第二上采样特征图。将第n层级的第二上采样特征图和第二下采样特征图进行融合,得到第n层级的第二融合特征图。利用第n个上采样模块处理第n层级的第二融合特征图,得到第n层级的第二输出特征图。在1≤i<n的情况下,利用第i个上采样模块处理第(i+1)层级的第二输出特征图,得到第i层级的第二上采样特征图。将第i层级的第二下采样特征图和第二上采样特征图进行融合处理,得到第i层级的第二融合特征图。利用第i个上采样模块处理第i层级的第二融合特征图,得到第i层级的第二输出特征图。根据第1层级的第二输出特征图,确定与待矫正文本图像对应的矫正后文本图像。
115.根据本公开的实施例,第n个下采样模块与细粒度层单元连接。第i个下采样模块与第i个上采样模块相对应。i∈{1,2,.....,n-1,n}。
116.根据本公开的实施例,在i=1的情况下,可以利用第1个下采样模块处理待矫正文本图像,得到第1层级的第二下采样特征图。
117.根据本公开的实施例,细粒度层单元的结构可以参见前文所述的细粒度层单元的结构,在此不再赘述。
118.根据本公开的实施例,文本图像矫正模型还可以包括编码器和解码器。门控模块可以包括多个粗粒度层单元。
119.根据本公开的实施例,基于文本图像矫正模型,对待矫正文本图像进行多个第一层级处理,得到多个层级各自的特征图,可以包括如下操作。
120.基于编码器和多个粗粒度层单元,对待矫正文本图像进行多个第一层级处理,得到多个层级各自的特征图。
121.根据本公开的实施例,对多个层级各自的特征图进行多个第二层级处理,得到与待矫正文本图像对应的矫正后文本图像,可以包括如下操作。
122.基于解码器,对多个层级各自的特征图进行多个第二层级处理,得到与待矫正文本图像对应的矫正后文本图像。
123.根据本公开的实施例,每个层级具有与该层级对应的粗粒度层单元。每个粗粒度层单元可以用于提供与该层级对应的更为精确的文本结构性特征。
124.根据本公开的实施例,编码器可以包括n个级联的下采样模块。解码器可以包括n
个级联的上采样模块。门控模块可以包括n个粗粒度层单元。n是大于1的整数。
125.根据本公开的实施例,基于编码器和多个粗粒度层单元,对待矫正文本图像进行多个第一层级处理,得到多个层级各自的特征图,可以包括如下操作。
126.在1<i≤n的情况下,利用第i个下采样模块处理第(i-1)层级的第二下采样特征图,得到第i层级的第二下采样特征图。利用第i个粗粒度层单元处理第i层级的第二下采样特征图,得到第i层级的第二粗粒度特征图。
127.根据本公开的实施例,基于解码器,对多个层级各自的特征图进行多个第二层级处理,得到与待矫正文本图像对应的矫正后文本图像,可以包括如下操作。
128.在1≤i<n的情况下,利用第i个上采样模块处理第(i+1)层级的第三输出特征图,得到第i层级的第三输出特征图。将第i层级的第二粗粒度特征图和第三输出特征图进行融合处理,得到第i层级的第三融合特征图。利用第i个上采样模块处理第i层级的第三融合特征图,得到第i层级的第三输出特征图。根据第1层级的第三输出特征图,确定与待矫正文本图像对应的矫正后文本图像。
129.根据本公开的实施例,在i=1的情况下,利用第1个下采样模块处理待矫正文本图像,得到第1层级的第二下采样特征图。利用第1个粗粒度层单元处理第1层级的第二下采样特征图,得到第1层级的第二粗粒度特征图。
130.根据本公开的实施例,在i=n的情况下,利用第n个上采样模块处理第n层级的第二下采样特征图,得到第n层级的第三输出特征图。将第n层级的第二粗粒度特征图和第三输出特征图进行融合处理,得到第n层级的第三融合特征图。利用第n个上采样模块处理第n层级的第三融合特征图,得到第n层级的第三输出特征图。
131.根据本公开的实施例,粗粒度层单元的结构可以参见上文所述的粗粒度层单元的结构,在此不再赘述。
132.根据本公开的实施例,上述文本图像矫正方法还可以包括如下操作。
133.对矫正后文本图像进行文本识别,得到文本识别结果。
134.根据本公开的实施例,在获得矫正后文本图像之后,可以利用文本识别模型对矫正后文本图像进行文本识别,得到文本识别结果。
135.根据本公开的实施例,利用根据本公开所述的文本图像矫正方法对待矫正文本图像进行矫正,能够提高矫正质量,在此基础上,对矫正后文本图像进行识别,能够提高文本识别率,进而促进与导航以及场景理解领域相关的发展和应用。
136.下面参考图3a、图3b、图3c、图3d和图3e,结合具体实施例对根据本公开实施例所述的文本图像矫正方法做进一步说明。
137.图3a示意性示出了根据本公开实施例的文本图像矫正过程的示例示意图。
138.如图3a所示,在300a中,文本图像矫正模型包括编码器、解码器和门控模块。n=2。
139.编码器包括2个级联的下采样模块,即,下采样模块302和下采样模块306。解码器包括2个级联的上采样模块,即,上采样模块311和上采样模块313。上采样模块311包括上采样单元3110和特征提取单元3111。上采样模块313包括上采样单元3130和特征提取单元3131。
140.门控模块包括第1层级的通道层单元303和粗粒度层单元304,以及,第2层级的通道层单元307、粗粒度层单元308和细粒度层单元310。
141.利用下采样模块302处理待矫正文本图像301,得到第1层级的第一下采样特征图。利用通道层单元303处理第1层级的第一下采样特征图,得到第1层级的通道权重特征图。利用粗粒度层单元304处理第1层级的第一下采样特征图,得到第1层级的第一粗粒度特征图305。
142.利用下采样模块306处理第1层级的通道权重特征图,得到第2层级的第一下采样特征图。利用通道层单元307处理第2层级的第一下采样特征图,得到第2层级的通道权重特征图。利用粗粒度层单元308处理第2层级的第一下采样特征图,得到第2层级的第一粗粒度特征图309。
143.利用细粒度层单元310处理第2层级的通道权重特征图,得到第2层级的第一细粒度特征图。
144.利用上采样单元3110处理第2层级的第一细粒度特征图,得到第2层级的第一上采样特征图312。将第2层级的第一上采样特征图312和第一粗粒度特征图309进行拼接,得到第2层级的第一融合特征图。利用特征提取单元3111处理第2层级的第一融合特征图,得到第2层级的第一输出特征图。
145.利用上采样单元3130处理第2层级的第一输出特征图,得到第1层级的第一上采样特征图314。将第1层级的第一上采样特征图314和粗粒度特征图305进行拼接,得到第1层级的第一融合特征图。利用特征提取单元3131处理第1层级的第一融合特征图,得到第1层级的第一输出特征图。根据第1层级的第一输出特征图,确定与待矫正文本图像301对应的矫正后文本图像315。
146.图3b示意性示出了根据本公开实施例的利用通道层单元处理处理第一下采样特征图,得到通道权重特征图的过程的示例示意图。
147.如图3b所示,在300b中,图3a中的通道层单元307包括m=1个第一处理层组合。第一处理层组合包括第一处理层和第二处理层。第一处理层包括q=2个并联的池化层,即,第一池化层和第二池化层。第二处理层包括u=2个级联的第一卷积层,即,第一卷积层3070和第一卷积层3071。第一池化层是最大池化层。第二池化层是平均池化层。第一卷积层3070和第二卷积层3071均是1
×
1卷积层。
148.针对第2层级,可以利用第一池化层处理第2层级的第一下采样特征图316,得到第2层级的第五中间特征图317。第2层级的第一下采样特征图的维度是c
×h×
w。第2层级的第五中间特征图317的维度是c
×1×
1。c表征通道数目。h表征高度。w表征宽度。利用第二池化层处理第2层级的第一下采样特征图316,得到第2层级的第六中间特征图318。第2层级的第六中间特征图318的维度是c
×1×
1。利用第一卷积层3070处理第2层级的第五中间特征图317,得到第2层级的第七中间特征图。利用第二卷积层3071处理第2层级的第七中间特征图,得到第2层级的第八中间特征图319。第2层级的第八中间特征图319的维度是c
×1×
1。利用第一卷积层3070处理第2层级的第六中间特征图,得到第2层级的第九中间特征图。利用第二卷积层3071处理第2层级的第九中间特征图,得到第2层级的第十中间特征图320。第2层级的第十中间特征图320的维度是c
×1×
1。将第2层级的第八中间特征图319和第十中间特征图320进行相加处理,得到第2层级的拼接特征图。利用第一激活函数处理第2层级的拼接特征图,得到第2层级的处理后的拼接特征图。第一激活函数可以是tanh函数。再对第2层级的处理后的拼接特征图进行通道复制,得到第2层级的第一门控图321。第2层级的第一
门控图321的维度是c
×h×
w。将第2层级的第一下采样特征图与第2层级的第一门控图321进行点乘处理,得到第2层级的第二中间特征图。将第2层级的第一下采样特征图和第二中间特征图进行相加处理,得到第2层级的通道权重特征图322。第2层级的通道权重特征图322的维度是c
×h×
w。
149.图3c示意性示出了根据本公开实施例的利用细粒度层单元处理通道权重特征图,得到第一细粒度特征图的过程的示例示意图。
150.如图3c所示,在300c中,图3a中的细粒度层单元310包括p=1个第二处理层组合。第二处理层组合包括v=2个并联的第三处理层。每个第三处理层包括w=2个级联的第二卷积层。即,第二卷积层3100、第二卷积层3101、第二卷积层3102和第二卷积层3103。第二卷积层3100和第二卷积层3102级联。第二卷积层3101和第二卷积层3103级联。第二卷积层3100、第二卷积层3101、第二卷积层3102和第二卷积层3103均是1
×
1的卷积。
151.对第2层级的通道权重特征图322的维度进行变化,得到第2层级变化后的通道权重特征图323。第2层级变化后的通道权重特征图323的维度是c
×
k。k=h
×
w。利用第二卷积层3100和第二卷积层3102处理第2层级变化后的通道权重特征图323,得到第2层级的第十一中间特征图324。第2层级的第十一中间特征图324的维度是利用第二卷积层3101和第二卷积层3103处理第2层级变化后的通道权重特征图323,得到第2层级的第十二中间特征图325。第2层级的第十二中间特征图325的维度是基于第二激活函数,将第2层级的第十一中间特征图324与第十二中间特征图325进行相乘处理,得到第2层级的第二门控图326。第二激活函数可以是softmax函数。第2层级的第二门控图的维度是k
×
k。将第2层级的第二门控图326和变化后的通道权重特征图323进行相加处理,得到第2层级的第一细粒度特征图327。第2层级的第一细粒度特征图327的维度是c
×
k。
152.图3d示意性示出了根据本公开实施例的利用粗粒度层单元处理第2层级的第一下采样特征图,得到第2层级的第一粗粒度特征图的过程的示例示意图。
153.如图3d所示,在300d中,图3a中的粗粒度层单元308包括t=3个级联的空洞卷积层,即,空洞卷积层3080、空洞卷积层3081和空洞卷积层3082。空洞卷积层3080的卷积扩张率是1。空洞卷积层3081的卷积扩张率是2。空洞卷积层3082的卷积扩张率是4。
154.可以利用空洞卷积层3080处理第2层级的第一下采样特征图328,得到第2层级的第1个第十一中间特征图。第2层级的第一下采样特征图328的维度是c
×h×
w。利用空洞卷积层3081处理第2层级的第1个第十一中间特征图,得到第2层级的第2个第十一中间特征图。利用空洞卷积层3082处理第2层级的第2个第十一中间特征图,得到第2层级的第3个第十一中间特征图。将第2层级的第1个第十一中间特征图、第2个第十一中间特征图和第3个第十一中间特征图进行相加处理,得到第2层级的第三门控图329。第2层级的第三门控图329的维度是c
×h×
w。利用第三激活函数处理第2层级的第三门控图329,得到第2层级的处理后的第三门控图。第三激活函数可以是sigmoid函数。将第2层级的第一下采样特征图328和处理后的第三门控图进行点乘处理,得到第2层级的第一粗粒度特征图309。第2层级的第一粗粒度特征图309的维度是c
×h×
w。
155.图3e示意性示出了根据本公开实施例的待矫正文本图像、矫正后文本图像和正常文本图像的示例示意图。
156.如图3e所示,在300e中,图3a中的待矫正文本图像301利用根据本公开实施例所述的文本图像矫正方法进行处理,得到矫正后文本图像315。
157.比较矫正后文本图像315和与待矫正文本图像对应的正常文本图像330,可以得出本公开实施例所述的文本图像矫正方法的矫正质量较高。
158.图4示意性示出了根据本公开的文本图像矫正模型的训练方法的流程图。
159.如图4所示,该方法400包括操作s410~s430。
160.在操作s410,基于门控策略,对待矫正样本文本图像进行多个第一层级处理,得到多个层级各自的样本特征图。每个样本特征图包括与待矫正样本文本图像相关的文本结构性特征,门控策略用于增加文本结构性特征的关注度。
161.在操作s420,对多个层级各自的样本特征图进行多个第二层级处理,得到多个层级各自的预测结果。
162.在操作s430,利用多个层级各自的预测结果和真实结果训练预定模型,得到文本图像矫正模型。
163.根据本公开的实施例,预定模型可以包括编码器、解码器和门控模块。门控模块可以包括以下至少一项:细粒度层单元、多个通道层单元和多个粗粒度层单元。例如,预定模型包括编码器、解码器和门控模块。编码器包括n个下采样模块。解码器包括n个上采样模块。门控模块包括细粒度层单元、n个通道层单元和n个粗粒度层单元。n是大于1的整数。第i个下采样模块分别与第i个通道层单元和第i个粗粒度层单元连接。细粒度层单元与第n个通道层单元连接。第i个下采样模块与第i个上采样模块相对应。
164.根据本公开的实施例,预测结果可以表征位置的预测坐标信息。真实结果可以表征位置的真实坐标信息。不同层级表征不同尺度,确定与每个层级对应的预测结果和真实结果。利用多个层级各自的预测结果和真实结果训练预定模型,得到文本矫正模型。
165.根据本公开的实施例,通过多层级文本图像信息的利用,能够提高文本结构性特征的提取质量,进而提高矫正效果。
166.根据本公开的实施例,操作s430可以包括如下操作。
167.基于回归损失函数,利用多个层级各自的预测结果和真实结果,得到输出值。根据输出值调整预定模型的模型参数,直至满足预定条件。将在满足预定条件的情况下得到的预定模型确定为文本图像矫正模型。
168.根据本公开的实施例,预定条件可以包括输出值收敛和训练轮次达到最大训练轮次中的至少一项。
169.根据本公开的实施例,可以根据如下公式(1)确定回归损失函数。
[0170][0171]
根据本公开的实施例,l
reg
表征回归损失函数。n表征层级的数目。ni表征第i层级的下采样特征图中非正常像素的像素数目。λi和λ表征超参数。例如,λi=0.25。λ=0.1。g
ij
表征第i层级的与位置j对应的真实结果。表征第i层级的与位置j对应的预测结果。
[0172]
根据本公开的实施例,通过利用多层级编码器-解码器回归框架以及损失函数以生成质量较高的文本图像矫正模型,提高矫正质量。
[0173]
以上仅是示例性实施例,但不限于此,还可以包括本领域已知的其他文本图像矫正方法和文本图像矫正模型的训练方法,只要能够提高待矫正文本图像的矫正质量即可。
[0174]
图5示意性示出了根据本公开实施例的文本图像矫正装置的框图。
[0175]
如图5所示,文本图像矫正装置500可以包括第一获得模块510和第二获得模块520。
[0176]
第一获得模块510,用于基于门控策略,对待矫正文本图像进行多个第一层级处理,得到多个层级各自的特征图。每个特征图包括与待矫正文本图像相关的文本结构性特征,门控策略用于增加文本结构性特征的关注度。
[0177]
第二获得模块520,用于对多个层级各自的特征图进行多个第二层级处理,得到与待矫正文本图像对应的矫正后文本图像。
[0178]
根据本公开的实施例,第一获得模块510可以包括第一获得子模块。
[0179]
第一获得子模块,用于基于文本图像矫正模型,对待矫正文本图像进行多个第一层级处理,得到多个层级各自的特征图。文本图像矫正模型包括门控模块,门控模块是根据门控策略创建的。
[0180]
根据本公开的实施例,文本图像矫正模型还包括编码器。门控模块包括多个通道层单元。每个通道层单元用于确定与通道层单元对应的特征图中每个通道的通道权重。
[0181]
根据本公开的实施例,第一获得子模块可以包括第一获得单元。
[0182]
第一获得单元,用于基于编码器和多个通道层单元,对待矫正文本图像进行多个第一层级处理,得到多个层级各自的特征图。
[0183]
根据本公开的实施例,文本图像矫正模型还包括解码器。
[0184]
根据本公开的实施例,第二获得模块520还可以包括第二获得子模块。
[0185]
第二获得子模块,用于基于解码器,对多个层级各自的特征图进行多个第二层级处理,得到与待矫正文本图像对应的矫正后文本图像。
[0186]
根据本公开的实施例,编码器包括n个级联的下采样模块。解码器包括n个级联的上采样模块。门控模块包括n个通道层单元。n是大于1的整数。
[0187]
根据本公开的实施例,第一获得单元可以包括第一获得子单元和第二获得子单元。
[0188]
第一获得子单元,用于在1<i≤n的情况下,利用第(i-1)个通道层单元处理第(i-1)层级的第一下采样特征图,得到第(i-1)层级的通道权重特征图。
[0189]
第二获得子单元,用于利用第i个下采样模块处理第(i一1)层级的通道权重特征图,得到第i层级的第一下采样特征图。
[0190]
根据本公开的实施例,第二获得子模块可以包括第二获得单元、第三获得单元、第四获得单元和第一确定单元。
[0191]
第二获得单元,用于在1≤i<n的情况下,利用第i个上采样模块处理第(i+1)个层级的第一输出特征图,得到第i个层级的第一上采样特征图。
[0192]
第三获得单元,用于将第i层级的第一下采样特征图和第一上采样特征图进行融合处理,得到第i层级的第一融合特征图。
[0193]
第四获得单元,用于利用第i个上采样模块处理第i层级的第一融合特征图,得到第i层级的第一输出特征图。
[0194]
第一确定单元,用于根据第1层级的第一输出特征图,确定与待矫正文本图像对应的矫正后文本图像。
[0195]
根据本公开的实施例,门控模块还包括细粒度层单元。
[0196]
根据本公开的实施例,上述文本图像矫正装置500还可以包括第三获得模块。
[0197]
第三获得模块,用于利用细粒度层单元处理第n层级的通道权重特征图,得到第n层级的第一细粒度特征图。
[0198]
根据本公开的实施例,第二获得子模块可以包括第五获得单元、第六获得单元和第七获得单元。
[0199]
第五获得单元,用于在i=n的情况下,利用第n个上采样模块处理第n层级的第一细粒度特征图,得到第n层级的第一上采样特征图。
[0200]
第六获得单元,用于将第n层级的第一上采样特征图和第一下采样特征图进行融合处理,得到第n层级的第一融合特征图。
[0201]
第七获得单元,用于利用第n个上采样模块处理第n层级的第一融合特征图,得到第n层级的第一输出特征图。
[0202]
根据本公开的实施例,门控模块还包括n个粗粒度层单元。
[0203]
根据本公开的实施例,上述文本图像矫正装置500还可以包括第四获得模块。
[0204]
第四获得模块,用于利用第i个粗粒度层单元处理第i层级的第一下采样特征图,得到第i层级的第一粗粒度特征图。
[0205]
根据本公开的实施例,第三获得单元可以包括第三获得子单元。
[0206]
第三获得子单元,用于将第i层级的第一粗粒度特征图和第i层级的的第一上采样特征图进行融合处理,得到第i层级的第一融合特征图。
[0207]
根据本公开的实施例,文本图像矫正模型还包括编码器和解码器。门控模块包括细粒度层单元。
[0208]
根据本公开的实施例,第一获得子模块可以包括第八获得单元。
[0209]
第八获得单元,用于基于编码器和细粒度层单元,对待矫正文本图像进行多个第一层级处理,得到多个层级各自的特征图。
[0210]
根据本公开的实施例,第二获得模块520可以包括第三获得子模块。
[0211]
第三获得子模块,用于基于解码器,对多个层级各自的特征图进行多个第二层级处理,得到与待矫正文本图像对应的矫正后文本图像。
[0212]
根据本公开的实施例,编码器包括n个级联的下采样模块。解码器包括n个级联的上采样模块。n是大于1的整数。
[0213]
根据本公开的实施例,第八获得单元可以包括第四获得子单元和第五获得子单元。
[0214]
第四获得子单元,用于在1<i≤n的情况下,利用第i个下采样模块处理第(i-1)层级的第二下采样特征图,得到第i层级的第二下采样特征图。
[0215]
第五获得子单元,用于利用细粒度层单元处理第n层级的第二下采样特征图,得到第n层级的第二细粒度特征图。
[0216]
根据本公开的实施例,第三获得子模块可以包括第九获得单元、第十获得单元、第十一获得单元、第十二获得单元、第十三获得单元、第十四获得单元、第十五获得单元和第二确定单元。
[0217]
第十获得单元,用于在i=n的情况下,利用第n个上采样模块处理第n层级的细粒度特征图,得到第n层级的第二上采样特征图。
[0218]
第十一获得单元,用于将第n层级的第二上采样特征图和第二下采样特征图进行融合,得到第n层级的第二融合特征图。
[0219]
第十二获得单元,用于利用第n个上采样模块处理第n层级的第二融合特征图,得到第n层级的第二输出特征图。
[0220]
第十三获得单元,用于在1≤i<n的情况下,利用第i个上采样模块处理第(i+1)层级的第二输出特征图,得到第i层级的第二上采样特征图。
[0221]
第十四获得单元,用于将第i层级的第二下采样特征图和第二上采样特征图进行融合处理,得到第i层级的第二融合特征图。
[0222]
第十五获得单元,用于利用第i个上采样模块处理第i层级的第二融合特征图,得到第i层级的第二输出特征图。
[0223]
第二确定单元,用于根据第1层级的第二输出特征图,确定与待矫正文本图像对应的矫正后文本图像。
[0224]
根据本公开的实施例,文本图像矫正模型还包括编码器和解码器。门控模块包括多个粗粒度层单元。
[0225]
根据本公开的实施例,第一获得子模块可以包括第十六获得单元。
[0226]
第十六获得单元,用于基于编码器和多个粗粒度层单元,对待矫正文本图像进行多个第一层级处理,得到多个层级各自的特征图。
[0227]
根据本公开的实施例,第二获得模块520可以包括第四获得子模块。
[0228]
第四获得子模块,用于基于解码器,对多个层级各自的特征图进行多个第二层级处理,得到与待矫正文本图像对应的矫正后文本图像。
[0229]
根据本公开的实施例,编码器包括n个级联的下采样模块。解码器包括n个级联的上采样模块。门控模块包括n个粗粒度层单元。n是大于1的整数。
[0230]
根据本公开的实施例,第十六获得单元可以包括第六获得子单元和第七获得子单元。
[0231]
第六获得子单元,用于在1<i≤n的情况下,利用第i个下采样模块处理第(i-1)层级的第二下采样特征图,得到第i层级的第二下采样特征图。
[0232]
第七获得子单元,用于利用第i个粗粒度层单元处理第i层级的第二下采样特征图,得到第i层级的第二粗粒度特征图。
[0233]
根据本公开的实施例,第四获得子模块可以包括第十七获得单元、第十八获得单元、
[0234]
第十七获得单元,用于在1≤i<n的情况下,利用第i个上采样模块处理第(i+1)层级的第三输出特征图,得到第i层级的第三输出特征图。
[0235]
第十八获得单元,用于将第i层级的第二粗粒度特征图和第三输出特征图进行融合处理,得到第i层级的第三融合特征图。
[0236]
第十九获得单元,用于利用第i个上采样模块处理第i层级的第三融合特征图,得到第i层级的第三输出特征图。
[0237]
第二十获得单元,用于根据第1层级的第三输出特征图,确定与待矫正文本图像对应的矫正后文本图像。
[0238]
根据本公开的实施例,第(i-1)个通道层单元包括m个级联的第一处理层组合,每个第一处理层组合包括级联的第一处理层和第二处理层,每个第一处理层包括o个并联的池化层,每个第二处理层包括u个级联的第一卷积层,m、q和u均是大于或等于1的整数。
[0239]
根据本公开的实施例,第一获得子单元用于:
[0240]
利用第(i-1)个通道层单元的m个级联的第一处理层组合处理第(i-1)层级的第一下采样特征图,得到与第(i-1)层级的q个并联的第一处理层各自对应的第一中间特征图。根据第(i-1)层级的q个第一中间特征图,得到第(i-1)层级的第一门控图。将第(i-1)层级的第一下采样特征图与第(i-1)层级的第一门控图进行点乘处理,得到第(i-1)层级的第二中间特征图。根据第(i-1)层级的第一下采样特征图和第二中间特征图,得到第(i-1)层级的通道权重特征图。
[0241]
根据本公开的实施例,细粒度层单元包括p个并联的第二处理层组合,每个第二处理层组合包括v个并联的第三处理层,每个第三处理层包括s个级联的第二卷积层,p、v和s均是大于或等于1的整数。
[0242]
根据本公开的实施例,第三获得模块可以包括第五获得子模块、第六获得子模块、第七获得子模块和第八获得子模块。
[0243]
第五获得子模块,用于分别利用p个并联的第二处理层组合处理第n层级的通道权重特征图,得到与p个并联的第二处理层组合各自对应的第三中间特征图。
[0244]
第六获得子模块,用于根据与p个并联的第二处理层组合各自对应的第三中间特征图,得到第n层级的第二门控图。
[0245]
第七获得子模块,用于根据第n层级的通道权重特征图和第二门控图,得到第n层级的第四中间特征图。
[0246]
第八获得子模块,用于根据第n层级的通道权重特征图和第四中间特征图,得到第n层级的细粒度特征图。
[0247]
根据本公开的实施例,第i个粗粒度层单元包括t个级联的空洞卷积层。不同空间卷积层的卷积扩张率不同。t是大于或等于1的整数。
[0248]
根据本公开的实施例,第四获得模块可以包括第九获得子模块和第十获得子模块。
[0249]
第九获得子模块,用于利用第i层级的t个级联的空洞卷积层处理第i层级的第一下采样特征图,得到第i层级的第三门控图。
[0250]
第十获得子模块,用于将第i层级的第一下采样特征图和第三门控图进行点乘处理,得到第i层级的第一粗粒度特征图。
[0251]
根据本公开的实施例,上述文本图像矫正装置500还可以包括第五获得模块。
[0252]
第五获得模块,用于对矫正后文本图像进行文本识别,得到文本识别结果。
[0253]
图6示意性示出了根据本公开实施例的文本图像矫正模型的训练装置的框图。
[0254]
如图6所示,文本图像矫正模型的训练装置600可以包括第六获得模块、第七获得模块和第八获得模块。
[0255]
第六获得模块,用于基于门控策略,对待矫正样本文本图像进行多个第一层级处理,得到多个层级各自的样本特征图。每个样本特征图包括与待矫正样本文本图像相关的文本结构性特征,门控策略用于增加文本结构性特征的关注度。
[0256]
第七获得模块,用于对多个层级各自的样本特征图进行多个第二层级处理,得到多个层级各自的预测结果。
[0257]
第八获得模块,用于利用多个层级各自的预测结果和真实结果训练预定模型,得到文本图像矫正模型。
[0258]
根据本公开的实施例,第八获得模块可以包括第十一获得子模块、调整子模块和确定子模块。
[0259]
第十一获得子模块,用于基于回归损失函数,利用多个层级各自的预测结果和真实结果,得到输出值。
[0260]
调整子模块,用于根据输出值调整预定模型的模型参数,直至满足预定条件。
[0261]
确定子模块,用于将在满足预定条件的情况下得到的预定模型确定为文本图像矫正模型。
[0262]
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
[0263]
根据本公开的实施例,一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如上所述的方法。
[0264]
根据本公开的实施例,一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行如上所述的方法。
[0265]
根据本公开的实施例,一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如上所述的方法。
[0266]
图7示意性示出了根据本公开实施例的适于实现文本图像矫正方法和文本图像矫正模型的训练方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0267]
如图7所示,电子设备700包括计算单元701,其可以根据存储在只读存储器(rom)702中的计算机程序或者从存储单元708加载到随机访问存储器(ram)703中的计算机程序,来执行各种适当的动作和处理。在ram 703中,还可存储电子设备700操作所需的各种程序和数据。计算单元701、rom 702以及ram 703通过总线704彼此相连。输入/输出(i/o)接口705也连接至总线704。
[0268]
电子设备700中的多个部件连接至i/o接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以
及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许电子设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0269]
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如文本图像矫正方法或文本图像矫正模型的训练方法。例如,在一些实施例中,文本图像矫正方法或文本图像矫正模型的训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由rom 702和/或通信单元709而被载入和/或安装到电子设备700上。当计算机程序加载到ram 703并由计算单元701执行时,可以执行上文描述的文本图像矫正方法或文本图像矫正模型的训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文本图像矫正方法或文本图像矫正模型的训练方法。
[0270]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、复杂可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0271]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0272]
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0273]
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的
反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0274]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
[0275]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以是分布式系统的服务器,或者是结合了区块链的服务器。
[0276]
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
[0277]
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1