1.本发明涉及计算机智能识别技术领域,尤其涉及的是,一种基于自动机器学习中神经网络搜索的文本识别方法。
背景技术:2.随着技术的发展,现有技术的计算机信息技术领域中,自然场景文本识别算法可被分为预处理校正模块(rectification module)、图片特征提取模块(backbone)和特征预测转录模块(feature translator module)三大部分。
3.由于相机的拍摄角度与设备抖动等因素,文本常常出现形变。预处理校正模块负责将这种不规则文本纠正为水平文本,降低后续识别网络的识别难度;图片特征提取模块负责将水平的文本图像提取得到特征向量;特征预测转录模块负责将编码得到的高维特征向量解码得到识别目标序列。现有研究方法往往针对校正模块和转录模块进行改进,而忽略特征提取模块。
4.但是实际过程中,图片信息特征提取模块对文本识别的结果会产生较大的影响,而且该模块的计算量和存储负担在整个文本识别识别框架中所占有的比重较大。因此,无论是为了提升算法识别精度还是提升模型效率上,特征提取模块的设计也很重要。
5.特征提取模块对输入的图片较敏感,现有手工设计的模块需要经过大量实验调整参数,以适配不同的应用场景。自动机器学习中神经网络结构搜索在近年来得到迅猛发展,它的核心是通过自动化搜索,具有针对性地设计符合各类任务的网络结构与模块,达到解放人力,节省时间与计算资源的目的。
6.相比于传统的人工结构设计,基于自动机器学习中的神经网络搜索技术设计场景文字识别网络能够综合考虑精度与效率的需求。它需要研究人员设计良好的网络搜索空间,并选取一组基本的候选操作。在定义完网络空间后,如何挑选合适的搜索算法也十分关键。
技术实现要素:7.针对上述现有技术的问题和缺陷,本发明提供一种基于自动机器学习中神经网络搜索的文本识别方法,围绕场景文字识别和神经网络结构搜索的结合展开,重点包括基于特征提取模块的搜索空间设计,以及基于强化学习与可微分结合的双阶段搜索算法设计,能够在较短时间内搜索得到一个良好的特征提取模块,进而提高场景文本识别的指标。
8.本发明的技术方案如下:
9.一种基于自动机器学习中神经网络搜索的文本识别方法,采用文本图片预处理,特征提取模块空间结构设计,双层神经网络搜索算法,特征提取和预测四个步骤;
10.s1,文本图片预处理阶段,具体包括文字识别检测、文本区域截取、对图片二值化、图片降噪、文本图片矫正;图片二值化即将图像中所有的像素的灰度值设置为0~255之间,将整张图片呈现出明显的黑白效果,这一步骤可以使得图片变得更简单,且能够突出文字
的轮廓;图片降噪主要是去除图片噪声干扰,减少图像在数字化和传输过程中收到的受成像设备与外部环境噪声干扰;图像矫正为了是将图片中文字摆正,方便识别;
11.s2,特征提取模块空间结构设计,核心是定义搜索空间,对经过预处理后的文本图片采用深度学习模型进行特征提取,特征提取网络用来将矫正后的文本图片映射到高维度向量空间,从而表征原始图片中的文字信息,从而得到用于表示原始文字符号信息的特征向量;
12.s3,双层神经网络搜索算法,采用自动机器学习中高效主干神经网络搜索的方式获得更适合的模型机构和参数,其中包含了特征提取模块空间结构设计和利用强化学习与可微分结构的双层神经网络搜索算法;
13.s4,特征提取和预测,利用自动化搜索的到的特征提取网络进行图片特征提取和预测。
14.在上述技术方案中,针对文字识别任务进行搜索的部分是特征提取模块空间结构设计,其输入是设备采集的原始图像或者经过校正模块纠正后的图像,输出为大小统一的特征向量序列;搜索空间围绕卷积层设计展开,其中包括了卷积的类型与卷积的步长;卷积的类型将由一个候选操作表提供,而卷积的步长则反馈在模型的下采样阶段中。
15.在上述技术方案中,s3步骤中,双层神经网络搜索算法依据搜索空间的设定解耦为两步:基于强化学习的下采样路径搜索和基于可微分的卷积操作方式搜索;
16.对于下采样路径搜索,所有的卷积操作都将被固定成为3*3的残差网络层;具体为:每个下采样位置可与其上下两个位置的卷积块进行互换,基于强化学习的控制器将自动对降采样卷积块的位置进行筛选,为加速网络搜索,使用重参数化的技巧,通过将两个卷积块的参数进行交换映射,达到快速评价候选结构性能的要求;
17.对于卷积操作方式的搜索,采用全可微的优化方法,通过引入有向无环图dag,有效节约显存,解决gpu高内存占用和计算耗时过长的问题,搜索空间被拆分成若干个不同类型的cell,整体网络结构由不同类型的cell 堆叠连接而成,每个cell具有不同的卷积步长。
18.在上述技术方案中,s4步骤中的自动化搜索步骤具体为,:
19.s41.无向图中的各条边的操作权重在alpha矩阵中被随机初始化;
20.s42.根据矩阵参数生成子网络结构进行有限次训练,得到反馈指标;
21.s43.通过双目标优化来联合优化alpha矩阵的参数和神经网络的权重信息;
22.s44.在达到收敛效果后从学习到的混合概率信息中得到最终的网络结构;
23.s45.基于该网络结构重新进行完整的训练;
24.此外,为了有效平衡网络在精度和复杂度上的表现,本发明还引入了一个复杂度约束项,并将其加入损失函数中用来约束搜索过程;复杂度约束项如下所示:
[0025][0026]
l代表网络的层数,c代表卷积操作方式的数量,其余参数代表任务相关的超参数;
[0027]
在通过基于自动机器学习中高效神经网络结构搜索的方式得到特征提取模型后,经过训练,提取得到的特征向量通过全连接层即可得到对应的预测概率结果。
[0028]
采用上述方案,本发明提出了一种基于自动机器学习中神经网络搜索的文本识别方法,使用神经网络结构搜索来搜索与数据相关的序列特征提取,以完成场景文本识别任务,构思巧妙,首先为文本识别问题设计了一个新颖的搜索空间,该搜索空间有效涵盖了卷积的类型与步长。随后我们提出了一种新的两阶段搜索算法,该算法可以有效地搜索特征下采样路径和操作。后续的实验表明,基于本发明方法搜索到的主干网络可以大大提高文本识别网络的性能。
附图说明
[0029]
图1为本发明的一种基于自动机器学习中神经网络搜索的文本识别方法的步骤流程示意图。
[0030]
图2为本发明的一种基于自动机器学习中神经网络搜索的文本识别方法的不同阶段计算资源分配结构示意图。
[0031]
图3为本发明的一种基于自动机器学习中神经网络搜索的文本识别方法的权重alpha矩阵的示意图。
具体实施方式
[0032]
为了便于理解本发明,下面结合附图和具体实施例,对本发明进行更详细的说明。但是,本发明可以采用许多不同的形式来实现,并不限于本说明书所描述的实施例。除非另有定义,本说明书所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本说明书中所使用的术语只是为了描述具体的实施例的目的,不是用于限制本发明。
[0033]
如图1所示,本技术所涉及的一种基于自动机器学习中神经网络搜索的文本识别方法,整个文本识别系统首先通过文本图片预处理阶段,其次是对经过预处理后的文本图片采用深度学习模型进行特征提取,特征提取网络用来将矫正后的文本图片映射到高维度向量空间,从而表征原始图片中的文字信息,从而得到用于表示原始文字符号信息的特征向量。特征提取也是文本识别算法中模型参数最多,结构最复杂的地方,本专利采用自动机器学习中高效主干神经网络搜索的方式获得更适合的模型机构和参数,其中包含了特征提取模块空间结构设计和利用强化学习与可微分结构的双层神经网络搜索算法。最后是利用自动化搜索的到的特征提取网络进行图片特征提取和预测。
[0034]
包含以下步骤:
[0035]
(1)预处理校正模块
[0036]
文本图片预处理包含了对图片二值化,降噪,以及图像矫正等具体内容。图片二值化即将图像中所有的像素的灰度值设置为0~255之间,将整张图片呈现出明显的黑白效果,这一步骤可以使得图片变得更简单,且能够突出文字的轮廓。图片降噪主要是去除图片噪声干扰,减少图像在数字化和传输过程中收到的受成像设备与外部环境噪声干扰。图像矫正为了是将图片中文字摆正,方便识别。
[0037]
(2)特征提取模块空间结构设计
[0038]
神经网络结构搜索的核心是定义搜索空间。本发明针对文字识别任务进行搜索的部分是特征提取模块空间结构设计,其输入是设备采集的原始图像或者经过校正模块纠正
j;立方体的z轴是边e(i,j)所对应的操作op。矩阵中每个位置的数值在经过softmax后可以理解为选择某一项操作的概率。在训练时,根据如下公式得到节点i传递给节点j的信息。
[0046][0047]
(4)特征提取和预测
[0048]
通过以上网络空间结果搜索即可得到最有的特征提取网络结构,整个搜索方法可以概括为以下几步:
[0049]
1.无向图中的各条边的操作权重在alpha矩阵中被随机初始化;
[0050]
2.根据矩阵参数生成子网络结构进行有限次训练,得到反馈指标;
[0051]
3.通过双目标优化来联合优化alpha矩阵的参数和神经网络的权重信息;
[0052]
4.在达到收敛效果后从学习到的混合概率信息中得到最终的网络结构;
[0053]
5.基于该网络结构重新进行完整的训练;
[0054]
此外,为了有效平衡网络在精度和复杂度上的表现,本发明还引入了一个复杂度约束项,并将其加入损失函数中用来约束搜索过程。复杂度约束项如下所示,l代表网络的层数,c代表卷积操作方式的数量,其余参数代表任务相关的超参数。
[0055][0056]
在通过基于自动机器学习中高效神经网络结构搜索的方式得到特征提取模型后,经过训练,提取得到的特征向量通过全连接层即可得到对应的预测概率结果。
[0057]
实施例1
[0058]
下面是本发明的一个具体实施案例:
[0059]
本发明提供了一种基于自动机器学习中神经网络搜索的文本识别方法,具体过程如下:
[0060]
(1)预处理校正模块:
[0061]
首先对发票文本进行二值化、降噪以及图像矫正等操作处理。图片二值化即将图像中所有的像素的灰度值设置为0~255之间,将整张图片呈现出明显的黑白效果,这一步骤可以使得图片变得更简单,且能够突出文字的轮廓。然后将图片送入降噪模块进行处理,主要是去除图片噪声干扰,减少图像在数字化和传输过程中收到的受成像设备与外部环境噪声干扰。最后再使用图像矫正算法图片中文字摆正,方便识别。
[0062]
(2)特征提取模块空间结构设计:
[0063]
其次将上述经过图像预处理后的结果送入特征提取模块,本发明针对文字识别任务进行搜索的部分是特征提取模块空间结构设计,其输入是设备采集的原始图像或者经过校正模块纠正后的图像,输出为大小统一的特征向量序列。搜索空间围绕卷积层设计展开,其中包括了卷积的类型与卷积的步长。依据卷积层的两级拆分,相应的搜索空间被划分为下采样路径搜索空间和操作方式搜索空间。
[0064]
在下采样路径搜索空间中,候选的卷积步长包括三类,即[(2,2),(2,1), (1,1)]。本发明为每层卷积设计了c种不同的卷积操作,表示为opi。不同于手工设计网络中直接使
用相同的卷积操作进行简单的重复堆叠,本发明在每个堆叠层均设置c种候选卷积,使得其可以进行任意搭配,显著扩充了候选的搜索空间。在一个2d搜索空间中,每一行被设置为1的元素连接在一起,即构成了搜索空间中的一种结构配置。搜索的目标是从该2d空间中找到一条有效路径,使得文字识别的效果最优。
[0065]
(3)双层神经网络搜索:
[0066]
针对搜索算法部分,本发明将搜索算法依据搜索空间的设定解耦为两步:基于强化学习的下采样路径搜索和基于可微分的卷积操作方式搜索。
[0067]
对于下采样路径搜索,所有的卷积操作都将被固定成为3*3的残差网络层。基于该相对较优的路径,本发明复用其路径权重,对不同stage中包含的卷积数量基于强化学习进行微调,最终得到最优的下采样路径。具体方案为:每个下采样位置可与其上下两个位置的卷积块进行互换,基于强化学习的控制器(通常被实例化为lstm)将自动对降采样卷积块的位置进行筛选。为加速网络搜索,本发明使用重参数化的技巧,通过将两个卷积块的参数进行交换映射,达到快速评价候选结构性能的要求。
[0068]
对于卷积操作方式的搜索,采用全可微的优化方法,通过引入有向无环图dag,有效节约显存,解决gpu高内存占用和计算耗时过长的问题。
[0069]
(4)特征提取和预测:
[0070]
通过以上网络空间结果搜索即可得到最有的特征提取网络结构。在得到最优的结构后,重新在完整的数据集上重新进行训练得到最终模型并进行预测。
[0071]
需要说明的是,上述各技术特征继续相互组合,形成未在上面列举的各种实施例,均视为本发明说明书记载的范围;并且,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。