图像识别、模型训练方法和装置与流程

文档序号：28418850发布日期：2022-01-11 20:48阅读：168来源：国知局

1.本发明涉及互联网技术领域，具体而言，涉及一种图像识别、模型训练方法和装置。

背景技术：

2.目前业内主流的ocr流程中，先通过文字检测模型将文字区域检测出来，再输入到文字识别模型中进行文字识别。而目前主流的文字识别模型主要基于编码-解码框架(encoder-decoder)，具体步骤如下：
3.(1)将原先的文字区域图像调整大小(resize)至w*h。
4.(2)通过一个卷积神经网络(cnn)进行特征提取，输出的特征图(feature map)大小一般为w'*1。
5.(3)将这个特征图通过循环神经网络(rnn，lstm)进行上下文的特征提取与编码，得到的特征为一个序列特征，{c_1,c_2,...,c_{|w'|}}。
6.(4)在每一个时刻，通过(带有注意力机制的)序列解码网络。在每一个时刻，lstm输出当前时刻的隐状态h_t。由这个隐状态，再通过一层的全连接层(fc)，输出词汇表中每个单词的概率：
7.y'_t＝argmaxsoftmax(w*h_t)
8.其中，w是将隐向量映射到词汇表的变换矩阵，softmax是softmax函数，argmax是取最大值函数。最后，我们选取概率最大的字符作为当前时刻预测的字符。上述模型示意图图1所示，图1是现有技术的文字识别模型的示意图：
9.目前上述的方案中，在模型训练时，在时刻t(t从0到一个设置的最大的time-steps)，由当前t时刻lstm单元输出状态的隐状态h_t来输出词汇表中每个单词的概率y'_t。通过当前时刻的ground truth的单词组成的one-hot向量y，计算得到当前时刻的交叉熵损失(cross entropy loss)loss_{h_t}。再用这个损失，通过梯度下降法去优化模型，梯度的计算方式如图1所示。
10.针对上述由于现有技术对整个词汇预测的正确性在ocr模型的训练中未纳入到模型训练中，导致训练阶段和测试阶段的优化目标不一致，识别性能降低的问题，目前尚未提出有效的解决方案。

技术实现要素：

11.本发明实施例提供了一种图像识别、模型训练方法和装置，以至少解决由于现有技术对整个词汇预测的正确性在ocr模型的训练中未纳入到模型训练中，导致训练阶段和测试阶段的优化目标不一致，识别性能降低的技术问题。
12.根据本发明实施例的一个方面，提供了一种图像识别方法，包括：获取待识别图像中的字符串；获取字符串的编辑距离，其中，编辑距离作为奖惩函数；依据奖惩函数对字符串进行策略梯度计算，得到识别文本。
13.可选的，获取字符串的编辑距离，并将编辑距离作为奖惩函数包括：获取训练集中每张图像被采样的概率、基于待识别图像得到字符串的概率和字符串的奖赏值；依据每张图像被采样的概率、基于待识别图像得到字符串的概率和字符串的奖赏值进行期望计算，得到奖惩函数。
14.可选的，依据奖惩函数对字符串进行策略梯度计算，得到识别文本包括：依据预设采样算法和奖惩函数对字符串进行采样，得到第一识别文本；将第一识别文本进行策略梯度计算，得到梯度值；依据梯度值对第一识别文本进行优化，得到第二识别文本；将第二识别文本确定为识别文本。
15.可选的，在获取字符串的编辑距离之前，该方法还包括：对待识别图像进行裁剪和调整图像的大小；对裁剪和调整图像的大小后的待识别图像进行编码，得到编码后的字符串；对编码后的字符串进行解码，得到解码后的字符串。
16.进一步地，可选的，对待识别图像进行裁剪和调整图像的大小包括：对待识别图像进行裁剪和调整图像的大小，获取待识别图像中的字符串的高和宽。
17.可选的，对编码后的字符串进行解码，得到解码后的字符串包括：通过神经网络对编码后的字符串进行解码，将解码后的字符串。
18.根据本发明实施例的另一方面，还提供了一种模型训练方法，包括：获取待识别图像中字符串的编辑距离；依据编辑距离和字符串进行策略梯度计算，得到梯度值；依据梯度值对文字识别网络模型进行训练，得到优化后的文字识别网络。
19.可选的，依据编辑距离和字符串进行策略梯度计算，得到梯度值包括：依据编辑距离和字符串计算字符串的奖赏值；依据奖赏值计算字符串对应的期望值；通过预设采样算法对字符串进行采采样，并结合期望值计算梯度，得到梯度值。
20.进一步地，可选的，依据梯度值对文字识别网络模型进行训练，得到优化后的文字识别网络包括：依据梯度值以及梯度值的计算公式，对文字识别网络模型进行训练，得到优化后的文字识别网络。
21.根据本发明实施例的又一方面，还提供了一种图像识别方法，包括：获取待识别图像中的字符串；获取字符串的编辑距离，其中，编辑距离作为奖惩函数；依据奖惩函数对字符串进行策略梯度计算，得到识别文本；展示识别文本；接收依据识别文本返回的用户意见信息；依据用户意见信息优化识别文本。
22.根据本发明实施例的另一方面，还提供了一种图像识别装置，包括：第一获取模块，用于获取待识别图像中的字符串；第二获取模块，用于获取字符串的编辑距离，其中，编辑距离作为奖惩函数；识别模块，用于依据奖惩函数对字符串进行策略梯度计算，得到识别文本。
23.根据本发明实施例的另一方面，还提供了一种模型训练装置，包括：获取模块，用于获取待识别图像中字符串的编辑距离；计算模块，用于依据编辑距离和字符串进行策略梯度计算，得到梯度值；训练模块，用于依据梯度值对文字识别网络模型进行训练，得到优化后的文字识别网络。
24.根据本发明实施例的又一方面，还提供了一种图像识别装置，包括：第一获取模块，用于获取待识别图像中的字符串；第二获取模块，用于获取字符串的编辑距离，其中，编辑距离作为奖惩函数；识别模块，用于依据奖惩函数对字符串进行策略梯度计算，得到识别
文本；展示模块，用于展示识别文本；接收模块，用于接收依据识别文本返回的用户意见信息；优化模块，用于依据用户意见信息优化识别文本。根据本发明实施例的另一方面，还提供了一种非易失性存储介质，其中，非易失性存储介质包括存储的程序，其中，在程序运行时控制非易失性存储介质所在设备执行上述方法。
25.根据本发明实施例的另一方面，还提供了一种处理器，其中，处理器用于运行程序，其中，程序运行时执行上述方法。
26.在本发明实施例中，通过获取待识别图像中的字符串；获取字符串的编辑距离，其中，编辑距离作为奖惩函数；依据奖惩函数对字符串进行策略梯度计算，得到识别文本，达到了实现文本识别模型端到端的优化的目的，从而实现了提升识别性能的技术效果，进而解决了由于现有技术对整个词汇预测的正确性在ocr模型的训练中未纳入到模型训练中，导致训练阶段和测试阶段的优化目标不一致，识别性能降低的技术问题。
附图说明
27.此处所说明的附图用来提供对本发明的进一步理解，构成本技术的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：
28.图1是本发明实施例的一种图像识别方法的计算机终端的硬件结构框图；
29.图2是根据本发明实施例一的图像识别方法的流程图；
30.图3是根据本发明实施例一的图像识别方法中字符串识别的流程示意图；
31.图4是根据本发明实施例二的模型训练方法的流程示意图；
32.图5是根据本发明实施例三的图像识别方法的流程示意图；
33.图6是根据本发明实施例四的图像识别装置的示意图；
34.图7是根据本发明实施例五的模型训练装置的示意图；
35.图8是根据本发明实施例六的图像识别装置的示意图。
具体实施方式
36.为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。
37.需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
38.本技术涉及的技术名词：
39.ocr：optical character recognition，光学字符识别
40.cnn：convolution neural network，卷积神经网络
41.rnn：recurrent neural network，循环神经网络
42.lstm：long short-term memory，长短期激记忆神经网络
43.fc：fully connected network，全连接层网络
44.encoder-decoder：编码-解码网络，编解码网络
45.reward function：奖赏函数
46.policy gradient：策略梯度
47.reinforcement learning：强化学习
48.实施例1
49.根据本发明实施例，还提供了一种图像识别方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
50.本技术实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例，图1是本发明实施例的一种图像识别方法的计算机终端的硬件结构框图。如图1所示，计算机终端10可以包括一个或多个(图中仅示出一个)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。
51.存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的图像识别方法对应的程序指令/模块，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的图像识别方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
52.传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(network interface controller，nic)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(radio frequency，rf)模块，其用于通过无线方式与互联网进行通讯。
53.在上述运行环境下，本技术提供了如图2所示的图像识别方法。图2是根据本发明实施例一的图像识别方法的流程图。如图2所示，该方法包括如下步骤：
54.步骤s202，获取待识别图像中的字符串；
55.本技术上述步骤s202中，待识别图像可以包括：平安、市政、交通业务中，需要涉及到海量的摄像头视频数据，其中，摄像头视频数据中除了人、机动车、非机动车等重点需要关注的对象外，还包括许多的文本数据。比如街道中条幅、宣传标语中的文字涉及到维稳治安，交通标志牌的改变涉及到地图中道路数据的及时更新，街道中商铺牌的提取涉及到poi
(兴趣点)数据库的更新，因此，进一步识别分析摄像头点位图像中的文本信息，可以进一步增加城市大脑中的信息维度，进一步提升视频智能分析的水平与效果。
56.本技术实施例中的字符串可以包括：该待识别图像中的文本信息；例如，摄像头点位图中提到的文字，以交通牌中的文字为例，在识别到街边的交通牌中显示有“stop”的情况下，获取到的字符串可以为“s”，“t”，“o”，“p”。
57.步骤s204，获取字符串的编辑距离，其中，编辑距离作为奖惩函数；
58.本技术上述步骤s204中，本技术实施例中获取字符串的编辑距离可以通过如下方式得到：
59.(1)汉明距离(hamming distance)：指两个字符串对应位置的不同字符的个数，即将一个字符串变换成另外一个字符串所需要替换的字符个数。
60.(2)莱文斯坦距离(levenshtein distance)：指两个字串之间，由一个转成另一个所需的最少编辑操作次数。允许的编辑操作包括：将一个字符替换成另一个字符、插入一个字符、删除一个字符。
61.(3)最长公共子序列(longest common subsequence)：指在一个序列集合中(通常为两个序列)，所有序列中最长子序列。
62.除了上述所列举的三种衡量两个字符序列之间的编辑距离的方法之外，还有诸如damerau-levenshtein距离、jaro-winkler距离等等衡量方式。
63.通过上述任意一种编辑距离的计算算法，由于编辑距离损失是不可微的，引入强化学习中的策略梯度算法，对模型进行端到端的优化。通过把编辑距离当做奖惩函数，即reward function。最终目标是使得奖励最大，即使得训练集中的训练样本的编辑距离之和最小，为了能够奖赏函数最大，通过取个负号，那么目标转换成为使得负的编辑距离之和最大。
64.在一种可实现的方式中，获取字符串的编辑距离，并将编辑距离作为奖惩函数包括：获取训练集中每张图像被采样的概率、基于待识别图像得到字符串的概率和字符串的奖赏值；依据每张图像被采样的概率、基于待识别图像得到字符串的概率和字符串的奖赏值进行期望计算，得到奖惩函数。
65.其中，获取训练集中每张图像被采样的概率可以记作p(i)；基于待识别图像得到字符串的概率可以记作p(s
pred
|i)，即，在图像i的情况下，得到句子s
pred
的概率；识别出字符串的奖赏值可以记作r(i,s
pred
)。
66.以字符串“s”，“t”，“o”，“p”为例，依据p(i)，p(s
pred
|i)和r(i,s
pred
)进行计算，得到字符串所得到的奖赏值，进而得到奖惩函数。
67.具体的，在本技术实施例中目标是寻求一组网络参数θ
*
，该参数能够使得最终得到的奖赏最大化，奖赏(即，本技术实施例中的奖惩函数)的计算过程如公式(1)，公式(1)如下：
[0068][0069][0070]
步骤s206，依据奖惩函数对字符串进行策略梯度计算，得到识别文本。
[0071]
在一种可实现的方式中，依据奖惩函数对字符串进行策略梯度计算，得到识别文
本包括：依据预设采样算法和奖惩函数对字符串进行采样，得到第一识别文本；将第一识别文本进行策略梯度计算，得到梯度值；依据梯度值对第一识别文本进行优化，得到第二识别文本；将第二识别文本确定为识别文本。
[0072]
其中，依据步骤s204中依据该字符串所得的奖赏值得到的奖惩函数计算期望，具体的，将计算奖惩函数和期望进行合并，同时因为如果要计算这个期望的真值，需要进行穷举，计算出每张图像下所有可能识别生成的文本，本技术实施例中通过蒙特卡洛采样算法，采样得到识别文本(即，本技术实施例中的第一识别文本)；
[0073]
将第一识别文本进行策略梯度计算，得到梯度值具体包括：
[0074]
依据上述公式(1)计算期望可以得到(2)，公式(2)具体如下：
[0075][0076]
基于公式(2)将计算奖惩函数和期望进行合并，通过公式(3)，同时因为如果要计算这个期望的真值，需要进行穷举，计算出每张图像下所有可能识别生成的文本，本技术实施例中通过蒙特卡洛采样算法，采样得到识别文本(即，本技术实施例中的第一识别文本)；在本技术实施例中公式(3)具体如下：
[0077][0078]
在得到最大奖惩函数的近似形式之后，计算梯度，计算过程如公式(4)和(5)，公式(4)和(5)如下：
[0079][0080][0081]
依据公式(4)和(5)计算梯度值，进而依据梯度值对文字识别网络模型进行端到端的训练与优化，得到第二识别文本，并依据第二识别文本确定识别文本。
[0082]
在本发明实施例中，通过获取待识别图像中的字符串；获取字符串的编辑距离，其中，编辑距离作为奖惩函数；依据奖惩函数对字符串进行策略梯度计算，得到识别文本，达到了实现文本识别模型端到端的优化的目的，从而实现了提升识别性能的技术效果，进而解决了由于现有技术对整个词汇预测的正确性在ocr模型的训练中未纳入到模型训练中，导致训练阶段和测试阶段的优化目标不一致，识别性能降低的技术问题。
[0083]
可选的，在步骤s204中获取字符串的编辑距离之前，该方法还包括：对待识别图像进行裁剪和调整图像的大小；对裁剪和调整图像的大小后的待识别图像进行编码，得到编码后的字符串；对编码后的字符串进行解码，得到解码后的字符串。
[0084]
进一步地，可选的，对待识别图像进行裁剪和调整图像的大小包括：对待识别图像进行裁剪和调整图像的大小，获取待识别图像中的字符串的高和宽。
[0085]
可选的，对编码后的字符串进行解码，得到解码后的字符串包括：通过神经网络对编码后的字符串进行解码，将解码后的字符串。
[0086]
具体的，图3是根据本发明实施例一的图像识别方法中字符串识别的流程示意图，如图3所示，对待识别图像进行裁剪和调整图像的大小，得到裁剪后的待识别图像，其中，图像的大小通过高和宽标记(如图3中所示的h和w)，通过卷积计算，对裁剪和调整图像的大小后的待识别图像进行编码，得到编码后的字符串，通过lstm神经网络进行解码，得到解码后
的字符串(如图3中所示的“s”，“t”，“o”，“p”)，基于上述步骤s202至步骤s206中进入的策略梯度算法，突破条目识别率(编辑距离)不可导的限制，同时也不受编辑距离具体数学形式的影响，实现文本识别模型端到端的优化。
[0087]
本技术实施例提供的图像识别方法将文本识别率(编辑距离)，融入到先进主流的文本识别模型中的训练中。并且，通过引入强化学习中策略梯度的算法，可以不受编辑距离具体计算形式(数学计算公式)的影响，解决编辑距离不可导的问题，实现模型端到端的优化。
[0088]
实施例2
[0089]
根据本发明实施例的另一方面，还提供了一种模型训练方法，图4是根据本发明实施例二的模型训练方法的流程示意图，如图4所示，包括：
[0090]
步骤s402，获取待识别图像中字符串的编辑距离；
[0091]
本技术实施例中获取字符串的编辑距离可以通过如下方式得到：
[0092]
(1)汉明距离(hamming distance)：指两个字符串对应位置的不同字符的个数，即将一个字符串变换成另外一个字符串所需要替换的字符个数。
[0093]
(2)莱文斯坦距离(levenshtein distance)：指两个字串之间，由一个转成另一个所需的最少编辑操作次数。允许的编辑操作包括：将一个字符替换成另一个字符、插入一个字符、删除一个字符。
[0094]
(3)最长公共子序列(longest common subsequence)：指在一个序列集合中(通常为两个序列)，所有序列中最长子序列。
[0095]
除了上述所列举的三种衡量两个字符序列之间的编辑距离的方法之外，还有诸如damerau-levenshtein距离、jaro-winkler距离等等衡量方式。
[0096]
通过上述任意一种编辑距离的计算算法，由于编辑距离损失是不可微的，引入强化学习中的策略梯度算法，对模型进行端到端的优化。通过把编辑距离当做奖惩函数，即reward function。最终目标是使得奖励最大，即使得训练集中的训练样本的编辑距离之和最小，为了能够奖赏函数最大，通过取个负号，那么目标转换成为使得负的编辑距离之和最大。
[0097]
步骤s404，依据编辑距离和字符串进行策略梯度计算，得到梯度值；
[0098]
在一种可实现的方式中，依据编辑距离和字符串进行策略梯度计算，得到梯度值包括：依据编辑距离和字符串计算字符串的奖赏值；依据奖赏值计算字符串对应的期望值；通过预设采样算法对字符串进行采采样，并结合期望值计算梯度，得到梯度值。
[0099]
在一种可实现的方式中，获取字符串的编辑距离，并将编辑距离作为奖惩函数包括：获取训练集中每张图像被采样的概率、基于待识别图像得到字符串的概率和字符串的奖赏值；依据每张图像被采样的概率、基于待识别图像得到字符串的概率和字符串的奖赏值进行期望计算，得到奖惩函数。
[0100]
其中，获取训练集中每张图像被采样的概率可以记作p(i)；基于待识别图像得到字符串的概率可以记作p(s
pred
|i)，即，在图像i的情况下，得到句子s
pred
的概率；识别出字符串的奖赏值可以记作r(i,s
pred
)。
[0101]
以字符串“s”，“t”，“o”，“p”为例，依据p(i)，p(s
pred
|i)和r(i,s
pred
)进行计算，得到字符串所得到的奖赏值，进而得到奖惩函数。
[0102]
具体的，在本技术实施例中目标是寻求一组网络参数θ
*
，该参数能够使得最终得到的奖赏最大化，奖赏(即，本技术实施例中的奖惩函数)的计算过程如公式(1)，公式(1)如下：
[0103][0104][0105]
依据该字符串所得的奖赏值得到的奖惩函数计算期望，具体的，将计算奖惩函数和期望进行合并，同时因为如果要计算这个期望的真值，需要进行穷举，计算出每张图像下所有可能识别生成的文本，本技术实施例中通过蒙特卡洛采样算法，采样得到识别文本(即，本技术实施例中的第一识别文本)；
[0106]
将第一识别文本进行策略梯度计算，得到梯度值具体包括：
[0107]
依据上述公式(1)计算期望可以得到(2)，公式(2)具体如下：
[0108][0109]
基于公式(2)将计算奖惩函数和期望进行合并，通过公式(3)，同时因为如果要计算这个期望的真值，需要进行穷举，计算出每张图像下所有可能识别生成的文本，本技术实施例中通过蒙特卡洛采样算法，采样得到识别文本(即，本技术实施例中的第一识别文本)；在本技术实施例中公式(3)具体如下：
[0110][0111]
在得到最大奖惩函数的近似形式之后，计算梯度，计算过程如公式(4)和(5)，公式(4)和(5)如下：
[0112][0113][0114]
依据公式(4)和(5)计算梯度值，进而依据梯度值对文字识别网络模型进行端到端的训练与优化。
[0115]
步骤s406，依据梯度值对文字识别网络模型进行训练，得到优化后的文字识别网络。
[0116]
在一种可实现的方式中，依据梯度值对文字识别网络模型进行训练，得到优化后的文字识别网络包括：依据梯度值以及梯度值的计算公式，对文字识别网络模型进行训练，得到优化后的文字识别网络。
[0117]
具体的，基于步骤s404中的公式(4)和(5)对文字识别网络模型进行端到端的训练与优化，得到优化后的文字识别网络。
[0118]
在本发明实施例中，通过获取待识别图像中字符串的编辑距离；依据编辑距离和字符串进行策略梯度计算，得到梯度值；依据梯度值对文字识别网络模型进行训练，得到优化后的文字识别网络，达到了实现文本识别模型端到端的优化的目的，从而实现了提升识别性能的技术效果，进而解决了由于现有技术对整个词汇预测的正确性在ocr模型的训练中未纳入到模型训练中，导致训练阶段和测试阶段的优化目标不一致，识别性能降低的技术问题。
[0119]
实施例3
[0120]
根据本发明实施例的又一方面，还提供了一种图像识别方法，图5是根据本发明实施例三的图像识别方法的流程示意图，如图5所示，本技术实施例提供的图像识别方法包括：
[0121]
步骤s501，获取待识别图像中的字符串；
[0122]
本技术上述步骤s501中，待识别图像可以包括：平安、市政、交通业务中，需要涉及到海量的摄像头视频数据，其中，摄像头视频数据中除了人、机动车、非机动车等重点需要关注的对象外，还包括许多的文本数据。比如街道中条幅、宣传标语中的文字涉及到维稳治安，交通标志牌的改变涉及到地图中道路数据的及时更新，街道中商铺牌的提取涉及到poi(兴趣点)数据库的更新，因此，进一步识别分析摄像头点位图像中的文本信息，可以进一步增加城市大脑中的信息维度，进一步提升视频智能分析的水平与效果。
[0123]
本技术实施例中的字符串可以包括：该待识别图像中的文本信息；例如，摄像头点位图中提到的文字，以交通牌中的文字为例，在识别到街边的交通牌中显示有“stop”的情况下，获取到的字符串可以为“s”，“t”，“o”，“p”。
[0124]
如图5所示，本技术实施例提供的图像识别方法可以应用于图像识别系统。
[0125]
步骤s502，获取字符串的编辑距离，其中，编辑距离作为奖惩函数；
[0126]
本技术上述步骤s502中，本技术实施例中获取字符串的编辑距离可以通过如下方式得到：
[0127]
(1)汉明距离(hamming distance)：指两个字符串对应位置的不同字符的个数，即将一个字符串变换成另外一个字符串所需要替换的字符个数。
[0128]
(2)莱文斯坦距离(levenshtein distance)：指两个字串之间，由一个转成另一个所需的最少编辑操作次数。允许的编辑操作包括：将一个字符替换成另一个字符、插入一个字符、删除一个字符。
[0129]
(3)最长公共子序列(longest common subsequence)：指在一个序列集合中(通常为两个序列)，所有序列中最长子序列。
[0130]
除了上述所列举的三种衡量两个字符序列之间的编辑距离的方法之外，还有诸如damerau-levenshtein距离、jaro-winkler距离等等衡量方式。
[0131]
通过上述任意一种编辑距离的计算算法，由于编辑距离损失是不可微的，引入强化学习中的策略梯度算法，对模型进行端到端的优化。通过把编辑距离当做奖惩函数，即reward function。最终目标是使得奖励最大，即使得训练集中的训练样本的编辑距离之和最小，为了能够奖赏函数最大，通过取个负号，那么目标转换成为使得负的编辑距离之和最大。
[0132]
在一种可实现的方式中，获取字符串的编辑距离，并将编辑距离作为奖惩函数包括：获取训练集中每张图像被采样的概率、基于待识别图像得到字符串的概率和字符串的奖赏值；依据每张图像被采样的概率、基于待识别图像得到字符串的概率和字符串的奖赏值进行期望计算，得到奖惩函数。
[0133]
其中，获取训练集中每张图像被采样的概率可以记作p(i)；基于待识别图像得到字符串的概率可以记作p(s
pred
|i)，即，在图像i的情况下，得到句子s
pred
的概率；识别出字符串的奖赏值可以记作r(i,s
pred
)。
[0134]
以字符串“s”，“t”，“o”，“p”为例，依据p(i)，p(s
pred
|i)和r(i,s
pred
)进行计算，得到字符串所得到的奖赏值，进而得到奖惩函数。
[0135]
具体的，在本技术实施例中目标是寻求一组网络参数θ
*
，该参数能够使得最终得到的奖赏最大化，奖赏(即，本技术实施例中的奖惩函数)的计算过程如公式(1)，公式(1)如下：
[0136][0137][0138]
步骤s503，依据奖惩函数对字符串进行策略梯度计算，得到识别文本；
[0139]
在一种可实现的方式中，依据奖惩函数对字符串进行策略梯度计算，得到识别文本包括：依据预设采样算法和奖惩函数对字符串进行采样，得到第一识别文本；将第一识别文本进行策略梯度计算，得到梯度值；依据梯度值对第一识别文本进行优化，得到第二识别文本；将第二识别文本确定为识别文本。
[0140]
其中，依据步骤s502中依据该字符串所得的奖赏值得到的奖惩函数计算期望，具体的，将计算奖惩函数和期望进行合并，同时因为如果要计算这个期望的真值，需要进行穷举，计算出每张图像下所有可能识别生成的文本，本技术实施例中通过蒙特卡洛采样算法，采样得到识别文本(即，本技术实施例中的第一识别文本)；
[0141]
将第一识别文本进行策略梯度计算，得到梯度值具体包括：
[0142]
依据上述公式(1)计算期望可以得到(2)，公式(2)具体如下：
[0143][0144]
基于公式(2)将计算奖惩函数和期望进行合并，通过公式(3)，同时因为如果要计算这个期望的真值，需要进行穷举，计算出每张图像下所有可能识别生成的文本，本技术实施例中通过蒙特卡洛采样算法，采样得到识别文本(即，本技术实施例中的第一识别文本)；在本技术实施例中公式(3)具体如下：
[0145][0146]
在得到最大奖惩函数的近似形式之后，计算梯度，计算过程如公式(4)和(5)，公式(4)和(5)如下：
[0147][0148][0149]
依据公式(4)和(5)计算梯度值，进而依据梯度值对文字识别网络模型进行端到端的训练与优化，得到第二识别文本，并依据第二识别文本确定识别文本。
[0150]
步骤s504，展示识别文本；
[0151]
本技术上述步骤s504中，向用户展示步骤s503中得到的识别文本，以使得用户根据该识别文本反馈是否满足图像识别需求，进而执行步骤s505。
[0152]
步骤s505，接收依据识别文本返回的用户意见信息；
[0153]
本技术上述步骤s505中，在步骤s504向用户展示识别文本后，如图5所示，本技术实施例提供的图像识别方法在图像识别系统侧，图像识别系统接收用户通过使用的客户端
根据该识别文本返回的用户意见信息，其中，该用户意见信息用于指示当前识别文本是否满足用户当前图像处理任务需求，以使得提升后续图像识别性能。
[0154]
步骤s506，依据用户意见信息优化识别文本。
[0155]
本技术上述步骤s506中，基于步骤s505中得到的用户意见信息对步骤s503中的识别文本作进一步地优化，以使得最终得到的优化后的识别文本更符合图像处理任务需求。
[0156]
其中，本技术实施例中的图像识别系统可以为由多组服务器组成的具备图像数据处理功能的服务器集群，也可以为单独的具备神经网络的计算终端，本技术实施例中图像识别系统以具备神经网络的计算终端为例进行说明，以实现本技术实施例提供的图像识别方法为准，具体不做限定。
[0157]
在本发明实施例中，通过获取待识别图像中的字符串；获取字符串的编辑距离，其中，编辑距离作为奖惩函数；依据奖惩函数对字符串进行策略梯度计算，得到识别文本；展示识别文本；接收依据识别文本返回的用户意见信息；依据用户意见信息优化识别文本，达到了实现文本识别模型端到端的优化的目的，从而实现了提升识别性能的技术效果，进而解决了由于现有技术对整个词汇预测的正确性在ocr模型的训练中未纳入到模型训练中，导致训练阶段和测试阶段的优化目标不一致，识别性能降低的技术问题。
[0158]
需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。
[0159]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的图像识别方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。
[0160]
实施例4
[0161]
根据本发明实施例，还提供了一种用于实施上述图像识别方法的装置，图6是根据本发明实施例四的图像识别装置的示意图，如图6所示，该装置包括：第一获取模块62，用于获取待识别图像中的字符串；第二获取模块64，用于获取字符串的编辑距离，其中，编辑距离作为奖惩函数；识别模块66，用于依据奖惩函数对字符串进行策略梯度计算，得到识别文本。
[0162]
实施例5
[0163]
根据本发明实施例的另一方面，还提供了一种模型训练装置，图7是根据本发明实施例五的模型训练装置的示意图，如图7所示，包括：获取模块72，用于获取待识别图像中字符串的编辑距离；计算模块74，用于依据编辑距离和字符串进行策略梯度计算，得到梯度值；训练模块76，用于依据梯度值对文字识别网络模型进行训练，得到优化后的文字识别网络。
[0164]
实施例6
[0165]
根据本发明实施例的又一方面，还提供了一种图像识别装置，图8是根据本发明实施例六的图像识别装置的示意图，如图8所示，包括：第一获取模块81，用于获取待识别图像中的字符串；第二获取模块82，用于获取字符串的编辑距离，其中，编辑距离作为奖惩函数；识别模块83，用于依据奖惩函数对字符串进行策略梯度计算，得到识别文本；展示模块84，用于展示识别文本；接收模块85，用于接收依据识别文本返回的用户意见信息；优化模块86，用于依据用户意见信息优化识别文本。
[0166]
实施例7
[0167]
根据本发明实施例的另一方面，还提供了一种非易失性存储介质，其中，非易失性存储介质包括存储的程序，其中，在程序运行时控制非易失性存储介质所在设备执行上述实施例1至3中任意一个所述的方法。
[0168]
实施例8
[0169]
根据本发明实施例的另一方面，还提供了一种处理器，其中，处理器用于运行程序，其中，程序运行时执行上述实施例1至3中任意一个所述的方法。
[0170]
实施例9
[0171]
本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例一所提供的图像识别方法所执行的程序代码。
[0172]
可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。
[0173]
可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取待识别图像中的字符串；获取字符串的编辑距离，其中，编辑距离作为奖惩函数；依据奖惩函数对字符串进行策略梯度计算，得到识别文本。
[0174]
可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取字符串的编辑距离，并将编辑距离作为奖惩函数包括：获取训练集中每张图像被采样的概率、基于待识别图像得到字符串的概率和字符串的奖赏值；依据每张图像被采样的概率、基于待识别图像得到字符串的概率和字符串的奖赏值进行期望计算，得到奖惩函数。
[0175]
可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：依据奖惩函数对字符串进行策略梯度计算，得到识别文本包括：依据预设采样算法和奖惩函数对字符串进行采样，得到第一识别文本；将第一识别文本进行策略梯度计算，得到梯度值；依据梯度值对第一识别文本进行优化，得到第二识别文本；将第二识别文本确定为识别文本。
[0176]
可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：在获取字符串的编辑距离之前，该方法还包括：对待识别图像进行裁剪和调整图像的大小；对裁剪和调整图像的大小后的待识别图像进行编码，得到编码后的字符串；对编码后的字符串进行解码，得到解码后的字符串。
[0177]
进一步地，可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：对待识别图像进行裁剪和调整图像的大小包括：对待识别图像进行裁剪和调整图像的大小，获取待识别图像中的字符串的高和宽。
[0178]
可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：对编码后的字符串进行解码，得到解码后的字符串包括：通过神经网络对编码后的字符串进
行解码，将解码后的字符串。
[0179]
上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
[0180]
在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
[0181]
在本技术所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。
[0182]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0183]
另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0184]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0185]
以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈新鹏;陈静远;夏亮;刘袁
技术所有人：阿里巴巴集团控股有限公司
我是此专利的发明人

上一篇：一种急诊科护理用催吐装置的制作方法
上一篇：包含失配校正方案的实例的无线装置和系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。