本发明涉及人工智能技术领域,特别涉及一种图像中目标文本智能识别方法及系统。
背景技术:
随着互联网及智能终端的普及,以社交网络为基础的互联网应用得到快速发展,成为大众信息交流、数据发布的核心载体,随着社交数据爆炸式增长,数据获取及在此基础上的信息分析与挖掘也随之成为工业界与学界的研究热点。
现有技术图像中文本识别,其大致思路是首先定位图像中的文本区域并对文本区域内容进行ocr识别,然后将要标注的文本内容与识别出的文本内容进行匹配,最后将相匹配的文本区域自动标注到原来的图像中。例如,专利号为申cn111310693a的专利提出了一种图像中文本的智能标注方法,如图3其具体方案为:对包含文本信息的内容进行截图,得到待标注图像;对所述页面中的文本内容进行提取,得到所述页面的目标语言文本,即后续需要在待标注图像中匹配与标注的文本;对所述待标注图像进行光学字符识别,得到对应所述待标注图像的光学字符识别文本;获取所述目标语言文本中与所述光学字符识别文本对应的目标文本;基于所述目标文本,对所述待标注图像进行文本标注,得到图像标注样本。该方法可实现对图像中文本的自动标注,但如图4所示,其仅可以“行”为单位,标注图像中的文本区域,无法精准定位用户感兴趣的单个或几个字符在图像中的位置。
技术实现要素:
针对现有技术存在的不足,本发明的目的是提供一种图像中目标文本智能识别方法及系统,能够精准识别出目标文本并定位其在图像中的位置,计算复杂度低,识别准确率高。
本发明为实现上述目的采用的技术方案是:一种图像中目标文本智能识别方法,包括如下步骤:
s1.获取目标文本的图像,将目标文本由像素点坐标表示,构建像素坐标识别神经网络,通过输入目标文本中所有文字的像素点坐标值对像素坐标识别神经网络进行训练,获得文本自编码模型和目标文本的表述特征;
s2.将待处理图像进行区域划分,得到不同像素值的区域,根据区域的高度值计算可以作为背景区域的区域数量,提取覆盖所述背景区域,剩余区域为前景区域;
s3.利用训练好的文本自编码模型在前景区域中获得待识别的文本的表述特征,将上述待识别的文本的表述特征与期望的目标文本的表述特征进行对比判断,若两者误差达到预设阈值,则识别文字为目标文本。
上述的图像中目标文本智能识别方法,在所述步骤s1中,
(1)建立文字像素点坐标系:先根据用户需求给出需要标注的目标文本的参照图像,以每个文字中经过最左侧像素点的垂直线为y轴,经过最上方像素点的水平线为x轴;然后根据每个文字的像素点分布建立文字像素点坐标系(xr,yr),得到每个文字中像素点的坐标
(2)建立像素坐标识别神经网络模型:通过输入目标文本中所有文字的像素点坐标值
上述的图像中目标文本智能识别方法,所述像素坐标识别神经网络的训练过程包括编码过程和解码过程;所述编码过程如下:根据目标文本中的文字数量r确定输入数据集的维度,输入数据为目标文本所有文字的像素点坐标;每个汉字设定像素点坐标范围为(0,k)×(0,h),每一个连续小区域的坐标值作为输入的矩阵的一行,所有r个汉字排列在一起组成一个矩阵,将像素点坐标以矩阵的形式输入到神经网络:
输入层将降噪处理后的数据outp1发送给映射层。
上述的图像中目标文本智能识别方法,所述映射层将输入的像素点坐标inp2=ω1,2outp1映射到逻辑空间,ω1,2为输入层到映射层的连接权值,映射函数为:
其中,outp2表示映射层每个神经元的输出,ω2表示映射权值,t表示转置,a表示映射因子,用于映射数据,s为像素坐标矩阵中非零数值的数量,
上述的图像中目标文本智能识别方法,所述逻辑层通过逻辑门组合出能够激活神经元的部分区间,提取文字特征,并将激活的部分进行融合;逻辑层输入为inp3=ω2,3outp2,ω2,3为映射层到逻辑层的连接权值;设立逻辑门的控制区间[0,s′],s′≤s,用逻辑门控制当数据落在某个区间时,某些逻辑门被激活,激活函数为:
其中,
构建逻辑门:首先设立开关函数sf:
其中,δaf表示激活阈值,根据实际情况确定或在实验过程中由系统指定;然后通过激活函数构建开关门:
其中,sf(1)表示第1个神经元的开关;然后得到逻辑门:将inp3的第二层信息进行区间划分,每个区间选取最大的值,第一层选取对应的信息;其他的值舍弃,实现特征向量的压缩得到outp3;
所述解码过程为:使用解码的过程将outp3映射为outp4,计算神经网络输出outp4与输入inp1之间的误差,若误差小于预设的误差阈值,则神经网络训练完成,得到文本自编码模型和目标文本的表述特征t=outp3;否则将每一层的参数进行更新,重新训练。
上述的图像中目标文本智能识别方法,在所述步骤s2中,根据图像中的像素值信息对图像进行区域划分,得到不同像素值的区域;统计每个区域中连续像素点纵向数量最大值作为每个区域的高度值,记为mhi,i表示第i个区域;根据每个区域的高度值对区域进行排序,计算可以作为背景区域的区域数量:
noba2=n(mhi<εmin)st.3:mhmin<εmin
其中,noba表示背景区域数量,noba1和noba2分别是不同条件下对应的背景区域数量,mhmax表示所有区域高度值中的最大值,mhmin表示所有区域高度值中的最小值,εmax和εmin分别表示图像中文本所在区域的高度上阈值和下阈值,n(mhi>εmax)表示图像中区域高度值大于文本所在区域的高度上阈值的区域的数量,n(mhi<εmin)表示图像中区域高度值小于文本所在区域的高度下阈值的区域的数量,st.1、st.2、st.3分别表示三个条件。
上述的图像中目标文本智能识别方法,在所述步骤s3中,根据实际情况设定文本范围阈值,根据文本范围阈值将前景区域中大于阈值的区域进行分割;为分割后的前景区域中的每个独立小区域建立若干坐标系,以每个小区域经过最左侧像素点的垂直线为y轴,经过最上方像素点的水平线为x轴,根据每个小区域的像素点分布建立小区域u的像素点坐标系(xu,yu),得到每个小区域中像素点的坐标
上述的图像中目标文本智能识别方法,利用训练好的文本自编码模型在小区域中识别出目标文本,以任意一个小区域为开始,选取r个连续小区域的坐标值,每一行结束后从下一行最左侧开始继续选取,r为目标文本中文字的数量;神经网络的输入为:
其中,任意一个小区域u的坐标输入为
其中,mvd表示小区域中对应的目标文本匹配值,λ表示匹配因子,sf(1)表示第1个神经元的开关,设定第一个小区域的匹配度高于其余r-1个小区域,τ表示判断因子;若匹配值mvd达到预设阈值,则识别出该小区域为目标文本。
本发明还提供一种图像中目标文本智能识别系统,该系统包括如下模块:
坐标获取模块,用于获取目标文本图像中目标文本的像素点坐标;
模型训练模块,用于构建像素坐标识别神经网络,通过输入目标文本中所有文字的像素点坐标值对像素坐标识别神经网络进行训练,计算神经网络输出与输入之间的误差,若误差小于预设的误差阈值,则神经网络训练完成,得到文本自编码模型和目标文本的表述特征;否则将每一层的参数进行更新,重新训练;
区域划分模块,用于对待处理图像进行区域划分,得到不同像素值的区域,并根据区域的高度值计算可作为背景区域的区域数量,提取所述背景区域对其进行覆盖,剩余区域为前景区域;
文本表述特征获取模块,用于利用训练好的文本自编码模型在前景区域中获得待识别的文本的表述特征;
判断模块,用于将所述待识别的文字的表述特征与期望的目标文本的表述特征进行对比判断,若两者误差达到预设阈值,则识别文字为目标文本。
上述的图像中目标文本智能识别系统,还包括如下模块:
优化模块,用于将输入层的数据进行降噪处理;
智能标注模块,用于对识别出的目标文本进行自动标注。
本发明图像中目标文本智能识别方法,与现有技术相比:本发明摒弃传统的仅以“行”为单位标注图像中目标文本区域的做法,通过采用文本自编码模型来识别目标文本,解决了现有技术无法精准定位用户感兴趣的字符在图像中位置的技术问题。
具体的具有如下优点:
(1)本发明的像素坐标识别神经网络通过输入层的降噪处理,减少噪声对数据的影响;通过映射层将数据映射到逻辑空间;通过逻辑层组合逻辑门对激活神经元的区间数据进行压缩,提取数据有效特征得到文本的表述特征,再对其解码得到重构图像;通过显式地建模卷积特征通道之间的相互依赖性自适应地不断优化权重参数来提高网络的表示能力,有效抑制无效特征,提升有效特征的权重,便于从图像中直接、准确的识别出目标文本及定位其位置。
(2)本发明通过提取背景区域最大程度去除非文本背景区域,降低计算复杂度,且避免传统以“行”为单位进行提取的情况。
(3)本发明通过计算小区域内容与目标文本的匹配程度识别是否为目标文本,并结合匹配因子为匹配程度增加容错机制,使得神经网络可以识别不同字体的目标文本,提高标注准确率。
本发明针对数据获取阶段得到的包含文本信息的图像,自动标注其中用户感兴趣内容或帮助用户快速定位图像中其他所关注的非法违规等敏感内容,可在短时间内为文本检测与识别模型提供高质量标注数据,也可应用于非法或敏感内容取证等实际业务场景中,应用广泛,值得被广泛推广应用。
附图说明
图1为本发明智能识别方法实现流程图;
图2为本发明的文本自编码模型构建流程图;
图3为现有技术中标注方法实现流程图;
图4为现有技术中实现效果示例图。
具体实施方式
下面结合附图及具体实施例对本发明做进一步详细说明;
如图1、2所示,一种图像中目标文本智能识别方法,包括如下步骤:
步骤s1:获取目标文本的图像,将目标文本由像素点坐标表示,构建像素坐标识别神经网络,通过输入目标文本中所有文字的像素点坐标值对像素坐标识别神经网络进行训练,获得文本自编码模型和目标文本的表述特征。
具体的,(1)用户根据个人需求给出需要标注的目标文本的参照图像,以每个文字中经过最左侧像素点的垂直线为y轴,经过最上方像素点的水平线为x轴,根据每个文字的像素点分布建立文字像素点坐标系(xr,yr),得到每个文字中像素点的坐标
(2)建立像素坐标识别神经网络,通过输入目标文本中所有文字的像素点坐标值
像素坐标识别神经网络训练过程包括编码过程和解码过程。
进一步的,编码过程如下:
输入层:根据目标文本中的文字数量r确定输入数据集的维度,输入数据为目标文本所有文字的像素点坐标;每个汉字设定像素点坐标范围为(0,k)×(0,h),每一个连续小区域的坐标值作为输入的矩阵的一行,所有r个汉字排列在一起组成一个矩阵,将像素点坐标以矩阵的形式输入到神经网络:
在本实施例中,输入矩阵中没有像素坐标值的位置用(0,0)填充。输入层先对数据进行降噪处理,降噪处理方法采用现有技术,本发明在此不再赘述。输入层将降噪处理后的数据outp1发送给映射层。
进一步的,映射层将输入的像素点坐标inp2=ω1,2outp1映射到逻辑空间,ω1,2为输入层到映射层的连接权值,映射函数为:
其中,outp2表示映射层每个神经元的输出,ω2表示映射权值,t表示转置,a表示映射因子,用于映射数据,s为像素坐标矩阵中非零数值的数量,
进一步的,逻辑层通过逻辑门组合出能够激活神经元的部分区间,提取文字特征,并将激活的部分进行融合;逻辑层输入为inp3=ω2,3outp2,ω2,3为映射层到逻辑层的连接权值;设立逻辑门的控制区间[0,s′],s′≤s,用逻辑门控制当数据落在某个区间时,某些逻辑门被激活,激活函数为:
其中,
构建逻辑门:首先设立开关函数sf:
其中,δaf表示激活阈值,根据实际情况确定或在实验过程中由系统指定;然后通过激活函数构建开关门:
其中,sf(1)表示第1个神经元的开关。
然后得到逻辑门:将inp3的第二层信息进行区间划分,每个区间选取最大的值,第一层选取对应的信息;其他的值舍弃,实现特征向量的压缩得到outp3;优选的,对第二层的信息区域上的(8×8)区间进行划分。
解码过程为:使用解码的过程将outp3映射为outp4,上述outp4的尺寸为原始输入的尺寸。解码的过程采用图像上采样,具体过程如下:
(1)使用单层反卷积神经网络进行上采样,优选的,选用8×8×2的反卷积神经网络;
(2)使用包含2个卷积层的卷积网络,得到输出结果outp4。激活函数选用sigma激活函数。优选的,选用3×3×2的卷积块。
计算神经网络输出outp4与输入inp1之间的误差,若误差小于预设的误差阈值,则神经网络训练完成,得到文本自编码模型和目标文本的表述特征t=outp3;否则将每一层的参数进行更新,重新训练。其中,误差计算方法和参数更新方法均为现有技术,本发明在此不再赘述。
文本自编码模型的有益效果为:像素坐标识别神经网络通过输入层的降噪处理,减少噪声对数据的影响;通过映射层将数据映射到逻辑空间;通过逻辑层组合逻辑门对激活神经元的区间数据进行压缩,提取数据有效特征得到文本的表述特征,再对其解码得到重构图像;通过显式地建模卷积特征通道之间的相互依赖性自适应地不断优化权重参数来提高网络的表示能力,有效抑制无效特征,提升有效特征的权重,便于从图像中准确提取出目标文本。
步骤s2:将待处理图像进行区域划分,得到不同像素值的区域,根据区域的高度值计算可以作为背景区域的区域数量,提取覆盖所述背景区域,剩余区域为前景区域。
具体的,先根据图像中的像素值信息对图像进行区域划分,得到不同像素值的区域,区域划分方法为现有技术,本发明不再赘述。
然后,统计每个区域中连续像素点纵向数量最大值作为每个区域的高度值,记为mhi,i表示第i个区域。最后,根据每个区域的高度值对区域进行排序,计算可以作为背景区域的区域数量:
noba2=n(mhi<εmin)st.3:mhmin<εmin
其中,noba表示背景区域数量,noba1和noba2分别是不同条件下对应的背景区域数量,mhmax表示所有区域高度值中的最大值,mhmin表示所有区域高度值中的最小值,εmax和εmin分别表示图像中文本所在区域的高度上阈值和下阈值,n(mhi>εmax)表示图像中区域高度值大于文本所在区域的高度上阈值的区域的数量,n(mhi<εmin)表示图像中区域高度值小于文本所在区域的高度下阈值的区域的数量,st.1、st.2、st.3分别表示三个条件。
文本所在区域的高度上阈值和下阈值根据实际情况由人工确定,可选取图像中文本所占像素的最大纵向数量加一作为高度上阈值,选取文本最小笔画所占像素的最小纵向数量减一作为高度下阈值。通过设定高度上阈值和高度下阈值在高度特征上滤除文本以外的图像区域以及噪声信息,便于提高后续文本提取的准确度。
进一步的,当图像中所有区域高度值中的最大值等于文本所在区域的高度上阈值时,即mhmax=εmax,背景区域数量为0;当图像中所有区域高度值中的最大值大于文本所在区域的高度上阈值时,即mhmax>εmax,背景区域数量为n(mhi>εmax);若图像中所有区域高度值中的最大值等于文本所在区域的高度上阈值,且图像中所有区域高度值中的最小值小于文本所在区域的高度下阈值,即mhmax=εmax且mhmin<εmin,则背景区域数量为n(mhi<εmin);若图像中所有区域高度值中的最大值大于文本所在区域的高度上阈值,且图像中所有区域高度值中的最小值小于文本所在区域的高度下阈值,即mhmax>εmax且mhmin<εmin,则背景区域数量为n(mhi>εmax)+n(mhi<εmin)。
根据上述方法选择出noba个背景区域,选取图像中不存在的颜色对背景区域进行覆盖,剩余区域为前景区域。
上述背景区域提取方法的有益效果为:通过提取背景区域最大程度去除非文本背景区域,降低计算复杂度,且避免传统以“行”为单位进行提取的情况。
步骤s3:利用训练好的文本自编码模型在前景区域中获得待识别的文本的表述特征,将上述待识别的文本的表述特征与期望的目标文本的表述特征进行对比判断,若两者误差达到预设阈值,则识别文字为目标文本。
具体步骤如下:
1.经过步骤s2将图像背景区域覆盖后,剩余的前景区域中主要包括文本区域和部分未滤除的噪声信息,根据实际情况设定文本范围阈值,即图像中文本在水平方向和垂直方向所占像素数量的阈值。根据文本范围阈值将前景区域中大于阈值的区域进行分割。
2.为分割后的前景区域中的每个独立小区域建立若干坐标系,以每个小区域经过最左侧像素点的垂直线为y轴,经过最上方像素点的水平线为x轴,根据每个小区域的像素点分布建立小区域u的像素点坐标系(xu,yu),得到每个小区域中像素点的坐标
3.利用训练好的文本自编码模型在小区域中识别出目标文本。以任意一个小区域为开始,选取r个连续小区域的坐标值,每一行结束后从下一行最左侧开始继续选取,每一个连续小区域的坐标值作为输入的矩阵的一行,r为目标文本中文字的数量;文本自编码模型神经网络的输入为:
其中,任意一个小区域u的坐标输入为
其中,mvd表示小区域中对应的目标文本匹配值,λ表示匹配因子,sf(1)表示第1个神经元的开关,设定第一个小区域的匹配度高于其余r-1个小区域,τ表示判断因子;若匹配值mvd达到预设阈值,则识别出该小区域为目标文本,对该区域进行自动标注。
通常我们在使用文字自编码模型的时候通常只会使用自编码的前半部分编码部分,上述编码部分就可以得到文本坐标值的表述的精髓。
本发明图像中目标文本的匹配值的计算方法的有益效果为:通过计算小区域内容与目标文本的匹配程度识别是否为目标文本,并结合匹配因子为匹配程度增加容错机制,使得神经网络可以识别不同字体的目标文本,提高标注准确率。
本发明还提供一种图像中目标文本智能识别系统,该系统包括如下模块:
坐标获取模块,用于获取目标文本图像中目标文本的像素点坐标;
具体的,像素点坐标获得方法如下:用户根据个人需求给出需要标注的目标文本的参照图像,以每个文字中经过最左侧像素点的垂直线为y轴,经过最上方像素点的水平线为x轴,根据每个文字的像素点分布建立文字像素点坐标系(xr,yr),得到每个文字中像素点的坐标
模型训练模块,用于构建像素坐标识别神经网络,通过输入目标文本中所有文字的像素点坐标值对像素坐标识别神经网络进行训练,计算神经网络输出与输入之间的误差,若误差小于预设的误差阈值,则神经网络训练完成,得到文本自编码模型和目标文本的表述特征;否则将每一层的参数进行更新,重新训练。
在一些实施例中,模型训练模块,包括像素坐标识别神经网络训练模块,通过输入目标文本中所有文字的像素点坐标值
进一步的,像素坐标识别神经网络的训练过程包括编码过程和解码过程,编码过程如下:
输入层:先根据目标文本中的文字数量r确定输入数据集的维度,输入数据为目标文本所有文字的像素点坐标。每个汉字设定像素点坐标范围为(0,k)×(0,h),每一个连续小区域的坐标值作为输入的矩阵的一行,所有r个汉字排列在一起组成一个矩阵,将像素点坐标以矩阵的形式输入到神经网络:
在本实施例中,输入矩阵中没有像素坐标值的位置用(0,0)填充。输入层先对数据进行降噪处理,降噪处理方法采用现有技术,本发明在此不做过多阐述。输入层将降噪处理后的数据outp1发送给映射层;
进一步的,映射层将输入的像素点坐标inp2=ω1,2outp1映射到逻辑空间,ω1,2为输入层到映射层的连接权值,映射函数为:
其中,outp2表示映射层每个神经元的输出,ω2表示映射权值,t表示转置,a表示映射因子,用于映射数据,s为像素坐标矩阵中非零数值的数量,
进一步的,逻辑层通过逻辑门组合出能够激活神经元的部分区间,提取文字特征,并将激活的部分进行融合。逻辑层输入为inp3=ω2,3outp2,ω2,3为映射层到逻辑层的连接权值。设立逻辑门的控制区间[0,s′],s′≤s,用逻辑门控制当数据落在某个区间时,某些逻辑门被激活。激活函数为:
其中,
构建逻辑门:首先设立开关函数sf:
其中,δaf表示激活阈值,根据实际情况确定或在实验过程中由系统指定;然后通过激活函数构建开关门:
其中,sf(1)表示第1个神经元的开关;
然后得到逻辑门:将inp3的第二层信息进行区间划分,每个区间选取最大的值,第一层选取对应的信息;其他的值舍弃,实现特征向量的压缩得到outp3;优选的,对第二层的信息区域上的(8×8)区间进行划分。
解码过程如下:使用解码的过程将outp3映射为outp4,上述outp4的尺寸为原始输入的尺寸。解码的过程采用图像上采样,具体过程如下:
(1)使用单层反卷积神经网络进行上采样,优选的,选用8×8×2的反卷积神经网络;
(2)使用包含2个卷积层的卷积网络,得到输出结果outp4。激活函数选用sigma激活函数。优选的,选用3×3×2的卷积块。
计算神经网络输出outp4与输入inp1之间的误差,若误差小于预设的误差阈值,则神经网络训练完成,得到文本自编码模型和目标文本的表述特征t=outp3;否则将每一层的参数进行更新,重新训练。其中,误差计算方法和参数更新方法均为现有技术,本发明不再赘述。
区域划分模块,用于对待处理图像进行区域划分,得到不同像素值的区域,并根据区域的高度值计算可作为背景区域的区域数量,提取所述背景区域对其进行覆盖,剩余区域为前景区域;
具体的,根据区域的高度值计算可作为背景区域的区域数量,提取所述背景区域对其进行覆盖方法为:
统计每个区域中连续像素点纵向数量最大值作为每个区域的高度值,记为mhi,i表示第i个区域。最后,根据每个区域的高度值对区域进行排序,计算可以作为背景区域的区域数量:
noba2=n(mhi<εmin)st.3:mhmin<εmin
其中,noba表示背景区域数量,noba1和noba2分别是不同条件下对应的背景区域数量,mhmax表示所有区域高度值中的最大值,mhmin表示所有区域高度值中的最小值,εmax和εmin分别表示图像中文本所在区域的高度上阈值和下阈值,n(mhi>εmax)表示图像中区域高度值大于文本所在区域的高度上阈值的区域的数量,n(mhi<εmin)表示图像中区域高度值小于文本所在区域的高度下阈值的区域的数量,st.1、st.2、st.3分别表示三个条件。
文本所在区域的高度上阈值和下阈值根据实际情况由人工确定,可选取图像中文本所占像素的最大纵向数量加一作为高度上阈值,选取文本最小笔画所占像素的最小纵向数量减一作为高度下阈值。通过设定高度上阈值和高度下阈值在高度特征上滤除文本以外的图像区域以及噪声信息,便于提高后续文本提取的准确度。
进一步的,当图像中所有区域高度值中的最大值等于文本所在区域的高度上阈值时,即mhmax=εmax,背景区域数量为0;当图像中所有区域高度值中的最大值大于文本所在区域的高度上阈值时,即mhmax>εmax,背景区域数量为n(mhi>εmax);若图像中所有区域高度值中的最大值等于文本所在区域的高度上阈值,且图像中所有区域高度值中的最小值小于文本所在区域的高度下阈值,即mhmax=εmax且mhmin<εmin,则背景区域数量为n(mhi<εmin);若图像中所有区域高度值中的最大值大于文本所在区域的高度上阈值,且图像中所有区域高度值中的最小值小于文本所在区域的高度下阈值,即mhmax>εmax且mhmin<εmin,则背景区域数量为n(mhi>εmax)+n(mhi<εmin)。
根据上述方法选择出noba个背景区域,选取图像中不存在的颜色对背景区域进行覆盖,剩余区域为前景区域。
文本表述特征获取模块,用于利用训练好的文本自编码模型在前景区域中获得待识别的文本的表述特征,并根据匹配值识别出目标文本。具体的,将所有待识别文字中r个连续小区域的像素点坐标值输入到上述文字自编码模型,获得所述r个连续小区域中待识别的文字的表述特征,其中r为目标文本中文字的数量。
在一些实施例中,文本表述特征获取模块包括前景区域分割模块、坐标数据处理模块、获取模块。
在一些实施例中,前景区域分割模块,用于根据实际情况设定文本范围阈值,即图像中文本在水平方向和垂直方向所占像素数量的阈值。根据文本范围阈值将前景区域中大于阈值的区域进行分割。
在一些实施例中,坐标数据处理模块,用于为分割后的前景区域中的每个独立小区域建立若干坐标系,以每个小区域经过最左侧像素点的垂直线为y轴,经过最上方像素点的水平线为x轴,根据每个小区域的像素点分布建立小区域u的像素点坐标系(xu,yu),得到每个小区域中像素点的坐标
在一些实施例中,获取模块,用于利用训练好的文本自编码模型在小区域中获得待识别文本的表述特征。以任意一个小区域为开始,选取r个连续小区域的坐标值,每一行结束后从下一行最左侧开始继续选取,每一个连续小区域的坐标值作为输入的矩阵的一行,r为目标文本中文字的数量。神经网络的输入为:
其中,任意一个小区域u的坐标输入为
判断模块,用于将所述待识别的文字的表述特征与期望的目标文本的表述特征进行对比判断,若两者误差达到预设阈值,则识别文字为目标文本;
在一些实施例中,判断模块,包括匹配值获取模块和目标文本识别模块。匹配值获取模块,用于基于期望值,即目标文本表述特征,获取图像中待检测文本的匹配值;
期望值为目标文本的表述特征t=outp3,基于期望值获得小区域中待检测文本为目标文本的匹配值:
其中,mvd表示小区域中对应的目标文本匹配值,λ表示匹配因子,用于提高匹配判断的容错率,sf(1)表示第1个神经元的开关,用于提高匹配判断容错率;设定第一个小区域的匹配度高于其余r-1个小区域,τ表示判断因子。
目标文本识别模块,用于根据匹配值mvd判断待处理图像中文字是否包含目标文本,若匹配值mvd达到预设阈值,则识别出该小区域为目标文本;
在一些实施例中,判断模块,包括匹配值设置模块和目标文本识别模块。
本发明的图像中目标文本智能识别系统,还包括如下模块:
优化模块,用于将输入层的数据进行降噪处理;
智能标注模块,用于对识别出的目标文本进行自动标注。
上述实施例只是为了说明本发明的技术构思及特点,其目的是在于让本领域内的普通技术人员能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡是根据本发明内容的实质所做出的等效的变化或修改,都应涵盖在本发明的保护范围内。