一种OCR快速识别方法、装置、设备和介质与流程

文档序号:25522452发布日期:2021-06-18 20:10阅读:150来源:国知局
一种OCR快速识别方法、装置、设备和介质与流程

本发明涉及计算机技术领域,特别涉及一种ocr快速识别方法、装置、设备和介质。



背景技术:

ocr(opticalcharacterrecognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。

目前在ocr识别领域,很多方法都是基于crnn(全称为convolutionalrecurrentneuralnetwork,是一种卷积循环神经网络结构,用于解决基于图像的序列识别问题,特别是场景文字识别问题)进行完成。先对输入图像进行预处理操作,crnn通过多个的卷积层、激活层、池化层提取预处理后图像的空间信息,然后将得到的通过两层双向长短时记忆网络提取数据的时序信息,最后通过全连接层进行字符的分类。

现有的ocr识别方法,存在如下缺点:

1)、在卷积的计算中,随着通道数的增加,会增加计算的参数,降低速度、效率;例如:当前卷积层的卷积核为3×3,上一卷积层通道数为128时候,那么当前卷积层的单个卷积核计算参数为3×3×128;

2)、通过两层双向长短时记忆网络大大降低了识别的速度、效率;长短时记忆网络是时间序列模型,时间t时刻要依赖时间t-1时刻信息,不能并行执行。

由于现有的ocr识别方法具有上述缺点,大大降低了识别速度和效率。



技术实现要素:

本发明要解决的技术问题,在于提供一种ocr快速识别方法、装置、设备和介质,空间模型采用1*1的卷积核来增加中间向量通道,进而降低计算量,同时将时序模型改为srn来提取数据的时序信息,大大提高了模型的处理和识别速度,从而能实现实时识别。

第一方面,本发明提供了一种ocr快速识别方法,包括下述步骤:

s1、对输入的图像进行预处理;

s2、提取预处理后图像的空间潜层信息和时序潜层信息;

所述空间潜层信息由空间模型通过卷积、池化、激活函数提取而得,所述空间模型包括特征提取卷积层、增加通道卷积层以及池化层,所述增加通道卷积层采用1×1卷积核来增加中间向量的通道数;

所述时序潜层信息通过时序模型的多层双向srn层提取而得,所述时序模型的构成是:第一层和第三层均为双向srn层,对大部分运算进行并行处理;第二层和第四层为全连接层;

s3、根据所述空间潜层信息和所述时序潜层信息,由嵌入层通过ctc进行多字符的分类,从而识别出图像上的所有字符。

第二方面,本发明提供了一种ocr快速识别装置,包括:

预处理模块,用于对输入的图像进行预处理;

空间模型,用于对预处理后图像进行卷积、池化和激活,提取空间潜层信息;所述空间模型包括特征提取卷积层、增加通道卷积层以及池化层,所述增加通道卷积层采用1×1卷积核来增加中间向量的通道数;

时序模型,用于对接收的图像信息通过多层双向srn层提取而得时序潜层信息,所述时序模型的构成是:第一层和第三层均为双向srn层,对大部分运算进行并行处理;第二层和第四层为全连接层;

嵌入层,用于根据所述空间潜层信息和所述时序潜层信息,通过ctc进行多字符的分类,从而识别出图像上的所有字符。

第三方面,本发明提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法。

第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所述的方法。

本发明实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:在空间模型提取图像的空间潜层信息时,其用于增加中间向量通道数的通道卷积层采用1×1卷积核,可以大大降低卷积核参数,减少了计算量,大大提升识别速度;在时序模型提取图像的时序潜层信息时,采用多层双向srn层对大部分运算进行并行处理,相对于串行处理而言,大大提高了计算效率和识别速度。从而比原来crnn方法的识别更加高效,能做到实时识别,可适用于所有的ocr识别中,如身份证识别、动车票识别、票据识别等。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1为本发明实施例一中方法中的流程图;

图2为本发明空间潜层信息和时序潜层信息的一种提取流程图;

图3为本发明空间潜层信息和时序潜层信息的另一种提取流程图;

图4为本发明实施例一中方法中的具体流程图;

图5为本发明实施例二中装置的一种结构示意图;

图6为本发明实施例二中装置的另一种结构示意图;

图7为本发明实施例三中电子设备的结构示意图;

图8为本发明实施例四中介质的结构示意图。

具体实施方式

本申请实施例通过提供一种ocr快速识别方法、装置、设备和介质,空间模型采用1*1的卷积核来增加中间向量通道,进而降低计算量,同时将时序模型改为srn来提取数据的时序信息,大大提高了模型的处理和识别速度,从而能实现实时识别。

本申请实施例中的技术方案,总体思路如下:图像的ocr识别主要包括空间潜层信息和时序潜层信息的提取,在空间模型提取图像的空间潜层信息时,其用于增加中间向量通道数的通道卷积层采用1×1卷积核,可以大大降低卷积核参数,减少了计算量,大大提升识别速度;在时序模型提取图像的时序潜层信息时,采用多层双向srn层对大部分运算进行并行处理,相对于串行处理而言,大大提高了计算效率和识别速度。

实施例一

如图1所示,本实施例提供一种ocr快速识别方法,包括下述步骤:

s1、对输入的图像进行预处理,主要包括灰度化、二值化、去噪、倾斜度校正等操作;

s2、提取预处理后图像的空间潜层信息和时序潜层信息;空间潜层信息(即空间潜层向量)能很大程度体现字符笔画的构成,反应字符粗外围特征、外轮廓特征、内轮廓特征、方向线素特征;时序潜层信息能很大程度体现数据的联系,比如说“北京”二字,“北”字和“京”字在车票中很可能一起出现,并且“北”字经常在“京”字前面,这种字符间的前后关系就是时序潜层信息;

所述空间潜层信息由空间模型通过卷积、池化、激活函数提取而得,所述空间模型包括特征提取卷积层、增加通道卷积层以及池化层,所述增加通道卷积层采用1×1卷积核来增加中间向量的通道数;1×1卷积核可以大大降低计算参数,例如:若用于提取特征的上一层卷积层的通道数为128时,当用来增加中间向量的卷积层的卷积核为3×3,则单个卷积核参数为3×3×128,当改为1×1卷积核时,则单个卷积核参数为1×1×128,计算量则降为原来的九分之一,但仍能达到类似的效果。

所述时序潜层信息通过时序模型的多层双向srn层提取而得,所述时序模型的构成是:第一层和第三层均为双向srn层,对大部分运算进行并行处理;第二层和第四层为全连接层;由于一般rnn网络结构,如lstm、gru等,当前的层输入为前一层的输出,因此所有rnn比较适合时间序列问题,但也正是由于这种串行结构,不能进行并行化处理,限制了rnn模型的训练速度;对此,本发明改用srn网络结构,通过两个双向srn层将大部分运算放到进行并行处理,只是将有具有小量运算的步骤进行串行,srn提出了完全drop连接,去除了对t-1时刻的依赖,不仅仍可处理时间序列问题,又能大大提升处理效率。

s3、根据所述空间潜层信息和所述时序潜层信息,由嵌入层通过ctc(connectionisttemporalclassification,用来解决输入序列和输出序列难以一一对应的问题)进行多字符的分类,例如汉字分类、字母分类或数字分类等,汉字分类可使得模型的输出转为图片所对应的汉字,每个汉字对应一个种类,这里即需要模型识别出图片文字的正确类别,类别通常用编号表示,分类的目的是找到每个字符代表的含义,从而识别出图像上的所有字符。

例如:输入图像中包含“我爱北京,北京爱我”9个字符,提取出“我”“爱”“北”“京”“,”“北”“京”“爱”“我”的空间潜层信息和时序潜层信息,经分类得到9个字符对应的种类编号“123454321”(“1”为“我”的种类编号,“2”为“爱”的种类编号…“5”为“,”的种类编号),然后通过转译,把种类编号转译成相应的字符“我爱北京,北京爱我”,作为最终的识别结果输出。

其中,所述空间模型对空间潜层信息的提取和所述时序模型对时序潜层信息的提取二者的顺序包括以下两种:

(1)、如图2所示,由所述空间模型和所述时序模型分别对取预处理后图像进行提取,分别得到所述空间潜层信息和所述时序潜层信息,再将所述空间潜层信息和所述时序潜层信息经过拼接后输入所述嵌入层;由于对这两种信息的拼接已是现有技术,也非本发明所要研究的对象,因此此处不予赘述。

(2)、如图3所示,先由所述空间模型对取预处理后图像提取所述空间潜层信息,将所述空间潜层信息输入至所述时序模型;再由所述时序模型对所述空间潜层信息进一步提取时序潜层信息,使得提取的时序潜层信息就包含了空间潜层信息,之后输入所述嵌入层。

其中,作为本实施例的一种更为具体的实现方式,如图4所示,所述空间模型的构成如下:

第一层是特征提取卷积层,用于提取图像特征,卷积核为5×5,步长为2×2,填充为2×2,通道数为24,激活函数为relu;

第二层是特征提取卷积层,用于提取图像特征,卷积核为3×3,步长为1×1,填充为1×1,通道数为24,激活函数为relu;

第三层是增加通道卷积层,用于增加中间向量的通道数,以便于更好的提取图像特征,卷积核为1×1,步长为1×1,通道数为128;

第四层是池化层,核为2,步长为2;

第五层是特征提取卷积层,用于提取图像特征,卷积核为3×3,步长为1×1,填充为1×1,通道数为128,归一化方法为bn,激活函数为relu;

第六层是增加通道卷积层,用于增加中间向量的通道数,以便于更好的提取图像特征,卷积核为1×1,步长为1×1,通道数为256,归一化方法为bn;

第七层是特征提取卷积层,用于提取图像特征,卷积核为3×3,步长为1×1,填充为1×1,通道数为256,归一化方法为bn,激活函数为relu;

第八层是池化层,核为2×2,步长为2×1,填充为0×1;

第九层是特征提取卷积层,用于提取图像特征,卷积核为3×3,步长为1×1,填充为1×1,通道数为256,归一化方法为bn,激活函数为relu;

第十层是增加通道卷积层,用于增加中间向量的通道数,以便于更好的提取图像特征,卷积核为1×1,步长为1×1,通道数为512,归一化方法为bn;

第十一层是特征提取卷积层,用于提取图像特征,卷积核为3×3,步长为1×1,填充为1×1,通道数为512,激活函数为relu;

第十二层是池化层,核为2×2,步长为2×1,填充为0×1;

第十三层是特征提取卷积层,用于提取图像特征,卷积核为2×2,步长为1×1,填充为1×1,通道数为512,归一化方法为bn,激活函数为relu;

第十四层是特征提取卷积层,用于提取图像特征,卷积核为1×1,步长为1×1,通道数为512,归一化方法为bn。

所述时序模型的构成如下:

第一层为双向srn层,节点数为256;

第二层为全连接层,节点数为256:

第三层为双向srn层,节点数为256:

第四层为全连接层,节点数为256。

该更为具体的实现方式在用于身份证识别、动车票识别、票据等的ocr快速识别,可取得较好的效果,识别效率比目前的crnn方法的识别效率具有显著提升。

基于同一发明构思,本申请还提供了与实施例一中的方法对应的装置,详见实施例二。

实施例二

如图5所示,在本实施例中提供了一种ocr快速识别装置,包括:

预处理模块,用于对输入的图像进行预处理;

空间模型,用于对预处理后图像进行卷积、池化和激活,提取空间潜层信息;所述空间模型包括特征提取卷积层、增加通道卷积层以及池化层,所述增加通道卷积层采用1×1卷积核来增加中间向量的通道数;

时序模型,用于对接收的图像信息通过多层双向srn层提取而得时序潜层信息,所述时序模型的构成是:第一层和第三层均为双向srn层,对大部分运算进行并行处理;第二层和第四层为全连接层;

嵌入层,用于根据所述空间潜层信息和所述时序潜层信息,通过ctc进行多字符的分类,从而识别出图像上的所有字符。

进一步的,所述时序模型接收的图像信息包括以下两种:

(1)如图5所示,由所述预处理模块输入的预处理后图像;即空间模型提取空间潜层信息和时序模型提取时序潜层信息采用并行方式进行,然后再通过拼接模块将空间潜层信息和时序潜层信息进行拼接后输出至所述嵌入层。则所述ocr快速识别装置还包括:

拼接模块,用于将由所述空间模型提取的空间潜层信息和由所述时序模型提取的时序潜层信息进行拼接后输出至所述嵌入层。

(2)如图6所示,由所述空间模型输入的空间潜层信息;即先由空间模型提取空间潜层信息,再将空间潜层信息输入至时序模型,由所述时序模型进一步提取时序潜层信息,自然完成拼接。

其中,作为本实施例的一种更为具体的实现方式,所述空间模型的构成如下:

第一层是特征提取卷积层,用于提取图像特征,卷积核为5×5,步长为2×2,填充为2×2,通道数为24,激活函数为relu;

第二层是特征提取卷积层,用于提取图像特征,卷积核为3×3,步长为1×1,填充为1×1,通道数为24,激活函数为relu;

第三层是增加通道卷积层,用于增加中间向量的通道数,以便于更好的提取图像特征,卷积核为1×1,步长为1×1,通道数为128;

第四层是池化层,核为2,步长为2;

第五层是特征提取卷积层,用于提取图像特征,卷积核为3×3,步长为1×1,填充为1×1,通道数为128,归一化方法为bn,激活函数为relu;

第六层是增加通道卷积层,用于增加中间向量的通道数,以便于更好的提取图像特征,卷积核为1×1,步长为1×1,通道数为256,归一化方法为bn;

第七层是特征提取卷积层,用于提取图像特征,卷积核为3×3,步长为1×1,填充为1×1,通道数为256,归一化方法为bn,激活函数为relu;

第八层是池化层,核为2×2,步长为2×1,填充为0×1;

第九层是特征提取卷积层,用于提取图像特征,卷积核为3×3,步长为1×1,填充为1×1,通道数为256,归一化方法为bn,激活函数为relu;

第十层是增加通道卷积层,用于增加中间向量的通道数,以便于更好的提取图像特征,卷积核为1×1,步长为1×1,通道数为512,归一化方法为bn;

第十一层是特征提取卷积层,用于提取图像特征,卷积核为3×3,步长为1×1,填充为1×1,通道数为512,激活函数为relu;

第十二层是池化层,核为2×2,步长为2×1,填充为0×1;

第十三层是特征提取卷积层,用于提取图像特征,卷积核为2×2,步长为1×1,填充为1×1,通道数为512,归一化方法为bn,激活函数为relu;

第十四层是特征提取卷积层,用于提取图像特征,卷积核为1×1,步长为1×1,通道数为512,归一化方法为bn。

所述时序模型的构成如下:

第一层为双向srn层,节点数为256;

第二层为全连接层,节点数为256:

第三层为双向srn层,节点数为256:

第四层为全连接层,节点数为256。

由于本发明实施例二所介绍的装置,为实施本发明实施例一的方法所采用的装置,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该装置的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。

基于同一发明构思,本申请提供了实施例一对应的电子设备实施例,详见实施例三。

实施例三

本实施例提供了一种电子设备,如图7所示,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时,可以实现实施例一中任一实施方式。

由于本实施例所介绍的电子设备为实施本申请实施例一中方法所采用的设备,故而基于本申请实施例一中所介绍的方法,本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式,所以在此对于该电子设备如何实现本申请实施例中的方法不再详细介绍。只要本领域所属技术人员实施本申请实施例中的方法所采用的设备,都属于本申请所欲保护的范围。

基于同一发明构思,本申请提供了实施例一对应的存储介质,详见实施例四。

实施例四

本实施例提供一种计算机可读存储介质,如图8所示,其上存储有计算机程序,该计算机程序被处理器执行时,可以实现实施例一中任一实施方式。

本申请实施例中提供的技术方案,至少具有如下技术效果或优点:在空间模型提取图像的空间潜层信息时,其用于增加中间向量通道数的通道卷积层采用1×1卷积核,可以大大降低卷积核参数,减少了计算量,大大提升识别速度;在时序模型提取图像的时序潜层信息时,采用多层双向srn层对大部分运算进行并行处理,相对于串行处理而言,大大提高了计算效率和识别速度。从而比原来crnn方法的识别更加高效,能做到实时识别,可适用于所有的ocr识别中,如身份证识别、动车票识别、票据识别等。

本领域内的技术人员应明白,本发明的实施例可提供为方法、装置或系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1