字符识别方法、装置、电子设备与流程

文档序号：35483459发布日期：2023-09-16 21:43阅读：35来源：国知局

本申请涉及图像处理，特别是涉及字符识别方法、装置、电子设备及计算机可读存储介质。

背景技术：

1、一些俄文字符存在大小写字体在视觉上一样，但是在同一文本行区域内存在像素高度差异的特点，并且，有些俄文字符的手写体和印刷体在视觉特征上差异较大，另外，有些俄文字符与拉丁文在视觉上是相同的，俄文字符的这些特点，使得基于俄文字符图像进行俄文字符识别难度非常大。现有技术中基于俄文图像进行字符识别的方法，经常会出现大小写字符混淆，俄文字符手写体和印刷体混淆，俄文字符与拉丁文字符混淆的情况，整体字符识别率降低。

2、可见，现有技术中的字符识别方法还需要改进。

技术实现思路

1、本申请实施例提供一种字符识别方法，有助于提升字符识别准确率。

2、第一方面，本申请实施例提供了一种字符识别方法，包括：

3、获取包括待识别字符行的行图像，作为预先训练的神经网络模型的输入图像；

4、通过所述神经网络模型内设置的全局注意力机制网络模块，对所述输入图像进行空间特征和通道特征的提取和映射，得到所述输入图像的特征向量；

5、通过所述神经网络模型内设置的全连接模块，对所述特征向量进行分类映射，得到所述行图像中所述待识别字符行对应的字符序列的分类结果；

6、通过所述神经网络模型内设置的连接时序分类器对所述分类结果进行解码，得到所述待识别字符行对应的字符识别结果。

7、第二方面，本申请实施例提供了一种字符识别装置，包括：

8、输入图像获取模块，用于获取包括待识别字符行的行图像，作为预先训练的神经网络模型的输入图像；

9、特征向量获取模块，用于通过所述神经网络模型内设置的全局注意力机制网络模块，对所述输入图像进行空间特征和通道特征的提取和映射，得到所述输入图像的特征向量；

10、分类模块，用于通过所述神经网络模型内设置的全连接模块，对所述特征向量进行分类映射，得到所述行图像中所述待识别字符行对应的字符序列的分类结果；

11、识别结果获取模块，用于通过所述神经网络模型内设置的连接时序分类器对所述分类结果进行解码，得到所述待识别字符行对应的字符识别结果。

12、第三方面，本申请实施例还公开了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请实施例所述的字符识别方法。

13、第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时本申请实施例公开的字符识别方法的步骤。

14、本申请实施例公开的字符识别方法，通过获取包括待识别字符行的行图像，作为预先训练的神经网络模型的输入图像；通过所述神经网络模型内设置的全局注意力机制网络模块，对所述输入图像进行空间特征和通道特征的提取和映射，得到所述输入图像的特征向量；通过所述神经网络模型内设置的全连接模块，对所述特征向量进行分类映射，得到所述行图像中所述待识别字符行对应的字符序列的分类结果；通过所述神经网络模型内设置的连接时序分类器对所述分类结果进行解码，得到所述待识别字符行对应的字符识别结果，有助于提升行图像中字符识别准确率。对于俄文字符而言，通过采用全局注意力机制网络，对所述输入的俄文字符行图像进行空间特征和通道特征的提取和映射，有助于解决俄文大小写混淆、俄文手写体与印刷体混淆、俄文与拉丁文混淆的问题，提升了俄文字符行图像中字符识别的准确率。

15、上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

技术特征：

1.一种字符识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述通过所述神经网络模型内设置的全局注意力机制网络模块，对所述输入图像进行空间特征和通道特征的提取和映射，得到所述输入图像的特征向量，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于全局注意力机制，对所述第一隐层特征进行通道特征和空间特征的提取和映射，获取当前阶段进行特征提取和映射得到的第二隐层特征，包括：

4.根据权利要求3所述的方法，其特征在于，所述采用全局注意力机制，基于全局感受野对所述第一隐层特征进行通道特征提取和映射，获取全局通道特征，包括：

5.根据权利要求3所述的方法，其特征在于，所述采用全局注意力机制，基于全局感受野对所述第三隐层特征进行空间特征提取和映射，获取全局空间特征，包括：

6.根据权利要求3所述的方法，其特征在于，所述对所述全局通道特征和所述第一隐层特征进行融合处理，包括：

7.根据权利要求1至6任一项所述的方法，其特征在于，所述获取包括待识别字符行的行图像，作为预先训练的神经网络模型的输入图像之前，还包括：

8.一种字符识别装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的程序代码，其特征在于，所述处理器执行所述程序代码时实现权利要求1至7任意一项所述的字符识别方法。

10.一种计算机可读存储介质，其上存储有程序代码，其特征在于，该程序代码被处理器执行时实现权利要求1至7任意一项所述的字符识别方法的步骤。

技术总结
本申请公开了一种字符识别方法，属于图像处理技术领域，有助于提升行图像中字符识别准确率。所述方法包括：获取包括待识别字符行的行图像，作为预先训练的神经网络模型的输入图像；通过神经网络模型内设置的全局注意力机制网络模块，对输入图像进行空间特征和通道特征的提取和映射，得到输入图像的特征向量；通过神经网络模型内设置的全连接模块，对特征向量进行分类映射，得到行图像中所述待识别字符行对应的字符序列的分类结果；通过神经网络模型内设置的连接时序分类器对分类结果进行解码，得到待识别字符行对应的字符识别结果。本方法通过基于注意力机制结合空间特征和通道特征进行图像字符识别，提升了行图像中字符识别准确率。

技术研发人员：黄威,刘正珍
受保护的技术使用者：汉王科技股份有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄威刘正珍
技术所有人：汉王科技股份有限公司
我是此专利的发明人

上一篇：一种防尘效果好的建筑防护网的制作方法
上一篇：一种膜净化水系统清洗再生装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。