模型的训练、字符识别方法、装置、设备及存储介质与流程

文档序号:34086435发布日期:2023-05-07 01:27阅读:26来源:国知局
模型的训练、字符识别方法、装置、设备及存储介质与流程

本公开涉及人工智能,尤其涉及一种模型的训练、字符识别方法、装置、设备及存储介质。


背景技术:

1、ocr(光学字符识别)技术是学术、工程领域研究、开发的重要技术,是指将文本图像转换为机器可读文本格式的流程。通过文本图像上的字符,然后用字符识别方法将形状翻译成计算机文字的过程。即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。

2、发明人在实现本公开构思的过程中发现,光学字符识别方法不稳定,精度不高。


技术实现思路

1、鉴于上述问题,本公开提供了模型的训练、字符识别方法、装置、设备及存储介质。

2、根据本公开的一个方面,提供了一种深度学习模型的训练方法,包括:对样本文本图像进行特征提取,得到文本特征,其中,所述样本文本图像中包括真实字符内容标签以及与所述真实字符内容标签相对应的真实字符位置标签;对所述文本特征添加位置编码信息,得到融合特征;将所述融合特征输入第一分支子模型,得到预测字符内容信息;将所述融合特征输入第二分支子模型,得到与所述预测字符内容信息相对应的预测字符位置信息;以及利用所述真实字符内容标签、所述真实字符位置标签、所述预测字符内容信息和所述预测字符位置信息,对所述第一分支子模型和所述第二分支子模型进行训练,得到经训练的深度学习模型,其中,所述经训练的深度学习模型包括经训练的所述第一分支子模型和经训练的所述第二分支子模型。

3、根据本公开的另一个方面,提供了一种字符识别方法,包括:获取待识别文本图像;将所述待识别文本图像输入深度学习模型,得到识别结果,其中,所述深度学习模型是根据本公开所述的深度学习模型的训练方法训练得到的。

4、根据本公开的另一个方面,提供了一种深度学习模型的训练装置,包括:第一获得模块,用于对样本文本图像进行特征提取,得到文本特征,其中,所述样本文本图像中包括真实字符内容标签以及与所述真实字符内容标签相对应的真实字符位置标签;第二获得模块,用于对所述文本特征添加位置编码信息,得到融合特征;第三获得模块,用于将所述融合特征输入第一分支子模型,得到预测字符内容信息;第四获得模块,用于将所述融合特征输入第二分支子模型,得到与所述预测字符内容信息相对应的预测字符位置信息;以及训练模块,用于利用所述真实字符内容标签、所述真实字符位置标签、所述预测字符内容信息和所述预测字符位置信息,对所述第一分支子模型和所述第二分支子模型进行训练,得到经训练的深度学习模型,其中,所述经训练的深度学习模型包括经训练的所述第一分支子模型和经训练的所述第二分支子模型。

5、根据本公开的另一个方面,提供了一种字符识别装置,包括:获取模块,用于获取待识别文本图像;第五获得模块,用于将所述待识别文本图像输入深度学习模型,得到识别结果,其中,所述深度学习模型是根据本公开所述的深度学习模型的训练装置训练得到的。

6、根据本公开的另一个方面,提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得一个或多个处理器执行上述方法。

7、根据本公开的另一个方面,提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述方法。

8、根据本公开的另一个方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述方法。

9、根据本公开提供的模型的训练、字符识别方法、装置、设备及存储介质,通过对样本文本图像进行特征提取,得到文本特征,样本文本图像中包括真实字符内容标签以及与真实字符内容标签相对应的真实字符位置标签;对文本特征添加位置编码信息,得到融合特征;将融合特征输入第一分支子模型,得到预测字符内容信息;将融合特征输入第二分支子模型,得到与预测伺服信息相对应的预测字符位置信息;以及利用真实字符内容标签、真实字符位置标签、预测字符内容信息和预测字符位置信息,对第一分支子模型和第二分支子模型进行训练,得到经训练的深度学习模型。由于基于第一分支子模型和第二分支子模型构建深度学习模型,并结合字符内容和字符位置对深度学习模型进行训练,使得深度学习模型学习到字符位置信息,至少部分的缓解了光学字符识别方法不稳定,精度不高的技术问题,可有效提高深度学习模型的学习效果,进一步可提高模型输出精度。



技术特征:

1.一种深度学习模型的训练方法,包括:

2.根据权利要求1所述的方法,其中,所述将所述融合特征输入第一分支子模型,得到预测字符内容信息包括:

3.根据权利要求1所述的方法,其中,所述将所述融合特征输入第二分支子模型,得到与所述预测字符内容信息相对应的预测字符位置信息包括:

4.根据权利要求1所述的方法,其中,所述利用所述真实字符内容标签、所述真实字符位置标签、所述预测字符内容信息和所述预测字符位置信息,对所述第一分支子模型和所述第二分支子模型进行训练包括:

5.一种字符识别方法,包括:

6.根据权利要求5所述的方法,其中,所述识别结果包括字符内容信息和字符位置信息。

7.一种深度学习模型的训练装置,包括:

8.一种字符识别装置,包括:

9.一种电子设备,包括:

10.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~6中任一项所述的方法。

11.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现根据权利要求1~6中任一项所述的方法。


技术总结
本公开提供了一种模型的训练、字符识别方法、装置、设备及存储介质,可以应用于人工智能技术领域。该方法包括:对样本文本图像进行特征提取,得到文本特征,其中,样本文本图像中包括真实字符内容标签以及与真实字符内容标签相对应的真实字符位置标签;对文本特征添加位置编码信息,得到融合特征;将融合特征输入第一分支子模型,得到预测字符内容信息;将融合特征输入第二分支子模型,得到与预测伺服信息相对应的预测字符位置信息;以及利用真实字符内容标签、真实字符位置标签、预测字符内容信息和预测字符位置信息,对第一分支子模型和第二分支子模型进行训练,得到经训练的深度学习模型。

技术研发人员:王斌,王晔,杨凯
受保护的技术使用者:中国建设银行股份有限公司
技术研发日:
技术公布日:2024/1/12
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1