文本识别方法、装置、计算机设备、存储介质和程序产品与流程

文档序号：41041762发布日期：2025-02-21 20:19阅读：4来源：国知局

本申请涉及信息处理，特别是涉及一种文本识别方法、装置、计算机设备、存储介质和程序产品。

背景技术：

1、随着信息处理技术的不断发展，出现了文本识别技术，文本识别技术已被广泛应用于文档数字化、自动化数据输入等领域，通过文本识别技术可以对文本图像中的文字进行识别并输出。随着文本图像类型的多样化，目前许多应用场景需要针对包含双向文本的图像进行文本识别。

2、然而，传统的针对双向文本的图像进行文本识别的方法的准确性较低。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种能够提高文本识别的准确性的文本识别方法、装置、计算机设备、存储介质和程序产品。

2、第一方面，本申请提供了一种文本识别方法，包括：

3、获取待测图像；所述待测图像中包括多个书写方向的文本；

4、将所述待测图像输入文本识别网络中进行文本识别，得到识别结果；所述文本识别网络是基于视觉顺序的样本数据进行训练得到。

5、上述文本识别方法中，由于文本识别网络是视觉模型，且视觉模型所能学习到的是图像中的空间位置信息，因此，本申请实施例基于视觉顺序的样本数据来训练得到文本识别网络，能够更好地进行文本识别网络的特征学习，从而能够得到更加准确的文本识别网络。进而，将待测图像输入准确的文本识别网络中进行文本识别，能够准确地得到识别结果。

6、在其中一个实施例中，所述文本识别网络包括文本识别子网络和序列调整子网络，所述将所述待测图像输入文本识别网络中进行文本识别，得到识别结果，包括：

7、将所述待测图像输入所述文本识别子网络中进行文本识别，得到中间文本；

8、采用所述序列调整子网络将所述中间文本的文本顺序调整为逻辑顺序，得到所述识别结果。

9、本实施例中，可以将待测图像输入文本识别子网络中进行文本识别，得到视觉顺序下的中间文本，从而，采用序列调整子网络将中间文本的文本顺序调整为逻辑顺序，能够准确地得到逻辑顺序下的识别结果。如此，能够基于训练好的视觉模型（即文本识别网络），准确地识别出逻辑顺序下的识别结果。

10、在其中一个实施例中，所述文本识别网络的训练方法，包括：

11、获取样本图像集；所述样本图像集中包括样本图像和标签文本；所述样本图像中包括多个书写方向的文本语料，所述标签文本的文本顺序为视觉顺序；

12、根据所述样本图像集对初始识别网络进行训练，得到所述文本识别网络。

13、本实施例中，可以获取样本图像集，其中，样本图像集中包括样本图像和标签文本；样本图像中包括多个书写方向的文本语料，标签文本的文本顺序为视觉顺序。从而，能够使用标签文本的顺序为视觉顺序的样本图像数据集，对视觉领域的初始识别网络进行更加准确地模型训练，能够更好地进行文本识别网络的特征学习，从而能够得到更加准确的文本识别网络。

14、在其中一个实施例中，获取所述标签文本的方法，包括：

15、将各所述书写方向的文本语料的文本顺序从逻辑顺序调整为视觉顺序，得到所述标签文本。

16、本实施例中，由于用户阅读时的文字顺序和文本在内存中存储的顺序是逻辑顺序，但是，基于视觉模型所能学习到的是图像中的空间位置信息，因此，可以将样本图像中各书写方向的文本语料的文本序列顺序从逻辑顺序转换为视觉顺序，得到标签文本，并采用视觉顺序下的标签文本进行模型训练，如此，可以更好地进行文本识别网络的特征学习。

17、在其中一个实施例中，所述方法还包括：

18、获取背景图像集和所述多个书写方向的文本语料；所述背景图像集中包括不同背景图案的背景图像；

19、根据所述背景图像集和所述多个书写方向的文本语料对所述样本图像集进行扩充，得到扩充后的样本图像集；

20、所述根据所述样本图像集对初始识别网络进行训练，得到所述文本识别网络，包括：

21、根据所述扩充后的样本图像集对所述初始识别网络进行训练，得到所述文本识别网络。

22、本实施例中，可以获取背景图像集和多个书写方向的文本语料，其中，背景图像集中包括不同背景图案的背景图像。从而，能够根据背景图像集和多个书写方向的文本语料对样本图像集进行扩充，得到扩充后的样本图像集，能够进一步丰富进行模型训练的样本图像集。之后，根据更加丰富的扩充后的样本图像集对初始识别网络进行训练，能够训练得到更加准确的文本识别网络。

23、在其中一个实施例中，所述根据所述背景图像集和所述多个书写方向的文本语料对所述样本图像集进行扩充，得到扩充后的样本图像集，包括：

24、将所述多个书写方向的文本语料随机写入各所述背景图像中，生成多个写入文本的背景图像；

25、根据所述多个写入文本的背景图像和所述样本图像集，生成所述扩充后的样本图像集。

26、本实施例中，可以将多个书写方向的文本语料随机写入各背景图像中，生成多个写入文本的背景图像，如此，能够大量模拟生成现实生活中的多个双向文本图片数据，极大程度上提高数据集准备效率。从而，根据多个写入文本的背景图像和样本图像集，能够得到用于模型训练、更加丰富的扩充后的样本图像集。

27、第二方面，本申请还提供了一种文本识别装置，包括：

28、获取模块，用于获取待测图像；所述待测图像中包括多个书写方向的文本；

29、文本识别模块，用于将所述待测图像输入文本识别网络中进行文本识别，得到识别结果；所述文本识别网络是基于视觉顺序的样本数据进行训练得到。

30、第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面中任一项实施例中的方法的步骤。

31、第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面中任一项实施例中的方法的步骤。

32、第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述第一方面中任一项实施例中的方法的步骤。

33、上述文本识别方法、装置、计算机设备、存储介质和程序产品，获取待测图像；待测图像中包括多个书写方向的文本；将待测图像输入文本识别网络中进行文本识别，得到识别结果；文本识别网络是基于视觉顺序的样本数据进行训练得到。由于文本识别网络是视觉模型，且视觉模型所能学习到的是图像中的空间位置信息，因此，本申请实施例基于视觉顺序的样本数据来训练得到文本识别网络，能够更好地进行文本识别网络的特征学习，从而能够得到更加准确的文本识别网络。进而，将待测图像输入准确的文本识别网络中进行文本识别，能够准确地得到识别结果。

技术特征：

1.一种文本识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述文本识别网络包括文本识别子网络和序列调整子网络，所述将所述待测图像输入文本识别网络中进行文本识别，得到识别结果，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述文本识别网络的训练方法，包括：

4.根据权利要求3所述的方法，其特征在于，获取所述标签文本的方法，包括：

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述背景图像集和所述多个书写方向的文本语料对所述样本图像集进行扩充，得到扩充后的样本图像集，包括：

7.一种文本识别装置，其特征在于，所述装置包括：

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

技术总结
本申请涉及一种文本识别方法、装置、计算机设备、存储介质和程序产品。上述方法包括：获取待测图像；待测图像中包括多个书写方向的文本；将待测图像输入文本识别网络中进行文本识别，得到识别结果；文本识别网络是基于视觉顺序的样本数据进行训练得到。由于文本识别网络是视觉模型，且视觉模型所能学习到的是图像中的空间位置信息，因此，本申请实施例基于视觉顺序的样本数据来训练得到文本识别网络，能够更好地进行文本识别网络的特征学习，从而能够得到更加准确的文本识别网络。进而，将待测图像输入准确的文本识别网络中进行文本识别，能够准确地得到识别结果。

技术研发人员：吕建进,焦岩,董露露
受保护的技术使用者：曙光信息产业（北京）有限公司
技术研发日：
技术公布日：2025/2/20

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吕建进,焦岩,董露露
技术所有人：曙光信息产业（北京）有限公司
我是此专利的发明人

上一篇：一种基坑内支撑布置方式的拓扑优化方法与流程
上一篇：基于过渡单胞的可连接多构型点阵结构拓扑优化方法及系统

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。