单据文本检测模型的训练方法及单据文本检测方法与流程

文档序号：33732204发布日期：2023-04-06 04:27阅读：48来源：国知局

本发明涉及图像文本检测，尤其涉及一种单据文本检测模型的训练方法及单据文本检测方法。

背景技术：

1、单据包含各种重要信息，是财务系统重要的数据来源，其在审计、纳税、核算和报销等方面有及其重要的作用，因此，实现单据文本信息的自动准确检测对智慧财务具有重要意义。现阶段，借助图像处理技术和光学字符识别(optical character recognition，ocr)技术，可实现对单据图像的文本识别与分析，提取关键文本信息，实现单据处理自动化，极大地缩短财务人员处理单据的时间，减少工作量，提高工作效率。

2、随着深度学习技术的不断发展，基于深度学习的图像文本检测已成为当前的一个研究热点。目前，基于深度学习的图像文本检测方法主要采用两种图像处理策略：一种是基于目标检测算法中的“区域建议”策略；另一种是采用图像语义分割策略。

3、基于目标检测算法中的“区域建议”策略，以通用目标检测网络为基本模型，并在其基础上结合文本检测的实际应用对算法进行改良，如将通用的多类目标检测模型调整为单类(文本)检测模型。例如常见目标检测模型faster r-cnn，其基本流程为：1)cnn(convolutional neural network)图像特征提取；2)候选区域roi(region of interest)与候选框生成；3)通过分类器生成候选框得分；4)通过非最大值抑制方法(non-maximumsuppression，nms)排除多余候选框，得到最终检测结果。用于文本检测的目标检测模型还有ssd(single shot multibox detector)、yolo(you only look once)等。

4、图像分割技术的发展从早期基于rgb图像提取浅层特征，再到卷积神经网络利用传统分割算法进行像素级处理，之后又由shelhamer等人提出的全卷积深度神经网络(fully convolutional networks，fcn)可实现端到端图像分割。其相比通用目标检测采用锚框机制回归定位的方式，更注重文字的像素级标注信息，因此可用于复杂背景下的图像文本检测。此外，随着transformer在自然语言处理的巨大成功，其也被引入到了图像处理任务中。

5、然而，目前虽然已经在文本检测上取得了一定的效果，但是单据文本图像与普通文档图像并不相同。单据文本图像中除文字外包含大量的噪声，如手写签名、印章图像、墨水污渍等，且具有文本行密集、文本尺度变化大、文字字体风格多样等特点。另外，由于纸质单据老旧、扫描不充分、纸张褶皱等因素的影响，单据文本图像存在模糊以及文本变形等情况，这对文本检测工作造成较大的影响。并且，现阶段文本检测模型存在的问题有：(1)检测精度较低。与一般文本检测任务不同，单据图像包含重要的信息，文本检测错误将对后续数据的处理与分析造成极大的影响和后果，因此单据文本检测与识别算法必须具有较高的识别精度，确保识别结果的准确性。(2)复杂背景下文本边缘定位不准确。由于复杂背景下，干扰因素多，现有的文本检测算法往往只在特定的环境下具有较高的文本检测准确率，因此对于单据文本图像而言，现有的文本检测算法难以适应智慧财务单据文本自动检测的需要。

6、基于此，设计具有高准确率、高鲁棒性的单据文本检测方法以实现单据文本信息的自动准确检测对智慧财务具有重要意义和应用价值。

技术实现思路

1、本发明实施例提供了一种单据文本检测模型的训练方法及单据文本检测方法，以解决现有技术中单据文本检测精度较低的问题。

2、第一方面，本发明实施例提供了一种单据文本检测模型的训练方法，包括：

3、获取训练集图像，其中，所述训练集图像包括单据图像以及所述单据图像中的文本区域对应的位置标签；

4、对于所述训练集图像中的每张单据图像，基于预设编码器模块进行特征提取，得到该单据图像对应的不同尺度的第一特征图；

5、基于级联融合注意力模块和局部-全局融合注意力模块对所述不同尺度的第一特征图进行自顶向下和自底向上的特征融合，得到第二特征图；

6、基于所述第二特征图得到概率图和阈值图，并对所述概率图和所述阈值图进行可微分二值化处理，得到二值图以及基于所述二值图预测的所述单据图像的文本区域位置坐标；

7、基于所述位置标签、所述文本区域位置坐标以及预设损失函数对所述预设编码器模块、所述级联融合注意力模块和所述局部-全局融合注意力模块的参数进行迭代更新，当所述预设损失函数收敛时，获得训练完成的目标单据文本检测模型。

8、第二方面，本发明实施例提供了一种单据文本检测方法，包括：

9、获取待检测单据图像；

10、对所述待检测单据图像进行模糊去噪处理、灰度处理以及数据增强处理，得到第一待检测单据图像；

11、将所述第一待检测单据图像输入至目标单据文本检测模型中，输出所述第一待检测单据图像对应的文本区域位置坐标；其中，所述目标单据文本检测模型基于如上第一方面或第一方面的任一种可能的实现方式所述的单据文本检测模型的训练方法训练得到。

12、第三方面，本发明实施例提供了一种单据文本检测模型的训练装置，包括：

13、图像获取模块，用于获取训练集图像，其中，所述训练集图像包括单据图像以及所述单据图像中的文本区域对应的位置标签；

14、特征提取模块，用于对于所述训练集图像中的每张单据图像，基于预设编码器模块进行特征提取，得到该单据图像对应的不同尺度的第一特征图；

15、特征融合模块，用于基于级联融合注意力模块和局部-全局融合注意力模块对所述不同尺度的第一特征图进行自顶向下和自底向上的特征融合，得到第二特征图；

16、文本检测模块，用于基于所述第二特征图得到概率图和阈值图，并对所述概率图和所述阈值图进行可微分二值化处理，得到二值图以及基于所述二值图预测的所述单据图像的文本区域位置坐标；

17、模型修正模块，用于基于所述位置标签、所述文本区域位置坐标以及预设损失函数对所述预设编码器模块、所述级联融合注意力模块和所述局部-全局融合注意力模块的参数进行迭代更新，当所述预设损失函数收敛时，获得训练完成的目标单据文本检测模型。

18、第四方面，本发明实施例提供了一种单据文本检测装置，包括：

19、单据图像获取模块，用于获取待检测单据图像；

20、图像预处理模块，用于对所述待检测单据图像进行模糊去噪处理、灰度处理以及数据增强处理，得到第一待检测单据图像；

21、图像文本检测模块，用于将所述第一待检测单据图像输入至目标单据文本检测模型中，输出所述第一待检测单据图像对应的文本区域位置坐标；其中，所述目标单据文本检测模型基于如上第一方面或第一方面的任一种可能的实现方式所述的单据文本检测模型的训练方法训练得到。

22、第五方面，本发明实施例提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上第一方面或第一方面的任一种可能的实现方式所述方法的步骤。

23、第六方面，本发明实施例提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上第二方面所述方法的步骤。

24、第七方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上第一方面、第二方面或第一方面的任一种可能的实现方式所述方法的步骤。

25、本发明实施例提供一种单据文本检测模型的训练方法及单据文本检测方法，通过获取训练集图像，其中，训练集图像包括单据图像以及单据图像中的文本区域对应的位置标签；对于训练集图像中的每张单据图像，基于预设编码器模块进行特征提取，得到该单据图像对应的不同尺度的第一特征图；基于级联融合注意力模块和局部-全局融合注意力模块对不同尺度的第一特征图进行自顶向下和自底向上的特征融合，得到第二特征图；基于第二特征图得到概率图和阈值图，并对概率图和阈值图进行可微分二值化处理，得到二值图以及基于二值图预测的单据图像的文本区域位置坐标；基于位置标签、文本区域位置坐标以及预设损失函数对预设编码器模块、级联融合注意力模块和局部-全局融合注意力模块的参数进行迭代更新，当预设损失函数收敛时，获得训练完成的目标单据文本检测模型。基于本发明实施例提供的单据文本检测模型的训练方法训练得到的目标单据文本检测模型，在对训练集图像进行特征提取的过程中，能够获得准确的语义信息和空间信息，进而保证图像文本边缘的准确定位；并且基于对第一特征图进行自顶向下和自底向上的特征融合可以有效提高文本检测的准确性；然后在对模型的训练过程中，基于损失函数迭代更新模型的各项参数，有效提升了模型的训练精度，进而进一步提高了单据文本的检测精度。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈曦常永娟郑涛卢艳艳曹锦纲彭姣杨力平王梦迪刘汝坤赵梦瑶贺月
技术所有人：华北电力大学（保定）国家电网有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。