自然场景文本检测方法、系统、存储介质及计算设备与流程

文档序号：34380193发布日期：2023-06-08 01:27阅读：33来源：国知局

本发明涉及深度学习图像处理的，尤其是指一种基于多层次特征增强与融合的自然场景文本检测方法、系统、存储介质及计算设备。

背景技术：

1、随着信息技术逐渐普及到生活中，文本成为大量信息的载体，并且以文档、图像或视频数据的方式被保存下来，有力地促进了人与人之间的交流。自然场景文本指的是人们日常生活中所处环境的文本，例如街道超市、商品包装或店铺牌匾等，这些文本蕴含的内容更加丰富，能够帮助人们快速地对当前所处环境做出判断，从而进行相关的生活行为。然而，不同于传统的、规则的文档图像中书写规范、排列整齐，自然场景文本具有字体风格不一、形状多变等特点，而且自然场景图像通常会存在多种干扰因素，如噪声、遮挡、混淆及透视失真等，使自然场景文本检测的难度急剧增加。当我们想用眼睛去搜索想要的文本信息时，成本太高，耗费时间，而且效率低下。因此，把目标检测和语义分割技术应用到自然场景文本的检测十分有必要。

2、随着二维目标检测技术的快速发展，有学者将yolo、ssd和faster r-cnn等主流目标检测器应用到自然场景文本检测领域，并且取得了较好的效果。然而，由于预设框和网络候选框通常为矩形框，不利于检测弯曲和任意形状等文本。近年来，从像素点层级角度出发的语义分割技术逐渐被国内外学者和研究机构广泛应用，在自然场景文本检测领域中有了更好的效果。同时，由于其不需要预设框的操作，因此能够有效地检测各类形状的文本。然而，目前现有的自然场景文本检测方法基本都是从如何检测任意形状文本这一角度出发，对于其他类型的自然场景文本的检测能力则有所不足，如未聚焦小文本、复杂背景文本及宽间距弯曲文本等。

技术实现思路

1、本发明的第一目的在于针对现有的dbnet模型特点，考虑自然场景文本检测中未聚焦小文本、复杂背景文本及宽间距弯曲文本等检测难题，提供一种基于多层次特征增强与融合的自然场景文本检测方法，该方法具有了深度学习技术的特性，采用了改进dbnet，改进dbnet在自然场景文本的检测中准确率和召回率更高，泛化能力也更好，且能够有效地检测未聚焦小文本、复杂背景文本及宽间距弯曲文本，通过训练可以不断优化网络，从而提高网络检测性能。

2、本发明的第二目的在于提供一种基于多层次特征增强与融合的自然场景文本检测系统。

3、本发明的第三目的在于提供一种存储介质。

4、本发明的第四目的在于提供一种计算设备。

5、本发明的第一目的通过下述技术方案实现：基于多层次特征增强与融合的自然场景文本检测方法，该方法是基于改进dbnet实现自然场景文本的精准检测，该改进dbnet是对原来dbnet的骨干网络模块、特征金字塔模块都进行了改进，其中，对骨干网络模块的改进是：加入lafe模块，其将三层空洞卷积、通道注意力和空间注意力有效地融合到一起；对特征金字塔模块的改进是：加入meff模块，其在多层次特征的融合过程中引入可变形卷积网络；

6、该自然场景文本检测方法的具体实施包括以下步骤：

7、1)数据预处理，包括对原始数据集进行imgaug数据增强，然后将输入到训练网络前的数据集中的图像处理为640×640的大小；

8、2)将处理后的数据集中的图像输入改进dbnet，通过加入了lafe模块的骨干网络模块来获取目标图像的特征信息，其中，经过lafe模块时依次进行三层空洞卷积、通道注意力和空间注意力来增强图像前后景特征的区别；将经过骨干网络模块输出的特征输入到加入了meff模块的特征金字塔模块中，以输出补充了空间语义信息的不同尺度的特征图，最终预测由概率图和阈值图生成的近似二值图，进而经过像素点到文本框的聚合后处理得出检测结果。

9、进一步，在步骤1)中，所述imgaug数据增强的情况是：对原始数据进行(-10°，10°)范围内的旋转、0.5倍和3倍比例的缩放，以及图像正则化、随机裁剪和翻转；通过该数据增强方式，能够有效地提高改进dbnet的网络性能，且对自然场景文本的检测也更具鲁棒性和有效性。

10、进一步，在步骤2)中，所述骨干网络模块由包含lafe模块的resnet50+dcn网络构成，将处理后的数据集输入到未包含lafe模块的骨干网络模块中，其读取输入的自然场景图像信息，以输出不同层次的原始特征ci＝{c2,c3,c4,c5}，其中c2,c3,c4,c5分别为未包含lafe模块的骨干网络模块输出的第2层、第3层、第4层和第5层的特征，且第2层、第3层、第4层和第5层的特征的通道数分别为2048、1024、512、256；

11、采用1×1卷积将第2层、第3层、第4层和第5层的特征的通道数降为256，然后将通道数都降为256的不同层次的原始特征ci并行地输入到lafe模块中；

12、在lafe模块中，采用三层空洞卷积的方式来扩大网络感受野，以加强网络对全局上下文信息的建模能力，并且每经过一次空洞卷积，上一层的特征图需要填充若干个像素点以保证输出特征图尺寸与原始特征ci相同，计算过程如式(1)所示：

13、

14、式中，i＝{2,3,4,5}，m、n和p表示三层空洞卷积的膨胀系数r＝{1,2,3}，fm表示采用膨胀系数为1的3×3卷积，fn表示采用膨胀系数为2的3×3卷积，fp表示采用膨胀系数为3的3×3卷积，则表示经过了三层空洞卷积后的融合特征；

15、在经过三层空洞卷积后，为了补充特征的通道维度信息，将融合特征加入通道注意力得到特征如式(2)所示：

16、

17、式中，avgpool和maxpool分别表示平均池化和最大池化操作，mlp表示利用两个全连接层先压缩后扩张通道数，σ表示sigmoid函数；

18、在加入了通道注意力后，为了补充特征的空间维度信息，还需要对特征加入空间注意力得到最终的增强特征计算过程如式(3)所示，其中f7×7表示用7×7卷积提取空间信息；最后，增强特征li则是原始特征ci、融合特征增强特征这三类特征相加得到的，如式(4)所示：

19、

20、

21、式中，表示经过三层空洞卷积输出的融合特征，表示经过通道注意力输出的特征，表示经过通道注意力和空间注意力输出的增强特征，li表示lafe模块输出的增强特征。

22、进一步，在步骤2)中，所述特征金字塔模块将骨干网络模块输出的特征信息作为输入，把不同尺度的特征图进行融合，其加入meff模块在改进dbnet中的目的是有效地降低传统连续线性上采样操作所造成的信息丢失，以更好地提取融合特征来减少自然场景文本的漏检、误检情况，具体情况如下：

23、将增强特征l5上采样2倍后与增强特征l4相加，增强特征l4上采样2倍后与增强特征l3相加，进而将它们与增强特征l2一起送入到meff模块中，以增强空间信息的表达，得到多层次特征mi＝{m2,m3,m4,m5}，其中m2，m3，m4，m5分别为特征金字塔模块输出的第2层、第3层、第4层和第5层的特征；

24、特征m2需要经过meff模块来获取，首先，针对相隔远的特征m4，进行4倍线性上采样后加入dcn；其次，对特征m3进行2倍线性上采样；最后，结合增强特征l2，一起经过dcn便得到融合了多层次特征信息的特征m2，具体计算过程如式(5)所示：

25、m2＝dcn(l2+dcn(up(m4,4))+up(m3,2)) (5)

26、式中，up(m3,2)和up(m4,4)表示对特征m3和特征m4分别进行2倍和4倍的线性上采样操作，dcn表示将特征在经过卷积核提取时引入可变形卷积网络，l2表示lafe模块输出的第2层特征；

27、采用1×1卷积将多层次特征mi的通道数由256降为64，并经过不同倍率的线性上采样操作来得到最终的多层次特征，然后经过拼接后得到大小为原图1/4的特征。

28、进一步，在步骤2)中，所述改进dbnet的预测模块对特征金字塔模块输出的最终特征进行预测，分别预测出图像概率图和图像阈值图，并采用可微二值化后处理模块来对它们计算处理得到近似二值图，进而采用像素点到文本框的聚合后处理方式来确定最终的文本检测结果。

29、本发明的第二目的通过下述技术方案实现：基于多层次特征增强与融合的自然场景文本检测系统，用于实现上述的基于多层次特征增强与融合的自然场景文本检测方法，其包括：

30、数据预处理模块，用于对原始数据集进行imgaug数据增强，然后将输入到训练网络前的数据集中的图像处理为640×640的大小；

31、改进dbnet网络模块，用于实现自然场景文本的精准检测，该改进dbnet是对原来dbnet的骨干网络模块、特征金字塔模块都进行了改进，其中，对骨干网络模块的改进是：加入lafe模块，其将三层空洞卷积、通道注意力和空间注意力有效地融合到一起；对特征金字塔模块的改进是：加入meff模块，其在多层次特征的融合过程中引入可变形卷积网络；

32、自然场景文本检测模块，用于将处理后的数据集中的图像输入改进dbnet，通过加入了lafe模块的骨干网络模块来获取目标图像的特征信息，其中，经过lafe模块时依次进行三层空洞卷积、通道注意力和空间注意力来增强图像前后景特征的区别；将经过骨干网络模块输出的特征输入到加入了meff模块的特征金字塔模块中，以输出补充了空间语义信息的不同尺度的特征图，最终预测由概率图和阈值图生成的近似二值图，进而经过像素点到文本框的聚合后处理得出检测结果。

33、本发明的第三目的通过下述技术方案实现：一种存储介质，存储有程序，所述程序被处理器执行时，实现上述的基于多层次特征增强与融合的自然场景文本检测方法。

34、本发明的第四目的通过下述技术方案实现：一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现上述的基于多层次特征增强与融合的自然场景文本检测方法。

35、本发明与现有技术相比，具有如下优点与有益效果：

36、1、本发明针对自然场景文本检测的难点，在dbnet网络的基础上进行改进。首先，在骨干网络模块中加入了lafe模块；其次，在特征金字塔模块中加入了meff模块。改进后的dbnet网络在自然场景文本的检测中准确率和召回率更高，泛化能力也更好。

37、2、本发明在dbnet网络上进行改进后，能够有效地检测未聚焦小文本、背景复杂文本及宽间距弯曲文本，多层次特征的增强与融合也让网络能够更有效地辨别图像前后景像素点，减少漏检、误检情况。

38、3、本发明具有广泛的应用前景，其端到端的训练方式能够有效地降低成本，提高自然场景文本检测的准确度。同时，本发明也能够很好地适用到自然场景文本检测的其它不同领域，具有一定的市场与前景。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杜振锋周晓清龚汝洪曾凡智周燕
技术所有人：广东宜教通教育有限公司
我是此专利的发明人

上一篇：设备运行状态切换方法、装置、终端设备和存储介质与流程
上一篇：一种晶体管及其制备方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。