本发明涉及图像处理与分析,更具体地说,涉及一种基于深度学习和视觉算法的图像区域提取与分割方法。
背景技术:
1、目前,传统的图像分割方法,如基于边缘检测、阈值分割和颜色空间变换的算法,在简单背景下可以实现对纸张和显示屏的检测和分割,但在用户拍摄的实际场景中,这些方法通常难以应对复杂情况。例如,在复杂背景下,传统算法可能无法区分纸张或显示屏与其周围环境,导致分割不准确。此外,用户拍摄的显示屏图像中可能存在摩尔纹干扰(即由于相机传感器和显示器像素阵列的相互作用产生的条纹),传统方法在消除这些干扰时效果不佳。
2、另一方面,现有的基于深度学习的分割方法,在处理复杂图像场景时表现较好,特别是在有大量标注数据支持的情况下,能够取得较高的分割精度。然而,这些方法在实际应用中仍然存在一些限制。例如,在用户拍摄包含多个显示屏的图像时,深度学习模型可能难以准确识别出主体屏幕,尤其是在各个屏幕显示内容相似或者屏幕之间有遮挡的情况下。此外,现有方法往往对多角度拍摄的图片处理较差,在屏幕倾斜或发生形变时,分割精度显著下降。
3、因此,现有技术中存在的主要问题包括:
4、1)用户拍摄的纸张或显示屏图像,现有图像分割方法在复杂背景、摩尔纹干扰、多屏幕场景以及角度变化情况下的分割效果不理想;
5、2)传统方法在处理复杂图像时,容易受到背景噪声和显示屏摩尔纹的影响,难以准确提取目标区域;
6、3)现有深度学习方法在数据集不足的情况下,易出现分割结果不准确的问题,且在存在多个屏幕时,难以识别并提取主体屏幕。
7、为此,本方案针对上述现有缺陷,提出了一种一种基于深度学习和视觉算法的图像区域提取与分割方法。
技术实现思路
1、1.要解决的技术问题:
2、针对现有技术中存在的问题,本发明的目的在于提供一种基于深度学习和视觉算法的图像区域提取与分割方法,通过结合深度学习与传统计算机视觉算法,解决现有的缺陷,提升复杂背景下图像分割的精度和稳定性,并在多屏幕检测和摩尔纹干扰消除方面取得更好的效果。
3、2.技术方案:
4、为解决上述问题,本发明采用如下的技术方案。
5、一种基于深度学习和视觉算法的图像区域提取与分割方法,包括以下步骤:
6、sa1、数据采集与数据预处理:
7、收集由用户拍摄的纸张、电脑屏幕以及手机截屏等信息并进行人工排除非上述三类的图片情况,作为原始数据;
8、sa2、构建数据集:
9、通过人工标注多边形前景边缘,然后处理填充为mask作为掩码目标,并联合mask和图片image构建训练集、测试集以及验证集;
10、sa3、建立深度学习模型:
11、构建由边缘提取网络以及深度学习网络组成的深度学习网络docsegnet,初始化其网络参数;
12、sa4、训练docsegnet:
13、对整个docsegnet进行监督训练,取所有测试集与训练集,进行交叉验证的方法进行训练,取其中平均损失最小的网络模型,保存模型。
14、进一步的改进在于:所述sa3步骤中模型的输入为h*w*3,输出为h*w*1。
15、进一步的改进在于:所述模型的网络层层次结构设计包括以下步骤:
16、sb1、边缘检测:通过edge模块(sobelnet)处理输入图像x,提取边缘信息,记为hx;
17、sb2、边缘信息编码:将边缘特征融合图像hx输入至卷积中进行编码;
18、sb3、编码器特征解码:通过解码器模块逐步上采样,并使用跳跃连接融合对应的编码器特征;
19、sb4、输出侧边特征:侧边输出层(side1到side6)用于在不同尺度生成特征图,分别记为d1到d6,并统一上采样到d1的尺度;
20、sb5、最终输出:将各个侧边特征拼接,通过outconv生成最终输出d0。
21、进一步的改进在于:所述边缘信息编码包括以下步骤:
22、stage1:将边缘特征融合图像hx输入到第一层卷积中,生成特征表示hx1,再通过pool12最大池化层下采样;
23、stage2:将hx1进一步传入第二层卷积生成特征表示hx2,通过pool23最大池化层继续下采样;
24、stage3:类似地,生成特征hx3并通过pool34下采样;
25、stage4:生成特征hx4并通过pool45进一步下采样;
26、stage5:生成特征hx5并通过pool56下采样;
27、stage6:最后,hx5进一步卷积生成特征表示hx6,并将其上采样到hx5的尺度,记为hx6up。
28、进一步的改进在于:所述编码器特征解码包括以下步骤:
29、stage5d:将hx6up与hx5融合,生成特征表示hx5d,并上采样到hx4的尺度;
30、stage4d:将上采样后的hx5d与hx4融合生成hx4d,并上采样到hx3的尺度;
31、stage3d:重复该过程生成hx3d并上采样到hx2的尺度;
32、stage2d:生成hx2d并上采样到hx1的尺度;
33、stage1d:生成最终解码器输出hx1d。
34、进一步的改进在于:所述样本的损失函数计算公式为:
35、;
36、其中:
37、n为样本数量,
38、di(j)表示当前尺度模型的预测值,
39、labelsv(j)表示真实的标注mask数据标签。
40、进一步的改进在于:所述网络层层次结构设计的求和公式为:
41、;
42、即最终loss为:
43、。
44、进一步的改进在于:所述图形区域的分割评估公式为:
45、;
46、其中:output为模型预测的mask图像,target为人工标注的labels,smooth为防止计算问题,默认设置为10^-5。
47、3.有益效果:
48、采用本发明提供的技术方案,与现有技术相比,具有如下有益效果:
49、(1)提高了图像分割的精度:通过结合深度学习(u2netp模型)与传统计算机视觉算法,该方法能够更加准确地提取纸张和显示屏区域,尤其是在复杂背景和多角度拍摄的场景下,显著提升了分割的精度。
50、(2)解决了摩尔纹和多屏幕检测问题:传统算法难以有效消除摩尔纹干扰或识别出多个屏幕中的主体屏幕,而本发明通过深度学习预测与区域生长相结合,能够准确定位并消除摩尔纹干扰,同时在多屏幕场景中准确识别主体屏幕。
51、(3)增强了鲁棒性和适应性:本发明通过形态学操作和区域生长技术,有效去除了由于训练数据不足而产生的噪声,使得在数据量有限的条件下依然可以获得较为稳定的分割效果。此外,采用凸包拟合和最大闭包计算,使得该技术对屏幕形变和图像角度变化的适应性更强。
52、(4)多重验证提升准确率:通过计算深度学习分割结果与传统算法结果的iou(交并比),在分割结果不匹配时智能选择深度学习预测的前景区域,进一步提高了最终输出结果的可靠性和精度。
53、需要说明的是,本发明未介绍的结构由于不涉及本发明的设计要点及改进方向,均与现有技术相同或者可采用现有技术加以实现在此不做赘述。