本发明涉及一种基于边缘和fisher准则的学习方法,属于神经网络学习技术领域。
背景技术:
近年来,深度学习在解决图片处理问题上引起了广泛的关注,并取得了良好的效果。在这些方法中,学习方法是学习成功的一个重要因素。交叉熵和diceloss是目前基于深度学习的图片分割方法中两个主要的学习方法。交叉熵的目的是将图片中的每个像素正确地分类为前景对象或背景对象。它从单个像素的角度来度量分割的质量,却忽略了前景和背景的完整性。因此,即使对大部分像素进行了正确的分类,而有少量的像素点错误分类,网络则很难继续优化,分割质量也很难进一步提高。这个问题与类别不平衡问题相关联在一起。如果感兴趣的物体只占图片的一小部分,就会在ce损失的基础上得到不满意的分割结果。
diceloss考虑了前景和背景的完整性,它计算了groundtruth和prediction的重叠率,以评估分割的质量。它通常带来比ce损失更好的结果。diceloss也被称为iou或jacarrd指数。但是diceloss有个缺点,即rezatofighi等人所指出的,如果groundtruth和prediction两个前景对象不重叠,iou值将为零,这样就不会反映这两个形状之间的距离。在不重叠对象的情况下,如果使用iou作为损失,其梯度将为0,不能通过反向求导的方式继续优化。
技术实现要素:
本发明的目的在于现有神经网络关于图片处理的学习方法存在忽略了图片边缘以及模型稳定性的问题,提出了一种基于边缘和fisher准则的学习方法,可应用于图片分割、图片匹配等各种需要图片处理。
本发明是基于以下技术方案实现的。
所述基于边缘和fisher准则的学习方法依托于u型深度网络;
其中,该深度网络包括编码器和解码器;
编码器得到一组图片的特征图;
解码器将特征图解码为掩码,并输出分割掩码图;
所述基于边缘和fisher准则的学习方法,包括如下步骤:
步骤1、通过用摄像机对同一物体的不同角度拍摄,采集n张图片;
步骤2、对步骤1得到的n张图片通过深度网络进行编码,获取n张图片对应的特征图;
步骤3、通过深度网络对步骤2得到的特征图进行解码,得到n张每张双通道掩码图;两个通道上的每个点分别代表采集的n张图片对应位置上属于前景和背景的概率;
步骤4、分别计算步骤3得到的每张掩码图中真实前景和真实背景的平均概率;
用1减去真实前景对应的平均概率作为学习方法的损失项losspos,真实背景的平均概率直接作为学习方法的另一个损失项lossneg;
其中,损失项losspos用公式(1)计算,损失项lossneg由公式(2)实现:
其中,nf为真实前景像素的个数,pi为将第i个前景像素分类到前景的概率;nb为真实背景像素的个数,pj为第j个背景像素进入前景的概率;
步骤5、将步骤4得到的两个损失项losspos和lossneg通过公式(3)进行求平均得到类间距离损失项losse:
步骤6、分别在前景和背景区域中划分出物体三个像素宽的边缘邻近区域,并对前景边缘邻近区域和背景边缘邻近区域分别施加不同的权重,以获得理想的分割边缘效果,得到加入边缘权重的类间距离损失项losse如公式(4):
其中,wi和wj分别表示前景边缘邻近区域和背景边缘邻近区域对应的权重值;wi和wj的范围均是[1,1.1];
而除了边缘邻近区域的其他区域的权重均设为1;
步骤7、分别计算前景和背景的方差,且在计算方差的过程时也加上了边缘权重,计算方差时加入权重的方法与步骤6相同,即:对前景边缘邻近区域和背景边缘邻近区域分别乘上不同的权重值,得到加入边缘权重的类内距离损失项lossv,具体由公式(5)计算实现:
其中,mf和mb分别为前景和背景像素的平均分类概率;
步骤8、对步骤6和步骤7得到的两个损失项由公式(6)加权求和,得到网络的学习方法,即:
ew-fisher=λ*losse+(1-λ)*lossv(6)
其中,λ是调节两个损失项的超参数,λ的范围是λ∈[0,1];
步骤9、用步骤8得到的学习方法对网络进行学习,得到n张掩码图;
步骤10、用argmax的方法对步骤9得到的n张掩码图的每个像素点进行分类,得到n张分割掩码图,完成前景扣取过程。
有益效果
本发明所提的一种基于边缘和fisher准则的学习方法,在图片协同分割上与现有学习方法相比,具有以下有益效果:
1.所述学习方法将图片边缘加入学习方法中,使得分割出来的结果更加贴切人们所预期的边缘效果;
2.所述学习方法加入了fisher准则思想,其中类内距离度量使用方差的形式。这种度量方式使得模型训练的更快、训练出来的模型更稳定;
3.所述学习方法在图片协同分割上的正确率高于现有的学习方法学习出来的结果;
4.能实现快速、高精度、高可靠、完全自动的图片物体抠取功能,在固定背景下,对于各种不同物体,均能提取出令人满意的物体区域。
附图说明
图1是本发明一种基于边缘和fisher准则的学习方法的实施例流程图;
图2是本发明一种基于边缘和fisher准则的学习方法的分割网络结构示意图;
图3是确定边缘邻域像素权重的方法示意图;
图4是引入方差损失前后的效果示意图。
具体实施方式
根据上述发明内容中所述的技术方案,下面通过附图及具体实施例对本发明所述的一种基于边缘和fisher准则的学习方法进行详细说明。
实施例1
本实施例叙述了使用本发明所述的一种基于边缘和fisher准则的学习方法在步骤1到步骤5中得到的学习方法进行图片协同分割的具体实施。
本实例采用本发明提出的基于边缘和fisher准则的学习方法在商品展示中的商品前景抠取场景下实施,图1是本发明一种基于边缘和fisher准则的学习方法的实施例流程图,其具体实施步骤如下:
步骤a、将商品放在云台上,使其随云台进行360度旋转,在此过程中,从固定位置处对该商品拍摄若干张图片,比如18张、36张等,以下假定拍摄18张图片。
步骤b、对于18张图片,用每两张图片组合的方式得到
步骤c、对每组图片通过深度网络进行编码,获取
步骤d、对步骤c得到
步骤e、通过深度网络对步骤d得到的相关性特征图进行解码,得到
步骤f、计算步骤e得到的
用1减去真实前景对应的平均概率作为学习方法的一项,真实背景的平均概率直接作为学习方法的一项。得到两个损失项losspos和lossneg;
其中,损失项losspos用公式(1)计算,损失项lossneg由公式(2)实现;
其中,nf为真实前景像素的个数,pi为将第i个前景像素分类到前景的概率;nb为真实背景像素的个数,pj为第j个背景像素进入前景的概率;
步骤g、将步骤f得到的两个损失项losspos和lossneg通过公式(3)进行求平均得到类间距离损失项losse;
步骤h、分别在前景和背景区域中划分出物体三个像素宽的边缘邻近区域,并对前景边缘邻近区域和背景边缘邻近区域分别施加不同的权重,以获得理想的分割边缘效果,得到加入边缘权重的类间距离损失项losse如公式(4);
其中,wi和wj分别表示前景边缘邻近区域和背景边缘邻近区域对应的权重值;wi和wj的值分别是1.04,1.06;
而除了边缘邻近区域的其他区域的权重均设为1;
步骤i、分别计算前景和背景的方差,且在计算方差的过程时也加上了边缘权重。计算方差时加入权重的方法与步骤h相同,即:对前景边缘邻近区域和背景边缘邻近区域分别乘上不同的权重值,由公式(5)计算得到加入边缘权重的类内距离损失项lossv;
步骤j、对步骤h和步骤i得到的两个损失项由公式(6)加权求和,即:
ew-fisher=λ*losse+(1-λ)*lossv(6)
其中,λ是调节两个损失项的超参数,λ的值是0.7。
步骤k、使用步骤j得到的学习方法对网络进行学习,得到最终正确的
步骤l、用argmax的方法对步骤k得到的
在商品三维成像中,需要拍摄一组旋转物体进行商品展示,此处具体实施对应于发明内容中步骤1以及前述实施步骤中的步骤a。
拍摄完商品展示后,再将同一商品从不同角度拍摄得到的图片进行组合,此处具体实施对应于发明内容中使用步骤1得到的图片进行组合以及前述实施步骤中的步骤b。
得到图片的组合后,对图片进行编码,得到特征图,此处具体实施对应于发明内容中步骤2以及前述实施步骤中的步骤c。
得到特征图后,对每组特征图进行相关性计算,得到相关性特征图,此处具体实施对应于前述实施步骤中的步骤c。
得到相关性特征图后,对每个特征图进行解码,得到掩码图,此处具体实施对应于发明内容中步骤9以及前述实施步骤中的步骤e。
得到掩码图后,用学习方法对网络进行学习,得到最终正确的掩码图,此处学习方法的具体实施对应于发明内容中步骤8以及前述实施步骤中的步骤j。
得到分割的掩码图后,用argmax的方式,对掩码图上的每个像素点进行分类,完成物体抠取过程,此处具体实施对应于发明内容中步骤10以及前述实施步骤中的步骤l。
此时,就完成了步骤1采集及步骤b组合输出的图片进行协同分割,分割过程中,使用类fisher准则并且加入边缘权重,具体对应发明内容中的步骤4到步骤8以及前述实施步骤中的步骤f到步骤j,也是本发明的核心保护及创新点。
为提高分割精度、提高模型稳定性并且使得分割结构更贴切人们所期望的边缘效果,本发明有效提升了分割性能。
为了达到使用上述的学习方法进行图片协同分割的目的,本发明选用了改进的u型孪生深度网络。
图2是整个网络框架。分割网络整体结构为u形孪生网络,其中,u型孪生网络,属于发明内容中提到的u型网络中的一种,采用该网络实施本发明所述方法时,与发明内容中所述内容的差异在于增加第二部分相关性层。
第一部分编码器及第三部份解码器与前述发明内容所述一致。
编码器使用基于resnet50的siamese双通道网络,网络分为三部分。第一部分是编码器,编码得到一组图片的特征图;第二部分是相关性层,通过相关性计算,得到一组图片的相关性特征图;最后一部分是解码器,其将相关性特征图解码为掩码,最终输出分割掩码图。a和b表示一组特征图。右侧a'和b'表示一组相关性特征图。
图3是确定边缘邻域像素权重的方法,此处具体实施对应于发明内容中步骤6和步骤7以及前述实施步骤中的步骤h和步骤i。图中foregroundedgearea和backgroundedgearea分别表示前景边缘邻近区域和背景边缘邻近区域。actualedge表示图片中前景的真实边缘。
图4是引入方差损失后的效果,此处具体实施对应于发明内容中步骤7以及前述实施步骤中的步骤i。图中(a)表示加入方差损失项(lossv)前,(b)表示加入方差损失项之后。可见,lossv能够使得模型训练出来的样本点类内距离更小。
通过实施本技术,可快速、高精度、高可靠、全自动地从固定背景下的多幅图片中去除背景,获得仅包含物体的图片。实测数据表明:通过使用本发明的技术方法,对于各种不同类型商品,图片背景去除的精确度平均达99%以上;在当前主流gpu计算服务器上,平均每幅图片的处理时间<=1秒。
需要强调的是,对于本领域技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进,这些也应视为属于本发明的保护范围。