一种基于多特征损失函数融合的目标标注方法及系统

文档序号:35344263发布日期:2023-09-07 17:27阅读:23来源:国知局
一种基于多特征损失函数融合的目标标注方法及系统

本发明涉及图像处理以及智能信息提取,尤其涉及一种基于多特征损失函数融合的目标标注方法及系统。


背景技术:

1、随着传统农业与人工智能技术相结合,智慧果园的建设在果业发展中得到了更为广泛的关注,其中高精度果实检测技术是现代化智慧果园实际应用工作中的重要基础技术,在果实定位、果实分拣、果实产量预测、果实自动采摘等众多智慧果园智能化工作中有着广泛的应用价值。目标标注的通用方法以及在智慧果园上的应用越来越重要。

2、一方面,现阶段的目标检测技术大多采用深度学习的方法,需要依赖大量已标注数据集支撑深度学习模型的训练学习。因此需要人工对大量样本图像进行标注以便训练图像标注模型,耗费人力和时间,导致图像标注效率较低,进而导致图像检测模型的训练效率较低。因此,虽然现阶段基于深度学习的目标检测技术得到了广泛的应用,但是需要依赖大量已标注数据集才能支撑检测模型的训练学习,造成人工标注成本增高。

3、第二方面,真实场景中的果树分布密集,果实长势不规律,尺度小且遮挡严重,从而导致场景环境多样性很强。而由于现阶段深度学习模型泛化性能差的原因,研究人员需要针对不同场景环境和不同种类的果实制作新的果实数据集,导致数据集的标注工作的难度大大提升,更为费时费力。

4、第三方面,在选取最适合的源域数据时,由于有的聚类中只有一种目标,有时候可能无法选取到最适合的源域。由于原始cyclegan网络只能训练生成器达到重新着色的效果,较难对形状以及纹理等特征进行精准描述,也就缺少真实目标图像的形状纹理特征信息进行网络的拟合训练。

5、目前的技术方向包括:(1)引入实例级损失约束从而更好地规范图像中前景目标的生成方向,但此类做法引入了额外的人工标注过程,并不适用于基于无监督学习的果实自动标注任务;(2)采用一种跨循环比较路径的果实转换模型across-cyclegan,通过引入结构相似性损失函数从而实现了圆形果实到椭圆形果实的转换;然而目标自动标注方法的泛化性不高,无法实现特征差异大尤其是形状存在很大差异目标域目标的自动标注任务。

6、因此对于如何建立一种泛化性更高、域适应性更强的目标数据集的自动标注方法,同时能够对生成模型进行优化,从而在形状颜色纹理变化很大时,能够实现逼真地转换,实现域差异的减小具有迫切的需求。


技术实现思路

1、为了解决现有技术中存在的问题,本发明提供了一种基于多特征损失函数融合的目标标注方法及系统,进一步提高无监督果实转换模型性能,增强算法对于果实表型特征的描述能力,从而控制模型在表型特征差异大的跨越式果实图像转换任务中能够精准控制果实生成方向。

2、本发明第一方面提供了一种基于多特征损失函数融合的目标标注方法,其中所述方法用于多个类别的目标标注任务,所述多特征损失函数为基于熵权法的多维损失函数,所述基于熵权法的多维损失函数分别用于约束目标转换模型训练过程中多个类别的所述目标的颜色、形状以及纹理的生成方向,包括:

3、s1,获取单一类别最佳源域无背景目标图像;所述单一类别最佳源域无背景目标图像采用原始rgb图像进行表征;

4、s2,将所述单一类别最佳源域无背景目标图像进行特征图可视化,从而提取基于潜在空间的特征图;

5、s3,将所述原始rgb图像与基于潜在空间的特征图融合形成多模态输入信号,输入由基于熵权法的多维损失函数监督的目标转换模型中获得多类别目标域无背景目标图像的子集;

6、s4,将所述多类别目标域无背景目标图像的子集输入到目标检测模型中,并基于目标检测模型进行目标标注。

7、优选的,所述s2包括:

8、s21,利用预训练特征提取网络或预训练特征编码网络作为编码器挖掘目标图像的潜在空间;

9、s22,利用反向导向特征可视化映射作为解码器突出目标图像中的目标特征的解空间表示,从而利用无监督的方式发现目标图像中的潜在特征;

10、s23,基于所述潜在特征提取基于潜在空间的特征图。

11、优选的,所述编码器为序列化网络vgg16,所述s21包括:从vgg16最后一层的深层卷积层输出图像的矢量化表示提取其高级语义信息,所述矢量化表示为矢量值y;并将所述矢量值y利用潜在编码z进行特征解耦;

12、所述s22包括:通过解码器进行特征图映射,得到深层卷积层中各特征的梯度信息y',梯度信息y'表示为卷积层中每个通道对于y的贡献,贡献越大表示该通道越重要,针对特征层conv中c个通道的权重占比记作weightc;weightc表示为:

13、

14、所述s23包括:进行反向传播,通过relu激活函数并加权求和计算图像的激活梯度,对y'在特征图的宽和高求均值进行归一化获得每个通道的重要程度,最大化激活目标中高级语义特征图像,获得空间解耦后各类目标图像的形状纹理特征图featuremap,计算过程为:

15、

16、其中weightc表示针对特征层conv中c个通道的权重占比,y表示原始图像经过序列化网络vgg16编码器正向传播后得到的矢量值,w和h分别表示高级语义特征图像的宽和高,表示特征层在通道c中坐标位置为(i,j)处的数据。

17、优选的,所述s3包括:

18、s31,由多维损失函数监督目标转换模型的生成器,所述多维损失函数包含三类损失函数,分别为颜色特征损失函数lcolor(),形状特征损失函数lshape()以及纹理特征损失函数ltexture();

19、s32,基于可量化目标表型特征的动态自适应权重方法配平多维损失函数的权重后获得基于熵权法的多维损失函数;

20、s33,将所述原始rgb图像与基于潜在空间的特征图融合形成多模态输入信号,输入由配平权重后的基于熵权法的多维损失函数监督的目标转换模型中获得多类别目标域无背景目标图像的子集。

21、优选的,所述s31中,所述颜色特征损失函数为cyclegan网络中循环一致损失函数及自映射损失函数;所述颜色特征损失函数表示为:

22、lcolor(gst+gts)=lcycle(gst+gts)+lidentity(gst+gts)    (4)

23、所述循环一致损失表示为:

24、icycle(gst+gts)=es~pdata(s)||gts(gst(s))-s||1+et~pdata(t)||gst(gts(t))-t||1(5)

25、所述自映射损失函数表示为:

26、lidentity(gst+gts)=es~pdata(t)||s-gst(s)||1+es~pdata(t)||t-gts(t)||1   (6)

27、其中gst表示源域特征,gts表示目标域特征,es~pdata(s)以及et~pdata(t)分别表示源域以及目标域中的数据分布,t和s分别表示目标域以及源域的图像信息;

28、所述形状特征损失函数为基于多尺度结构相似性指数ms-ssim,所述形状特征损失函数表示为:

29、lshape(gst+gts)=(1-ms_ssim(gst(s),t))+(1-ms_ssim(gts(t),s))   (7)

30、其中ms_ssim表示基于多尺度结构相似性指数损失计算;

31、所述纹理特征损失函数为基于局部二值模式(lbp)描述子的纹理特征损失函数,所述纹理特征损失函数表示为:

32、ltexture(gst+gts)=pearson(lbp(gst(s),t)+pearson(gts(t),s))   (8)

33、lbp(x,y)=n(lbp(xc,yc))   (9)

34、

35、

36、其中pearson表示利用皮尔森相关系数计算目标纹理特征间的差异性大小,n表示遍历整幅图像中所有的像素值,xc,yc表示中心像素,ip和ic分别表示二值模式下的两个不同灰度值,s为符号函数,p表示选取自中心像素点的p邻域。

37、优选的,所述s32包括:

38、(1)依次计算源域和目标域中第i个目标的形状、颜色以及纹理特征的可量化描述子数值,并对其进行归一化处理,归一化后的第i个目标的形状、颜色以及纹理特征分别记作si,ci,ti;

39、(2)计算每个目标在不同特征值下的比重pij,用于描述不同特征描述子数值的差异性大小,如公式(12)所示:

40、

41、其中,pij表示每个目标在不同特征值下的比重;yij表示不同特征描述子数值,i为目标编号,j依次取形状、颜色以及纹理特征作为三个不同的指标;

42、(3)计算一组数据的信息熵如公式(13)所示:

43、

44、(4)根据信息熵的计算公式得到各个指标的权重如公式(14)所示:

45、

46、(5)基于熵权法的多维损失函数的整体损失函数lguided-gan表示为公式(3):

47、lguided-gan=ws*lshape(gst+gts)+wc·lcolor(gst+gts)

48、+wt·ltexture(gst+gts)   (3)

49、其中gts表示源域映射到目标域的生成器,gts表示目标域映射到源域的生成器,ws,wc以及wt分别表示在模型训练过程中利用熵权法分配给形状、颜色以及纹理损失函数的权重比例。

50、优选的,所述方法还包括:获取所述单一类别最佳源域无背景目标图像中的所述最佳源域,其中所述最佳源域的获取方式包括:

51、从多类别的目标前景图像中分别提取每种类别的目标的外观特征;

52、将所述外观特征抽象为特定形状、颜色和纹理,基于多维特征定量化分析方法对于不同的目标特征计算特定形状、颜色和纹理的相对距离作为不同目标的外观特征的分析描述集;

53、基于对分析描述集进行多维特征空间重构和特征差异划分构建不同类别描述模型,并从中选取单一类别最佳源域目标图像;

54、基于所述单一类别描述模型获得目标的最佳源域,包括:基于所述单一类别描述模型对不同的目标按照所述外观特征进行分类;针对实际需求的目标域种类,从所述分类中选择最佳源域目标图像。

55、发明第二方面提供了一种基于多维空间特征模型最佳源域的目标标注系统,包括:

56、第一图像获取模块,用于获取单一类别最佳源域无背景目标图像;所述单一类别最佳源域无背景目标图像采用原始rgb图像表征;

57、特征图提取模块,用于将所述单一类别最佳源域无背景目标图像进行特征图可视化,从而提取基于潜在空间的特征图;

58、第二图像获取模块,用于将所述原始rgb图像与基于潜在空间的特征图融合形成多模态输入信号,输入由基于熵权法的多维损失函数监督的目标转换模型中获得多类别目标域无背景目标图像的子集;

59、目标标注模块,用于将所述多类别目标域无背景目标图像的子集输入到目标检测模型中,并基于目标检测模型进行目标标注。

60、本发明的第三方面提供一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述指令并执行如第一方面所述的方法。

61、本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述多条指令可被处理器读取并执行如第一方面所述的方法。

62、本发明提供的基于多维空间特征模型最佳源域的目标标注方法、系统、电子设备以及计算机可读存储介质,具有如下有益的技术效果:

63、建立一种泛化性更高、域适应性更强,而且能够满足不同类别果实数据集的自动标注方法;能够自动获得目标域目标的标签,从而应用到下游的智慧农业项目中;并且大大减少了人工标注目标框时所产生的金钱成本和时间成本(相比现有技术中单个场景数据集标注中,市场上平均0.2元/标注框,每张图像平均30颗果实,每张图像平均耗费3分钟标注时间,每个数据集至少包含10000张图像)。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1