一种基于MetaRCNN的少样本目标检测方法

文档序号:36013769发布日期:2023-11-17 09:08阅读:60来源:国知局
一种基于MetaRCNN的少样本目标检测方法

本发明属于计算机视觉,具体涉及一种基于meta rcnn的少样本目标检测方法。


背景技术:

1、近年来,以深度学习为基础的图像目标检测技术取得了显著成就,并涌现了许多成熟的检测模型,但这些模型均需要利用大量的标注样本进行训练,但即使是最好的方法也很难很好地泛化到训练期间系统没有遇到过或样本示例少的未知类别上,且在实际场景当中,往往很难获取到大规模高质量的标注样本,从而限制了其在特定领域的应用。同时,获取成千上万的有效数据并为其做出精确的标注成本高昂。尤其是在一些医疗、军事、国防等领域,数据稀缺,且需要高水平专家进行标注,普通深度学习的微调方式在面对这种只有单一或者少量样本的挑战时已然束手无策。

2、因而,通过很少的样本数量进行目标检测是一个极具现实意义的问题,受到了越来越多的关注。少样本目标检测问题的提出是为了解决训练样本较少的情况下的目标检测问题。传统的目标检测算法基于丰富的带有标注数据的训练样本进行目标检测,即其拥有丰富的训练样本,而少样本目标检测训练样本不足,这种情况下学习到的目标检测网络性能较差,检测精度也低于传统目标检测算法。因此,将训练好的目标检测网络很好地泛化到新类上是当前的少样本目标检测算法的研究重点。

3、由于少样本目标检测的研究尚且处于起步阶段,为了更好地推广到新类对象,必须明确一些需要着重解决的问题:

4、1)对图像数据进行特征提取并处理时,很容易受到噪声类信息特征的影响,特别是在少样本设置下,只为新类提供少数标记样本;

5、2)仅用一些新类别的实例微调目标检测网络容易导致过拟合。

6、meta rcnn将元学习引入到两阶段目标检测方法中,借助faster rcnn和maskrcnn的roi特征部分解决了复杂背景及图像中存在多个目标的情况下少样本目标检测算法研究的沉疴问题。网络添加了一种预测头重塑网络(the predictor-head remodelingnetwork,prn),其与faster rcnn或mask rcnn共享主干。prn完全卷积,其接收来自基类和新类的少样本目标及其边界框或掩码,推断出与少样本输入目标所属类相应的类注意向量。因而meta rcnn是个轻量级网络且提升了传统faster rcnn或mask rcnn在新类样本上的泛化能力。


技术实现思路

1、现有少样本目标检测方法,在基于大型数据集进行目标检测时,通常使用含有少量标注信息的新类(不常见类)进行网络模型微调,注释信息的缺乏导致网络学习到的可用知识较为匮乏,为新类检测的准确程度添加了难度。

2、为克服现有少样本目标检测方法研究较少且针对新类检测的准确率较低的缺点,本发明提供了一种基于meta rcnn的少样本目标检测方法,主要解决以下问题:(1)主干网从新类的输入数据中提取到的特征信息较为贫乏;(2)在基类上训练好的网络微调后在新类上的泛化能力差,基类和新类之间的可分离性较差。

3、为了达到上述目的,本发明采用了下列技术方案:

4、一种基于meta rcnn的少样本目标检测方法,包括以下步骤:

5、步骤1,采集原始数据:使用rgb相机拍摄所要预测的物体,得到rgb图像;

6、步骤2,生成训练数据集:获取rgb图像对应的边界框信息数据和掩码数据信息,以构建pascalvoc格式的数据集;

7、步骤3,构建深度学习网络模型:包括依次连接的数据输入模块、特征处理模块、特征聚合模块和预测器模块;

8、所述数据输入模块使用查询图像及类数据图像作为输入,其中查询图像为1维224×224深度图,类数据图像为基于图像特征预测生成的感兴趣区域的二进制掩码图像;

9、所述特征处理模块包括查询特征处理模块和类特征处理模块,所述查询特征处理模块和类特征处理模块均包括主干部分、rpn网络和建议级特征对齐模块,在所述查询特征处理模块中,输入图像首先通过卷积核为7的二维卷积,将卷积得到的特征图顺序进行批量归一化、relu激活、二维最大池化,并馈送到层级网络进行处理得到基础特征,随后将提取得到的基础特征图,连同图像信息、真实边界框以及边界框数量馈送到rpn网络中,以获取预测的感兴趣区域特征,所述建议级特征对齐模块基于预测的感兴趣区域特征,进行roi池化,池化方式拟定三种pooling_mode模式,根据不同模式的实际效果选取最终池化方式,获取到的特征图馈送到对应通道数的层级网络,得到最终的查询特征;在所述类特征处理模块中,再引入一个共享fasterrcnn的主干网络的prn,prn接收图像数据,以推断它们的类注意力向量,输入图像先经过所述主干部分处理得到类数据的基础特征,随后基础特征进行最大池化、对应通道数的层级网络及sigmoid处理生成类注意力向量,即类数据特征;所述层级网络由输入每个层的块数目及其类型创建生成;

10、所述特征聚合模块将特征处理模块获取到的类数据特征与查询特征分别逐次进行通道乘法、特征减法,得到的结果与查询特征按通道级联,完成特征聚合并得到聚合后的特征,特征聚合公式如下:

11、α(froi,fcls)=[froi⊙fcls,froi-fcls,froi]    (1)

12、其中,froi表示查询特征,fcls表示类数据特征;

13、预测器模块:为边界框分类和回归,包含边界框分类器和边界框回归器,二者均实现为两个大小为4096的全连接层,分别输出ntrain=|ctrain|个分类分数及每个roi对应的ntrain个框回归;

14、步骤4,训练深度学习网络模型:将生成的训练数据集中的图像进行预处理后,输入到深度学习网络模型,得到输出后图像与对应真值图一起送入目标函数计算损失,反向传播调整参数,直至目标函数收敛;

15、步骤5,输出:最终输出图像中包含对象概率及边界框参数,对边界框分类和回归输出的结果进行处理,得到边界框信息,同时将聚合特征馈送到输入特征数为聚合特征维度、输出特征数为类别数量的全连接层以计算对象类别概率,标注生成的含有边界框信息及掩码信息的图像输入到训练好的深度网络模型得到预测输出。

16、进一步,所述步骤2中rgb图像对应的边界框信息数据和掩码数据信息通过使用labelimg和labelme标注工具对拍摄的rgb图像进行标注来获取,具体步骤如下:

17、首先使用labelimg标注工具为所拍摄图像标注其对应的边界框,并标明框内对象的类别,标注生成pascalvoc对应格式的xml文件,然后使用labelme标注工具对图像进行轮廓及类别标注,生成对应的json文件。

18、进一步,所述步骤2中rgb图像对应的边界框信息数据和掩码数据信息通过使用目标检测算法和图像分割算法来获取,具体步骤如下:

19、在训练数据及数据集的yaml文件中添加对应类别数据及未出现的类别,然后使用传统目标检测算法及已有的权重文件进行训练,训练生成新的权重文件,基于此,对所构造的数据集进行检测,检测生成带有边界框标注的图像,并保存其对应的txt标签文件,同时采用实例分割算法,对图像进行处理,获取实例分割类型数据。

20、进一步,所述步骤3中边界框分类器设置两个分类器,将基类和新类的分类分支解耦,其中一个分类器只用于识别基类,另一个用于识别新类和背景,之后将两个分类器的输出进行合并,分类器的权值矩阵为w=[ω1,ω2,…,ωc],第i个roi和类c的分类得分如公式(2)所示:

21、

22、其中,α为比例因子,为分类权重向量,d为聚合特征的维数。

23、更进一步,所述分类器使用基于余弦相似度的分类器。

24、进一步,所述步骤4中得到输出后图像与对应真值图一起送入目标函数计算损失,具体步骤为:

25、rpn网络分类和最终目标分类均采用交叉熵损失函数,网络分类得分与对应标签一起送入损失函数进行计算;rpn网络回归和最终边界框回归均采用平滑l1损失函数,预测的边界框、实际边界框及平衡损失的权重一起送入损失函数进行计算;元损失采用交叉熵损失函数,注意力向量求取对应得分后与prn分类输出一起馈送到函数进行计算,损失函数如式(4)所示:

26、l=lrpn+lcls+lloc+lmeta    (4)

27、式(4)中,l是总损失函数,lrpn应用于rpn网络的输出,以区分前景和背景,并细化建议,lloc表示框回归的huber损失,lmeta是交叉熵损失,鼓励不同类别的类特征多样化,lcls表示基类和新类框分类的交叉熵损失函数,尝试最大化与任意的其他类之间的决策边界的边际,定义如式(5)、(6)和(7)所示:

28、

29、

30、其中,和sj分别为类和的分类分数,ε是一个常数,用于保持数值的稳定性;

31、

32、其中,α、β和γ为超参数,分别控制基类样本、新类样本和负样本的边际。

33、进一步,所述步骤5中输出包括:图像类别预测分数classscore,图像包含对象在原始图像对应的边界框位置信息:中心点x、y坐标及宽w、高h,进而得到图像坐标预测结果,如公式(3)所示:

34、(clsi,c,boxi,c)=p(α(froi,fcls))    (3)

35、其中,c∈ctrain,ctrain是所有训练类的集合,clsi,c和boxi,c是查询图像中第i个roi和类c的预测分类分数和对象位置。

36、与现有技术相比本发明具有以下优点:

37、1.主干网采用resnet模块,附加其在imagenet上预训练好的权重文件,加速网络训练,使模型收敛更快,缩减训练时间,提高模型性能。同时采用边界框标注图像数据及掩码标注数据作为网络输入,这两种类型的数据分别称为查询数据和类数据,网络集成两种类型数据特征,使得网络训练及微调时提取到的特征更丰富,获得的图像信息更全面,从而保证经过第一阶段的基础训练和第二阶段的网络微调,使得深度学习网络对样本特征识别检测精度更为准确。

38、2.针对两种输入数据处理生成的特征向量进行聚合。在meta rcnn的特征重加权聚合方式基础上,按通道级联两种类型基础特征进行特征减法后的新特征,以及查询特征,最终实现特征聚合。特征减法是衡量图像特征之间相似性的一种不同但同样有效的方法,而图像查询特征本身没有重加权,但也包含相关信息。

39、3.在分类阶段,为了保证基类与新类之间的可分离性,对基类和新类的分类分支进行解耦;且为了进一步扩大所有类之间的类间可分性,增加了新的边际损失函数。采用基于meta rcnn的少样本目标检测,首先在自己构造的数据集上进行实验,得到最高64.9和最低32.3的平均精度;然后在pascal voc和ms-coco公开传统目标检测数据集上实验,分别得到pascalvoc的三种类别分割方式下最高64.1和最低30.1的平均精度,及ms-coco下平均精度和平均召回率,优于现阶段已有的少样本目标检测方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1