一种基于深度学习的运动目标数据制作和检测方法与流程

文档序号:37182234发布日期:2024-03-01 12:41阅读:11来源:国知局
一种基于深度学习的运动目标数据制作和检测方法与流程

本发明涉及计算机视觉领域,具体是一种基于深度学习的运动目标数据制作和检测方法。


背景技术:

1、运动目标检测是计算机视觉领域的重要任务,旨在从图像或视频中准确地识别和跟踪运动的目标物体。深度学习技术在运动目标检测中取得了显著的进展,特别是基于卷积神经网络(cnn)的方法。这些方法通过训练神经网络来学习目标的特征表示和运动模式,从而实现高精度的目标检测和分割。

2、在深度学习方法中,常用的模型架构包括基于区域的方法(如r-cnn、fast r-cnn、faster r-cnn)、基于单阶段检测的方法(如yolo、ssd)以及基于全卷积网络的方法(如maskr-cnn)。这些方法在不同的网络结构和算法优化上有所差异,但都旨在提高运动目标检测的准确性和效率。

3、在现有技术中,存在与本技术方案最相近似的实现方案,其中一个典型的例子是基于合成数据的训练方法。该方法通过使用图像合成技术,将真实的前景目标与虚拟的背景图像进行合成,从而生成具有真实标注的合成数据集。这种方法的主要结构原理和技术手段如下:

4、1.数据合成:选择真实的前景目标数据和虚拟的背景图像,将它们进行合成。合成过程中,通常需要考虑前景与背景的透视关系、光照一致性等因素,以保证合成图像的真实性。

5、2.标注生成:对合成的图像进行标注,包括目标的位置、边界框或像素级分割掩码。这些标注信息可以根据前景目标的真实运动状态进行生成,以提供准确的目标真值。

6、3.模型训练:使用生成的合成数据集来训练深度学习模型。通常采用迭代的方式,通过反向传播和优化算法来更新网络参数,使其逐步学习到目标的特征表示和运动模式。

7、该实现方案的一个典型文献来源是论文"synthetic data for deep learning"(作者:sergey i.nikolenko),该著作介绍了使用合成数据进行深度学习训练的方法和实验结果。

8、虽然该实现方案与本技术方案有一些相似之处,但仍存在一些区别。与本发明不同的是,本发明通过选择真实的背景视频片段,而不仅仅是虚拟的背景图像,以更好地反映真实场景中的背景变化。此外,本发明还通过分割数据的分割结果获取前景数据,并通过线性变换模拟前景的运动状态,实现了前景与背景的解耦合成,提高了合成的灵活性和准确性。最终,本发明生成的合成视频具有准确的运动目标真值,为深度学习模型的训练提供了高质量的数据。

9、综上所述,虽然现有技术中存在与本技术方案最相近似的实现方案,但本发明通过创新地选择真实背景数据、实现前景与背景的解耦合成以及生成高质量的运动目标真值,进一步提高了运动目标检测的准确性和性能。同时,本发明中设计的神经网络模型经过重构和优化,主要优点是其具有低运算复杂度,采用轻量级结构适配自动驾驶嵌入式平台,并提供良好的准确性,为大规模自动驾驶量产方案提供了一种重要思路和方法。


技术实现思路

1、本发明的目的在于克服现有技术的不足,提供一种基于深度学习的运动目标数据制作和检测方法,包括如下步骤:

2、步骤一,运动目标数据制作,生成带有从dtd纹理数据集中采样的纹理对象的rgb序列;

3、步骤二,构建运动目标分割模型,采用编码器-解码器结构,网络编码器用于在特征图提取阶段之前进行特征提取,使用shufflenet unit组成的卷积2d卷积单元,对输入和中间层的特征图进行卷积,然后将特征图上采样到输入图像大小,编码器由三个反卷积层组成,提供最终的输出图像大小;

4、步骤三,通过步骤一生成的rgb序列对运动目标分割模型进行训练,当运动目标分割模型输出的相对相机运动的目标的二进制掩码与目标掩码的差值在设定范围内,则完成模型训练;

5、步骤四,将采集到的目标图像输入到完成模型训练的运动目标分割模型,得到目标相对相机运动的二进制掩码。

6、进一步的,所述的生成带有从dtd纹理数据集中采样的纹理对象的rgb序列,包括如下过程:

7、从2d形状开始进行前景对象的合成,所述的2d形状是由4个顶点的2d多边形生成的,包括凸多边形和非凸多边形,以及2d多边形上的随机孔,通过进行前景对象的合成,根据前景对象的控制点,应用具有6个控制点的薄板样条函数生成目标对象的非刚性运动,将运动目标组合到一个独立变换的画布上,在不同的时间位置加入静态子序列,在画布上叠加任意形状的遮挡器,并遵循与背景相同的运动,当遮挡器的轨迹与前景对象相交时,可以生成真实遮罩。

8、进一步的,还包括用真实对象替换2d多边形,使用大规模数据集的中目标对象分割后的图像作为真实对象对多边形替换,真实对象被使用的概率为p。

9、进一步的,还包括应用具有6个控制点的薄板样条函数生成目标对象的非刚性运动,其中的6个控制点包括:

10、设ptl、ptr、pbr、pbl分别表示2d多边形左上、右上、右下、左下的顶点,剩下两个控制点,分别位于(xptl+0.3*w,yptl+0.3*h)和(xpbr-0.3*w,ypbr-0.3*h)坐标处,其中h和w表示2d多边形的最大高度和宽度。

11、进一步的,生成目标对象的非刚性运动包括如下过程:

12、确定目标对象的四个顶点和两个额外的控制点,选择一个或多个控制点并执行移动或旋转操作,这将改变薄板样条函数的形状,从而导致目标对象的非刚性运动,直到生成满足需求的目标对象的非刚性运动。

13、进一步的,所述的通过步骤一生成的rgb序列对运动目标分割模型进行训练,包括:

14、两个时间上连续的图像在两个编码器中分别被输入并处理,输出相对相机运动的目标的二进制掩码,即相对相机运动输出1,想对相机静止输出0,采用加权交叉熵来克服类别不平衡问题,同时选用了adam优化器,并设置了相关的学习率为1e-4,采用了具有5e-4加权衰减的l2正则化方式对神经网络进行约束,网络编码器的初始化采用了在imagenet上预训练后收敛的权重。

15、进一步的,所述的当运动目标分割模型输出的相对相机运动的目标的二进制掩码与目标掩码的差值在设定范围内,则完成模型训练,包括:

16、在训练过程中,将训练数据输入到模型中,运动目标分割模型根据输入的图像和目标掩码来调整参数,使得输出的二进制掩码不断接近目标掩码,直到使得输出的二进制掩码与目标掩码的差值在设定范围内,完成模型训练。

17、本发明的有益效果是:自动化合成运动目标数据可以有效地增加训练数据的数量和多样性,从而提高神经网络的泛化能力和准确性。

18、自动化合成的数据可以更加容易地进行控制和调整,以满足不同的训练需求和应用场景。自动化合成运动目标数据可以大幅降低开发成本和时间,从而更快地推出专利产品,并在市场上取得更大的优势。因此,在专利副本中描述自动化合成运动目标数据的好处是非常必要和重要的。shufflenet模块采用了逐点组卷积和通道重排技术,可以大幅度降低计算成本和模型大小,从而使得该模型可以在嵌入式设备上进行快速且高效的部署和应用。该模型采用了深度学习中常用的编码器-解码器结构,并且在编码器中应用了shufflenet模块,可以有效地提取图像特征和运动信息,并且保留了高分辨率的细节信息。该模型的训练采用了加权交叉熵损失函数和l2正则化,可以有效地克服类别不平衡问题和过拟合问题,从而提高模型的泛化能力和准确性。该模型可以广泛应用于自动驾驶领域,用于对车辆周围环境进行实时监测和分析,从而提高自动驾驶的安全性和可靠性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1