本发明涉及语义分割方法领域,尤其是一种基于深度学习无人机关键部件实时视频语义分割方法。
背景技术:
1、图像分类、目标检测与语义分割是计算机视觉领域研究最为广泛的三大重点视觉任务。目标检测提供的是相对粗粒度的目标级别的分类,但在一些实际应用中,不仅需要检测到目标存在,还需要得到目标的一个精确的边界,而语义分割则提供了一种实现像素级的图像分类的方式。在语义分割领域,一个图片中的每一个像素点都会被归为一个具体的类,从而能够得到图像的一个细粒度的分类。在深度学习方法成为主流前,传统语义分割方法也取得了一定的成果,但随着深度学习的发展,越来越多基于深度学习的方法在语义分割领域得到了应用,尤其是卷积神经网络(convolutional neural networks,cnn)的发展,显著地提高了语义分割算法的效果。
2、随着摄影技术的发展与摄像设备的普及,视频逐渐开始取代静态的文字与图片,成为最为常见的信息媒介之一。视频包含有相比图像更为丰富的时序信息,能够为图像分析提供更多可用的信息。同时,针对视频的智能识别技术也面临着连续性、实时性的难题;由于视频涉及到对连续帧的预测任务,其运算量相当庞大,传统的深层图像语义分割网络在视频上会遇到实时性的问题;此外,视频在提供连续帧的时序信息的同时,利用这些前后帧时序信息也会给模型带来额外的计算复杂度,这也为视频目标识别的效率提出了更高的要求。因此,视频语义分割与图像语义分割的主要区别便在于对时序信息的运用,并试图在速度和效果之间取得一个平衡。
技术实现思路
1、本发明提供了一种基于深度学习的视频流中飞行目标主要部件语义分割方法,解决现有神经网络对无人机关键部件分割的场景处理的缺失以及边缘处理精度不高、处理速度慢的问题。
2、本发明采用的技术方案如下:
3、基于深度学习的视频流中飞行目标主要部件语义分割方法,该方法包括如下步骤:
4、步骤1,采集数据:
5、搭建飞行目标模拟数据采集系统,利用实物模型模拟实际飞行目标,并通过摄录装置对飞行目标模型进行视频采集,采集包含飞行目标的视频数据;
6、步骤2,构建飞行目标视频数据集:
7、对步骤1采集的视频数据进行图像处理操作,模拟真实环境下的飞行目标背景与姿态;
8、对飞行目标的各待识别部件进行部件进行标注,包括分割出的部件图像区域,以及当前部件图像区域的类别标签;
9、从构建的飞行目标视频数据集中提取部分数据作为视频训练数据,以供用于网络模型参数的训练;
10、步骤3,搭建并训练基于深度神经网络的飞行目标视频语义分割网络:
11、所述飞行目标视频语义分割网络以视频作为输入,用于输出飞行目标的各待识别部件的部件分割结果以及部件类别;
12、将视频训练数据输入到飞行目标视频语义分割网络进行训练,基于飞行目标视频语义分割网络输出的部件分割结果(飞行目标的不同部件的预测结果)与真实结果设置飞行目标视频语义分割网络的损失函数,以调整网络各层的参数,反复迭代直到满足预置的训练结束条件为止,得到用于飞行目标的指定部件的最优视频语义分割网络。
13、优选地,所述步骤1中,所搭建的飞行目标模拟数据采集系统包括:飞行目标模型、摄录装置(如相机)、支撑单元(机械臂或稳定器或滑轨)、绿幕和补光灯,其目的是采集由模型模拟的飞行目标视频影像资料。
14、其中,飞行目标模型通过支撑单元用于支撑和带动飞行目标模型移动,并模拟飞行目标的姿态;摄录装置用于采集飞行目标模型的视频图像以得到包含飞行目标的视频数据。
15、优选地,步骤2中,对步骤1采集的视频数据进行图像处理操作,模拟真实环境下的飞行目标背景与姿态具体为:
16、对采集的视频数据进行背景替换处理,将采集的视频数据中的绿幕背景替换为与真实飞行目标实际场景相近的背景。
17、优选地,步骤2中,飞行目标的待识别部件包括:机体,机翼和挂载,并对挂载对象进行部件划分(例如将导弹划分为弹头,弹体,弹翼三个部分),得到待识别部件类别。
18、优选的,步骤2中,部件图像区域是基于图像标注工具所生成的包含部件标注信息的标注图像。
19、优选的,步骤2中还包括,对视频数据的原始图像与标注图像进行数据增强处理,以丰富数据样本,其中数据增强处理方式包括但不限于:翻转、旋转和位移。
20、优选地,所述飞行目标视频语义分割网络包含多个卷积层,并通过局部时间注意力机制模块来记忆时序信息辅助模型判断。
21、优选的,所述飞行目标视频语义分割网络的网络结构具体为:
22、所述飞行目标视频语义分割网络包括编码器、解码器和局部时间注意力机制模块;
23、在编码器部分,输入图像首先经2个下采样层,然后进入5个带有瓶颈结构的残差块的1维卷积层,接着经一层下采样层后输入卷积注意力模块(convolutional blockattention module,cbam),再将卷积注意模块的输出通过由8个带有瓶颈结构的残差块的1维卷积层组成的特征提取网络来提取图像的特征,得到的图像编码特征(即编码器输出的语义图);在解码器部分,所述图像编码特征通过两层由1个上采样层及2个带有瓶颈结构的残差块的1维卷积层组成的上采样网络进行图像编码特征还原并生成最终的部件分割结果;
24、所述局部时间注意力机制模块通过延时输出的方式得到读取窗口,并提取当前读取窗口的视频中当前帧的前后帧的信息,并通过non-local方法将前后帧特征融入到当前帧中,从而辅助模型对当前帧的判断。
25、优选的,步骤3中,飞行目标视频语义分割网络的损失函数为:飞行目标视频语义分割网络输出的部件分割结果与真实结果之间的交并比。
26、本发明提供的技术方案至少带来如下有益效果:
27、本发明解决了现有视频中飞行目标主要部件识别效果不佳,时序信息利用不充分的问题,提升了对飞行目标主要部件的识别效果与识别效率。
1.基于深度学习的视频流中飞行目标主要部件语义分割方法,其特征在于,包括如下步骤:
2.如权利要求1所述的方法,其特征在于,所述步骤1中,所搭建的飞行目标模拟数据采集系统包括:飞行目标模型、摄录装置、支撑单元、绿幕和补光灯;
3.如权利要求1所述的方法,其特征在于,步骤2中,对步骤1采集的视频数据进行图像处理操作,模拟真实环境下的飞行目标背景与姿态具体为:
4.如权利要求1所述的方法,其特征在于,步骤2中,飞行目标的待识别部件包括:机体,机翼和挂载,并对挂载对象进行部件划分,得到待识别部件类别。
5.如权利要求1所述的方法,其特征在于,步骤2中,部件图像区域是基于图像标注工具所生成的包含部件标注信息的标注图像。
6.如权利要求5所述的方法,其特征在于,步骤2中还包括,对视频数据的原始图像与标注图像进行数据增强处理,其中数据增强处理方式包括:翻转、旋转和位移。
7.如权利要求1所述的方法,其特征在于,所述飞行目标视频语义分割网络包含多个卷积层,并通过局部时间注意力机制模块来记忆时序信息辅助模型判断。
8.如权利要求1所述的方法,其特征在于,所述飞行目标视频语义分割网络的网络结构具体为:
9.如权利要求1至8任一项所述的方法,其特征在于,步骤3中,飞行目标视频语义分割网络的损失函数为:飞行目标视频语义分割网络输出的部件分割结果与真实结果之间的交并比。