一种基于数据增强的小样本雷达图像人体动作分类方法与流程

文档序号:15312551发布日期:2018-08-31 22:12阅读:588来源:国知局

本发明属于雷达目标分类、数据增强与深度学习领域,涉及对雷达图像的数据增强并进行人体动作分类的问题。



背景技术:

行为识别[1]分析的相关研究可以追溯到1975年johansson[2]的一个实验,作者提出了12点人体模型,这种描述行为的点模型方法对后来基于人体结构的行为描述算法起到了重要的指导作用。在智能视频监控,病人监护系统,人机交互,虚拟现实,智能家居,智能安防,运动员辅助训练以及军事领域都有着广泛的应用。人体行为识别目前处在动作识别阶段,而动作识别可以看成是特征提取和分类器设计相结合的过程。特征提取过程受到遮挡,动态背景,移动摄像头,视角和光照变化等因素的影响而具有很大的挑战性。目前人体行为识别主要的研究难点包括动作类内类变化大,空间复杂性,时间差异性[3]等等。对于大多数的动作,即使是同一动作都有不同的表现形式。空间复杂性指的是不同光照、视角和背景等条件下会呈现不同的动作场景,而在不同的动作场景中相同的人体行为在姿态和特性上会产生差异,即使在恒定的动作场景中,人体动作也会有较大的自由度,而且每种相同的动作在方向、角度、形状和尺寸方面有很大的差异性。此外,人体自遮挡、部分遮挡、人体个体差异、多人物识别对象等问题都是动作识别复杂性在空间上的体现。时间差异性是指人体动作发生的时间点不可预测,而且动作的持续间隔也不尽相同。此外,动作在作用时间内也可能存在动作空白间隙。时间差异性要求识别过程中能够辨别动作的起止时间,同时有效判断动作作用的有效时间和间隔,对动作在时域和时序范围内进行更加细致的分析,导致动作在不同速率、顺序和组合情况下都会存在差异。

多普勒雷达识别系统可以有效避免天气、光照、遮挡等各类影响因素。多普勒雷达是一种主动雷达,根据多普勒原理,对运动目标发射电磁波并通过其回波信号判别目标的运动状态。雷达探测在许多领域都有着重要应用,例如无人驾驶,灾后搜救等诸多方面。基于多普勒雷达的人体行为识别技术是近年以来发展起来的新技术,经过调制后雷达图像包含了人体各部分微动调制产生的多普勒频率,进而可以对人体运动进行分辨,这使得基于多普勒雷达的人体动作识别成为可能。

基于多普勒雷达的人体行为识别的数据增强技术具有较高的研究价值,数据增强方法在图像识别领域应用广泛,相对技术较为成熟,然而对于雷达图像却还未见深入的应用和研究。



技术实现要素:

本发明的目的是提供一种小样本雷达图像人体动作分类方法。本发明在雷达数据量不足的前提下,参照自然图像的数据增强方式对小样本雷达数据实现数据增强,再利用深度学习中的卷积神经网络实现对数据增强后的雷达图像中人体动作分类,分类结果好于增强前的数据集。技术方案如下:

一种基于数据增强的小样本雷达图像人体动作分类方法,包括下列步骤:

1)构建数据集:使用仿真雷达图像作为训练数据的来源,采用光学式运动捕捉器采集的人体行为数据,选取7类动作,分别是跑、跳、走、爬、站、拳击和匍匐,通过建立人体椭球运动模型来计算得到雷达回波,在通过短时傅里叶变换得到雷达谱图,生成数据集;

2)采用多种数据增强方法对数据集里的雷达图像实现数据增强:实现数据增强的方法包括图像压缩增强方式中的双三次变换、双线性变换、分块法、近似点处理方法;滤波增强方式中的均值滤波法、双边模糊特效滤波法、高斯模糊滤波法和中值滤波法四种方法;添加噪声增强方式中的高斯噪声、与图像灰度有关的均值为零的高斯白噪声、胡椒噪声、盐噪声、泊松噪声、s&p噪声、斑点噪声方法;曝光增强方式中改变像素值gamma的方法;

3).建立卷积神经网络模型,并使用caffe进行深度学习的训练,在导入训练网络之前,每个频谱图的大小被调整为100×100,卷积核的大小为9×9,步幅为1像素。

本发明依据自然图像的数据增强方式,提出一种适用于提高雷达图像识别效果的数据增强方式来提高人体行为识别的准确率。数据集以基于mocap数据集生成的雷达多普勒图像和经过数据增强后的图像为研究对象,包括数据集的增强与制作、卷积神经网络模型的建立、训练和测试。本专利根据雷达系统的优点,针对雷达数据集不足的客观条件,提出了一种合适的数据增强方法来扩充数据集,进而使雷达数据集的可识别性得到提高。该发明在原有数据的基础上,可以进一步提高人体行为识别的准确率,为识别准确度要求更高的应用提供帮助。

附图说明

图1为高分辨率的人体各部位雷达图像;

图2为人体椭球模型图;

图3为gamma与accuracy之间函数关系图。

具体实施方式

首先对本发明进行概括说明:

1.构建数据集。通过卷积神经网络进行模型训练需要大量数据。由于没有任何公共雷达实测图像数据集,本发明使用仿真雷达图像作为训练数据的来源,采用卡内基梅隆大学光学式运动捕捉器采集的人体行为数据生成数据集。该模型没有直接优化网格和骨骼参数,而是通过建立人体椭球运动模型来计算得到雷达回波,在通过短时傅里叶变换得到雷达谱图。

2.雷达图像数据增强。本发明采用多种数据增强方法,如图像压缩增强方式中的双三次变换、双线性变换、分块法、近似点处理等方法;滤波增强方式中均值滤波法、双边模糊特效滤波法、高斯模糊滤波法和中值滤波法四种方法;添加噪声增强方式中的高斯噪声、与图像灰度有关的均值为零的高斯白噪声、胡椒噪声、盐噪声、泊松噪声、s&p噪声、斑点噪声等方法;曝光增强方式中改变像素值gamma的方法。

3.建立卷积神经网络模型。本发明使用卷积神经网络(convolutionalneuralnetworks,cnn),其网络结构中包含了3个卷积层和1个全连接层,每个卷积层后面跟一个下采样层。本发明使用caffe(convolutionalarchitectureforfastfeatureembedding)来进行深度学习的训练。在导入训练网络之前,每个频谱图的大小被调整为100×100。卷积核的大小为9×9,步幅为1像素。

4.训练卷积神经网络模型。通过数据增强方式准备适当的频谱图进行训练。在数据集的构建上本发明选取7类动作,分别是跑、跳、走、爬、站、拳击和匍匐。每个动作以100张生成图像为基础,分别添加100张各种数据增强方式生成的图像,在深度学习框架caffe下训练模型,并在测试集上验证模型的有效性。

5.在测试集上测试上述模型,依据分类准确率比较分析该数据增强方法的效果。

为使本发明的技术方案更加清楚,对本发明具体实施方式做进一步地描述。本发明按以下步骤具体实现:

1.雷达时频图像数据集构建

(1)基于mocap数据集的雷达图像生成

这个数据集是由卡内基梅隆大学图形实验室建立。这个数据集包含了六种运动情景在内的共计2605项测试运动。这六种运动情景分别是人与人之间的互动、人与自然之间的互动、体育运动、自发运动、运动中的场景变换和测试活动。mocap数据集使用由viconindustries开发的运动捕捉系统来收集人类活动数据。这个系统用41个标记点代表人体各个部分,在收集数据时就可以将人体各部分的运动简化为点的运动。该运动捕捉系统由12个红外线mx40摄像机组成,每个摄像机能够以120hz帧速记录图像。高分辨率的人体各部位雷达图像如图1所示。该数据集包含2605组实验数据,本发明过程中选择其中七种常见的动作用来生成雷达图像,这七种动作分别为:跑步、行走、跳跃、爬行、匍匐前进、站立和拳击。mocap数据集构建了一个人体椭球体动作模型,人体椭球模型如图2所示,整个人体模型由多个椭圆体组成,每个椭球体雷达反射波振幅可以由近似为椭圆形的rcs得到,利用短时傅里叶变换处理从人体各个部分反射回来的雷达回波来得到雷达谱图,本发明根据雷达谱图的特点,通过“滑窗法”获取数据集,对于分类任务中每个动作均可获得大小为200张图片的数据集,本发明将每个动作的数据集分为两个部分,分别为100张训练集和100张测试集。

(2)雷达图像数据增强

数据增强以图像处理为理论基础,包含了亮度变换、空间滤波、图像压缩、图像分割和图像复原等多种方法。

亮度变换与空间滤波是建立在对像素处理的基础之上,而空间域处理表达式

g(x,y)=t[f(x,y)](1)

表示,其中f(x,y)作为图像输入,而g(x,y)为输出后的图像,t是对图像f进行处理的操作符。在计算过程中,定义的每个图像上的点沿着图像逐行移动,计算每点的输出值只需用到该点的邻域。亮度变化需要调用exposure模块,函数最后的参数gamma指定了像素值的大小,gamma值大于1时新生成的图像比原图像暗,反之亮度提高。此外在处理图像中,像素值域由负到正是可以实现的,但是实际想保存或者查看一张图片的时候对负值的处理非常困难的,因此本发明需要将图像标度在最大范围是[0,255]的尺度中。由亮度变化提取的直方图信息在图像压缩、图像分割中有着基础性的作用。

图像的压缩模型可以简单分为编码器和解码器两部分。编码器可以分为映射变化器、量化器、符号编码器三部分,解码器可以分为符号解码器、反映射变换器两部分。当输入图像f(x,y)送入编码器时,编码器可以根据图像建立一组编码序列来描述图像,通过对比压缩前后的图像信息比特的变化确定压缩比,再用压缩比对压缩图像进行量化。为了使用压缩图像,需要将图像再送入到解码器中,以便生成一个重构的图像。一般而言重构图像有可能是输入图像的精确表示,如果是的话,那么该系统就可以看作是一个无误差、信息保存完整的系统。如果不是,即说明重构图像和输入图像之间存在误差,因此本发明需要设置一个误差函数来定义误差的大小情况。即

编码器部分负责减少输入图像编码、像素和心理视觉上的冗余。在编码器的映射变化器阶段将图像换成一种不可见格式用于减少像素间冗余,量化器根据压缩比来降低输出的精确度以便消除心理视觉上的冗余,最后通过符号编码器对从量化器和映射变化器里输出的码字进行重组,完成对编码冗余的消除。

图像分割也是数据增强的一种基本方式,分割操作可以讲图像细分为不同成分,其细分程度需要依据实际问题的需要。分割精细程度是计算机识别能力的一个重要体现。对于单色图像的分割一般基于亮度进行分割,根据亮度信息的连续性和相似性来判别图像边缘。在最基本的点检测中,通常需要定义图像的一点处在滤波器的响应r由该点处的灰度级与相应的计算系数的乘积之和得到,公式如下:

w表示计算系数,z表示与w相关的像素亮度。当r的值大于本发明预设的阈值时,则说明该点是一个相对孤立点。线的检测相对更加复杂一些,每个滤波器模型都可以化成一个3*3矩阵,矩阵每个最优点都被2加权,在这个矩阵中的最优点可以组成的水平、竖直、和45度倾斜的线。因此线的检测和阈值设定密切相关,一般情况,在对线的检测中本发明对于有方向的线更感兴趣,因此可以单独分析该方向的线的阈值,这样再通过阈值处理后就会得到一组沿该方向响应最强烈的点,最终检测到线。点的检测和线的检测对于图片边缘分割有着重要作用,但目前为止边缘分割最重要的一种手段是检测亮度的连续性。这种连续性判断需要通过一阶和二阶导数进行判断,其梯度可以定义为

在不变亮度的中梯度值为零,梯度值与亮度变化值成正比。梯度向量的最基本特点就是可以指向f(x,y)最大变化率的方向。噪声因子对二阶导数有着极强的影响,因此需要引入拉普拉斯算子对其进行补充,这样得到梯度可以用于图像的边缘分割。

图像压缩也是数据增强的一种重要方式,如bicubic、nearest、lanczos等等。bicubic(双三次插值)是一种复杂的插值方式,它能创造出比双线性插值更平滑的图像边缘。双三次插值方法通常运用在一部分图像处理软件、打印机驱动程序和数码相机中,对原图像或原图像的某些区域进行放大。目前在商业性图像编辑软件中,经常采用的是速度最快,但也是最不准确的“最近相邻”(nearest)插值。lanczos算法是一种将对称矩阵通过正交相似变换变成对称三对角矩阵的算法,通过该算法可以计算图像每个像素点的权重,再根据权重选取像素值。

2.基于卷积神经网络的人体动作分类模型构建

(1)基础卷积神经网络模型构建

本发明使用的cnn网络结构中包含了3个卷积层和1个全连接层,每个卷积层后面跟一个下采样层。本发明使用caffe来进行深度学习的训练。在导入训练网络之前,每个频谱图的大小被调整为100×100。卷积内核的大小为9×9,步幅为1像素。导入图像从卷积层产生20个特征图,并依次用relu激活函数和2×2最大池化层(maxpooling)进行处理。然后将从最后卷积层生成的特征图送到全连接层,再用softmax激活函数处理。

3.雷达人体动作分类卷积神经网络模型训练

表1参数设置

通过cnn的超参数经验优化可以得到最高的测试精度。此外,nvidiatitanxgpu和cuda库(cudnn)也加快了训练过程。随机梯度下降的方法可以用于调整训练网络中的权重。参数设置如表1所示,基础学习率是应用sgd算法时梯度前面的系数,设置过小会导致优化算法太慢,设置过大可能会无法优化,本发明将其设置为0.001,动量是经验值,一般在0.9到0.95之间,权重衰减率和阈值是默认值,不需要过多调整。这样可以得到一个训练好的cnn分类器。

4.模型的分类效果测试

表2有提升效果的数据增强方法

表3没有效果的数据增强方法

本发明将100张生成图作为训练数据集在100张测试集的识别准确率作为基准,分别比对在100张原图基础上增加100张不同数据增强方式生成的图片作为训练集并在相同测试集下的准确率。

本发明将所有可以升高分类准确率的数据增强方法在表2中罗列。表3列出对雷达图像分类无效果的数据增强方法,因此并不是所有数据增强方式都可以提高雷达图像的识别准确率。在利用不用的图像压缩方法作为数据增强的方法中,双三次插值(bicubic)、最近相邻插值(nearest)和lanczos法都对雷达图像识别准确度有提升效果。此外可以发现增加噪声的数据增强方法对准确率有普遍提升的效果,这可能是因为噪声法数据增强方法加大数据集的鲁棒性。此外图像模糊中bilateralfilter对准确率的提升也有明显效果。亮度调解中,图像变暗(gamma1.5)时对准确率有很大提升,提高了近6个百分点,而当图像过亮时准确率下降十分严重,下降了4个百分点。图3显示了gamma变化和accuracy之间的变化关系。通过图3可以看出雷达图像的分类准确率在一定亮度范围内和图像明暗度有关。

通过图像可以观察到测试准确率随着gamma值增加而增加,这说明通过降低雷达图像对比度可以有效增强识别效果。gamma值是skimage.exposure.adjust_gamma(image,gamma=1)。从其底层文件我们可以看到对像素亮度值的处理公式是:

i=ig(5)

像素的亮度值i被固定在(0~1)之间,因此gamma值越大,处理后的像素亮度值越低。对比度是指一张图像中亮度最大的地方和亮度最小的地方之间差值,差值范围越大则对比度越大,差值越小则对比度越小。exposure处理函数是指数型函数,当gamma值大于1时,处理后的图像中像素亮度值普遍降低,但由于指数函数的非线性性质,像素亮度值高的地方降低的少,像素亮度值低的地方降低的多,因此虽然图像整体亮度变暗,但是图像对比度却得到提升,雷达图像中亮度较高的地方是雷达回波信号。因此相当于将雷达仿真图像的背景信号减弱,增强了雷达回波信号,进而增强了雷达图像识别的准确度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1