一种基于微波视觉的目标分类方法与流程

文档序号:23845166发布日期:2021-02-05 10:51阅读:72来源:国知局
一种基于微波视觉的目标分类方法与流程

[0001]
本发明涉及光照条件不佳或目标被遮挡情况下、利用微波视觉中的电磁散射场数据进行目标分类领域,尤其涉及一种基于微波视觉的目标分类方法,一种基于带有注意力机制的复数卷积神经网络的分类方法。


背景技术:

[0002]
目标分类任务是计算机视觉领域内的一个核心问题,其主要目的是根据各数据中所反映的不同特征,把不同类别的目标区分开来,正确识别目标是实现机器智能化的关键任务。近年来,随着深度学习技术的发展,目标分类任务已经取得了显著的进展。然而,当前的目标分类技术大多都是基于rgb图像的机器视觉特征下的。但在一些特备困难场景下,如光照条件差或目标被遮挡时,是难以获取到令人满意的rgb图像数据甚至根本无法获取的。
[0003]
为了解决这些情况下的目标分类任务,我们提出可以利用电磁散射场(electromagnetic scattered field)数据基于微波视觉特征来进行该任务。随着近年来无线通信系统的高速发展,电磁波传感器被越来越多地应用于各种任务。与常见的rgb图像相比,电磁波传感器所获得的图像——电磁波图像具有两个明显优势:一、它不受光照条件的影响;二、它对于拍摄角度也具有更好的鲁棒性。另外,值得注意的一点是,电磁波图像可以更容易地处理图像尺度问题。此外,在数据的存储上,电磁波图像也具有优势。基于以上的这些优点,研究者们将电磁波应用到了诸如物体感知、目标识别、目标重建等任务中。最近也有一些研究人员将电磁波应用于手势识别任务中,只是使用的还是传统的卷积神经网络。
[0004]
我们所使用的散射场数据与一般的rgb图像数据不同,它是复数形式的。针对这种形式的数据,我们提出了一个带有注意力机制的端到端的复数卷积神经网络来更好地学习其特征,从而进行目标分类。相较于之前研究人员所使用的实数的卷积神经网络,复数卷积神经网络考虑到了散射场数据实部与虚部之间的交互,使得网络能学习到更好的微波视觉特征。此外,在对图像中的目标进行识别时,对关键位置的检测是非常重要的,因此我们引入了注意力机制来实现关键位置的检测。
[0005]
在一些困难场景下,难以获取甚至根本无法获取rgb图像数据,此时电磁散射场数据的微波视觉特征对于图像分类任务具有其优越性,这对特定场景下的目标分类任务提供了一种新的模态特征数据。我们针对散射场数据所提出的带有注意力机制的复数卷积神经网络能更好地学习微波视觉特征,提升目标分类任务的效果。该复数卷积神经网络更适用于散射场数据的微波视觉特征提取和学习,具有创新性和适用性。


技术实现要素:

[0006]
本发明提供了一种基于微波视觉的目标分类方法。本发明将电磁散射场数据的微波视觉特征应用于特定困难场景下的目标分类,完成了一个端到端的带有注意力机制的复数卷积神经网络模型,该模型能更好地学习复数形式的散射场数据的微波视觉特征,同时
注意力机制能实现目标关键位置的检测。在特定的困难场景下,相较于学习rgb图像的机器视觉特征,该模型能充分学习电磁散射场数据的微波视觉特征,从而取得了更好的目标分类效果。同时,带有注意力机制的复数卷积神经网络对于散射场数据微波视觉特征的提取效果是优于实数卷积神经网络的。
[0007]
一种基于微波视觉的目标分类方法,其步骤如下:
[0008]
步骤(1)、利用微波发射天线和接收天线获取电磁散射场数据并进行预处理。
[0009]
步骤(2)、构建复数卷积神经网络实现目标分类,该网络包括:复数卷积层、复数批归一化层和复数激活层。
[0010]
步骤(3)、为了捕捉图像中目标的细节、实现关键位置的检测,在复数卷积神经网络中引入注意力机制模块。
[0011]
步骤(4)、将步骤(1)中获取的预处理后的电磁散射场数据作为训练数据,输入到经过步骤(2)和(3)搭建的网络模型中,通过反向传播算法训练网络参数,直至整个网络模型收敛。
[0012]
步骤(1)中获取的电磁散射场数据由人手模型模拟生成的。其中人手模型包括只有一层皮肤的简易手部模型和同时由皮肤、肌肉和骨骼组成的复杂手部模型。
[0013]
步骤(2)所述的复数卷积神经网络,通过改进实数卷积神经网络中的卷积层、批归一化层和复数激活层得到。目前,深度学习的绝大多数构建模块、技术和架构都基于实数值的运算和表征。但是,近来在循环神经网络和其它更古老的基础理论上的分析表明,复数拥有更加丰富的表征能力,也可实现对噪声鲁棒的记忆检索机制。下面将详细介绍所改写的复数卷积层、复数批归一化层和复数激活层的数学原理:
[0014]
2-1.复数卷积层。与实数卷积核不同的是,复数卷积核会将卷积核参数分为两个部分,即虚数的实部和虚部。在进行卷积运算时,其遵循虚数卷积的运算法则。即针对卷积模板w=a+ib和输入特征h=x+iy,复数卷积操作*定义如下:
[0015]
w*h=(a*x-b*y)+i(b*x+a*y)#(公式1)
[0016]
写成矩阵的形式则为:
[0017][0018]
其中,*表示的是卷积操作,r(

)表示的是取实部,i(

)表示的是取虚部。
[0019]
2-2.复数批归一化层。在对复数数组归一化时,仅对其平移缩放至均值为0、方差为1是不够的。这种方式不能确保实部和虚部都具有相同的方差的。为了使得两者能够具有相同方差,引入协方差矩阵,具体公式如下:
[0020][0021]
其中,x表示输入,表示归一化后的结果,e[x]表示的是与x相同形状的全1矩阵。v表示的是x的实部与虚部之间的协方差矩阵,具体计算规则如下:
[0022][0023]
其中,cov(

)表示的是求协方差。
[0024]
2-3.复数激活层。对于激活层而言,其运算规则相对来说简单一些,我们只需要分别对实部的值和虚部的值进行抑制即可。在网络模型中,使用的复数卷积神经网络中的激活函数为:
[0025]
crelu(z)=relu(r(z))+irelu(i(z))#(公式5)
[0026]
其中,z表示输入,relu(

)表示的是实数卷积神经网络中的激活函数。
[0027]
步骤(3)所述的将注意力机制模块引入复数卷积神经网络中。
[0028]
如图4所示,在注意力机制模块中,首先会对中间层特征在空间尺度上分别进行一次最大值采样和平均值采样,之后经过一个多层感知机进行去噪和空间投影,在得到两种采样结果之和后,与原特征在空间尺度上进行逐元素乘积操作,捕捉到在通道尺度上的高响应区域。然后,再进行一次通道尺度上的最大值采样和平均值采样,使用卷积层将两者融合起来,使得最终能够捕获到特征在空间尺度上的高响应区域。
[0029]
步骤(4)通过反向传播算法对经过步骤(2)和(3)搭建的神经网络的模型参数进行训练,直至整个网络模型收敛,其主要目的是使经过训练后的模型对目标分类的准确率达到最高。针对该问题,损失函数使用了交叉熵损失函数(categorical crossentropy)。
[0030]
本发明有益效果:
[0031]
本发明针对电磁散射场数据的微波视觉特征学习设计了专门的带有注意力机制的复数卷积神经网络,其学习效果是优于实数卷积神经网络的。同时,使用这种基于微波视觉特征的目标分类方法能在特定困难场景下无法应用rgb图像时,仍能有效进行目标分类。
附图说明
[0032]
图1是本发明方法的具体流程示意图。
[0033]
图2是本发明方法中构造的带注意力机制的复数卷积网络分类模型的基本框架示意图。
[0034]
图3是本发明方法在进行复数网络和实数网络效果对比时二者的框架结构图。
[0035]
图4是本发明方法的在模型中引入的注意力机制模块的框架结构图。
[0036]
图5是本发明方法的在模型中是否引入注意力机制模块以及不同网络层数下的实验结果图。
具体实施方式
[0037]
下面结合附图对本发明做进一步具体说明。
[0038]
如图1所示,本发明提供一种基于微波视觉的目标分类方法。
[0039]
我们将本方法应用于一个静态手势数据集的识别任务。
[0040]
步骤(1)所述的获取目标的电磁散射场的数据集,并对其进行预处理,具体如下:
[0041]
在深度神经网络中由于卷积层和池化层的存在下,输入数据在计算的过程中,尺寸变得越来越小,因此要求网络的输入应当满足一定的大小以便保证正常的计算过程。在该任务下我们所获得的散射场数据尺寸为16x32,这样的尺寸不利于我们对其展开深入的科学研究。因此,在将原始散射场数据输入到网络之前,我们对其进行了插值处理,使用matlab中的三次多项式插值法。最终插值处理后的散射场数据尺寸为64x64。对于简易手部模型和复杂手部模型都进行同样的插值处理。同时,由于该数据集样本数量只有2,084,存
在数量太少的问题,因此我们以7:3的比例划分了训练集和测试集,并在训练过程中用测试集代替验证集。
[0042]
综上所述,经过步骤(1)后得到的数据集大致情况如表1所示,后续的实验都是在这个预处理后的数据集上进行的。
[0043]
表1散射场数据概览
[0044][0045]
步骤(2)所述的复数卷积神经网络,是专门针对学习电磁散射场数据的微波视觉特征而提出的,结构如图2所示,它能更好地挖掘出复数的实部与虚部之间的联系。在排除现实中真实存在的一些干扰因素,如噪声、场地限制等,使用全孔径且不带有噪声的简易手部模型的散射场数据来验证复数卷积网络的有效性。
[0046]
我们用步骤(2)中提到的复数卷积层、复数批正则化层及复数激活层构建一个两层的深度复数神经网络。作为对照,同样地构建一个两层的实数神经网络。他们的结构对比图如图3所示。可以看到,二者只有所使用的组件不同,结构是完全一致的。
[0047]
我们将经步骤(1)处理后的散射场数据分别输入到图3所示的复数网络a和实数网络b中。在将数据输入到网络b中时,我们还考虑了实部和虚部各自对分类结果的影响。具体来说,对于复数网络a而言,以完整的散射场数据作为输入,将结果记为“complex”;对于实数网络b而言,当我们单独将散射场数据的实部作为输入时,将结果记为“real”,单独将虚部作为输入得到的结果记为“imaginary”,将两者的模长作为输入得到的结果记为“modulus”,将完整的散射场数据作为输入得到的结果记为“concat”。实验结果具体如表2所示:
[0048]
表2实数网络与复数网络的比较
[0049][0050]
从表2中可以发现以下两点:
[0051]
1、“concat”的结果相较于其他由实数网络得到的结果而言是最好的。这一点说明,散射场数据的实部和虚部同样储存了物体的信息,它们对于识别物体的作用是同样重要的,在考虑应用复数卷积神经网络对目标进行识别时,二者缺一不可。
[0052]
2、“complex”的结果明显好于其他任何由实数网络得到的结果。这一点意味着粗暴地将实部虚部认为是单独分离的两部分是非常不合理的。我们应该将两者联合起来看待,这也说明了使用我们所发明的复数卷积神经网络来处理散射场数据的必要性。
[0053]
在此基础上,我们引入了步骤(3)所述的注意力机制,其结构如图3所示。为了证明注意力机制对于捕获散射场数据中的细微性特征的作用,我们进行了实验证明。需要注意的是随着卷积神经网络层数的加深,所学习到的特征会越来越抽象,越来越集中到物体本身的微小差异上去,所以实验同时考虑了网络深度对于注意力机制作用的影响。
[0054]
这里使用的网络与步骤(2)中搭建的复数网络a基本一致,区别在于:1)层数不同;2)每个卷积层后是否引入了注意力层。输入数据使用的是简易手部模型的散射场数据。实
验结果如图5所示,其中的实验结果均是在五次实验下的平均值结果。
[0055]
由图5可知,无论是在准确率还是网络的损失值上都是带有注意力机制的复数网络表现得更好。这也是容易理解和解释的,散射场数据也带有一定的冗余信息,这些信息会对最终的分类结果产生干扰,而注意力机制帮助我们捕捉到了那些关键特征并忽视了那些无关、冗余的特征。
[0056]
步骤(4)所述的通过反向传播算法对步骤(2)和(3)搭建的神经网络中的模型参数进行训练,直至整个网络模型收敛,具体如下:
[0057]
4-1.训练网络时,优化函数使用随机梯度下降法,学习率设置为0.8,批大小设置为5,迭代50次,损失函数使用了交叉熵损失函数(categorical crossentropy)。
[0058]
4-2.测试网络模型。在网络模型训练完成后,我们用测试数据作为检测标准在最后的模型上测试了准确率,并以同样的数据在一些传统的方法上进行测试,得到的准确率对比结果见下表3。
[0059]
表3与其他方法的准确率(%)比较结果
[0060]
数据lenetalexnetvgg11our-cour图像97.999.299.4
--
散射场91.781.998.299.099.5
[0061]
其中lenet、alexnet和vgg11都是经典的机器视觉神经网络模型,当这三个模型接受散射场数据的时候,只是简单地把实部和虚部作为两个通道来看,与接受rgb图像时的rgb三通道类似。“our-c”和“our”是两个均使用了步骤(2)和(3)搭建的带注意力机制的复数卷积神经网络模型的方法。其中“our-c”以复杂手部模型的散射场数据作为输入,“our”以简易手部模型的散射场数据作为输入。由表3中的结果,可以得出以下三点结论:
[0062]
1、从lenet、alexnet和vgg11的表现来看,当以图像数据作为网络的输入时,层数越深,模型能学习到目标更好的特征,从而达到更高的准确率。但当以散射场数据作为输入时,这一结论反而不成立了。这说明对于散射场数据而言,也许一个浅层的网络更合适,深层次的网络反而会破坏散射场数据原本的内在结构。
[0063]
2、从散射场数据作为输入的角度来看,我们提出的模型明显优于其它为机器视觉特征而设计的网络模型。这说明传统的视觉网络(lenet、alexnet和vgg11)无法有效地捕捉散射场数据中实部与虚部之间的内在关联。
[0064]
3、“our-c”的结果与“our”的结果只相差0.5%,即使考虑到了手部的复杂结构,我们的模型依然能够有效地识别出物体。这意味着当微波频率小于3ghz的时候,简易手部模型可以等效于复杂手部模型。
[0065]
4-3.测试模型的抗噪声能力。在实际的生产生活中,收集到的散射场数据必然是包含噪声的。因此,为了检验我们所提出模型的抗噪声能力,我们给收集到的数据添加了高斯白噪声。具体地,我们设置了四个级别的噪声等级,它们分别是0db、10db、20db和30db。0db也就是没有添加噪声。实验具体结果如表4所示。
[0066]
表4不同噪声等级下的分类结果
[0067][0068]
可以看到当噪声为30db的时候,模型的分类准确率已经与没有添加噪声的结果是一样的了。即使在有很大噪声的情况下,模型依然能够提供有意义的结果。这说明,我们的模型在抗噪声方面的能力是优异的。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1