本发明设计属于计算机视觉领域,涉及人体行为识别方法的设计与应用。
背景技术:
1、随着计算机与网络技术的高速发展,多媒体信息呈爆炸式增长。而视频作为信息的承载媒介,包含着大量关键信息。在日常生活中,有一类视频的内容是关于人类行为和活动的,对视频中动作进行理解和分类的技术又叫人体行为识别技术。行为识别技术是机器理解世界以及人类行为的关键技术。
2、近年,随着人工智能技术的发展,人们也将深度学习广泛应用于行为识别领域。最开始,deepvideo提出在每个视频帧上独立使用2d cnn模型,但2d卷积在视频特征提取过程中忽略了视频帧之间的时间关联性,导致了时间维度特征的丢失;为了更好的捕捉时间信息,有c3d模型来直接提取时间和空间维度的特征,不仅实现了较好的识别效果,还具有很强的泛化能力,后来还利用3d卷积核替换2d resnet,成功将残差结构引入人体行为识别领域。但是3d卷积由于权重参数量和计算量非常巨大,导致其运算非常低效,同时还存在大量的冗余信息。之后很多行为识别网络模型都致力于减少计算参数量来提高3dcnn的计算效率。例如r3d使用3d残差结构来防止深度网络出现梯度爆炸,p3d和r(2+1)d尝试将3d卷积核分解为1d时间卷积和2d空间卷积级联来降低参数量。有的方法还会增加注意力机制来减少信息冗余。但这些方法卷积核尺寸单一,缺乏对不同尺度时空特征的层次化分析,而且只能提取到局部短距离的时序信息,从而影响了模型的识别准确率。tpn在时间帧上采用特征金字塔结构,对帧率的快慢进行研究,实现了时间维度的多尺度特征融合。但特征金字塔结构复杂,在训练阶段较难优化,因此多层次的时空特征提取方法还有待提高。
3、因此,现有的方法无法在保证参数量较低的情况下,减少信息冗余及实现多层次的时空特征提取,以达到更高的识别准确率。
技术实现思路
1、发明目的:针对三维卷积神经网络中时空特征尺度提取单一、信息冗余和通道中频域信息提取不充分的问题提出了一种结合注意力的多级时空特征融合网络模型,先利用多层级的时空特征分离、拼接和融合,在减少网络参数的前提下实现不同尺度的空间感受野和短中长时序信息的融合;再将通道注意力中的gap预处理操作拓展到频域,进一步减少特征冗余。该发明在行为识别中传统的三维卷积的方法上进行创新,实现了降低一定参数量并有效提升识别准确率的效果。
2、技术方案如下:结合注意力的多级时空特征融合行为识别方法,包括以下步骤:
3、(1)获取需要识别的视频,对视频进行预处理操作获得图像;
4、(2)将预处理后的图像输入结合注意力的多级时空特征融合的人体行为识别网络中进行卷积神经网络训练;
5、(3)输出相应的人体动作分类结果。
6、进一步的,所述预处理操作包括:
7、将视频保持结构不变逐帧分解为图像,再随机抽取间隔的视频帧;
8、将图片按比例缩放并对图片随机裁剪为指定尺寸作为输入;
9、进一步的,所述结合注意力的多级时空特征融合的人体行为识别网络包括输入层、3d卷积层、连续堆叠的多级时空特征融合基础模块(msf)、一个多频通道和时空注意力模块(fsam)、池化层、分类层和输出层。
10、进一步的,所述结合注意力的多级时空特征融合的人体行为识别网络的构建过程包括:
11、构建所述多级时空特征融合基础模块和多频通道和时空注意力模块;
12、所述多级时空特征融合基础模块由三维卷积层和多级时空特征分解层两个部分构成,先将两个级联的3×3的二维卷积核进行三维拓展,转换为两个3×3×3的三维卷积核级联,再将第二个3×3×3的卷积核进行多级时空特征分解;
13、所述多频通道和时空注意力模块包括两个部分:多频通道注意力模块和时空注意力模块;
14、多频通道注意力模块和时空注意力模块使特征图在通道和时空的维度依次执行注意力机制,最后输出特征优化后的结果。
15、进一步的,所述多级时空特征分解的过程包括:
16、将输入特征x的c个通道均匀地分裂为s个特征子集,这s个特征子集记为xi,其中i∈{1,2,…,s},通道数c′是输入特征通道数的即其中,x1子集不做变换,直接作为y1输出;其他子集xi各对应一个类残差结构的分支,每个分支均有一个3×3×3卷积核的3d卷积,记为f3×3×3();xi经过3d卷积后生成的特征图记为yi,yi的表达式为:
17、
18、在多级时空特征分解的过程中,yi会被再次按通道分离为两组子特征图yi1和yi2,其中yi1直接拼接到最后的输出,yi2直接拼接到下一组特征图xi+1;多级时空特征分解层最后输出的时空特征表达式为:y=cat[x1,y22,y32,…,y(i-1)2,yi];所述多级时空特征融合基础模块的总输出为:output=x+y+input。
19、进一步的,所述多频通道和时空注意力模块分为两个部分:多频通道注意力模块和时空注意力模块;
20、所述多频通道注意力模块具体包括:首先将输入的特征图沿着通道维度被分为n个部分,每部分的特征图可表示为[x0,x1,···,xn-1],其中对每一个部分分配二维频率分量,那么最终的多频谱预处理向量可以通过拼接得到:
21、freq=cat([freq0,freq1,···,freqn-1]), (3)
22、其中多频通道注意力框架公式为:
23、fc_att=sigmoid(fc(freq)) (4)
24、所述时空注意力模块具体包括:对于一个输入特征先分别经过通道维度的最大池化和平均池化生成两个3d特征和再经过一个3d卷积生成3d时空注意力特征,
25、st_att=sigmoid(f7×7×7(cat[maxpool(f),avgpool(f)])) (5)
26、时空注意力框架公式为上式。
27、进一步的,给定特征作为多频通道和时空注意力模块的输入,输出相应的多频通道注意力特征后,再沿着时间和空间维度广播,通过时空注意力模块输出最后的注意力特征,
28、
29、整个注意力模块输出为上式。
30、进一步的,将连续帧的图片输入该行为识别网络,经过若干个多级时空特征融合基础模块和多频通道和时空注意力模块经过最后的3d平均池化层,再由softmax输出最后的行为类别。
31、结合注意力的多级时空特征融合行为识别系统,其特征在于,包括预处理模块、网络构建模块、网络训练模块和输出模块;
32、所述预处理模块包括获取需要识别的视频,对视频进行预处理操作获得图像;
33、所述网络构建模块包括构建结合注意力的多级时空特征融合的人体行为识别网络;
34、所述网络训练模块包括将预处理后的图像输入结合注意力的多级时空特征融合的人体行为识别网络中进行卷积神经网络训练;
35、所述输出模块包括输出相应的人体动作分类结果。
36、进一步的,所述结合注意力的多级时空特征融合的人体行为识别网络包括输入层、3d卷积层、连续堆叠的多级时空特征融合基础模块、一个多频通道和时空注意力模块、池化层、分类层和输出层;所述结合注意力的多级时空特征融合的人体行为识别网络的构建过程包括:
37、构建所述多级时空特征融合基础模块和多频通道和时空注意力模块;
38、所述多级时空特征融合基础模块由三维卷积层和多级时空特征分解层两个部分构成,先将两个级联的3×3的二维卷积核进行三维拓展,转换为两个3×3×3的三维卷积核级联,再将第二个3×3×3的卷积核进行多级时空特征分解;
39、所述多频通道和时空注意力模块包括两个部分:多频通道注意力模块和时空注意力模块;
40、多频通道注意力模块和时空注意力模块使特征图在通道和时空的维度依次执行注意力机制,最后输出特征优化后的结果。
41、有益效果:本发明与现有技术相比具有以下有益效果:
42、1、设计了一个新的多级时空特征融合(msf)模块,该模块在减少模型参数的基础上既可以从空间维度等效扩大特征图的感受野,还可以实现时间信息的短中长时序的融合;
43、2、将senet中的预处理gap操作拓展到频域,空间注意力拓展到时空维度,提出了全新的多频通道和时空注意力模块(fsam),使模型可以捕捉到多个频率通道中的关键动作信息;
44、通过全新的多级时空特征融合(msf)模块和多频通道和时空注意力模块(fsam),对比现有的行为识别网络模型。在减少了参数量的前提下,实现了更高的识别准确率,进一步提高了行为识别的效率。