1.本发明涉及神经架构搜索领域,更具体地说,涉及一种小样本视频动作分析方法、系统及装置。
背景技术:2.在视频理解中最重要的任务之一就是理解人的行为,这也是视频理解的代表性任务之一。近年来,随着高质量大规模视频数据集的出现,视频理解和动作识别取得了显著的进展。然而,这种成功很大程度上依赖于大量人工标记的样本。数据集标注过程繁琐、耗时,限制了算法的实际应用。因此,如何对标注样本极少的非常见动作类进行分类引起了广泛的研究。与图像任务相比,引入时间维使得视频任务更加复杂。例如,视频中的动作通常以不同的速度执行,发生在不同的时间点。此外,动作识别通常需要整合多个不同的子动作信息,生成相应的时间表征,用于后续的时空特征匹配。
3.针对小样本视频动作分类问题,现有技术中,大多采用基于度量的元学习框架实现查询视频与支持视频之间的相似度比较,其方法是通过表示学习将输入视频映射到一个嵌入空间,然后实现距离度量来比较片段任务中的视频相似性。虽然这一方法通过情景训练来学习骨干网络或时间关系模块,但是却忽视了时空表示的重要性,而时空表示对于小样本视频动作分类的基本概念至关重要,由此,需要设计一款由时间注意力模块和空间注意力模块构成的网络架构对小样本视频动作进行分析。
技术实现要素:4.1.要解决的技术问题
5.针对现有技术中存在的在小样本视频动作分析过程中,视频稀疏采样帧不足可能会限制长期时间模型的容量以及采样帧数量的增加会导致组合和匹配策略的复杂性等问题,本发明提供了一种小样本视频动作分析方法、系统及装置,可以有效增强对小样本视频中运动信息的捕捉能力,显著提高小样本视频动作识别的精度。
6.2.技术方案
7.本发明的目的通过以下技术方案实现。
8.一种小样本视频动作分析方法,其步骤包括:
9.输入查询视频帧和支持视频帧,通过降维操作输出特征图;
10.将特征图输入到由时间注意力模块和空间注意力模块构成的神经网络中进行训练;
11.将训练后的查询视频帧与支持视频帧在时空对齐模块中进行匹配,分析小样本视频中的动作特征信息。
12.进一步地,所述神经网络包括3个阶段,每个阶段有8层,每层包括3个时间注意力模块和3个空间注意力模块。
13.进一步地,所述神经网络的3个阶段之间通过连接模块连接;所述神经网络通过
norm层连接所述时空对齐模块。
14.进一步地,所述时间注意力模块中,通过计算相同位置不同帧之间的注意力,捕获帧之间的时间依赖信息。
15.进一步地,所述空间注意力模块中,通过计算相同帧不同位置的注意力,捕获相同帧之间的空间依赖信息。
16.进一步地,在所述神经网络中,通过缩小搜索空间范围,加速网络训练。
17.进一步地,所述缩小搜索空间范围的步骤为:
18.从定义的所有的操作数当中采用均匀采样方式选择一组子网络进行训练;
19.在超级网络训练期间,每p次迭代就对所有的操作数做一次分数统计,分数计算公式为:
[0020][0021]
其中,s(i,j)表示第i层第j个操作数的得分,o
i,j
表示第i层第j个操作数,ns表示超级网络,a表示超级网络的子网络,w表示权重,ea表示对子网络a的统计结果取平均值,u(a)表示搜索空间中所有的模型集合,d
tr
表示训练集,l
ce
表示交叉熵损失函数,l
ce
的计算公式为:
[0022][0023]
其中,wa表示子网络a的权重,na表示超级网络的transformer搜索空间,d
train
表示训练集;
[0024]
对每个操作数的得分进行排序,将k%的分数低的操作数删除,保留分数高即表现好的操作数;
[0025]
下一个迭代期间,将从剩余的操作数当中采用均匀采样方式选择一组子网络进行训练。
[0026]
进一步地,所述查询视频帧与支持视频帧在时空对齐模块中进行匹配,计算每一个查询视频帧到支持视频帧之间的距离,计算公式为:
[0027]
a(xq,xs)=softmax[f(xq)f
t
(xs)]
[0028]
其中,a(xq,xs)表示视频帧级别的注意力,f(xq)表示查询视频帧的嵌入向量,f
t
(xs)表示支持视频帧转置的嵌入向量,通过该注意力,对嵌入向量进一步地计算:
[0029][0030]
其中,f(xs)表示支持视频帧的嵌入向量,表示时间对齐的支持视频帧的表征;
[0031]
计算查询视频帧和支持视频帧对应的嵌入向量的距离,计算公式为:
[0032][0033]
其中,表示嵌入向量之间的距离,t表示视频的长度,co表示特征维度。
[0034]
一种小样本视频动作分析系统,其采用基于小样本视频动作分析方法对查询视频帧和支持视频帧进行特征学习;所述小样本视频动作分析系统包括:
[0035]
输入模块,输入查询视频帧和支持视频帧序列,经过降维操作,输出特征图;
[0036]
训练模块,将特征图输入到由时间注意力模块和空间注意力模块构成的神经网络中进行训练;在训练阶段,对于每一次迭代,随机地从每一层的3个时间注意力模块和3个空间注意力模块中选择一个模块进行训练。
[0037]
时空对齐模块,将训练后的查询视频帧与支持视频帧在时空对齐模块中进行匹配,分析小样本视频中的动作特征信息,所述时空对齐模块可以匹配任意长度的视频帧。
[0038]
一种小样本视频动作分析装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现基于小样本视频动作分析方法的步骤。
[0039]
3.有益效果
[0040]
相比于现有技术,本发明的优点在于:
[0041]
本发明的一种小样本视频动作分析方法、系统及装置,基于时间注意力模块和空间注意力模块构建神经网络,将小样本视频在神经网络中进行训练,可以使模型在不同的阶段自发地选择和关注不同类型的信息,从而可以获得更好的时间和空间信息表征;同时,通过缩小空间范围,加快神经网络训练,极大地节约了视频分析的时间成本;通过时空对齐模块,可以用于任意长度的视频匹配,突破了小样本视频动作识别中对于帧数的限制,增强了对小样本视频中运动信息的捕捉能力,显著提高了小样本视频中动作识别的精度。
附图说明
[0042]
图1为本发明的神经网络结构框架图;
[0043]
图2为本发明的时间注意力模块和空间注意力模块结构示意图;
[0044]
图3为本发明的视频帧级别的时空对齐模块结构示意图。
具体实施方式
[0045]
下面结合说明书附图和具体的实施例,对本发明作详细描述。
[0046]
实施例
[0047]
如图1所示,本实施例提供的一种小样本视频动作分析方法、系统及装置,输入查询视频帧和支持视频帧,通过降维操作输出特征图;将特征图输入到由时间注意力模块和空间注意力模块构成的神经网络中进行训练;将训练后的查询视频帧与支持视频帧在时空对齐模块中进行匹配,分析小样本视频中的动作特征信息。
[0048]
具体到本实施例中,首先输入两组视频帧,一组为m条查询视频帧(query video),另一组为n条支持视频帧(support video)。其中,查询视频帧类别已知。计算每一条查询视频帧到n条支持视频帧之间的距离,距离哪一条支持视频帧距离最近,则该条支持视频帧的类别即为查询视频帧的类别,由此用于确定一条视频的类别。对于输入的查询视频帧和支持视频帧序列,首先经过4层3x3的卷积层降维操作,输出16倍下采样的特征图。通过降维操作使得数据降维,从而可以降低模型计算量;由于需要和神经网络中模块输入的通道及长宽特征图对应起来,所以需要使用4层3
×
3的卷积层。当查询视频帧和支持视频帧经过4层3
×
3卷积层降维后,输入到神经网络中。
[0049]
本实施例中,所述神经网络由时间注意力模块(timeattn)和空间注意力模块
(spaceattn)构成,整个神经网络分为3个阶段,每个阶段有8层,每层包括3个时间注意力模块和3个空间注意力模块,每个模块由transformer结构构成;所述神经网络的3个阶段之间通过连接模块(sdb)连接,用于对输入的特征图2倍空间下采样,sdb也是一个降维模块,用于降低模型计算量。对于所述时间注意力模块和空间注意力模块,输入模块的维度为twh
×
c,其中w、h、c分别为嵌入向量的宽、高和通道数,t表示帧数;在所述时间注意力模块中,时间注意力模块有3种变体,其head数量分别为6、12、16,通过计算相同位置、不同帧之间的注意力,获得wh
×
t
×
t的时间注意力掩码,用于捕捉帧之间的时间依赖信息;在所述空间注意力模块中,空间注意力模块同样有3种变体,其head数量分别为6、12、16,通过计算相同帧、不同位置的注意力,获得t
×
wh
×
wh的空间注意力编码,用于捕捉相同帧之间的空间依赖信息。如图2所示为所述时间注意力模块和空间注意力模块的具体结构,该结构是一个标准的transformer结构。对于时间注意力模块,输入数据(twh,c),经过linear层之后得到q,k,v3组特征向量,将q,k通过matmul矩阵相乘运算,运算结果通过softmax层得到(wh,t,t)的特征注意力图,将该图与v做矩阵乘法运算,突出模型关注的时间位置,即突出关键帧,得到的结果经过linear后与原输入数据相加运算,通过两层mlp得到时间注意力图。本实施例中,所述空间注意力模块的结构与时间注意力模块的结构相似。本实施例中,通过时间注意力模块和空间注意力模块构建神经网络,将小样本视频在神经网络中进行训练,可以使模型在不同的阶段自发地选择和关注不同类型的信息,从而可以获得更好的时间和空间信息表征。
[0050]
在神经网络训练中,通过缩小搜索空间范围,从而加速网络训练。本实施例中,所述空间范围是所有操作数组合的集合,搜索的神经网络有n层,每层有m个操作数,则所述搜索空间就是n的m次方;在神经网络训练过程中,将得分低的操作数去掉,从而减小搜索范围。所述缩小搜索空间范围的步骤为:
[0051]
从定义的所有的操作数当中采用均匀采样方式选择一组子网络进行训练,所述定义的操作数如图1中所示的时间注意力模块和空间注意力模块中的timeattn h6、spaceattn h6等,一个操作数可以理解为实现某一功能的计算模块;
[0052]
在超级网络训练期间,每p次迭代就对所有的操作数做一次分数统计,分数计算公式为:
[0053][0054]
其中,s(i,j)表示第i层第j个操作数的得分,o
i,j
表示第i层第j个操作数,ns表示超级网络,a表示超级网络的子网络,w表示权重,ea表示对子网络a的统计结果取平均值,u(a)表示搜索空间中所有的模型集合,d
tr
表示训练集,l
ce
表示交叉熵损失函数,l
ce
的计算公式为:
[0055][0056]
其中,wa表示子网络a的权重,na表示超级网络的transformer搜索空间,d
train
表示训练集;
[0057]
对每个操作数的得分进行排序,将k%的分数低的操作数删除,保留分数高即表现好的操作数,从而可以减小搜索空间范围。本实施例中,k%是指定的参数,比如定义有100
个操作数,k取10,则将10%的分数低的操作数删除,保留了90个分数高的操作数。
[0058]
下一个迭代期间,将从剩余的操作数当中采用均匀采样方式选择一组子网络进行训练。
[0059]
由此,通过缩小空间范围,加快神经网络训练,极大地节约了视频分析的时间成本。
[0060]
需要说明的是,在训练阶段,对于每一次迭代,随机地从每一层的6个时间注意力模块和空间注意力模块中选择一个模块,则总共选择24个模块组成一条通路进行训练。
[0061]
所述神经网络通过norm层连接所述时空对齐模块(spatio-temporal alignment),使用norm层是对特征做归一化处理,从而有利于对模型的收敛。当查询视频帧和支持视频帧在神经网络中经过训练后,通过norm层对所获得的特征进行归一化处理后,输入到所述时空对齐模块中,所述查询视频帧与支持视频帧在时空对齐模块中进行匹配,从而分析小样本视频中的动作特征信息。如图3所示,查询视频帧(query video xq)有四帧图片,图a是人站立的姿态,图b是人跑动的姿态,图c是人跨越杆的姿态,图d是人躺下的姿态;支持视频帧(support video xs)有四帧图片,图a'是人跑动的姿态,图b'是人跑动的姿态,图c'是人跑动的姿态,图d
′
是人跨越杆的姿态。需要说明的是,一般进行匹配是采用顺序帧对齐的方式,比如查询视频帧的第一帧与支持视频帧的第一帧对齐,查询视频帧的第二帧与支持视频帧的第二帧对齐,以此类推,但是这种方法存在不一定匹配的问题,如采用顺序帧对齐的方式,则查询视频帧图a中人站立的姿态就无法与支持视频帧图a
′
中人跑动的姿态对齐,从而导致匹配的准确度下降。而本实施例中,通过采用关键帧对齐的方式,可以极大地提升匹配的准确度。如查询视频帧图b中人跑动的姿态就可以与支持视频帧图a
′
中人跑动的姿态对齐;查询视频帧图c中人跨越杆的姿态就可以与支持视频帧图d
′
中人跨越杆的姿态对齐。通过这种方式能够显著增强对视频中运动信息的捕捉能力,从而提高了小样本视频动作识别的精度。计算每一个查询视频帧到支持视频帧之间的距离,计算公式为:
[0062]
a(xq,xs)=softmax[f(xq)f
t
(xs)]
[0063]
其中,a(xq,xs)表示视频帧级别的注意力,f(xq)表示查询视频帧的嵌入向量,f
t
(xs)表示支持视频帧转置的嵌入向量,通过该注意力,对嵌入向量进一步地计算:
[0064][0065]
其中,f(xs)表示支持视频帧的嵌入向量,表示时间对齐的支持视频帧的表征;
[0066]
计算查询视频帧和支持视频帧对应的嵌入向量的距离,计算公式为:
[0067][0068]
其中,表示嵌入向量之间的距离,t表示视频的长度,co表示特征维度。
[0069]
从而,通过时空对齐模块,可以用于任意长度的视频匹配,突破了小样本视频动作识别中对于帧数的限制,增强了对小样本视频中运动信息的捕捉能力,显著提高了小样本视频中动作识别的精度。
[0070]
此外,本实施例提供的一种小样本视频动作分析系统,基于小样本视频动作分析
方法对查询视频帧和支持视频帧进行特征学习;所述小样本视频动作分析系统包括:
[0071]
输入模块,输入查询视频帧和支持视频帧序列,经过降维操作,输出特征图;
[0072]
训练模块,将特征图输入到由时间注意力模块和空间注意力模块构成的神经网络中进行训练;在训练阶段,对于每一次迭代,随机地从每一层的3个时间注意力模块和3个空间注意力模块中选择一个模块进行训练。
[0073]
时空对齐模块,将训练后的查询视频帧与支持视频帧在时空对齐模块中进行匹配,分析小样本视频中的动作特征信息,所述时空对齐模块可以匹配任意长度的视频帧。
[0074]
本实施例还提供一种小样本视频动作分析装置,小样本视频动作分析装置为一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序。处理器执行程序时实现如本实施例中小样本视频动作分析方法的步骤。该计算机设备可以是可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。本实施例的计算机设备至少包括但不限于:可通过系统总线相互通信连接的存储器、处理器。存储器(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。存储器可以是计算机设备的内部存储单元,例如该计算机设备的硬盘或内存,也可以是计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。当然,存储器还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中,存储器通常用于存储安装于计算机设备的操作系统和各类应用软件等。此外,存储器还可以用于暂时地存储已经输出或者将要输出的各类数据。处理器在一些实施例中可以是中央处理器(central processing unit,cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器通常用于控制计算机设备的总体操作,在本实施例中,处理器用于运行存储器中存储的程序代码或者处理数据。
[0075]
以上示意性地对本发明创造及其实施方式进行了描述,该描述没有限制性,在不背离本发明的精神或者基本特征的情况下,能够以其他的具体形式实现本发明。附图中所示的也只是本发明创造的实施方式之一,实际的结构并不局限于此,权利要求中的任何附图标记不应限制所涉及的权利要求。所以,如果本领域的普通技术人员受其启示,在不脱离本创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本专利的保护范围。此外,“包括”一词不排除其他元件或步骤,在元件前的“一个”一词不排除包括“多个”该元件。产品权利要求中陈述的多个元件也可以由一个元件通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。