本发明涉及计算机,尤其涉及一种基于潜在动作区间特征整合的时序动作检测方法及装置。
背景技术:
1、近年来,随着数字媒体的迅猛发展,视频内容在人们日常生活中扮演着愈发重要的角色。在这种情况下,时序动作检测作为视频内容理解的关键领域之一,受到了学术界和产业界的广泛关注。时序动作检测的目标是从复杂的时间序列数据中识别和捕捉人类动作或事件的发生,因此被认为是计算机视觉领域中具有挑战性的任务之一。在早期的研究中,通常采用传统的特征提取方法结合机器学习算法。这些传统方法常常利用手工设计的特征来表示视频帧,然后采用传统的机器学习算法进行分类。然而,这些传统方法通常对特征选择依赖较强,难以捕捉复杂的语义信息,并且在处理长序列时存在计算复杂度较高的问题。
2、近几年随着深度学习技术的发展,深度学习方法在行为识别任务中得到广泛应用。早期的工作主要基于单纯的滑动窗口,时序动作分组和单元回归来定位视频动作序列中的时序动作信息,然而这些方法不仅计算量大、容易造成冗余,而且对于较长的视频序列,可能会损失部分时序信息,限制了性能的提升。除此之外,基于简单的单流网络,单流网络是指直接将视频帧输入到深度神经网络中进行特征提取和分类,还容易出现过拟合问题。为了综合利用空间信息,一些研究工作开始使用整个视频范围的决策辅助,使模型能够更好地理解动作前摇和后续特征,从而提高检测准确性。并且使用双流网络结构,通过特征融合来凸显视频动作边界的关键动作特征。因此,如何更准确地捕捉动作的前摇和后序特征是本领域研究的重点,通过在动作检测中引入全局特征考虑,模型能够更好地理解动作前摇和后续特征,从而提高检测准确性。本发明的优势在于改进了传统动作识别模型的局限性,为时序动作检测领域提供了一种新的解决方案,具有广泛的应用前景,尤其在视频理解和动作监测领域具有重要意义。
技术实现思路
1、本发明针对现有技术的不足,研制一种基于潜在动作区间特征整合的时序动作检测方法及装置,引入了全局注意力引导的特征整合层实现对视频中 i3d 特征的权重区间寻找, 并与原始特征进行融合,以改进模型对动作的决策,随后,通过全序列注意力机制寻找特 征融合后的权重区间,最终将特征送入多尺寸transformer编码器和轻量化卷积解码器,以输出准确检测到的动作。相较于现有技术优化了模型结构,解决了时序信息处理和边界不明确的问题。
2、本发明解决技术问题的技术方案为:一方面,本发明提供了一种基于潜在动作区间特征整合的时序动作检测方法,其包括如下步骤:
3、1)对原始视频进行特征编码提取获得整个视频的时空特征序列;
4、2)构建基于全局注意力的潜在动作区间特征提取网络模型;
5、2-1)将步骤1)中的时空特征序列输入全局注意力引导的片段级动作区间特征提取模块;
6、2-2)基于全局注意力的潜在动作区间特征提取模块利用片段全局注意力层挖掘时空特征序列中的隐藏动作状态获取每个时刻的得分,以获得每个帧在全局上的注意力权重;
7、2-3)基于全局注意力的潜在动作区间特征提取模块利用全局注意力权重,将给定片段内的特定帧进行权重分配,突出潜在的动作发生时刻,生成潜在动作区间特征作为基于全局注意力的潜在动作区间特征提取模块的输出;
8、3)构建潜在动作区间特征融合和时序信息增强网络模型;
9、3-1)将基于全局注意力的潜在动作区间特征提取模块产生的特征和来自预训练的i3d网络对整个视频提取的时空特征序列进行拼接融合;
10、3-2)将融合后的特征序列利用全序列注意力机制,捕捉整个特征序列的时序信息,强调动作的前序和后序特征,获得时序信息增强后的特征序列并作为潜在动作区间特征融合和时序信息增强模块的输出;
11、4)构建基于transformer的视频编码模块,以处理不同尺寸的特征表示,促进对动作的更准确编码和建模;
12、5)构建基于轻量级卷积网络的动作分类和边界回归模块,将高层次的语义特征还原为原始视频帧的信息,获得最终的分类结果和定位偏移。
13、步骤 2-2)构建基于全局注意力的潜在动作区间特征提取网络模型的具体过程是:
14、将经过i3d网络模型作为特征提取器预处理好的视频特征序列输入长短期记忆网络lstm中,其中表示特征时间维度,表示特征通道维度,表示某一帧特征的高度,表示某一帧特征的宽度,得到s时刻的隐藏动作状态以及最终时刻的隐藏动作状态,使用注意力打分函数,通过多层感知机mlp来计算查询向量和每一帧特征向量之间的匹配分数,获得每个时刻的得分,具体过程本方法描述为:
15、,
16、其中,为得分计算,为查询向量,为可学习参数,为最终时刻的隐藏动作状态,为所有时刻的隐藏动作状态,通过softmax函数将所有时刻的得分进行归一化,以获得每个帧在全局上的注意力权重,即每个帧对于整个序列的重要程度,具体过程可用公式表示为:
17、,
18、其中,为全局注意力权重,为最终时刻的得分,为第k个时刻的得分, k表示总时刻数。
19、步骤 2-3)构建基于全局注意力的潜在动作区间特征提取网络模型的具体过程如下:
20、利用得到的注意力权重与隐藏动作状态乘数计算,以得到在各时刻添加了全局注意力global attention之后的潜在动作区间特征,具体过程可用公式表示为:
21、,
22、其中,为潜在动作区间特征序列,是特征维度 , l 是全局注意力输出维度,其经过注意力计算后的输出表示为:
23、,
24、其中,、和 分别是三个不同的权重矩阵,表示矩阵乘法, t表示转置,是缩放因子,表示softmax函数。
25、步骤3-1)构建潜在动作区间特征融合和时序信息增强网络模型的具体过程是:
26、将潜在动作区间特征送入特征融合模块,准备与原始视频特征f进行特征融合,在进行特征融合前,需要对潜在动作区间特征进行特征重塑操作,以确保两个特征序列能够正确地贴合到一起;使用线性变换对特征进行重塑,具体过程本方法描述为:
27、,
28、其中,表示重塑后的语义特征,是经注意力加权之后的潜在动作区间特征序列,是权重矩阵,是偏置向量,利用融合权重将原始 i3d 特征和线性变换后的潜在动作区间特征进行加权和,具体过程本方法描述为:
29、,
30、其中是融合权重,为潜在动作区间融合后的特征,为第i个视频片段的原始i3d特征序列, d是特征维度,z表示帧数。
31、步骤3-2)构建潜在动作区间特征融合和时序信息增强网络模型的具体过程是:
32、针对潜在动作区间融合后的特征,进行线性变换;将线性变换后的特征输入到softmax函数中,以获得每个帧在全序列上的注意力权重,softmax函数将特征的分数转化为概率分布,使得每个帧的重要性得以量化,具体过程本方法描述为:
33、,
34、其中为全序列注意力分数,是全序列注意力权重参数,为潜在动作区间融合后的特征,是帧数, d是特征维度,l是全局注意力输出维度;
35、得到全序列的注意力权重后,将这些权重应用到潜在动作区间融合后的特征上,通过对每个特征向量乘以对应的注意力权重,得到加权的特征表示,具体过程本方法描述为:
36、,
37、其中为时序信息强调特征,为潜在动作区间融合后的特征,l是全局注意力输出维度,是特征维度 。
38、步骤4构建基于transformer的视频编码模块的具体过程是:
39、对时序信息强调特征 作为输入输送到基于transformer的视频编码模块,在整个特征序列上集成时间上下文信息,并通过使用多级金字塔特征捕获视频中不同长度的动作,本模块结构包含个transformertransformer层,每一层都由局部多头自注意力msa和多层感知机mlp交替组成,此外,在每个msa或mlp块之前应用归一化层ln,并在每个块之后添加残差连接,特征f输入基于transformer的视频编码模块后,使用卷积网络e以relu为激活函数将其编码为特征向量, 每个特征向量的维度为d,transformer网络将得到的特征进一步编码输出为特征金字塔,具体过程可用公式表示为:
40、,
41、其中,为特征金字塔,为的特征表示,表示序列中第个特征,n表示序列的长度;
42、transformer 网络进一步将作为输入, 通过自注意力计算输入特征的加权平均值得到查询q、键k和值v矩阵,以将权重映射为输入特征对间的相似性得分,并通过softmax函数得到自注意力的输出,具体过程本方法描述为:
43、,,
44、,
45、其中,、和 分别表示三个不同的权重矩阵,表示自注意力的输出,d表示特征维度,表示softmax函数;
46、局部多头自注意力msa进一步并行地增加了几个上述的自注意力操作,但受限于计算量,传统局部多头自注意力msa在内存和时间上的复杂度为,其中表示复杂度,表示帧数,是特征维度。由于超出一定范围的时序上下文信息对动作定位帮助很小,本方法通过将注意力限制在局部窗口内,将传统局部多头自注意力msa的复杂度由降低到,在transformer块之间穿插下采样层,构成特征金字塔,经过下采样之后来捕获不同时间尺度的动作, 最终结果得到多尺度特征金字塔,体过程本方法描述为:
47、,
48、,
49、,
50、其中,和表示第层和第层金字塔特征,表示经过多头自注意力变换的金字塔特征,表示经过多层感知机变换后的金字塔特征,msa表示多头自注意力,mlp表示多层感知机,和分别为多头自注意力通道和多层感知机通道的可学习缩放因子, 表示下采样。
51、步骤5构建基于轻量级卷积网络的动作分类和边界回归模块的具体过程是:
52、将特征金字塔作为输入输送到基于轻量级卷积网络的动作分类模块和边界回归模块,该模块包含轻量级1d卷积网络、分类预测头和回归预测头,使用轻量级卷积神经网络将金字塔特征编码为标签序列,其中标签序列包含动作标签和时序标签,经过以上操作后的特征分别输入至1d卷积分类头和1d卷积回归头得到分类结果和回归结果和;
53、分类头使用3层一维卷积,核大小为3,归一化层和relu激活,通过连接到每个金字塔层的轻量级一维卷积网络实现对金字塔上所有层的每个时刻t检查,并输出每个时间上的分类动作的值,每个输出维数都附加一个sigmoid函数来预测c动作类别的概率;
54、回归头同样通过连接到每个金字塔层的轻量级一维卷积网络实现对金字塔上所有层的每个时刻t检查,不同之处在于,只有在当前的时间步长t位于一个动作中时,回归头才会预测到一个动作的开始和偏移量的距离,;
55、对于分类预测头和回归预测头的输出、和,本方法在训练阶段采用lossfuction进程训练,具体过程本方法描述为:
56、,
57、其中,t 表示特征中任一时间点,n表示输入序列的长度,n+表示正样本总数,为指示函数, 是一个平衡分类损失和回归损失之间的系数,默认设置 = 1,是预测c动作类别的focal loss函数,是用于距离回归的iou损失函数;
58、对于分类预测头和回归预测头的输出、和,本方法在测试阶段采用如下公式获得最终结果:
59、,
60、,
61、,
62、其中,表示t时间点最终的预测类别,表示t时间点对应预测动作开始时间,表示t时间点对应预测动作结束时间,最后通过使用soft-nms减少冗余、重叠部分大的实列并获得最终结果。
63、另一方面,本发明的实施例提供了一种基于潜在动作区间特征整合的时序动作检测方法的装置,包括:
64、(1)初始特征获取模块:
65、利用预训练的i3d网络对动作视频进行特征提取,或使用来自thumos数据集的现有特征;
66、(2)基于全局注意力的潜在动作区间特征提取模块:
67、通过片段全局注意力层,挖掘时空特征序列中的隐藏动作状态获取每个时刻的得分,以获得每个帧在全局上的注意力权重;
68、(3)潜在动作区间特征融合和时序信息增强模块:
69、将潜在动作区间特征与原始i3d特征进行融合,以保留全局信息和强化潜在动作的 局部特征利,用全序列注意力机制,捕捉整个特征序列的时序信息,强调动作的前序和后序特征,进行信息增强;
70、(4)基于transformer的视频编码模块:
71、引入multi-scale transformer encoder,以处理不同尺寸的特征表示,促进对动作的更准确编码和建模;
72、(5)基于轻量级卷积网络的动作分类和边界回归模块:
73、引入lightweight convolutional decode将高层次的语义特征还原为原始视频帧的信息,获得最终的分类结果和定位偏移;
74、(6)定位模块:
75、在测试阶段,计算视频级别的分类概率,即表示每个动作类别在给定视频中发生的可能
76、性,设置一个阈值以确定将在视频中定位的动作类;对于选定的动作类,获得动作提案的起止时间,获得动作的置信度分数,得到动作提案。
77、
技术实现要素:
中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案具有如下优点或有益效果:
78、1)本发明方法引入了片段级的特征筛选,这意味着它针对每个片段(clip)进行特征选择和处理,相较于传统的全局特征处理方式,这种方法更注重局部特征的挖掘。这样的优化能够有效解决时序信息处理和边界不明确的问题。传统的动作识别模型可能会受限于全局特征处理,容易在动作边界处失去关键信息,而引入片段级的特征筛选则能够更细致地捕捉每个片段的特征,从而更准确地识别动作。
79、2)通过在动作检测中引入全局特征考虑,模型能够更好地理解动作前摇和后续特征,这意味着模型能够更好地把握动作的上下文信息,从而提高检测准确性。对于动作检测这样的任务来说,理解动作的整体结构和动态变化至关重要,而全局特征考虑可以帮助模型更好地理解动作序列的时间演变,进而提高检测的准确性和鲁棒性。
80、3)改进了传统动作识别模型的局限性,为时序动作检测领域提供了一种新的解决方案。传统的动作识别模型在处理时序信息和边界模糊性方面存在一定的困难,而本方法通过引入 片段级的特征筛选和全局特征考虑,克服了这些问题,提高了动作识别模型的性能和效果。这种新的解决方案具有广泛的应用前景,特别是在视频理解和动作监测领域。在这些领域,时序信息的处理和动作的识别一直是一个重要且具有挑战性的问题,而本方法为解决这些问题提供了一个有效的途径,有望推动相关领域的进步和发展。因此,本发明在视频理解和动作监测领域具有重要意义,有望在实际应用中取得显著的成果。