跨域视频动作识别方法、装置、设备和计算机可存储介质

文档序号:32452769发布日期:2022-12-07 02:11阅读:51来源:国知局
跨域视频动作识别方法、装置、设备和计算机可存储介质

1.本发明属于计算机视觉和模式识别技术领域,涉及基于重采样和特征加权的无监督的,一种跨域视频动作识别方法,可以在目标域没有样本标签的情况下,有效减小模型在多个数据集上泛化能力不足的问题,提高模型的可迁移性,在多个跨域视频动作数据集上,验证了该模型的有效性。


背景技术:

2.过去几年里,在动作识别领域出现了许多不同深度架构的方法;例如:在two-stream(双流卷积神经网络)中:提出了双流网络架构,用两个2d卷积块对rgb和光流信息进行联合训练,建模时间信息;trn:提出了时间关系网络这一深度模型,采用特殊的池化层来建模视频帧之间的时间关系c3d:通过3d卷积对直接学习视频数据的时空特征;i3d:这是一种深度网络,集成了膨胀的二维卷积滤波器,以利用大规模预训练的二维模型。p3d:伪三维残差神经网络,该方法的核心是将3d卷积拆分为一个3*1*1的1d时间卷积核和一个1*3*3的2d空间卷积,缩减了参数量。
3.然而,上述的方法往往不能直接运用在跨域动作识别领域,因为这些方法是在相同分布的训练数据集和测试数据集上训练的,即所有样本都来自同一数据集;对于跨域任务,其训练和测试的样本往往来自不同的数据集,即样本的分布是不同的;在这种情况下上述方法不能很好的消除样本的数据分布差异,从而导致模型的分类效果的大幅下降,模型效果不好,不能有效应用在在跨域任务中。
4.在计算机视觉和模式识别相关研究领域中,迁移学习的跨域任务一直是最活跃的研究领域之一;跨域任务在图像领域已经有了较成熟的方法,现有的方法在用于应对领域转移的策略上存在很大差异。一类方法通过匹配源和目标数据分布的一阶和二阶统计矩来执行域分布对齐。另一个突出策略是对抗性训练,其中通过将域鉴别器与源分类损失耦合来学习区分性和域不可知性特征表示。与跨域图像识别任务相比,跨域动作识别任务更加困难,因为时序信息,目前仅提出了少数的跨域动作识别方法,例如在daaa方法中,提出了一个端到端的对抗性学习框架,用于对齐这两个领域,ta3n:提出了一种时间注意对抗适应网,用于对齐时间动态,其中使用注意机制来对齐时间动态和空间特征。tcon:使用协同注意力的方法对齐源域和目标域中同类视频的特征分布;虽然这些方法可以产生令人满意的结果,但大多数方法需要带有标记信息的样本。因此,在本研究中,我们将重点放在无监督跨域动作识别任务上。


技术实现要素:

5.本发明目的是针对动作识别的跨域任务,解决目标数据集的训练集无标签的情况下的跨域动作识别问题,提出一种基于重采样和特征加权的无监督的,跨域视频动作识别方法、装置、设备和计算机可存储介质。
6.跨域视频动作识别方法具体包含以下步骤:
7.1)源域样本重采样:源域样本数量在每个类别的分布是不均匀的,用不均匀的的源域样本训练模型会导致模型更加的拟合样本量多的类别,忽略样本量少的类别;而目标域的样本量在每个类别的分布往往与源域不同,因此会导致源域上训练的模型迁移到目标域上时效果下降;根据以上特点,对源域样本进行重采样平衡源域样本每个类别数量一致;
8.2)视频预处理:跨域动作数据集样本帧数较多,将所有帧都输入网络计算压力较大,并且由于相邻两帧相似性高,抽取一定量的帧图像输入网络效率更高;根据以上特点,在源域和目标域分别随机取n个视频样本,合并为一个批次的数据样本;将每个视频均分成k=6段,每段视频随机抽取十六帧,将这九十六帧图像作为动作样本的表示;同时对帧图像进行常规的数据增强,即将视频进行随机裁剪,随机水平翻转和归一化处理;在测试阶段,仅对测试集的视频样本进行抽帧处理,不进行数据增强;
9.3)特征提取:使用在kinetics数据集上进行预训练的i3d模型作为网络的特征提取器,对经过步骤1)和步骤2)处理的视频样本提取特征,对得到片段级特征序列其中t=6表示每个视频样本得到6段片段特征,c为特征通道维度;
10.4)构建运动激励模块:将片段级特征f输入到运动激励模块,运动激励模块的基于时间维度来增强运动信息,提高动作特征的质量,得到增强过的片段级特征
11.5)构建特征融合模块:经过运动激励模块建模的片段级特征作为输入利用特征融合模块将t=6片段级特征融合成视频级特征
12.6)构建中间域加权模块:跨域动作识别的一个目标就是学习到更多的域不变特征,即不随着域的变化而变化的本质的动作特征;根据以上特点,设计了中间域加模块,中间域加权层的作用是对输入的同一批次的2n个视频级样本特征{f1,f2,

,f
2n
},进行判断,其更偏向于源域或目标域数据分布,还是处于中间域(即源域特征分布和目标域特征分布的交集部分);处于中间域的样本特征相对于偏向于源域或目标域特数据分布的样本具有更多的域不变特征,通过中间域加权模块根据特征f与中间域的距离,根据不同的规则计算出不同的权重向量,分类权重向量域对比权重向量分类权重向量xc给予视频级特征f赋权得到用于分类的特征fc并将其输入到后续的分类模块中;域对比权重向量xd给予视频级特征f赋权得到用于域对比学习特征fd;
13.7)构建分类模块:经过中间域加权模块赋权的视频级特征fc输入到分类模块,经过分类模块计算得到样本在每个类别的分类概率向量lc,一方面分类模块对源域样本的真实标签ys和源域样本的分类概率向量ls∈lc使用交叉熵函数计算源域样本的分类损失,优化整体网络的分类能力;交叉熵损失函数的定义为:
[0014][0015]
其中n代表当前网络训练批次中源域样本数量,yi表示第i个样本的标签,表示对第i个样本的预测值;log()是取对数操作;
[0016]
另一方面分类模块使用目标域样本的分类概率向量l
t
∈lc,根据公式:
[0017][0018]
得到目标域样本的伪标签
[0019]
8)构建域对比学习模块:域对比学习模块主要实现域间对比学习,通过拉近源域样本特征和目标域样本特征中同属于一个类别的特征之间的距离,推远不同类别特征间的距离来达到减小域偏移,提高网络跨域能力的目的;经过中间域加权模块赋权的视频级特征fd输入到域对比学习模块,经过域对比学习模块将特征映射为域对比特征fd,使用源域真实标签ys和目标域伪标签以及域对比特征fd计算域对比损失,并优化网络减小域偏移;域对比损失定义为:
[0020][0021]
其中,n代表每个批次的源域或目标域样本数;代表每个批次第i个源域域对比特征,代表每个批次第j个目标域域对比特征;是一个指示符函数,如果其参数为真,则为1,否则为0;
[0022][0023]
ω表示伪标签不可靠的目标域样本集,d(
·
)是一个返回样本域的函数;
[0024][0025]
其中τ》0是一个温度超参数。
[0026]
9)构建联合训练损失函数;整个网络通过步骤6)步骤7)及步骤8)提出的损失函数进行联合训练;网络的整体损失函数定义为:
[0027][0028]
其中α,β,γ为超参数。
[0029]
所述步骤1)具体步骤如下:
[0030]
根据源域样本的真实标签,统计出每个类别的样本数量,对每个类计算采样倍率;
[0031]
采样倍率=(每类样本数/最大类样本数);
[0032]
根据采样倍率对每个类进行加权随机采样,即达到了源域样本整体每个类的样本数一致的目的;而对于目标域数据集,由于其没有真实标签,因此不进行重采样操作。
[0033]
所述步骤4)具体步骤如下:
[0034]
为了建模和增强片段级特征的运动信息,特征提取模块提取的片段级特征被输入到运动激励模块中;运动激励模块是在时序通道上,将t片段的特征与t+1片段的特征作差,通过相邻两个片段的差操作,凸显出两个片段间有差异的特征,这部分差异特征往往是由于运动带来的,因此将这些具有运动信息的特征定位出来,并加回到原片段级特征中,达到增强运动信息的目的。
[0035]
所述步骤6)具体步骤如下:
[0036]
为了得到样本特征相对于中间域的距离,中间域加权模块的实现为一个二分类
器,用于对输入的样本特征进行判断其来自源域还是目标域,其输入为网络提取的视频级特征同时根据特征来自源域还是目标域生成域标签同时根据特征来自源域还是目标域生成域标签根据域标签对该模块进行有监督训练提高二分类器的分类准确率;中间域加权模块的损失函数为二分类交叉熵损失bceloss,样本的域分类损失定义为:
[0037][0038]
其中n代表当前网络训练批次中样本数量,表示第i个样本的域标签,为中间域加权模块对第i个样本特征关于域d∈{s,t}的预测值;log()是取对数操作;
[0039]
随着训练的进行,二分类器的输出的分类概率即能反映样本特征与中间域的距离,即输出的分类概率越接近0.5,代表二分类器越难以判断该样本来自源域还是目标域,说明该特征具有更多的域不变特征,与中间域的距离更小;再根据二分类器输出的分类概率,使用以下公式计算出对每个样本的最终加权特征;
[0040]
分类模块分支的特征权值计算公式:
[0041]
fc=f*e-3|λ-0.5|
[0042]
域对比模块分支的特征权值计算公式:
[0043]
fd=f*e
3|λ-0.5|
[0044]
其中f代表经过特征融合模块融合的的视频级样本特征,λ代表中间域加权模块输出的分类概率。
[0045]
本发明还提供一种视频动作检测装置,所述装置包括:
[0046]
源域样本重采样模块,平衡源域样本在每个类别下的样本数,防止模型对某些类的过度拟合,有助于提高模型对目标域的迁移性能;
[0047]
特征提取模块,用于利用预训练i3d模型提取样本的片段级特征;
[0048]
运动激励模块,用于建模和增强片段级特征的运动信息,有助于后续视频的分类和域适应;
[0049]
特征融合模块,用于将每个样本的6段片段级特征融合为视频级特征;
[0050]
中间域加权模块,通过对模型提取出的特征进行判断,找出特征提取模块提取出的更具有域不变性的中间域样本,并通过给予样本不同的权重,一方面促使网络对域不变特征有更大的学习力度,提高网络的迁移能力,另一方面提高了域对比学习的效率,更好的减小域偏移;
[0051]
分类模块,用于处理中间域加权模块加权后的特征,得到源域样本分类损失,及目标域伪标签,同时在测试阶段,该模块负责输出目标域测试样本的最终分类结果;
[0052]
域对比模块,用于处理中间域加权模块加权后的特征,对源域和目标域进行对比学习,将同域不同类的样本特征的分布推远,将同类不同域的样本特征的分布拉近,减小网络提取出的特征的域偏移。
[0053]
本发明还提供一种视频动作识别设备,所述设备包括:
[0054]
存储器,用于存储可执行计算机程序;
[0055]
处理器,用于执行所述存储器中存储的可执行计算机程序时,实现所述的跨域视频动作识别方法。
niebles.adversarial cross-domain action recognition with co-attention.in aaai,2020.
[0073]
[4]jinwoo choi,gaurav sharma,samuel schulter,and jia-bin huang.shuffle and attend:video domain adaptation.in eccv,2020.
[0074]
表1
[0075][0076]
如图1所示,为本实施例的基于重采样和特征加权的无监督的,跨域视频动作识别方法的操作流程图,该方法的操作步骤包括:
[0077]
1)源域样本重采样:跨域动作识别数据集每类样本数量的分布并不一定是完全一致的,对于部分跨域动作识别数据集来说,其源域样本数量在每个类别的分布是不均匀的,用这样的源域样本去训练模型会导致模型更加的拟合样本量多的类别,忽略样本量少的类别;而目标域的样本数量分布往往与源域样本数量分布不同,因此会导致源域上训练的模型迁移到目标域上时效果下降。因此在训练之前,对源域中样本数量较少的类别的进行重采样,以达到平衡源域样本每个类别数量一致的目的。具体的操作方法是,根据源域样本的真实标签,统计出每个类别的样本数量,对每个类计算采样倍率;
[0078]
采样倍率=(每类样本数/最大类样本数);
[0079]
根据采样倍率对每个类进行加权随机采样,即达到了每个类的样本数一致的目的。
[0080]
2)视频预处理:跨域动作数据集样本帧数较多,将所有帧都输入网络计算压力较大,并且由于相邻两帧相似性高,抽取一定量的帧图像输入网络效率更高;根据以上特点,在源域和目标域分别随机取n个视频样本,合并为一个批次的数据样本;将每个视频均分成k=6段,每段视频随机抽取十六帧,将这九十六帧图像作为动作样本的表示;同时对帧图像进行常规的数据增强,即将视频进行随机裁剪,随机水平翻转和归一化处理;在测试阶段,仅对测试集的视频样本进行抽帧处理,不进行数据增强。
[0081]
3)特征提取:使用在kinetics数据集上进行预训练的i3d模型作为网络的特征提取器,对经过步骤1)和步骤2)处理的视频样本提取特征,对得到片段级特征序列其中t=6表示每个视频样本得到6段片段特征,c为特征通道维度;
[0082]
4)构建运动激励模块:为了建模和增强片段级特征的运动信息,特征提取模块提取的片段级特征被输入到运动激励模块中;将片段级特征fs输入到运动激励模块,运动激励模块基于时间维度来增强运动信息,提高动作特征的质量,具体操作是在时序通道上,将t片段的特征与t+1片段的特征作差,通过相邻两个片段的差操作,凸显出两个片段间有差
异的特征,这部分差异特征往往是由于运动带来的,因此将这些具有运动信息的特征定位出来,并加回到原片段级特征中,达到增强运动信息的目的,最终得到增强过的片段级特征
[0083]
5)构建特征融合模块:为了产生视频级的特征,片段级特征被融合视频级特征特征,其中片段级特征并不是直接相加到一起,而是根据融合权重向量,进行加权相加。权重向量使用简单的特征融合模块计算得出,实现为多层感知机(mlp),架构为线性linear/relu/linear/sigmoid,接收t=6个片段级特征作为输入经过运动激励模块建模的片段级特征作为输入,用特征融合模块将t=6片段级特征融合成视频级特征
[0084]
6)构建中间域加权模块:跨域动作识别的一个目标就是学习到更多的域不变特征,即不随着域的变化而变化的本质的动作特征;根据以上特点,设计了中间域加模块,中间域加权层的作用是对输入的同一批次的2n个视频级样本特征{f1,f2,

,f
2n
},进行判断,其更偏向于源域或目标域数据分布,还是处于中间域(即源域特征分布和目标域特征分布的交集部分);处于中间域的样本特征相对于偏向于源域或目标域特数据分布的样本具有更多的域不变特征,模块通过特征与中间域的距离对这些样本进行加权;加权方式根据特征后续流入模块的不同分为两种,一种是对中间域样本给予更大的权重,并将其输入到分类模块中,目的是让其在后续的分类的计算中占有更大的权重,有利于分类模块对域不变特征进行更好地拟合,提高分类模块的泛化能力;第二种是对这些样本进行相反的加权方式对中间域样本给予更小的权重,并将其输入到域对比学习模块,目的是让其在域对比学习计算中占比更小的权重,即让具备更大域差异的特征在域对比学习的计算中占有更大的权重。相对于中间域样本,这些偏向源域(目标域)分布的样本在域对比学习中有更大的价值,因为,域对比模块是要根据样本间的对比差异进行计算,选择具有更大域差异的样本特征能让域对比模块更好的学习到域偏移;
[0085]
为了得到样本特征相对于中间域的距离,中间域加权模块的实现为一个二分类器,用于对输入的样本特征进行判断其来自源域还是目标域,其输入为网络提取的视频级特征f,同时根据特征来自源域还是目标域生成域标签根据域标签对该模块进行有监督训练提高二分类器的分类准确率。中间域加权模块的损失函数为二分类交叉熵损失(bceloss),样本的域分类损失定义为:
[0086][0087]
其中n代表当前网络训练批次中样本数量,表示第i个样本的域标签,为中间域加权模块对第i个样本特征关于域d∈{s,t}的预测值;log()是取对数操作;
[0088]
随着训练的进行,二分类器的输出的分类概率即能反映样本特征与中间域的距离,即输出的分类概率越接近0.5,代表二分类器越难以判断该样本来自源域还是目标域,说明该特征具有更多的域不变特征,与中间域的距离更小;再根据二分类器输出的分类概率,使用以下公式计算出对每个样本的中间域加权特征。
[0089]
分类模块分支的特征加权计算公式:
[0090]
fc=f*e-3|λ-0.5|
[0091]
域对比模块分支的特征权值计算公式:
[0092]
fd=f*e
3|λ-0.5|
[0093]
其中f代表经过特征融合模块融合的的视频级样本特征,λ代表中间域加权模块输出的分类概率。
[0094]
7)构建分类模块:经过中间域加权模块赋权的视频级特征fc输入到分类模块,经过分类模块计算得到样本在每个类别的分类概率向量lc,分类模块主要实现两个功能,一个功能是通过对有标签的源域样本进行有监督分类损失计算,优化网络对类别的可分性。分类模块对源域样本的真实标签ys和源域样本的分类概率向量ls∈lc使用交叉熵函数计算源域样本的分类损失,优化整体网络的分类能力;交叉熵损失函数的定义为:
[0095][0096]
其中n代表当前网络训练批次中源域样本数量,yi表示第i个样本的标签,表示对第i个样本的预测值;log()是取对数操作;
[0097]
另一个功能是分类模块使用目标域样本的分类概率向量l
t
∈lc,根据公式:
[0098][0099]
得到目标域样本的伪标签;
[0100]
8)构建域对比学习模块:域对比学习模块主要实现域间对比学习,通过拉近源域样本特征和目标域样本特征中同属于一个类别的特征之间的距离,推远不同类别特征间的距离来达到减小域偏移,提高网络跨域能力的目的;经过中间域加权模块赋权的视频级特征fd输入到域对比学习模块,经过域对比学习模块将特征映射为域对比特征fd,使用源域真实标签ys和目标域伪标签以及域对比特征fd计算域对比损失,并优化网络减小域偏移;域对比损失定义为:
[0101][0102]
其中,n代表每个批次的源域或目标域样本数;代表每个批次第i个源域域对比特征,代表每个批次第j个目标域域对比特征;是一个指示符函数,如果其参数为真,则为1,否则为0;
[0103][0104]
ω表示伪标签不可靠的目标域样本集,d(
·
)是一个返回样本域的函数;
[0105][0106]
其中τ》0是一个温度超参数。
[0107]
9)构建联合训练损失函数;整个网络通过步骤6)步骤7)及步骤8)提出的损失函数进行联合训练;网络的整体损失函数定义为:
[0108]
[0109]
其中α,β,γ为超参数。
[0110]
相应地,本实施例还提供一种视频动作检测装置,所述装置包括:
[0111]
源域样本重采样模块,平衡源域样本在每个类别下的样本数,防止模型对某些类的过度拟合,有助于提高模型对目标域的迁移性能;
[0112]
特征提取模块,用于利用预训练i3d模型提取样本的片段级特征;
[0113]
运动激励模块,用于建模和增强片段级特征的运动信息,有助于后续视频的分类和域适应;
[0114]
特征融合模块,用于将每个样本的6段片段级特征融合为视频级特征;
[0115]
中间域加权模块,通过对模型提取出的特征进行判断,找出特征提取模块提取出的更具有域不变性的中间域样本,并通过给予样本不同的权重,一方面促使网络对域不变特征有更大的学习力度,提高网络的迁移能力,另一方面提高了域对比学习的效率,更好的减小域偏移;
[0116]
分类模块,用于处理中间域加权模块加权后的特征,得到源域样本分类损失,及目标域伪标签,同时在测试阶段,该模块负责输出目标域测试样本的最终分类结果;
[0117]
域对比模块,用于处理中间域加权模块加权后的特征,对源域和目标域进行对比学习,将同域不同类的样本特征的分布推远,将同类不同域的样本特征的分布拉近,减小网络提取出的特征的域偏移。
[0118]
本实施例还提供一种视频动作识别设备,所述设备包括:
[0119]
存储器,用于存储可执行计算机程序;
[0120]
处理器,用于执行所述存储器中存储的可执行计算机程序时,实现所述的跨域视频动作识别方法。
[0121]
本实施例还提供一种计算机可读存储介质,存储有计算机程序,用于被处理器执行时,实现所述的跨域视频动作识别方法。
[0122]
为了验证本发明的有效性,在动作数据集ucf-hmdbfull,和ucf

olympic上进行了评测。实验设置20个epoch,采用优化方法sgd,默认学习率是0.01,损失函数超参数设置为α=1.0,β=1.0,γ=1.5,τ=0.5。使用kinetics-400上预训练的模型参数初始化i3d网络。
[0123]
在测试过程中,测试样本的分段抽帧方式与训练阶段相同,但不进行重采样和数据增强操作。对于本实施例的实验效果与无监督方法的比较在表1中可见。从表1可以看出,本发明提出的基于重采样和特征加权的无监督跨域视频动作识别模型在无监督跨域动作识别目标数据集上具有较好的识别性能。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1