一种用于视频多行为识别的多模态联合学习方法

文档序号:28056370发布日期:2021-12-17 22:18阅读:323来源:国知局
一种用于视频多行为识别的多模态联合学习方法

1.本发明涉及多行为视频识别技术领域,尤其涉及一种用于视频多行为识别的多模态联合学习方法。


背景技术:

2.多行为视频识别由于需要识别同时或连续发生的多个行为而更具挑战性。对多行为关系进行建模对于理解具有多个行为的视频是有益且至关重要的,同时视频中的行为通常以多种模态的形式呈现。
3.视频理解是计算机视觉中一项非常复杂和全面的任务,因为它旨在通过复杂的视听视频识别复杂环境中发生的活动。视频中描述的活动通常由几个可能同时或顺序发生的行为组成。例如,当“表演”行为发生时,通常伴随着“鼓掌”和“欢呼”行为。多行为视频识别是一项旨在自动识别视频中同时发生的所有行为的任务。虽然行为识别已经取得了相当大的进展,但多行为识别仍有相当大的局限性。为了解决单一行为视频识别任务,越来越多的工作正从视频中探索行为与物体之间的关系。因此,为了识别视频中同时发生的所有行为以更好地解决多行为识别问题,探索多行为之间的关系,即多行为关系,将是有益的也是至关重要的。
4.多行为视频识别的最新进展主要集中在研究人工设计并提取的时空特征来训练分类器,或设计三维卷积神经网络(3d

cnn)结构,学习用于分类的高辨识度的时空表征。然而,以往的研究并没有特别考虑视频中的多个行为之间的关系。此外,虽然多模态信息已被用于分析多行为视频,但它仅用于提取相应模态的特征(即视觉和音频模态的时空和声音特征)进行融合分类,而不是探索多模态多行为关系以获得更具辨识度的表征信息。因此,如何充分利用多模态信息以更好地探索多行为关系是多行为视频识别的关键。


技术实现要素:

5.本发明提供一种用于视频多行为识别的多模态联合学习方法,解决的技术问题在于:如何充分利用多模态信息进行多行为视频识别。
6.为解决以上技术问题,本发明提供一种用于视频多行为识别的多模态联合学习方法,包括步骤:
7.s1、构建多模态联合学习网络,其包括视觉模态学习模块、音频模态学习网络和文本模态学习网络;
8.s2、对原始视频数据集进行预处理,得到对应的视觉帧数据集、音频行为特征词典和文本行为特征词典;
9.s3、将视觉帧数据集输入视觉模态学习模块、将音频行为特征词典输入音频模态学习网络、将文本行为特征词典输入文本模态学习网络进行联合训练,以输出联合视觉、音频和文本三种模态的多模态联合行为预测。
10.进一步地,所述视觉模态学习模块包括视觉特征提取网络和视觉模态学习网络;
在所述步骤s3中,所述视觉模态学习模块的学习过程具体包括步骤:
11.s31、视觉特征提取网络对输入的视觉帧数据集进行特征提取,生成时空特征广播到视觉模态学习网络,作为n个行为的节点特征;
12.s32、视觉模态学习网络对n个行为的节点特征进行增强后在行为维度上进行平均,输出视觉模态行为预测。
13.进一步地,在所述步骤s3中,所述音频模态学习网络的学习过程具体包括步骤:
14.s33、所述音频模态学习网络对输入的音频行为特征词典提取音频模态多行为关系;
15.s34、将音频模态多行为关系施加到视觉特征提取网络生成的时空特征上,输出音频模态辅助联合行为预测。
16.进一步地,在所述步骤s3中,所述文本模态学习网络的学习过程具体包括步骤:
17.s35、所述文本模态学习网络对输入的文本行为特征词典提取文本模态多行为关系;
18.s36、将文本模态多行为关系施加到视觉特征提取网络生成的时空特征上,输出文本模态辅助联合行为预测。
19.进一步地,所述视觉模态学习网络、所述音频模态学习网络及所述文本模态学习网络均采用关系图卷积神经网络,其表示为:
[0020][0021]
其中,是多行为无向图的邻接矩阵,添加的自连接i
n
是一个单位矩阵,是的对角矩阵,σ(
·
)表示非线性激活函数,是第l层可训练的权重矩阵,表示第l层的多行为关系,ζ表示模态,当ζ=v时表示视觉模态,当ζ=α时表示音频模态,当ζ=τ时表示文本模态;多行为无向图定义为定义为其中,是表示行为的节点的集合,ε是由二元邻接矩阵表示的共现行为的边的集合。
[0022]
进一步地,用条件概率ψ
ij
=ψ(v
j
|v
i
)表示行为v
j
在行为v
i
发生时的发生概率,通过对训练集中行为对{v
j
|v
i
}和行为v
i
出现的次数来计算ψ
ij
,并进一步在ψ
ij
上设置一个阈值t来将a
ij
二值化作为初始化,即如果ψ
ij
>t,则让a
ij
=1,否则a
ij
=0,从而引入行为的发生概率作为二元邻接矩阵a。
[0023]
进一步地,联合训练所述多模态联合学习网络的模型误差表示为:
[0024][0025]
其中,r表示实际观测值,h表示所述视觉特征提取网络,g
v
、g
α
、g
τ
分别表示所述视觉模态学习网络、所述音频模态学习网络和所述文本模态学习网络,表示所述视觉特征提取网络联合所述视觉模态学习网络所得视觉模态行为预测,表示所述视觉特征提取网络联合所述音频模态学习网络所得音频模态辅助联合行为预测,表示所述视觉特征提取网络联合所述文本模态学习网络所得文本模态辅助联
合行为预测,表示所述多模态联合学习网络的多模态联合行为预测,表示损失函数;
[0026]
在联合训练过程中,特定模态的关系表征将首先接收误差梯度以更新三个关系图卷积神经网络的权重以最小化损失,然后将误差通过共享时空表征从三个关系图卷积神经网络传播到所述视觉特征提取网络以相应地调整其权重,从而,多模态联合学习网络可通过多种模态以联合学习的方式进行训练,关系图卷积神经网络被强制从时空特征中学习更精确的关系预测,而视觉特征提取网络则被用于从视频中建模更强大和更具相关性的时空特征。
[0027]
进一步地,所述多模态联合学习网络产生的最终行为预测数值表示为:
[0028][0029]
其中,x表示所述视觉特征提取网络输出的动态的时空特征,表示对x在特征维度上的广播,x
α
表示静态的音频行为特征词典,x
τ
表示静态的文本行为特征词典,表示所述视觉模态学习网络对其输入的预测,g
α
(x
α
)表示所述音频模态学习网络对其输入x
α
的预测,g
τ
(x
τ
)表示所述文本模态学习网络对其输入x
τ
的预测。
[0030]
进一步地,所述音频行为特征词典与所述文本行为特征词典均被定义为成对的(f,s)的集合l,其中形式f是有限维上的嵌入特征,意义s是给定行为集合中的相应行为;与多个行为相对应的特征称为一词多义,而属于一个行为的多个特征称为同义词;将音频和文本特征词典分别表示为集合l
α
和l
τ
,其中音频和文本嵌入特征f
α
和f
τ
为对应的形式,行为s为意义;
[0031]
通过查询相应的词典来初始化所述音频模态学习网络及所述文本模态学习网络的行为特征,并通过遍历所有意义对节点特征进行建模,并从词典中查询同义词的形式,从而所述音频模态学习网络及所述文本模态学习网络可推断所有建模行为和节点特征之间的“语义”关系。
[0032]
进一步地,所述视觉模态学习网络、所述音频模态学习网络及所述文本模态学习网络均采用两层结构的关系图卷积神经网络。
[0033]
本发明提供的一种用于视频多行为识别的多模态联合学习方法,基于关系图卷积神经网络gcn构建视觉、音频、文本多模态gcns,并通过视觉特征提取网络(3d卷积神经网络,3d

cnn)学习时空特征,从而通过向多模态gcns输入特定模态的行为表示作为节点特征,以探索模态感知的多行为关系,也从各自的特征词典查询音频和文本嵌入。消融研究、多行为关系可视化和提升分析都显示了多模态多行为关系建模的有效性。此外,本方法在大规模多行为基准数据集m

mit上实现了最先进的性能。
附图说明
[0034]
图1是本发明实施例提供的多模态联合学习网络的结构图;
[0035]
图2是本发明实施例提供的具有同时发生动作的多行为grad

cam可视化示例图;
[0036]
图3是本发明实施例提供的gcn各层的特征变化和多行为关系的行为预测分数的演示示例图;
[0037]
图4是本发明实施例提供的多模态多行为gcns与视觉gcn在不同行为类别上的效果提升示图。
具体实施方式
[0038]
下面结合附图具体阐明本发明的实施方式,实施例的给出仅仅是为了说明目的,并不能理解为对本发明的限定,包括附图仅供参考和说明使用,不构成对本发明专利保护范围的限制,因为在不脱离本发明精神和范围基础上,可以对本发明进行许多改变。
[0039]
多媒体数据通常是多种信息的传输媒介,例如,在视频中,视觉、听觉和文本信息通常同时传播。因此,多模态学习逐渐发展成为多媒体内容分析和理解的主要方法。其中,视觉模态以其丰富的表征能力得到了广泛的应用。此外,多模态的联合通常被认为具有更强的表征能力,与现有的视频多模态学习不同,本例提出了一种新的多模态联合学习方法,根据现实世界中的观察结果准确识别视频中的所有行为,探索视频中的多行为关系模型。
[0040]
最近,由于gcn(关系图卷积神经网络)强大的关系建模能力,它也被用于探索视频中的关系。但本例不只是从视频帧中发现关系,而是将行为设置为图网络节点来构建多模态多行为gcn,以探索视频中特定模态的多行为关系。本例主要是根据以下三个观察结果设计了用于多行为视频识别的多模态联合学习网络:
[0041]
(1)视觉帧对于人类日常体验以及理解世界的方式来说比其他模式重要得多(80%以上传输到大脑的信息是视觉的);
[0042]
(2)声音由其行为的属性决定并提供信息,人类可能根据大脑内部的经验构建声音行为映射;
[0043]
(3)人类的大脑还可以将行为与其语言标签(意义词语)联系起来,以创建文本

行为映射。
[0044]
实际上,视频中的行为首先表现为视觉上的空间和时间帧,而且它们与同步记录的音频有很强的关联,最后它们在字面意义上相互关联(标签文本)。因此,充分利用视频中的这些多模态信息(即,帧、音频和文本)来探索多行为关系,能在很大程度上有助于识别多个行为以及理解复杂的视频。
[0045]
基于此,本例提供一种用于视频多行为识别的多模态联合学习方法,具体包括步骤:
[0046]
s1、构建如图1所示的多模态联合学习网络,其包括视觉模态学习模块、音频模态学习网络(α)和文本模态学习网络(τ);
[0047]
s2、对原始视频数据集进行预处理,得到对应的视觉帧数据集、音频行为特征词典和文本行为特征词典;
[0048]
s3、将视觉帧数据集输入视觉模态学习模块、将音频行为特征词典输入音频模态学习网络、将文本行为特征词典输入文本模态学习网络进行联合训练,以输出视觉模态行为预测(z
v
)、音频模态辅助联合行为预测(z
α
)和文本模态辅助联合行为预测(z
τ
)联合的多模态联合行为预测z。
[0049]
在这里,并不限定步骤s1与s2的先后顺序。
[0050]
具体的,视觉模态学习模块包括视觉特征提取网络(主要包括3d

cnn)和视觉模态学习网络(v)。在本实施例中,视觉模态学习网络(v)、音频模态学习网络(α)和文本模态学
习网络(τ)均采用gcn,分别称为视觉gcn、音频gcn和文本gcn,这三个网络联合在一起在本例中被称为gcns。
[0051]
在步骤s3中,视觉模态学习模块的学习过程具体包括步骤:
[0052]
s31、视觉特征提取网络对输入的视觉帧数据集进行特征提取(即时空表征),生成时空特征x广播到视觉模态学习网络,作为n个行为的节点特征;
[0053]
s32、视觉模态学习网络对n个行为的节点特征进行增强后在行为维度上进行平均,输出视觉模态行为预测z
v

[0054]
视觉模态对视频中的行为有很强的表征能力。而3d

cnn在解析和表示视觉模态方面表现出了强大的性能。因此,本例利用3d

cnn时空特征建模视觉行为特征。在视觉模态中,行为是动态地在多个帧间流动的,而且它们是多变的和多样化的。从本质上讲,3d

cnn通过连续输入帧,通过动态优化时空特征来学习解析行为,使其更具判别性,最终产生强大的视觉行为表征。而这些视觉特征隐含着多个行为之间的关系,适合作为视觉gcn的行为特征,进一步探索视觉模态中关系增强的多行为表示。
[0055]
在步骤s3中,音频模态学习网络的学习过程具体包括步骤:
[0056]
s33、音频模态学习网络对输入的音频行为特征词典提取音频模态多行为关系;
[0057]
s34、将音频模态多行为关系施加到视觉特征提取网络生成的时空特征上,输出音频模态辅助联合行为预测。
[0058]
在步骤s3中,文本模态学习网络的学习过程具体包括步骤:
[0059]
s35、文本模态学习网络对输入的文本行为特征词典提取文本模态多行为关系;
[0060]
s36、将文本模态多行为关系施加到视觉特征提取网络生成的时空特征上,输出文本模态辅助联合行为预测。
[0061]
在这里,视觉模态学习网络、音频模态学习网络及文本模态学习网络三个网络同步学习。
[0062]
音频和文本模态由于它们朴素的表征能力,通常作为视觉模态的辅助,用于识别视频中的行为,但它们仍然潜在地包含音频

行为和文本

行为关系。因此,本例通过分别为音频和文本gcns建模其特定于模态的行为特征来开发音频和文本模态,从而聚合特定于模态的多行为关系,进一步增强识别的时空特征。对于多行为视频数据集,音频和行为是多对多映射,即一个音频可能对应多个行为,一个行为可能对应多个音频,而文本标签和行为是一对一映射,即一个标签具有一个行为的含义。因此,本例通过分别为音频gcn和文本gcn的行为特征定义多对多音频行为特征词典和一对一文本行为特征词典来表示这两种模式。本例使用vggish模型和glo ve模型来表示视频数据集的所有音频和文本标签,并以音频和单词嵌入的形式,分别构建音频行为特征词典和文本行为特征词典。
[0063]
音频行为特征词典与文本行为特征词典均被定义为成对的(f,s)的集合l,其中形式f是有限维上的嵌入特征,意义s是给定行为集合中的相应行为;与多个行为相对应的特征称为一词多义,而属于一个行为的多个特征称为同义词;将音频和文本特征词典分别表示为集合l
α
和l
τ
,其中音频和文本嵌入特征l
α
和f
τ
为对应的形式,行为s为意义。
[0064]
通过查询相应的词典来初始化音频模态学习网络及文本模态学习网络的行为特征,并通过遍历所有意义对节点特征进行建模,并从词典中查询同义词的形式,从而音频模态学习网络及文本模态学习网络可推断所有建模行为和节点特征之间的“语义”关系。
[0065]
在本例中,视觉模态学习网络、音频模态学习网络及文本模态学习网络均采用关系图卷积神经网络gcn,并使用多层网络方式和分层传播规则来表示:
[0066][0067]
其中,是多行为无向图的邻接矩阵,添加的自连接i
n
是一个单位矩阵,是的对角矩阵,σ(
·
)表示非线性激活函数,是第l层可训练的权重矩阵,表示第l层的多行为关系,ζ表示模态,当ζ=v时表示视觉模态,当ζ=α时表示音频模态,当ζ=τ时表示文本模态;多行为无向图定义为定义为其中,是表示行为的节点的集合,ε是由二元邻接矩阵表示的共现行为的边的集合。
[0068]
在这里,本例用条件概率ψ
ij
=ψ(v
j
|v
i
)表示行为v
j
在行为v
i
发生时的发生概率,通过对训练集中行为对{v
j
|v
i
}和行为v
i
出现的次数来计算ψ
ij
,并进一步在ψ
ij
上设置一个阈值t来将a
ij
二值化作为初始化,即如果ψ
ij
>t,则让a
ij
=1,否则a
ij
=0,从而引入行为的发生概率作为二元邻接矩阵a。
[0069]
本例构建的多行为gcn结构,能够探索多个行为之间的关系。本质上,多行为gcn通过聚合相邻行为的特征来影响每个行为,从而学习一个行为与其他行为的关系的新表示。通过这种方式,多行为关系逐渐聚合并传播到基于输入节点特征的多个gcn层。实际上,视频中的多个行为是以多模态的方式存在的,因此,为了更好地探索多个行为之间的关系,构建多模态gcn以利用多模态的不同节点特征是有益的,也是至关重要的。
[0070]
视频中的行为有多种模态的表现形式,即视觉、音频和文本,它们在表示行为时扮演不同的角色。因此,本例从视频数据集中构建了具有三种模态的多模态多行为图网络,并且在这项工作中为每种模态简单地采用了两层gcn结构(在公式(1)中l={0,1}),其中三种模态分别是视觉(ζ=ν)、音频(ζ=α)和文本(ζ=τ)。视频的时空表示包含用于识别行为的最丰富的鉴别特征,因此,本例使用3d

cnn提取时空特征并将其输入图节点以进行关系增强分类,从而得到视觉gcn。与视觉模态不同,视频中的音频和文本由于其朴素的表征能力,在识别行为时主要起辅助作用,而且,与行为相对应的时空特征通常是动态变化和多样的,而音频和文本是相对静态的。因此,本例为视频数据集设计了音频行为特征词典和文本行为特征词典,并将它们视为图节点特征,用于从音频和文本模式中探索多行为关系,以辅助视觉模式,分别生成音频gcn和文本gcn。
[0071]
形式上,对于视觉模态,本例将3d

cnn生成的时空特征(c是行为维度)广播到作为n个行为的节点特征,视觉gcn聚合关系增强后得到特征),然后对在行为维度上进行平均,输出视觉模态行为预测对于音频模态,本例将字典式的音频嵌入表示为(p是音频维度)作为图行为特征,音频模态的多行为关系可以由音频gcn中的x
α
传递,最后将音频模态关系施加到时空特征x上获得音频模态的行为预测相似地,对于文本
模态,本例将字典式的文本嵌入表示为(q是文本维度)作为图中的行为,这样,文本gcn将聚合文本模态多行为关系用于进一步的文本模态辅助联合行为预测
[0072]
对于整个模型学习,本例有三个特定模态的gcn模型(g
v
,g
α
,g
τ
)用于关系推理,一个视觉模态3d

cnn模型h,用于时空表征学习,其中3d

cnn与三个gcn共享输出时空特征x,用于聚合和传播多行为关系,以生成最终行为预测,并将其与实际行为标签r(实际观测值)进行比较,以获得由损失函数计算的模型误差,如下所示:
[0073][0074]
其中,表示视觉特征提取网络联合视觉模态学习网络所得视觉模态行为预测,表示视觉特征提取网络联合音频模态学习网络所得音频模态辅助联合行为预测,表示视觉特征提取网络联合文本模态学习网络所得文本模态辅助联合行为预测,表示多模态联合学习网络的多模态联合行为预测,表示损失函数。
[0075]
在联合训练过程中,特定模态的关系表征将首先接收误差梯度以更新三个关系图卷积神经网络的权重以最小化损失,然后将误差通过共享时空表征从三个关系图卷积神经网络传播到视觉特征提取网络以相应地调整其权重,从而,多模态联合学习网络可通过多种模态以联合学习的方式进行训练,关系图卷积神经网络被强制从时空特征中学习更精确的关系预测,而视觉特征提取网络则被用于从视频中建模更强大和更具相关性的时空特征。
[0076]
由于每种模态都有其特定的信息和表征能力,因此本例采用不同的方法来处理不同的模态。具体而言,动态时空特征x在从视频中识别行为方面最具影响力,因此被视为模型学习的主要信息流,而静态音频行为特征词典和文本行为特征词典(x
α
和x
τ
)通常在识别行为时起辅助作用,因此被视为辅助流。随着视频帧动态加载到3d

cnn中,时空表征被逐渐学习到,同时,从相应的固定词典中查询的音频和文本嵌入被同时输入特定模态的gcn中以起到辅助的作用。此外,本例将时空表示与音频和文本多行为关系结合起来,用于各自的行为预测,并且所有三种特定模态的行为预测最终融合以产生最终行为预测数值z,如下所示:
[0077][0078]
其中,表示对x在特征维度上的广播,x
α
表示静态的音频行为特征词典,x
τ
表示静态的文本行为特征词典,表示视觉模态学习网络对其输入的预测,g
τ
(x
α
)表示音频模态学习网络对其输入x
α
的预测,g
τ
(x
τ
)表示文本模态学习网络对其输入x
τ
的预测。通过这样做,三种模态的信息被联合以学习更好的关系表示来识别多个行为。
[0079]
为了解决具有挑战性的多行为视频识别问题,本例提出了一种基于多模态gcn,利用图网络强大的关系表征能力和视频中丰富的多模态信息来探索特定模态的多行为关系。
具体地说,本例构建了多行为图网络,以多个行为作为节点,行为的共现概率作为邻接矩阵,然后,本例构建了多模态gcn用于探索模态感知的多行为关系,通过特定于模态的行为表示作为节点特征,即3d

cnn学习的时空特征,从各自的特征词典中查询音频和文本嵌入,最后,本例将音频和文本关系施加在时空表征上,以产生各自的关系行为预测,这些预测进一步与视觉关系行为预测结合在一起,以产生最终预测。
[0080]
下面进行实验验证。
[0081]
本例主要基于最近发布的multi

moments in time(m

mit)数据集进行实验,该数据集被认为是用于视频理解的大规模多行为数据集。m

mit v1包含102万个3秒的视频,总共有201万个标签,包含313个行为类,这些行为类是从行为词汇表中注释而来的(例如,滑板运动)。在训练集中,553535个视频被注释有多个行为,其中257491个视频被注释有三个或更多行为。m

mit v2是v1的更新版,对行为词汇表进行了修订,其中包含100万个视频,292个行为类的标签总数为192万,训练集包括525542个带有多个行为注释的视频,还有243083个带有三个或更多行为注释的视频。
[0082]
多行为视频识别的任务是识别视频中发生的所有行为。然而,对于m

mit数据集,近50%的视频仅标注了一个行为。为了更好地探索多行为视频识别,在m

mit数据集的基础上,本例建立一个新的数据集,它将包含每个标注了多个行为的视频,同时保持原始类别的完整性。为此,对于训练集,本例首先删除没有音频流的视频,然后对于包含超过300个视频的类别随机选择300个视频,对于剩下的类别选择了所有的视频。通过这样做,获得了“mini m

mit”训练集,包含了313个行为类别的93206个视频。与原始的m

mit数据集相比,“mini m

mit”只有其数据量的10%,因此更适合快速的算法开发和验证。
[0083]
ig

65m是一个非常大规模的预训练数据集,包括超6500万公众用户从社交媒体网站生成的视频。kinetics

400是行为识别的一个经典基准,包含246k训练和20k验证视频。本例采用r(2+1)d

34作为3d

cnn,在发布的ig

65m预训练模型上通过kinetics

400微调进行预训练(top

1精度:80.5)。
[0084]
音频行为特征词典是由对应于数据集的每个行为的音频特征组成的一组行为索引特征。首先,删除m

mit中的所有无声音频以确保词典中的所有音频都是有效的。然后,采用vggish网络来提取大小为3
×
128的选定音频的特征。由于音频数据中存在冗余信息,进一步采用pca白化对提取的特征进行后处理。最后根据行为类别存储音频特征,得到音频行为特征词典。
[0085]
类似地,文本行为特征词典是一组依赖于行为词汇的行为索引词特征。本例使用glove网络提取m

mit词汇表中所有行为的单词嵌入,其中每个行为对应一个大小为300的特征向量,生成包含所有行为单词向量的文本行为特征词典。
[0086]
本例在时间和空间范围上进行数据增强操作:使用采样步长2随机采样8个连续帧。通过多尺度随机裁剪对输入帧进行裁剪,然后将其大小调整为112
×
112。裁剪窗口大小为d
×
d,其中d是输入较短边长和比例因子的乘积在[0.7,0.875]中的乘积。
[0087]
本实施例在8个nvidia rtx 2080ti gpu上对构建的多模态联合学习网络/模型进行训练和验证,并在训练中将最小批量大小设置为8/gpu(总共64),并进行批归一化操作。对于mini m

mit数据集,训练过程总共持续30遍(epoch),初始学习率为0.05,在12和24遍执行衰减,衰减系数为0.1,前3遍也用于学习率预热,对于完整的m

mit数据集,初始学习率
设置为0.01,无需预热。该网络采用sgd优化的二分类交叉熵损失(binary cross

entropy loss)进行训练,动量为0.9,权重衰减为0.0001。t设置为0.4来二值化邻接矩阵a。所有的实验都是由pytorch 1.3实现的,本例使用混合精度训练。
[0088]
本例将报告所有实验的平均精度(map)、top

1和top

5分类准确率,其中map被视为主要评估指标,因为它能够捕获视频相关行为排序下的错误。对于每个正样本标签,map计算其前面排序的相关标签的比例,然后对所有标签进行平均。top

1和top

5的准确率分别表示预测最高的类别和预测前5的类别中的任何一个类别的测试视频对是正样本的百分比。
[0089]
本例将执行多个片段测试来综合评估模型,从每个视频中均匀采样时间片段,然后从这些片段的每一帧中裁剪空间区域。具体是,均匀地从整个视频中抽取10个时间片段,并使用3个空间裁剪区域(两边和一个中心)。执行空间全卷积推理,缩放每个视频帧的短边到128,同时保持宽高比。最后的预测是所有片段的最高得分(map)和平均得分(top

1和top

5)。
[0090]
本例在构建的mini m

mit数据集上进行消融实验,以预训练的r(2+1)d

34作为基线模型来验证多模态多行为关系建模的有效性,本例从基线3d

cnn模型r(2+1)d开始消融实验。该模型以全连接(fc)层作为分类器它没有gcn结构而且只涉及视觉模态。本例首先用视觉替换r(2+1)d的fc,通过探索视觉多行为关系进行最终行为预测来增强时空特征。表1展示了联合不同模型和涉及不同模态的结果,表明本例的模型在map、top

1和top

5方面优于基线3d

cnn模型,因此,可以看到本例所示视觉gcn确实对性能提升产生了积极的影响。
[0091]
然后,将3d

cnn与相应的gcn(音频gcn或文本gcn)联合,在视觉模态上添加一个附加模态(音频或文本),从而产生两个联合模型和分别生成音频和文本行为预测,结果展示在表1中。可以观察到,通过将特定模态的gcn与附加模态相结合,top

1和top

5的准确率都提高了,而map则显著提高了3%以上,这表明本例的音频和文本gcn在探索有效的多行为关系方面的有效性。此外,本例还将视觉gcn与音频gcn或文本gcn联合,以获得联合模型或并通过从公式(3)中移除一种模态,将两个特定模态的行为预测进行融合,表1中的结果同样显示它们会带来额外的性能提升。
[0092]
表1多模态联合学习的消融研究
[0093]
[0094]
进一步,将三个模式结合起来以获得联合模型(不包含视觉gcn),包含所有模态gcn,并且表1表明包含所有模态但是没有视觉gcn与有两种模态但是联合了视觉gcn获得了相当的结果(相同的top

1准确率和map)。这证明了视觉多行为关系的有效性。同时,将3d

cnn与三种模态特定的gcn结合,探索多模态多行为关系,获得了最高的map,证明了本例的多模态联合学习的有效性。值得注意的是,本例的多模式gcns可以带来显著的提升,只需很小的参数量成本,例如,本例的和在基线3d

cnn的基础上提升了3.2%和3.4%的map,但只引入了0.76m和0.67m的参数量。此外,本例在模型和上尝试了不同的3d

cnn(r3d

18和i3d

50),并获得了有效的结果(map%):r3d

18(45.8,49.1,49.5,50.7)和i3d

50(53.1,55.6,55.8,57.3)。
[0095]
此外,本例更深入地研究发现,对于两种模态相较一种模态,本例的方法使map明显提高了3%,这主要是由于引入了额外的模态和本例设计的多模态联合学习,而对于三种模态相较两种模态,本例的方法提供了轻微的性能提升,本例认为原因可能是辅助模态(音频或文本)的朴素表征能力导致在相同的表征机制(即gcn和多模态联合学习)下额外的多行为关系探索较少。
[0096]
对于音频行为特征词典,本例遍历所有行为来获取每个行为的同义词特征以初始化音频gcn的节点特征,因此本例分析一个行为要获得多少同义词特征更好。因此,本例通过将同义词特征(f)的数量设置为1、2和3来进行消融实验,表2中显示的结果表明,由于其自然的多对多映射,行为可以由许多不同的音频表示,但最好只选择一个音频来表示音频gcn的行为。
[0097]
表2音频和文本字典的消融研究
[0098][0099]
对于文本行为特征词典,由于行为通常与文本标签(来自行为词汇)有一对一的映射关系,因此本例研究了不同的单词嵌入方法是否重要。本例分别使用glove和bert构建文本特征词典,用300维或768维向量表示每个行为。表2表明,无论本例使用glove和bert中的哪一种,行为预测的准确性几乎是相同的。此外,将音频联合模型与文本联合模型进行比较,性能相似,说明这两种模式在辅助识别多个行为起着相似的作用。
[0100]
本例还将音频和文本模态合并到一个音频

文本模态中,通过合并音频和文本词
典为一个音频

文本gcn提供音频

文本行为表征,结果见表2表明了音频文本模态合并的优越性,它实际上与表1中的表现相似。本例认为,合并的音频

文本gcn实际上试图在一个大模型中同时探索音频和文本多行为关系,从而实现与两个单独的小的音频和文本gcn相似的性能。
[0101]
本例采用梯度

类激活图(grad

cam)可视化3d

cnn学习的注意模型,用于定位视频中发生的行为,图2展示了与基线3d

cnn模型比较的示例和本例的多模态联合模型之间学习的3d

cnn之间的巨大差距,表面本例的多模式联合学习确实可以实现3d

cnn优化训练,同时主要的区别是本例的模型能够定位每个场景中呈现的多个行为。本例取第一行作为示例,被训练只关注包括:“游泳”和“潮湿”的区域,而本例的模型不仅可以关注“游泳”和“潮湿”的区域还能关注到“浸没”和“跳入水中”,并在其他例子中也可以发现类似的现象。本例认为,正是由于本例的模型联合学习方式,3d

cnn模型能够很好地受益于多模态的gcn模型,其通过共享的时空表征获取返传的误差,从而产生更加强大有效的时空关系特征,以更好地探索视频中特定模态的多行为关系。
[0102]
本例进一步尝试展示本例学到的多行为关系。图3(a)、(b)和(c)通过t分布随机近邻嵌入可视化(t

sne)显示了gcn层中的特征变化,本例可以看出,目标行为(带阴影的数字)在穿过gcn层时逐渐聚合,这显示了关联多个行为的能力。图3(d)、(e)显示了基线和本例的的行为预测分数,这说明本例的模型可以促进多个目标行为,同时抑制非目标行为,从而证明了潜在多行为关系探索的有效性。
[0103]
图4显示了使用本例表1中列出的多模态多行为gcn对视觉gcn在不同行为类别上的效果提升。本例用模型间的map的差异除以目标模型的map,以此来表示模型map的提升率。本例可以看出:
[0104]
(1)与相比取得了一点提升,并且性能提升主要体现在具有视觉多行为关系的类别中,如“小孩说话”(child+speaking)、“皱眉头”(frowning)和“哭喊”(crying);
[0105]
(2)比在具有音频多行为关系的类别中性能取得显著提升,例如,同时发生的“摇摆”(rocking)和“摇动”(shaking)可以通过音频关联;
[0106]
(3)也有助于识别具有相关字面意义的多个行为,如“打开”(opening)、“关闭”(closing)和“锁定”(locking);
[0107]
(4)结合了音频和文本多行为关系的有点,带来了显著的提升;
[0108]
(5)通过集成所有三种特定于模态的多行为关系的优点来提高性能,从而产生最高的map(参见本例的表1)。
[0109]
表3显示了在m

mit数据集上与最先进方法的比较,本例的模型在v1上表现最好。由于v2最近于2020年10月发布,因此没有可用的比较结果,但本例仍然提供结果以供参考。这表明,本例三种模态的最佳模型,使用较轻量主干网络,在map中比m

mit提高了大约3%。
m

mit采用了一个用于音频特征学习的soundnet网络和wlsep损失以及行为标签统计,而本例的视觉

音频({v,α})模型的性能比它高出2.2%map。最近的另一项工作tin只展示了m

mit上的map(62.2)(因此本例不在表中列出),它的性能低于本例的方法。实际上,本例可以通过使用更强大的3d

cnn或采样更多的输入帧来进一步挖掘本例解决方案的潜力,例如,本例将8帧扩展到16帧,可在m

mit v1上产生0.9%的map提升。
[0110]
表3在m

mit v1和v2上的比较结果
[0111][0112]
此外,在这项工作中,本例试图提出一种利用多模态进行多行为视频理解的新方法,新发布的m

mit数据集(2019年的v1和2020年的v2)是这项研究的完美基准数据集,涉及多模态和多行为以及它们的交又引用(例如,“播放音乐”,“击鼓”和“跳舞”)。此外,本例还在charades数据集上评估了本例的模型,该数据集的标注很少考虑音频多行为交叉引用(multithumos同理),本例尝试只结合了视觉和文本模态,仍然比基线3d

cnn模型在map上提高了2%。
[0113]
综上,通过利用关系gcn和视频多模态来探索视频中的多模态多行为关系。消融研究、多行为关系可视化和提升分析都验证了本例的多模态多行为gcn以及多模态联合学习的有效性,因为它具有强大的多行为关系建模能力。本例的方法在最新的大规模多行为m

mit基准数据集上实现了最先进的性能。
[0114]
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1