一种统一卷积与自注意力的轻量视频分类方法与流程

文档序号：31308766发布日期：2022-08-30 22:32阅读：49来源：国知局

1.本发明涉及视频分类技术领域，更具体地，涉及一种统一卷积与自注意力的轻量视频分类方法。

背景技术：

2.由于视频帧间存在大量的局部冗余性以及复杂的全局依赖性，现有模型难以从高维的视频信息中学习丰富多层次的时空语义表达。目前视频理解领域包括两大主流模型，分别是三维卷积神经网络和时空视觉变换器。尽管卷积神经网络可以高效地学习局部领域的时空上下文信息，但有限的感受野使其难以捕获长时序依赖信息。视觉变换器可以有效地利用自注意力机制学习全局上下文，但它盲目地在所有层中对所有特征令牌进行相似度比较，带来了巨大的计算量冗余。
3.早期的工作中已有研究者证明，多头自注意力机制可以等效成卷积算子，但他们建议使用自注意力替换卷积，而非将两者进行结合。最近在图像领域，不少工作正尝试将卷积引入视觉变换器中。但这些工作主要关注图像领域的识别、检测或者分割等，而没有考虑视频理解领域的时空操作。在视频领域中，对卷积和自注意力的结合仍缺乏探索。已有研究或者简单地引入卷积对输入视频进行特征压缩；或者简单地在网络深层堆砌全局自注意力变换器，缺乏整体的统一设计，从而引入了大量计算，难以优化。
4.视频理解领域存在两个截然不同的挑战，一方面，因为目标在相邻帧之间的运动非常微小，视频包含大量的时空冗余。另一方面，由于大间隔帧间的目标关系是动态的，视频包含复杂的时空依赖性。而目前常用的三维卷积神经网络和时空视觉变换器这两个框架都仅专注于上述提到的挑战之一。例如，三维卷积在小的三维邻域的上下文处理每个像素，从而可以捕获详细的局部时空特征，减少了相邻帧之间的时空冗余。然而，由于感受野受限，三维卷积在学习远程依赖方面存在困难。相反，视觉变换器利用视觉令牌的自注意力学习全局依赖。然而，经分析，视觉变换器在网络的浅层会低效地编码局部时空特征。具体来说，空间注意力主要集中在相邻的令牌上(如3
×
3局部区域)，而对同一帧内的其他令牌则没有任何学习。类似地，时间注意力通常只聚集于相邻帧中的令牌上，而忽略远处帧中的其他令牌。更重要的是，这种局部表示是从全局令牌对令牌相似度比较中学习而来的，这浪费了非常大的计算量。

技术实现要素：

5.本发明的目的是克服上述现有技术的缺陷，提供一种统一卷积与自注意力的轻量视频分类方法，该方法包括：
6.获取待识别的目标视频图像；
7.将目标视频图像视为一系列令牌利用预训练的变换器模型框架提取视频特征，该变换器模型框架设置为多层，每层包含多个统一变换器模块，各层的输出经由特征聚合降低分辨率，其中每个统一变换器模块包含动态位置编码器、多头关系聚合器和前馈神经网
络，所述动态位置编码器将目标视频图像的三维位置信息动态集成到所有的令牌中，以利用令牌的时空顺序进行视频建模；所述多头关系聚合器用于将每个令牌与其上下文令牌进行聚合；所述前馈网络用于对每个令牌进行单独信息增强；
8.基于所提取的视频特征对目标视频图像进行分类。
9.与现有技术相比，本发明的优点在于，所提出的统一变换器能够将三维卷积和时空自注意力的优点集成在一个简洁的变换器形式中，实现了计算量和视频理解准确度之间的更佳权衡。与传统视觉变换器不同的是，本发明所提出的统一变换器中包含了新兴的关系聚合器，以通过在浅层和深层分别学习局部和全局令牌相似度来处理时空冗余和依赖关系，实现了高效轻量的视频时空表征学习。
10.通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。
附图说明
11.被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。
12.图1是根据本发明一个实施例的统一卷积与自注意力的轻量视频分类方法的流程图；
13.图2是根据本发明一个实施例的统一变换器框架图；
14.图3是根据本发明一个实施例的统一变换器中各功能模块示意图；
15.图4是根据本发明一个实施例的应用过程示意图。
具体实施方式
16.现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
17.以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。
18.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。
19.在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。
20.应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。
21.参见图1所示，所提供的统一卷积与自注意力的轻量视频分类方法包括以下步骤。
22.步骤s110，构建用于视频分类的端到端模型框架，该模型框架包含多个统一变换器模块和分类层，各统一变换器模块的输出经特征聚合后输入到下一层。
23.传统的视觉变换器将图像视为一系列补丁标记。令牌是由多个像素组成的图像的一小部分，通常称为“补丁”。利用多头自注意力，视觉变换器根据每对标记之间的关系在每一层重新组合和处理补丁标记。通过这种方式生成整个图像的全局表示。令牌是在输入级
别通过将图像均匀拆分为多个部分来创建的。上一层的输出成为中间层下一层的标记。视觉变换器模型将每个图像分成固定长度的令牌序列，然后应用多个transformer层对它们的全局关系进行建模以进行分类。尽管用更多的令牌来表示图像会得到更高的预测精度，但同时会导致计算成本急剧增加。
24.相对于现有技术，本发明将三维卷积和时空自注意力有效地统一在一种简洁的变换器形式中，所提出的统一变换器模型可以在效率和有效性之间取得较好的平衡。参见图2所示，所提供的统一变换器模型框架整体上包括多个统一变换器模块和分类层，其中，每组多个统一变换器模块可以看作是模型框架的一层，特征聚合用于对各层的输出特征进行局部聚合，以通过逐层特征聚合减小分辨率，不同层可分配不同数量不同类型的统一变换器模块，而特征聚合使用空间不重叠的时空卷积实现。统一变换器模块包含动态位置编码器(dpe)、多头关系聚合器(mhra)和前馈网络(ffe)。
25.具体地，可以将模型框架设置为包含四层，每层包含多个统一变换器模块，且各层的统一变换器模块数目不同，例如，对于小模型而言，各层的统一变换器模块数目分别设置为3，4，8，3，而对于大模型而言，各层的统一变换器模块分别设置5，8，20，7，各层通道数量可分别设置为64，128，320，512。通过设置不同的统一变换器模块数目、层数以及通道数，可适用不同场景的视频分类。
26.为清楚起见，整个模型框架的输入输出关系可统一表示为：
27.x＝dpe(x
in
)+x
in
28.y＝mhra(norm(x))+x
ꢀꢀꢀꢀ
(1)
29.z＝ffn(norm(y))+y
30.其中，x
in
表示输入的令牌张量(帧体积)，norm表示标准化操作，对于不同的关系聚合，可采用不同的标准化操作。
31.由公式(1)可知，引入动态位置编码器动态地将3d位置信息整合到所有令牌中，以有效利用令牌的时空顺序进行视频建模。然后，利用多头关系聚合器来聚合每个令牌及其上下文令牌。最后，采用前馈网络用于逐点增强每个令牌的信息。
32.在一个实施例中，如图3所示，动态位置编码通过三维深度分离卷积与残差实现(如resnet)，其中卷积过程使用零填充并且带重叠，通过零填充使边界上的令牌能够意识到自己的绝对位置，因此所有令牌都可以通过查询它们的邻居来逐步编码它们的绝对时空位置信息。例如，动态编码优选采用3
×3×
3或5
×5×
5卷积核。利用零填充的结果，有助于令牌在边界上注意它们的绝对位置，因此所有令牌都可以通过查询邻居的绝对时空位置信息逐步对其进行编码。通过引入动态位置编码，克服了以往绝对位置编码难以适配不同分辨率的弊端。
33.然后，利用多头关系聚合器将每个令牌与其上下文令牌进行聚合。与传统的视频转换器相比，本发明设计了独特的关系聚合器。首先，并不是在所有层都使用自注意机制，而是利用不同的关系聚合器，分别解决视频冗余和视频依赖的问题。具体地，在整个模型框架的浅层，聚合器通过一个小的可学习参数矩阵来学习局部关系，只聚合三维邻域中相邻令牌的上下文，从而显著减少了计算量。在深层，聚合器通过相似度比较来学习全局关系，可以灵活地从视频中的不同帧间构建远程令牌依赖关系。此外，不同于传统变换器的时空注意力分离方式，本发明所提供的关系聚合器联合编码全局时空上下文，这种联合学习的
方式可以进一步增强视频表征。并且，以分层的方式逐层堆叠统一变换器模块来构建模型框架，利用局部和全局关系聚合器的协作能力，实现了高效的时空表征学习。
34.需特别说明的是，对于最核心的多头关系聚合器，设计了局部和全局两种形式，不同层使用不同关系聚合器，浅层使用局部关系聚合器，深层使用全局关系聚合器。在浅层中，目标是学习三维邻域中，局部时空上下文的详细视频表征。在一个实施例中，将令牌亲和度设计为在局部三维邻域中操作的可学习参数矩阵，即给定一个锚定令牌，关系聚合器在小邻域中学习该令牌与其他令牌之间的局部时空亲和度，其值仅依赖于令牌之间的相对三维位置。局部关系聚合器可采用不同的卷积核大小，实验验证了3
×3×
3、7
×7×
7、9
×9×
9等多种卷积核大小，实验证明5
×5×
5卷积核效果最佳。通过设置局部关系聚合器，能够识别视频中重要的局部结构，例如，边缘，线条等。
35.在整个模型框架的深层，关注于在全局视频片段中捕获长期令牌依赖关系，这与自注意力机制的设计相同。因此，通过在全局比较所有令牌的内容相似性来设计令牌相似度。传统的视频变换器在每层都采用了自注意力，从而引入了大量的计算量。为了减少点积计算，之前的研究倾向于划分空间和时间注意力，但它损害了令牌之间的时空关系。相比之下，本发明提供的多头关系聚合器在浅层执行局部关系聚合，这在很大程度上节省了令牌相似度比较的计算。进一步地，为了获得更好的计算精度平衡，在深层中共同编码所有令牌的时空关系，而不是对时空注意进行分解。
36.优选地，对于局部关系聚合器，可使用批标准化(取不同样本的同一个通道的特征做归一化，逐特征维度归一化)，对于全局关系聚合器可使用层标准化(取同一个样本的不同通道做归一化，逐个样本归一化)。
37.此外，还需说明的是，对于图2的模型框架，从特征聚合的角度而言，特征聚合形成多层次结构，并采用非重叠卷积下采样，从而形成特征金字塔，通过这种方式不断减小分辨率。例如，特征聚合在第一次下采样用的是时空卷积，卷积大小为3
×2×
2，步长为2
×2×
2，其余几次下采样用的卷积大小为1
×2×
2，步长为1
×2×
2。在另外的实施例中，也可采用重叠卷积核，但经过实验验证，在上述卷积参数设置下，计算量较小，并综合考虑了计算量和性能之间的权衡。
38.在这种设计下，浅层大分辨率针对局部关系聚合，深层小分辨率针对全局关系聚合，从而提升了精度并降低了计算量。也就是说，可以基于局部关系聚合器和全局关系聚合器的位置来确定特征聚合方式，从而将特征聚合方式以及局部渐进全局的趋势进行了有机结合，针对视频任务的特点设计了局部到全局的渐进聚合。例如，对于四层的模型框架，将前两层划分为浅层，后两层划分为深层，“渐进”指代的是浅层用局部关系聚合，深层用全局关系聚合，并且深层和浅层中标准化的操作不同。
39.综上，本发明所提供的多头关系聚合器通过在浅层和深层灵活设计令牌相似度学习方式，巧妙地处理了局部视频冗余和全局视频依赖。并且将特征聚合方式以及局部渐进全局的趋势进行了有机结合。
40.最后，利用前馈网络对每个令牌进行单独信息增强。仍参见图3所示，前馈网络可采用视觉变换器中的常用设计，包括两层线性层与非线性激活函数。前馈网络是一种静态非线性映射，通过简单的非线性处理单元的复合映射，可获得复杂的非线性处理能力。利用前馈网络对每个令牌进行单独信息增强，能够减低计算量，实现轻量级的视频分类模型。
41.步骤s120，利用样本数据集训练所构建的统一变换器模型框架。
42.在该步骤中，利用已知的样本数据集训练统一变换器模型框架，以学习模型的参数，如权重、偏置等。依据样本数据集类型不同，可实现多种场景下的视频分类。视频分类是指给定一个视频片段，对其中包含的内容进行分类。类别可以是动作(如做蛋糕)，场景(如海滩)，物体(如汽车)等。本发明可实现对多种类型的视频或图像进行分类识别，例如识别面部表情动作、与物体交互有关的动作、常见的肢体动作、与人交互有关的肢体动作、人与物体交互相关动作、人与人交互相关的动作等。
43.利用样本数据集预训练所构建的统一变换器模型框架，即可获得模型参数，预训练过程可在服务器或云端离线进行。
44.步骤s130，利用经训练的统一变换器模型框架提取目标视频图像的特征，进而获得分类识别结果。
45.将经训练的模型嵌入到电子设备即可实现实时的视频分类。该电子设备可以是终端设备或者服务器，终端设备包括但不限于手机、平板电脑、个人数字助理(pda)、销售终端(pos)、车载电脑、智能可穿戴设备(智能手表、虚拟现实眼镜、虚拟现实头盔等)等任意终端设备。服务器包括但不限于应用服务器或web服务器，可以是独立服务器或者集群服务器或云服务器等。在实际的模型应用中，电子设备可以直接从视频图像采集设备处获取待分类的目标视频图像。或者也可以将该目标视频图像通过网络发送给电子设备。本发明对获取目标视频图像的方式不作限定。图4示意中一种应用场景，用户在不同终端可以通过应用程序，上传需要识别的视频至云服务器，云服务器调用部署好的模型进行类别判定，在判定完成后将相应结果返回。
46.为了进一步验证本发明的效果，在通用的场景相关和时序相关视频分类基准数据集中进行了大量的实验。实验结果参见下表1和表2。经验证，本发明在实现了计算量更小的同时，取得了更高的分类准确率，对于多种基准数据集都取得了最佳的性能表现。
47.表1场景相关数据集
[0048][0049]
表2时序相关数据集
[0050][0051]
综上所述，本发明提供统一的多头关系聚合器，将卷积和自注意力有机地统一，并设计局部与全局的多头关系聚合器，在浅层使用局部聚合，深层使用全局聚合，解决了视频的冗余性和依赖性。所提供的三维动态位置编码使用零填充的深度可分离三维卷积，动态地学习令牌时空位置信息，对于不同分辨率无需额外插值微调。针对视频任务的特点设计了局部到全局的渐进聚合，所提供的多层渐进式结构构成多层金字塔，使用空间不重叠的时空卷积进行下采样，同时渐进性地进行局部和全局操作，权衡了效率与准确率。经试验验证，在流行的几个视频分类基准数据集上，本发明的统一变换器都取得了最佳的性能。总之，本发明并非简单地引入自注意力学习全局关系，而是探究了卷积与自注意力的关系，设计了统一变换器。与现有视频变换器的时空分离注意力不同，本发明进行联合时空注意力学习，实现高效轻量的视频时空表征学习。
[0052]
需要说明的是，在不违背本发明精神和范围的情况下，本领域技术人员可对上述实施例的进行适当的变型或修改。例如，局部关系聚合器的设计可采用分窗口注意力等局部操作。统一变换器以及局部渐进全局结构并不仅局限于视频领域，在图像领域同样适用，也适用于下游的检测分割等任务。再如，卷积核的大小、步长或三维领域的大小等可根据对计算量、识别精度等的需求进行适当设置。
[0053]
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
[0054]
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式压缩盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
[0055]
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。
[0056]
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如smalltalk、c++、python等，以及常规的过程式编程语言—诸如“c”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。
[0057]
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。
[0058]
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中
规定的功能/动作的各个方面的指令。
[0059]
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
[0060]
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
[0061]
以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黎昆昌王亚立乔宇高鹏
技术所有人：上海人工智能创新中心
我是此专利的发明人

上一篇：增强的车辆和挂车操作的制作方法
上一篇：现代鸟类样品工业CT扫描用固定夹具

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。