视频特征提取方法、装置、终端设备及存储介质与流程

文档序号:30796576发布日期:2022-07-19 20:14阅读:168来源:国知局
视频特征提取方法、装置、终端设备及存储介质与流程

1.本技术属于计算机技术领域,尤其涉及一种视频特征提取方法、装置、终端设备及存储介质。


背景技术:

2.随着多媒体技术的迅速发展,视频已经成为信息处理领域中一种重要的媒体形式。视频能够记录、保存空间和时间上的各种视觉信息。近些年来,随着短视频的迅速发展,围绕短视频的多种视频语义理解需求也急剧增加。而视频特征提取是各种视频语义理解的基础和前提。
3.相关技术中,对于视频特征的提取,主要是通过3d卷积神经网络,对待处理视频时间维度和空间维度的特征进行同时提取,得到所需的视频特征。
4.然而,这种视频特征提取的方法提取的视频特征存在精确度差的问题。


技术实现要素:

5.本技术实施例提供了视频特征提取方法、装置、终端设备及存储介质,可以解决视频特征精确度差的问题。
6.第一方面,本技术实施例提供了一种视频特征提取方法,包括:
7.对待处理视频进行i次采样,得到帧数互不相同的i个视频片段,i为大于1的整数;
8.将i个视频片段输入视频特征提取模型进行处理,输出待处理视频的视频特征集合。
9.第二方面,本技术实施例提供了一种视频特征提取装置,包括:
10.采样模块,用于对待处理视频进行i次采样,得到帧数互不相同的i个视频片段,i为大于1的整数;
11.处理模块,用于将i个视频片段输入视频特征提取模型进行处理,输出待处理视频的视频特征集合。
12.第三方面,本技术实施例提供了一种终端设备,终端设备包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述第一方面所述的视频特征提取方法。
13.第四方面,本技术实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述第一方面所述的视频特征提取方法。
14.本技术实施例提供的视频特征提取方法、装置、终端设备及存储介质,通过对待处理视频进行i次采样,得到帧数互不相同的i个视频片段,每个视频片段的帧图像之间的时间距离不同,从而使得神经网络模型能够学习到不同的时间距离的帧图像之间的关系,提取到不同的时间语义,因而能够提高视频特征提取的精确度。
附图说明
15.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
16.图1是本技术一实施例提供的视频特征提取方法所适用于的终端设备的结构示意图;
17.图2是本技术一实施例提供的视频特征提取方法的流程示意图;
18.图3是本技术一实施例提供的视频特征提取模型的结构及应用示意图;
19.图4是本技术一实施例提供的第一个子模型的结构示意图;
20.图5是本技术一实施例提供的第二个子模型的结构示意图;
21.图6是本技术一实施例提供的残差层的结构示意图;
22.图7是本技术一实施例提供的第一个残差层的卷积过程的流程示意图;
23.图8是本技术一实施例提供的残差层中的卷积层的结构示意图;
24.图9是本技术一实施例提供的通道注意力模型的结构示意图;
25.图10是本技术一实施例提供的第二个残差层的卷积过程的流程示意图;
26.图11是本技术另一实施例提供的视频特征提取方法的流程示意图;
27.图12是本技术一实施例提供的视频特征提取模型的应用示意图;
28.图13是本技术另一实施例提供的视频特征提取模型的应用示意图;
29.图14是本技术一实施例提供的视频特征提取装置的结构示意图。
具体实施方式
30.以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本技术实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本技术。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本技术的描述。
31.在本技术说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
32.在本技术说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本技术的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
33.图1为本技术一实施例提供的视频特征提取装置/终端设备的结构示意图。如图1所示,该实施例的视频特征提取装置/终端设备1包括:至少一个处理器10(图1中仅示出一个)处理器、存储器11以及存储在存储器11中并可在至少一个处理器10上运行的计算机程序12,处理器10执行计算机程序12时实现任意各个视频特征提取方法实施例中的步骤。
34.上述视频特征提取装置/终端设备1可以是桌上型计算机、笔记本、掌上电脑及云
端服务器等计算设备。该视频特征提取装置/终端设备可包括,但不仅限于,处理器10、存储器11。本领域技术人员可以理解,图1仅仅是视频特征提取装置/终端设备1的举例,并不构成对视频特征提取装置/终端设备1的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。
35.所称处理器10可以是中央处理单元(central processing unit,cpu),该处理器10还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
36.存储器11在一些实施例中可以是视频特征提取装置/终端设备1的内部存储单元,例如视频特征提取装置/终端设备1的硬盘或内存。存储器11在另一些实施例中也可以是视频特征提取装置/终端设备1的外部存储设备,例如视频特征提取装置/终端设备1上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。进一步地,存储器11还可以既包括视频特征提取装置/终端设备1的内部存储单元也包括外部存储设备。存储器11用于存储操作系统、应用程序、引导装载程序(bootloader)、数据以及其他程序等,例如计算机程序的程序代码等。存储器61还可以用于暂时地存储已经输出或者将要输出的数据。
37.图2示出了本技术提供的视频特征提取方法的示意性流程图,作为示例而非限定,该方法可以应用于上述终端设备1中。该视频特征提取方法包括:
38.s201、对待处理视频进行i次采样,得到帧数互不相同的i个视频片段,i为大于1的整数。
39.待处理视频是指需进行视频特征提取的视频。待处理视频可以预先存储于终端设备,也可以直接由录制视频的电子设备发送至终端设备,还可以由终端设备从服务器中获取。
40.将待处理视频按照不同的采样率进行i次采样。i次采样中,可以包括全采样,也可以包括降采样。当进行全采样时,得到的视频片段与待处理视频相同。具体的,i的值可以根据需求设置和选择,例如,i可以为2,i可以为3,i也可以为4。降采样的采样倍数也可以根据需求设置和选择。视频中每一帧图像对应一个时刻,换言之,视频中的每个帧图像均可表征一个时刻对应的空间语义。对待处理视频进行不同采样率的降采样,得到的视频片段的帧数不同,得到的视频片段中帧图像之间对应的时间距离也不同。例如,设待处理视频的总时长为400ms,总帧数为100帧。该视频进行采样倍数为2的降采样(即1/2降采样),得到帧数为50帧的视频片段,得到的视频片段中相邻两个帧图像之间的时间距离为8ms;对该视频进行采样倍数为4的降采样(即1/4降采样),得到帧数为25帧的视频片段,得到的视频片段中相邻个帧图像之间的时间距离为16ms。
41.s202、将i个视频片段输入视频特征提取模型进行处理,输出待处理视频的视频特征集合。
42.视频特征提取模型用于提取视频的特征,包括但不限于视频的空间域的特征和时间域的特征。其中,空间域的特征是指视频中某一时刻对应的帧图像所表征的空间特征。时
间域的特征是指视频中各个帧图像之间的时间特征,时间域的特征可以通过不同时刻对应的帧图像的空间特征之间的关系表征。视频特征提取模型的输入为待处理视频,视频特征提取模型的输出为多个视频特征。视频特征提取模型输出的视频特征可以但不限于通过特征向量、特征向量矩阵等形式表示。
43.视频特征提取模型可以为预先建立并训练得到的模型。通过将一个或多个样本视频输入初始视频特征提取模型进行训练,得到视频特征提取模型。作为示例而非限定,视频特征提取模型可以为自监督模型,即,以无监督的方式对初始视频特征提取模型进行训练,得到视频特征提取模型。可选的,视频特征提取模型可以为深度学习网络模型。深度学习是指学习样本数据的内在规律和表示层次。通过对待处理视频的内在规律和表示层次进行学习,的到视频空间域和时间域上的特征。
44.本实施例提供的方法中,对待处理视频进行i次采样,得到帧数互不相同的i个视频片段,每个视频片段的帧图像之间的时间距离不同,从而使得神经网络模型能够学习到不同的时间距离的帧图像之间的关系,提取到不同的时间语义,因而能够提高视频特征提取的精确度。
45.在一个实施例中,i次采样包括i次降采样,或者包括1次全采样和i-1次降采样。视频特征提取模型包括i个子模型,视频特征集合包括i个子模型分别输出的视频特征;通过第一个子模型,对i个视频片段中帧数最大的第一视频片段进行时间域和空间域上的视频特征提取,得到第一视频特征并输出;通过第二个子模型,对i个视频片段中帧数次大的第二视频片段进行时间域和空间域上的视频特征提取得到第二视频特征,对第二视频特征和第一子模型输出的视频特征进行特征融合后输出;以此类推。
46.具体的,视频特征提取模型包括i个子模型,即,子模型的数量与视频片段的个数相同。i个子模型与i个视频片段一一对应,一个视频片段对应输入一个子模型,每个子模型输入一个视频片段,每个子模型输出一组视频特征。为了便于描述,本技术实施例中,输入的视频片段的帧数较大的子模型称为浅层子模型,输入的视频片段的帧数较小的子模型称为深层子模型。i个子模型之间侧连接,具体的,浅层子模型将输出结果输入深层子模型,深层子模型将本层子模型视频特征提取的结果与侧连接的浅层子模型输出的视频特征进行融合。
47.请参见图3,图3为一个实施例中视频特征提取模型的结构及应用示意图。本实施例中,i=4。将待处理视频进行4次不同采样率的降采样,得到4个帧数不同的第一视频片段、第二视频片段、第三视频片段和第四视频片段。视频特征提取模型包括4个子模型。假设,第一视频片段、第二视频片段、第三视频片段和第四视频片段的帧数依次减小。将第一视频片段、第二视频片段、第三视频片段和第四视频片段分别对应输入第一个子模型、第二个子模型、第三个子模型和第四个子模型。第一个子模型与第二个子模型侧连接,第二个子模型与第三个子模型侧连接,第三个子模型与第四个子模型侧连接。
48.第一个子模型对第一视频片段进行时间域和空间域上的视频特征提取,得到第一视频特征,将第一视频特征作为第一个子模型的输出,可以称为第一输出特征。第一输出特征作为视频特征集合的一部分。同时,将第一输出特征输入第二个子模型。
49.第二个子模型的输入包括第二视频片段和第一输出特征(即第一视频特征)。第二个子模型对第二视频片段进行时间域和空间域上的视频特征提取,得到第二视频特征,并
将第一输出特征和第二视频特征进行特征融合,得到第二个子模型的输出,可以称为第二输出特征。第二输出特征作为视频特征集合的一部分。同时,将第二输出特征输入第三个子模型。
50.第三个子模型的输入包括第三视频片段和第二输出特征。第三个子模型对第三视频片段进行时间域和空间域上的视频特征提取,得到第三视频特征,并将第二输出特征与第三视频特征进行特征融合,得到第三个子模型的输出,可以称为第三输出特征。第三输出特征作为视频特征集合的一部分。同时,将第三输出特征输入第四个子模型。
51.第四个子模型的输入包括第四视频片段和第三输出特征。第四个子模型对第四视频片段进行时间域和空间域上的视频特征提取,得到第四视频特征,并将第三输出特征与第四视频特征进行特征融合,得到第四个子模型的输出,可以称为第四输出特征。第四输出特征作为视频特征集合的输出的一部分。
52.需要说明的是,各个子模型的具体结构可以根据实际需要设计。各子模型的具体结构可以相同,也可以不同。每个子模型可以为卷积神经网络模型,也可以为循环神经网络模型等。作为一种可选的实施方式,子模型之间可以通过压缩拼接方式实现特征融合。
53.可以理解,每个神经网络模型具有一个感受野,该神经网络仅能对其感受野内的特征进行提取。本实施例提供的方法中,对待处理视频进行降采样,相当于将时间距离较远的帧图像聚拢在一起,使得神经网络能够学习到时间距离较远的帧图像之间的关系,提取到不同的时间语义。假设i个子模型的感受野相同或相近,通过i个子模型分别对不同的时间距离的视频片段进行特征提取,能够学习到不同时间距离的帧图像之间的关系,提取到不同的时间语义。
54.具体的,继续以视频特征提取模型包括4个子模型为例,通过第一个子模型获取时间距离最近的帧图像之间的关系,通过第二个子模型获取时间距离较远的帧图像之间的关系,通过第三个子模型获取时间距离较第二子模型更远的帧图像之间的关系,通过第四个子模型获取时间距离最远的帧图像之间的关系。例如,待处理视频包括100帧图像,神经网络的感受野为1*1*1,第一个子模型能够获取第1帧图像与第2帧图像之间的关系、第2帧图像与第3帧图像的关系
……
;第二个子模型能够获取第1帧图像与第3帧图像之间的关系、第3帧图像与第5帧图像之间的关系
……
;第三个子模型能够获取第1帧图像与第4帧图像之间的关系、第4帧图像与第8帧图像之间的关系
……
;第四个子模型能够获取第1针图像与第8帧图像之间的关系、第8帧图像与第16帧图像之间的关系
……
如此,各子模型能够提取到不同的时间语义。
55.本实施例中,通过对待处理视频进行i次降采样,或者进行1次全采样和i-1次降采样,得到i个视频片段,并将i个不同视频片段分别输入包括i个子模型的视频特征提取模型。采样率不同,得到的i个视频片段中,帧图像之间的时间距离不同,每个子模型能够建立不同时间距离的帧图像之间的关系,因而能够提取不同的时间域特征,获取待处理视频不同的时间语义信息,提高了视频特征提取的精确度,解决因模型感受野有限造成的特征提取精确度较低的问题。同时,本实施例提供的方法,i个子模型之间侧连接,将深层子模型视频特征提取的结果与浅层子模型输出的视频特征进行特征融合,能够将时间距离较近的帧图像之间的语义信息加入深层模型,弥补了深层子模型输入的视频片段帧数少造成的内容缺失,进一步提高了视频特征提取的精确度。
56.在一个实施例中,对待处理视频进行1次全采样和i-1次降采样,其中,降采样的倍数包括:2,22,23…2i-1
。可选的,i等于4,则i-1次降采样的采样倍数包括2,4,8,即进行1/2降采样,1/4降采样,1/8降采样。对待处理视频进行等间隔采样,得到的视频片段中,帧图像之间的时间距离均匀,提取的视频特征精确度更高。同时,降采样时采样倍数以2倍关系递增,即采样率以1/2的关系递减,得到的视频片段进行特征提取后与浅层子模型输出的结果进行融合,使得浅层子模型的输出结果能够更好的填补深层子模型的内容缺失,进一步提高视频特征提取的精确度。另外,等间隔采样,且采样率以1/2的关系递减得到的视频片段更便于视频特征提取模型的计算,提高视频特征提取的计算速率。
57.在一个实施例中,子模型的通道数小于预设阈值。具体的,每个子模型的通道数可以根据需求进行设置,也即可以根据实际需求实现视频特征提取模型广度的自定义。子模型的通道数的具体值可以根据后续用途确定。可以理解,子模型的通道数越少,模型越轻量化。以提取的视频特征用于视频速度识别为例,视频速度识别过程中,重点关注待处理视频中视觉对象移动或运动的快慢,而对于待处理视频中的背景并不关注,则可以通过减少子模型的通道数,使得各子模型重点提取视频中视觉对象的相关特征。在一个具体的实施例中,子模型的通道数小于4。
58.本实施例中,视频特征提取模型与相关技术中slowfast模型对比,精确度相当的情况下,模型大小、模型参数量明显减小,浮点运算数减少,模型大小达到5mb,模型参数量达到1.3million,如表1所示。通过设置子模型的通道数小于预设阈值,有效减少视频特征提取模型的参数量,实现模型的轻量化,从而减少推理时间和运算量,进而提高运行速度,且降低了对硬件资源的要求。相应的,本实施例提供的视频特征提取方法能够实现即时演算,也能够移植到终端设备使用,有助于工业化产品落地,对于工业化产品的意义重大。
59.表1
[0060][0061]
以下结合实施例,对视频特征提取模型的结构及具体功能进行进一步说明:
[0062]
在一个实施例中,上述子模型为卷积神经网络模型。第一个子模型对输入的第一视频片段进行时间域和空间域的卷积操作,得到第一初始特征图,将第一特征图作为第一子模型的输出。其中,第一特征图为具有时间维度的特征图。第二个子模型对输入的第二视频片段进行时间域和空间域的卷积操作,得到第二初始特征图,第二初始特征图为具有时间维度的特征图。第二个子模型对第一初始特征图和第二初始特征图进行特征融合,得到融合特征图,将融合特征图作为第二个子模型的输出。其中,融合特征图也是具有时间维度的特征图。以此类推。上述第一初始特征图、第二初始特征图及融合特征图均为三维特征图,既包含时间域的特征,又包含空间域的特征,其可以通过多个高维度的特征矩阵表示。本实施例中,子模型为卷积神经网络模型,能够进一步减少模型的参数量,减少浮点运算数,提高推理速度。
[0063]
作为一种可选的实施方式,各子模型可以为残差网络模型。每个子模型可以包括多个级联的残差模块(resblock)。请参见图4和图5,图4为第一个子模型的结构示意图,图5为第二个子模型的结构示意图。在一个实施例中,对第一个子模型进行说明。如图4所示,每个残差模型可以包括多个级联的残差层(reslayer)。输入子模型的视频片段通过第一个残差模块的残差层进行卷积,提取时间域和空间域的特征,并将提取结果输入第一个残差模块的下一层残差层。下一层残差层进行进一步卷积,以此类推,直至该残差模块的所有残差层均完成卷积,将输出的结果输入第二个残差模块,第二个残差模块进一步卷积,将卷积结果输入第三个残差模块,以此类推。对于第一个子模型,最后一个残差模块输出的结果通过平均池化层(average pooling layer)和输出层(output layer)处理后得到的结果作为第一个子模型的输出,即得到第一输出。在另一个实施例中,对除第一个子模型之外的其他子模型进行说明,以第二个子模型为示例。如图5所示,最后一个残差模块输出的结果与第一个子模型的输出通过拼接(concate)层或其他特征融合函数进行特征融合后,进一步通过平均池化层和输出层处理,得到的结果作为该子模型的输出。
[0064]
可以理解,上述实施例中,子模型中的残差模块的数量不做任何限定,每个残差模块中残差层的数量不做任何限定,残差层中卷积层的数量也不做任何限定。子模型中各层的结构可以根据实际需求设计,即,视频特征提取模型的深度可以进行自定义,模型的扩展能力强。
[0065]
请参见图6,图6为一个实施例中残差层的结构示意图。本实施例中,每个残差层还进一步包括通道注意力(chanel attentiong)机制模型。注意力机制是指模型在产生输出的时候还产生一个“注意力范围”,“注意力范围”用以表征接下来的输出中对于输入序列中应关注区域,模型将根据该关注区域来产生下一个输出。如图6所示,可选的,每个残差层包括多个卷积层,作为一种可选的实施方式,卷积层可以为权重层(weight layer)。
[0066]
下面结合图6~图9,对子模型中各残差模块中的第一个残差层的卷积过程进行说明。在一个实施例中,如图7所示,可以包括:
[0067]
s701、通过第一个残差层中的卷积层,对输入的视频片段进行卷积,得到具有时间维度的第一中间特征图。
[0068]
图8为一个实施例中残差层中的卷积层的结构示意图。卷积层可以包括输入层(input layer)、3d卷积层(3d convolution layer)、归一化层、激活层(active layer)和输出层(output layer)。其中,3d卷积层也可以通过2d+1d卷积层结构实现。归一化层可以但不限于通过batchnorm(批量标准化)函数实现。激活层可以但不限于通过relu(the rectified linear unit,修正线性单元)函数实现。
[0069]
s702、根据第一中间特征图,通过第一个残差层中的通道注意力机制模型得到第一通道注意力值。
[0070]
图9为一个实施例中通道注意力模型的结构示意图。通道注意力模型可以包括输入层、平均池化层、通道卷积层(convolution in channel layer)、激活层和输出层。其中,通道卷积层可以为1d卷积层。激活层可以但不限于通过sigmoid函数实现。通道注意力模型通过平均池化层将输入的第一中间特征图进行压缩,得到特征序列,其中,第一中间特征图包括批量大小(batchsize)、通道数(channel)、帧序列(temporal)、图像宽度(w)、图像高度(h)五个维度。特征序列包括批量大小(batchsize)、通道数(channel)、帧序列(temporal)
三个维度。之后,通过通道卷积层进行1d卷积,实现对通道的线性权重分配。再通过激活函数将权重范围规范在(-1,1)之间,形成注意力与该通道注意力模型的输入相乘,得到的输出即为第一通道注意力值。第一通道注意力用于表征输入的视频特征中重点关注的内容对应的通道范围。
[0071]
s703、以第一通道注意力值作为权重,对该视频片段进行加权处理后输出至第二个残差层。
[0072]
如图6所示,通道注意力模型输出的第一通道注意力值与该残差层的输入进行加权处理,调整通道的权重,并将调整后的视频特征输入至第二个残差层,使得第二个残差层根据关注的通道范围进行特征提取和输出。
[0073]
下面通过图10,对子模型中各残差模块中的第二个残差层的卷积过程进行说明。在一个实施例中,如图10所示,可以包括:
[0074]
s1001、通过第二个残差层中的卷积层,对第一个残差层的输出进行卷积,得到具有时间维度的第二中间特征图;
[0075]
s1002、根据第二中间特征图,通过第二个残差层中的通道注意力机制模型得到第二通道注意力值;
[0076]
s1003、以第二通道注意力值作为权重,对第一个残差层的输出进行加权处理后输出至第三个残差层。
[0077]
第二个残差层的具体结构,以及卷积的过程与第一个残差层类似,不同的地方在于第二个残差层是以第一个残差层的输出作为输入进行数据处理。
[0078]
第三个残差层、第四个残差层及后续残差层的结构和卷积的过程均类似第二残差层,在此不再赘述。
[0079]
最后一个残差层的输出进一步进行池化及其他处理,将输出的结果确定为该残差模块输入的视频片段对应的视频特征。
[0080]
本实施例中,每个残差层均加入通道注意力模型,通过通道注意力模型生成重点关注的内容对应的通道范围,使得下一层残差层主要对重点关注的内容对应的通道进行特征提取,弱化或去除非重点关注的内容的特征提取,从而使得视频特征提取的准确性更高。
[0081]
本技术实施例提供的视频特征提取方法扩展性强,对视频特征提取模型进行进一步后处理,能够实现视频分类、速度识别、动作识别、时序动作定位等多种任务。以下结合实施例对视频特征提取模型及视频特征提取方法的应用进一步进行说明:
[0082]
在上述实施例的基础上,请参见图11,一个实施例中,视频特征提取方法还可以包括:
[0083]
s1101、将视频特征集合进行池化,得到特征向量序列;
[0084]
s1102、根据特征向量序列进行视频分类、视频速度识别、视频时序动作定位或视频动作识别。
[0085]
请一并参见图12,在一个实施例中,上述视频特征识别模型的基础上,还可以进一步设置池化层(pooling layer)、全连接层(full connection layer)和输出层等。池化层可以但不限于为平均池化层。通过对池化层、全连接层和输出层进行不同的设计,以实现视频分类、视频速度识别、视频时序动作定位及视频动作识别几种不同的任务中的至少一种。其中,视频速度识别可以为对目标动作快慢的识别,也可以为对镜头移动快慢的识别。
[0086]
具体的,池化层对视频特征集合中的各视频特征进行平均池化,将视频特征识别模型输出的特征图的宽、高和帧序列均压缩至通道维度,形成一维的特征向量序列。全连接层对特征向量序列进行处理,输出特征的置信度,再经过输出层输出对应的分类结果。可以理解,根据需要,全连接层的层数可以为一层,也可以为多层。同时,除池化层、全连接层和输出层外,根据需要,也可以增加其他的模型结构。如图13所示,该模型中,视频特征提取模型包括两个子模型,且该模型还包括平均池化层、第一全连接层、随机丢弃层(drop out)、第二全连接层和输出层。通过设置两个全连接层,进一步提高识别的精确度。随机丢弃层能够有效防止过拟合。
[0087]
本实施例中,通过将视频特征集合进行池化,得到特征向量序列,并基于特征向量序列实现视频分类、速度识别、时序动作定位或动作识别等多种任务,有效提高了视频特征提取模型及视频特征提取方法应用的广泛性。
[0088]
在一个实施例中,还可以对平均池化层进行扩展,并对视频特征提取模型进行预训练,得到预训练模型。基于该预训练模型生成待处理视频的特征向量[frames,features],其中,frames为待处理视频的帧序列,features为该帧序列对应的动作特征。基于整个待处理视频的每帧的动作特征,对预训练模型进行微调(fine-tuning),以实现对实现其他任务的处理,例如,视频分类、视频速度识别或视频时序动作定位。
[0089]
本实施例中,通过对视频特征提取模型预训练生成预训练模型,并在预训练模型的基础上完成微调,这样能够提高后续任务完成的准确度。同时,通过预训练模型进行微调生成模型时,收敛速度快。通常在10-20个时期(epoch)左右即可完成收敛。请参见表2,表2为视频动作识别模型调整前后的参数对比。
[0090]
表2
[0091][0092]
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定。
[0093]
对应于上文实施例中的视频特征提取方法,图11示出了本技术实施例提供的视频特征提取装置的结构框图,为了便于说明,仅示出了与本技术实施例相关的部分。
[0094]
参照图14,该装置包括:
[0095]
降采样模块1401,用于对待处理视频进行i次采样,得到帧数互不相同的i个视频片段,i为大于1的整数;
[0096]
处理模块1402,用于将i个视频片段输入视频特征提取模型进行处理,输出待处理视频的视频特征集合。
[0097]
在一个实施例中,i次采样包括i次降采样;或者,i次采样包括1次全采样和i-1次
降采样;视频特征提取模型包括i个子模型,视频特征集合包括i个子模型分别输出的视频特征;处理模块1402具体用于通过第一个子模型,对i个视频片段中帧数最大的第一视频片段进行时间域和空间域上的视频特征提取,得到第一视频特征并输出;通过第二个子模型,对i个视频片段中帧数次大的第二视频片段进行时间域和空间域上的视频特征提取得到第二视频特征,对第二视频特征和第一个子模型输出的视频特征进行特征融合后输出;以此类推。
[0098]
在一个实施例中,子模型包括多个级联的残差层,残差层包括卷积层和通道注意力机制模型;处理模块1402具体用于通过第一个残差层中的卷积层对视频片段进行卷积,得到具有时间维度的第一中间特征图;根据第一中间特征图通过第一个残差层中的通道注意力机制模型得到第一通道注意力值;以第一通道注意力值作为权重对视频片段进行加权处理后输出至第二个残差层;通过第二个残差层中的卷积层对第一个残差层的输出进行卷积,得到具有时间维度的第二中间特征图;根据第二中间特征图通过第二个残差层中的通道注意力机制模型得到第二通道注意力值;以第二通道注意力值作为权重对第一个残差层的输出进行加权处理后输出至第三个残差层;以此类推;根据最后一个残差层的输出确定视频片段对应的视频特征。
[0099]
在一个实施例中,子模型为卷积神经网络模型,处理模块1402具体用于通过第一个子模型对第一视频片段进行卷积得到的具有时间维度的第一初始特征图,通过第二个子模型对第二视频片段进行卷积得到的具有时间维度的第二初始特征图。
[0100]
在一个实施例中,处理模块1402具体用于对第一初始特征图与第二初始特征图进行特征融合,得到具有时间维度的融合特征图。
[0101]
在一个实施例中,i-1次降采样的采样倍数包括:2,22,23,

,2
i-1

[0102]
在一个实施例中,i等于4。
[0103]
在一个实施例中,子模型的通道数小于预设阈值。
[0104]
在一个实施例中,处理模块1402还用于将视频特征集合进行池化,得到特征向量序列;根据特征向量序列进行视频分类、视频速度识别、视频时序动作定位或视频动作识别。
[0105]
需要说明的是,上述装置/模块之间的信息交互、执行过程等内容,由于与本技术方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
[0106]
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将上述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本技术的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0107]
本技术实施例还提供了一种终端设备,该终端设备包括:至少一个处理器、存储器以及存储在存储器中并可在至少一个处理器上运行的计算机程序,处理器执行计算机程序
时实现上述任意各个方法实施例中的步骤。
[0108]
本技术实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
[0109]
本技术实施例提供了一种计算机程序产品,当计算机程序产品在计算机设备上运行时,使得计算机设备执行时实现可实现上述各个方法实施例中的步骤。
[0110]
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,该计算机程序包括计算机程序代码,该计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。该计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、电载波信号、电信信号以及软件分发介质。例如u盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
[0111]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
[0112]
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0113]
在本技术所提供的实施例中,应该理解到,所揭露的装置/计算机设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/计算机设备实施例仅仅是示意性的,例如,上述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
[0114]
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0115]
以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围,均应包含在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1