一种视频分类方法以及装置与流程

文档序号:31875106发布日期:2022-10-21 21:16阅读:94来源:国知局
一种视频分类方法以及装置与流程

1.本技术涉及视频处理技术领域,特别涉及一种视频分类方法以及装置。


背景技术:

2.随着移动互联网的迅速普及,视频因其丰富的内容以及多样的表现形式,受到人们的喜爱。为了方便对视频进行管理,需要对视频进行分类,即确定视频所属的类别。
3.相关技术中,对同一个视频片段应用两个平行的卷积神经网络(一个慢通道,一个快通道)进行处理,慢通道来分析视频中的静态内容,快通道来分析视频中的动态内容。
4.然而,上述处理过程会丢失部分时空信息,如在构造慢通道流时,下采样会导致时间信息丢失,使得视频分类的精度降低。


技术实现要素:

5.本技术提供了一种视频分类方法以及装置,用以精准进行视频分类。
6.第一方面,本技术实施例提供一种视频分类方法,所述方法包括:
7.将待处理视频通过不同卷积核的卷积进行特征提取,得到各卷积核对应的特征向量序列以及目标特征向量,并基于卷积核的大小对所述目标特征向量进行排序;
8.针对任一目标特征向量,基于与所述目标特征向量相邻的目标特征向量,对所述目标特征向量进行更新;
9.对所述待处理视频的所有特征向量序列以及更新后的目标特征向量进行特征融合,得到表征所述待处理视频类别的分类向量。
10.第二方面,本技术实施例提供一种视频分类装置,包括:
11.特征提取模块,用于将待处理视频通过不同卷积核的卷积进行特征提取,得到各卷积核对应的特征向量序列以及目标特征向量,并基于卷积核的大小对所述目标特征向量进行排序;
12.更新模块,用于针对任一目标特征向量,基于与所述目标特征向量相邻的目标特征向量,对所述目标特征向量进行更新;
13.融合模块,用于对所述待处理视频的所有特征向量序列以及更新后的目标特征向量进行特征融合,得到表征所述待处理视频类别的分类向量。
14.第三方面,本技术实施例提供一种电子设备,包括处理器和存储器;
15.其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行如第一方面任一项所述的视频分类方法。
16.第四方面,本技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现如第一方面任一项所述的视频分类方法。
17.另外,第二方面至第四方面中任一种实现方式所带来的技术效果可参见第一方面中不同实现方式所带来的技术效果,此处不再赘述。
附图说明
18.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
19.图1为本技术实施例提供的第一种视频分类方法的示意流程图;
20.图2为本技术实施例提供的第一种系统架构图;
21.图3为本技术实施例提供的第二种系统架构图;
22.图4为本技术实施例提供的第二种视频分类方法的示意流程图;
23.图5为本技术实施例提供的特征向量序列以及目标特征向量确定方法的示意流程图;
24.图6为本技术实施例提供的第三种视频分类方法的示意流程图;
25.图7为本技术实施例提供的第四种视频分类方法的示意流程图;
26.图8为本技术实施例提供的目标特征向量更新方法的示意流程图;
27.图9为本技术实施例提供的第五种视频分类方法的示意流程图;
28.图10为本技术实施例提供的调整向量确定方法的示意流程图;
29.图11为本技术实施例提供的确定调整向量的过程示意图;
30.图12为本技术实施例提供的第一种特征融合方法的示意流程图;
31.图13为本技术实施例提供的第六种视频分类方法的示意流程图;
32.图14为本技术实施例提供的第二种特征融合方法的示意流程图;
33.图15为本技术实施例提供的向量数量变更示意图;
34.图16为本技术实施例提供的第七种视频分类方法的示意流程图;
35.图17为本技术实施例提供的第八种视频分类方法的示意流程图;
36.图18为本技术实施例提供的第一种视频分类装置的结构示意图;
37.图19为本技术实施例提供的第二种视频分类装置的结构示意图;
38.图20为本技术实施例提供的电子设备的示意框图。
具体实施方式
39.为了使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术作进一步地详细描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本技术保护的范围。
40.在本技术的描述中,除非另有明确的规定和限定,术语“连接”应做广义理解,例如,可以是直接相连,也可以通过中间媒介间接相连,可以是两个器件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本技术中的具体含义。
41.术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本技术的描述中,除非另有说明,“多个”的含义是两个或两个以上。
42.随着移动互联网的迅速普及,视频因其丰富的内容以及多样的表现形式,受到人们的喜爱。为了方便对视频进行管理,需要对视频进行分类,即确定视频所属的类别。
43.相关技术中,对同一个视频片段应用两个平行的卷积神经网络(一个慢通道,一个快通道)进行处理,慢通道来分析视频中的静态内容,快通道来分析视频中的动态内容。
44.然而,上述处理过程会丢失部分时空信息,如在构造慢通道流时,下采样会导致时间信息丢失,使得视频分类的精度降低。
45.参阅图1所示,在一些实施例中,通过如下方式进行视频分类:
46.步骤s101:将待处理视频通过不同卷积核的卷积进行特征提取,得到各卷积核对应的特征向量序列以及目标特征向量;
47.步骤s102:将所有特征向量序列以及目标特征向量进行通过交叉注意力机制进行特征融合,得到分类向量,基于该分类向量确定视频类别。
48.参阅图2所示,为上述实施例对应的系统架构。
49.然而,上述方式中的目标特征向量并未体现出不同目标特征向量之间的关联关系,缺乏全局视图信息;另外,通过交叉注意力机制进行特征融合,不能有效提取关键信息,因此,难以根据上述分类向量精准地确定待处理视频的视频类型。
50.基于此,本技术实施例提供了一种视频分类方法以及装置,该方法包括:将待处理视频通过不同卷积核的卷积进行特征提取,得到各卷积核对应的特征向量序列以及目标特征向量,并基于卷积核的大小对所述目标特征向量进行排序;针对任一目标特征向量,基于与所述目标特征向量相邻的目标特征向量,对所述目标特征向量进行更新;对所述待处理视频的所有特征向量序列以及更新后的目标特征向量进行特征融合,得到表征所述待处理视频类别的分类向量。
51.参阅图3所示,为上述实施例对应的系统架构。
52.上述方案,在得到各卷积核对应的特征向量序列以及目标特征向量后,基于卷积核的大小对目标特征向量进行排序,并在排序后基于与各目标特征向量相邻的其他目标特征向量,对各目标特征向量进行更新,使得更新后的目标特征向量体现出不同目标特征向量之间的关联关系,包含全局视图信息;进而对上述特征向量序列以及更新后的目标特征向量进行特征融合,得到能够精准表征待处理视频类别的分类向量,后续基于该分类向量即可精准进行视频分类。
53.下面将结合附图及具体实施例,对本技术的技术方案以及本技术的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
54.本技术实施例提供了第二种视频分类方法,如图4所示,该方法可以包括:
55.步骤s401:将待处理视频通过不同卷积核的卷积进行特征提取,得到各卷积核对应的特征向量序列以及目标特征向量,并基于卷积核的大小对所述目标特征向量进行排序。
56.本实施例,设置有不同卷积核的卷积(如3d卷积),较小的卷积核对应较小的tubelets(视频对象),捕捉细粒度的运动;较大的卷积核对应较大的tubelets,捕捉缓慢变化的场景;因此,通过不同卷积核的卷积进行特征提取,得到全面的特征信息。
57.步骤s402:针对任一目标特征向量,基于与所述目标特征向量相邻的目标特征向
量,对所述目标特征向量进行更新。
58.上述目标特征向量并未体现出不同目标特征向量之间的关联关系,基于此,本实施例通过对目标特征向量按照卷积核的大小排序,进而综合相邻的目标特征向量之间的关联,对目标特征向量进行更新,更新后的目标特征向量体现出不同目标特征向量之间的关联关系,包含全局视图信息,后续根据该更新后的目标特征向量,能够得到更加精准表征待处理视频类别的分类向量。
59.步骤s403:对所述待处理视频的所有特征向量序列以及更新后的目标特征向量进行特征融合,得到表征所述待处理视频类别的分类向量。
60.上述方案,在得到各卷积核对应的特征向量序列以及目标特征向量后,基于卷积核的大小对目标特征向量进行排序,并在排序后基于与各目标特征向量相邻的其他目标特征向量,对各目标特征向量进行更新,使得更新后的目标特征向量体现出不同目标特征向量之间的关联关系,包含全局视图信息;进而对上述特征向量序列以及更新后的目标特征向量进行特征融合,得到能够精准表征待处理视频类别的分类向量,后续基于该分类向量即可精准进行视频分类。
61.一些可选的实施方式中,上述特征向量序列以及目标特征向量确定方法可参阅图5所示:
62.步骤s501:针对任一卷积核,将所述待处理视频通所述卷积核的卷积进行特征提取,得到所述卷积核对应的多个多维矩阵。
63.示例性的,待处理视频表示为v∈r
t
×h×w×c,其中,t为视频中图像帧数,c为视频中每帧图像的通道数,h为高度,w为宽度。将待处理视频分别输入各卷积中,得到每个卷积输出的n个多维矩阵,多为矩阵的维度为t
×h×
w,多维矩阵表示为z∈rn×
t
×h×w×c,其中,
64.步骤s502:将所述多个多维矩阵分别进行线性转化,得到所述特征向量序列。
65.本实施例,对各多维矩阵进行线性转化,得到一维矩阵,组成上述特征向量序列。
66.步骤s503:将所述特征向量序列以及预设向量输入编码器,得到所述编码器输出的所述卷积核对应的目标特征向量。
67.本实施例,为了更公平的融合特征向量序列中的信息,在特征向量序列(token1、token2、
……
tokenn)前添加一个可学习的预设向量(token
cls
),最后加入位置嵌入。
68.将token
cls
、token1、token2、
……
tokenn输入编码器,得到token
cls

,将该token
cls

作为该卷积核对应的目标特征向量。
69.由于自注意力机制具有平方复杂度,因而联合处理上述所有向量序列在计算上来说难度较大,因此上述编码器可采用多视图编码器(transformer),由多头注意力(multi-head attention,msa)、标准化(layer normalization,ln)和多层感知机(multilayer perceptron,mlp)组成。
70.示例性的,对于每组向量(特征向量序列以及预设向量)使用一个单独的编码器(由l个transformer层组成)进行处理。transformer中第i个向量中第j层到第j+1层的转换公式如下所示:
71.y
i,j
=msa(ln(z
i,j
))+z
i,j
72.z
i,j+1
=mlp(ln(y
i,j
))+y
i,j
73.视图经过transformer处理之后,将token
cls
对应向量(token
cls

)作为目标特征向量。
74.对应的,本技术实施例提供了第三种视频分类方法,如图6所示,该方法可以包括:
75.步骤s601:针对任一卷积核,将所述待处理视频通所述卷积核的卷积进行特征提取,得到所述卷积核对应的多个多维矩阵。
76.步骤s602:将所述多个多维矩阵分别进行线性转化,得到所述特征向量序列。
77.步骤s603:将所述特征向量序列以及预设向量输入编码器,得到所述编码器输出的所述卷积核对应的目标特征向量。
78.步骤s604:基于卷积核的大小对所述目标特征向量进行排序。
79.步骤s605:针对任一目标特征向量,基于与所述目标特征向量相邻的目标特征向量,对所述目标特征向量进行更新。
80.步骤s606:对所述待处理视频的所有特征向量序列以及更新后的目标特征向量进行特征融合,得到表征所述待处理视频类别的分类向量。
81.该步骤s601~s606的具体实现方式可参照上述实施例,此处不再赘述。
82.本技术实施例提供了第四种视频分类方法,如图7所示,该方法可以包括:
83.步骤s701:将待处理视频通过不同卷积核的卷积进行特征提取,得到各卷积核对应的特征向量序列以及目标特征向量,并基于卷积核的大小对所述目标特征向量进行排序。
84.该步骤s701的具体实现方式可参照上述实施例,此处不再赘述。
85.步骤s702:将所述待处理视频的所有目标特征向量输入更新模型,通过所述更新模型基于与任一目标特征向量相邻的目标特征向量,对所述目标特征向量进行更新。
86.本实施例,通过对模型进行训练,学习相邻的目标特征向量之间的关联,得到上述更新模型;进而通过该更新模型基于与各目标特征向量相邻的目标特征向量,精准地对各目标特征向量进行更新。
87.步骤s703:对所述待处理视频的所有特征向量序列以及更新后的目标特征向量进行特征融合,得到表征所述待处理视频类别的分类向量。
88.该步骤s703的具体实现方式可参照上述实施例,此处不再赘述。
89.上述方案,通过更新模型基于与各目标特征向量相邻的目标特征向量,精准地对各目标特征向量进行更新,使得更新后的目标特征向量体现出不同目标特征向量之间的关联关系。
90.一些可选的实施方式中,上述目标特征向量更新方法可参阅图8所示:
91.步骤s801:通过所述更新模型对第k层级的第一特征向量以及第k层级的第二特征向量进行平均池化操作,得到第k层级的平均向量。
92.其中,1≤k≤k,k为所述更新模型迭代更新的层级总数;第1层级的第一特征向量为任一目标特征向量,第1层级的第二特征向量为所述相邻的目标特征向量。
93.本实施例,更新模型设置有k个更新层,即需要迭代更新k次。
94.示例性的,一共有x个目标特征向量;针对第一个目标特征向量,第k层级的平均向量z
avg1,k
=avg(z
rep1,k
,z
rep2,k
);
95.针对第x个目标特征向量(1≤x≤x-1),第k层级的平均向量z
avgx,k
=avg(z
repx-1,k
,zrepx,k
,z
repx+1,k
);
96.针对第x个目标特征向量,第k层级的平均向量z
avgx,k
=avg(z
repx-1,k
,z
repx,k
);
97.avg为平均池化计算,z
repx,k
为第k层级的第x个第一特征向量。
98.可以理解,上述第二特征向量对应上述相邻的目标特征向量,针对第x个目标特征向量,第1层级的第二特征向量为第x+1个目标特征向量和/或第x-1个目标特征向量,其他层级的第二特征向量为通过上述方式计算得到的第x+1个第一特征向量和/或第x-1个第一特征向量。
99.步骤s802:对所述第k层级的平均向量进行全连接层计算,得到第k层级的调整向量。
100.在确定上述平均向量后,还需要通过全连接层进行全连接计算,确定在该层的调整向量。
101.步骤s803:将所述第k层级的调整向量与所述第k层级的第一特征向量之和,确定为第k+1层级的第一特征向量。
102.其中,第k层级的第一特征向量为所述更新后的目标特征向量。
103.示例性的,针对第x个目标特征向量(1≤x≤x-1),第k+1层级的第一特征向量z
avgx,k+1

△zx,k
+z
avgx,k
;其中,
△zx,k
为第x个目标特征向量在第k层级的调整向量,z
avgx,k
为第x个第一特征向量。
104.对应的,本技术实施例提供了第五种视频分类方法,如图9所示,该方法可以包括:
105.步骤s901:将待处理视频通过不同卷积核的卷积进行特征提取,得到各卷积核对应的特征向量序列以及目标特征向量,并基于卷积核的大小对所述目标特征向量进行排序。
106.步骤s902:通过所述更新模型对第k层级的第一特征向量以及第k层级的第二特征向量进行平均池化操作,得到第k层级的平均向量。
107.步骤s903:对所述第k层级的平均向量进行全连接层计算,得到第k层级的调整向量。
108.步骤s904:将所述第k层级的调整向量与所述第k层级的第一特征向量之和,确定为第k+1层级的第一特征向量;其中,第k层级的第一特征向量为所述更新后的目标特征向量。
109.步骤s905:对所述待处理视频的所有特征向量序列以及更新后的目标特征向量进行特征融合,得到表征所述待处理视频类别的分类向量。
110.该步骤s901~s905的具体实现方式可参照上述实施例,此处不再赘述。
111.上述方案,针对更新模型的每次迭代更新,通过对各层级的第一特征向量以及该层级的第二特征向量(相邻特征向量)进行平均池化操作,得到目标特征向量在该层级的平均向量;进而通过全连接层计算,得到目标特征向量在该层级的调整向量;基于目标特征向量在该层级的调整向量对该层级的第一特征向量进行调整,即可得到下一层级的第一特征向量,每经过一层更新迭代,可聚合更多其他目标特征向量的信息,经过多次迭代更新后得到更新后的目标特征向量。
112.一些可选的实施方式中,上述第k层级的调整向量确定方法可参阅图10所示:
113.步骤s1001:对所述第k层级的平均向量进行第一全连接层计算,得到第k层级的第
一向量;以及对所述第k层级的平均向量进行第二全连接层计算,得到第k层级的第二向量,并对所述第k层级的第二向量进行归一化计算,得到第k层级的权重信息。
114.实施中,将第k层级的平均向量分别输入到两个分支中,第一分支使用一个全连接层,对第k层级的平均向量进行第一全连接层计算,得到第k层级的第一向量;第二分支使用一个全连接层以及一个归一化(softmax)层,全连接层对第k层级的平均向量进行第二全连接层计算,得到第k层级的第二向量,归一化层对第k层级的第二向量进行归一化计算,得到第k层级的权重信息。
115.步骤s1002:基于所述第k层级的第一向量以及所述第k层级的权重信息,得到所述第k层级的调整向量。
116.示例性的,上述第k层级的平均向量包含y个特征值,权重信息包含每个特征值对应的权重值。将第k层级的平均向量中各特征值与对应的权重值相乘,得到该特征值对应的调整值;y个调整值组成上述调整向量。
117.上述方案,通过全连接计算得到第一向量;通过全连接计算以及归一化计算得到权重信息;基于第一向量以及权重信息,确定出表征目标特征关键信息的调整向量,因此,基于该调整向量对上述第一特征向量进行调整,不仅可聚合更多其他目标特征向量的信息,还可保留目标特征向量的关键信息。
118.参阅图11所示,为确定调整向量的过程示意图。
119.一些可选的实施方式中,上述特征融合方法可参阅图12所示:
120.步骤s1201:将所述待处理视频的所有特征向量序列以及更新后的目标特征向量进行拼接,得到初始特征矩阵。
121.本实施例,将s个1
×
d维向量(s为上述待处理视频的特征向量序列以及更新后的目标特征向量的总数)进行拼接,得到初始特征矩阵f,表示为f∈is×d。
122.步骤s1202:将所述初始特征矩阵输入融合模型,通过所述融合模型对所述初始特征矩阵进行特征融合,得到表征所述待处理视频类别的分类向量。
123.通过对模型进行训练,学习初始特征矩阵与分类向量之间的关联,得到上述融合模型;进而通过该融合模型对初始特征矩阵进行特征融合,精准地确定分类向量。
124.对应的,本技术实施例提供了第六种视频分类方法,如图13所示,该方法可以包括:
125.步骤s1301:将待处理视频通过不同卷积核的卷积进行特征提取,得到各卷积核对应的特征向量序列以及目标特征向量,并基于卷积核的大小对所述目标特征向量进行排序。
126.步骤s1302:针对任一目标特征向量,基于与所述目标特征向量相邻的目标特征向量,对所述目标特征向量进行更新。
127.步骤s1303:将所述待处理视频的所有特征向量序列以及更新后的目标特征向量进行拼接,得到初始特征矩阵。
128.步骤s1304:将所述初始特征矩阵输入融合模型,通过所述融合模型对所述初始特征矩阵进行特征融合,得到表征所述待处理视频类别的分类向量。
129.该步骤s1301~s1304的具体实现方式可参照上述实施例,此处不再赘述。
130.上述方案,通过融合模型对初始特征矩阵进行特征融合,有效去除特征向量中的
冗余信息,并保留其关键信息。提高视频分类精度。
131.一些可选的实施方式中,上述特征融合方法可参阅图14所示:
132.步骤s1401:将所述待处理视频的所有特征向量序列以及更新后的目标特征向量进行拼接,得到初始特征矩阵。
133.该步骤s1401的具体实现方式可参照上述实施例,此处不再赘述。
134.步骤s1402:将所述初始特征矩阵输入融合模型,通过所述融合模型基于第m层级的邻接矩阵、第m层级的特征矩阵以及第m层级的调整参数,确定第m层级的更新矩阵。
135.其中,1≤m≤m,m为所述融合模型迭代融合的层级总数;若2≤m≤m,第m层级的邻接矩阵是基于第m-1层级的更新矩阵与第m-1层级的邻接矩阵确定的,第1层级的邻接矩阵为预设矩阵,第1层级的特征矩阵为所述初始特征矩阵。
136.一些可选的实施方式中,上述融合模型为图卷积网络(graph convolutional networks,gcn)。
137.示例性的,初始特征矩阵表示为f∈is×d,预设矩阵表示为a∈is×s;
138.第m层级的更新矩阵um=softmax[gcn(am,fm)];例如:
[0139]
i为矩阵a的行,j为矩阵a的列;
[0140]
其中,um∈r
sm
×
sm+1
;σ为激活函数,am为第m层级的邻接矩阵,am∈r
sm
×
sm
,am=u
m-1t
×am-1
×um-1
;fm为第m层级的特征矩阵,fm∈r
sm
×
dm
,wm为第m层级的调整参数,wm∈r
dm
×
sm+1

[0141]
步骤s1403:将第m层级的更新矩阵的逆矩阵与第m层级的特征矩阵的乘积确定为第m+1层级的特征矩阵;其中,第m层级的特征矩阵为所述分类向量。
[0142]
示例性的,f
m+1
=u
mt
×fm
,f
m+1
∈r
sm+1
×
dm

[0143]
参阅图15所示,通过上述更新矩阵来不断特征矩阵中向量(节点)的数量,使得节点的数量不断减少,直到节点数量为1。
[0144]
图15只是示例性说明特征矩阵中节点数量的变化,本实施例并不以此为限。
[0145]
对应的,本技术实施例提供了第七种视频分类方法,如图16所示,该方法可以包括:
[0146]
步骤s1601:将待处理视频通过不同卷积核的卷积进行特征提取,得到各卷积核对应的特征向量序列以及目标特征向量,并基于卷积核的大小对所述目标特征向量进行排序。
[0147]
步骤s1602:针对任一目标特征向量,基于与所述目标特征向量相邻的目标特征向量,对所述目标特征向量进行更新。
[0148]
步骤s1603:将所述待处理视频的所有特征向量序列以及更新后的目标特征向量进行拼接,得到初始特征矩阵。
[0149]
步骤s1604:将所述初始特征矩阵输入融合模型,通过所述融合模型基于第m层级的邻接矩阵、第m层级的特征矩阵以及第m层级的调整参数,确定第m层级的更新矩阵。
[0150]
步骤s1605:将第m层级的更新矩阵的逆矩阵与第m层级的特征矩阵的乘积确定为第m+1层级的特征矩阵;其中,第m层级的特征矩阵为所述分类向量。
[0151]
该步骤s1601~s1605的具体实现方式可参照上述实施例,此处不再赘述。
[0152]
一些可选的实施方式中,本技术实施例提供了第八种视频分类方法,如图17所示,该方法可以包括:
[0153]
步骤s1701:将待处理视频通过不同卷积核的卷积进行特征提取,得到各卷积核对应的特征向量序列以及目标特征向量,并基于卷积核的大小对所述目标特征向量进行排序。
[0154]
步骤s1702:针对任一目标特征向量,基于与所述目标特征向量相邻的目标特征向量,对所述目标特征向量进行更新。
[0155]
步骤s1703:对所述待处理视频的所有特征向量序列以及更新后的目标特征向量进行特征融合,得到表征所述待处理视频类别的分类向量。
[0156]
该步骤s1701~s1703的具体实现方式可参照上述实施例,此处不再赘述。
[0157]
步骤s1704:基于预设对应关系,确定所述待处理视频的分类向量对应的视频类别;其中,所述预设对应关系包括视频的分类向量与视频类别之间的对应关系。
[0158]
上述待处理视频的分类向量表征了待处理视频的类别,通过预设视频的分类向量与视频类别之间的对应关系,根据该对应关系即可确定待处理视频的视频类别。
[0159]
上述方案,基于上述预设对应关系,即可精准、高效地确定待处理视频的分类向量对应的视频类别(即该待处理视频所属的类别)。
[0160]
如图18所示,基于相同的发明构思,本技术实施例提供一种视频分类装置1800,包括:
[0161]
特征提取模块1801,用于将待处理视频通过不同卷积核的卷积进行特征提取,得到各卷积核对应的特征向量序列以及目标特征向量,并基于卷积核的大小对所述目标特征向量进行排序;
[0162]
更新模块1802,用于针对任一目标特征向量,基于与所述目标特征向量相邻的目标特征向量,对所述目标特征向量进行更新;
[0163]
融合模块1803,用于对所述待处理视频的所有特征向量序列以及更新后的目标特征向量进行特征融合,得到表征所述待处理视频类别的分类向量。
[0164]
一些可选的实施方式中,所述更新模块1802具体用于:
[0165]
将所述待处理视频的所有目标特征向量输入更新模型,通过所述更新模型基于与任一目标特征向量相邻的目标特征向量,对所述目标特征向量进行更新。
[0166]
一些可选的实施方式中,所述更新模块1802具体用于:
[0167]
通过所述更新模型对第k层级的第一特征向量以及第k层级的第二特征向量进行平均池化操作,得到第k层级的平均向量;其中,1≤k≤k,k为所述更新模型迭代更新的层级总数;第1层级的第一特征向量为任一目标特征向量,第1层级的第二特征向量为所述相邻的目标特征向量;
[0168]
对所述第k层级的平均向量进行全连接层计算,得到第k层级的调整向量;
[0169]
将所述第k层级的调整向量与所述第k层级的第一特征向量之和,确定为第k+1层级的第一特征向量;其中,第k层级的第一特征向量为所述更新后的目标特征向量。
[0170]
一些可选的实施方式中,所述更新模块1802具体用于:
[0171]
对所述第k层级的平均向量进行第一全连接层计算,得到第k层级的第一向量;以及对所述第k层级的平均向量进行第二全连接层计算,得到第k层级的第二向量,并对所述
第k层级的第二向量进行归一化计算,得到第k层级的权重信息;
[0172]
基于所述第k层级的第一向量以及所述第k层级的权重信息,得到所述第k层级的调整向量。
[0173]
一些可选的实施方式中,所述融合模块1803具体用于:
[0174]
将所述待处理视频的所有特征向量序列以及更新后的目标特征向量进行拼接,得到初始特征矩阵;
[0175]
将所述初始特征矩阵输入融合模型,通过所述融合模型对所述初始特征矩阵进行特征融合,得到表征所述待处理视频类别的分类向量。
[0176]
一些可选的实施方式中,所述融合模块1803具体用于:
[0177]
通过所述融合模型基于第m层级的邻接矩阵、第m层级的特征矩阵以及第m层级的调整参数,确定第m层级的更新矩阵;其中,1≤m≤m,m为所述融合模型迭代融合的层级总数;若2≤m≤m,第m层级的邻接矩阵是基于第m-1层级的更新矩阵与第m-1层级的邻接矩阵确定的,第1层级的邻接矩阵为预设矩阵,第1层级的特征矩阵为所述初始特征矩阵;
[0178]
将第m层级的更新矩阵的逆矩阵与第m层级的特征矩阵的乘积确定为第m+1层级的特征矩阵;其中,第m层级的特征矩阵为所述分类向量。
[0179]
一些可选的实施方式中,所述特征提取模块1801具体用于:
[0180]
针对任一卷积核,将所述待处理视频通所述卷积核的卷积进行特征提取,得到所述卷积核对应的多个多维矩阵;
[0181]
将所述多个多维矩阵分别进行线性转化,得到所述特征向量序列;
[0182]
将所述特征向量序列以及预设向量输入编码器,得到所述编码器输出的所述卷积核对应的目标特征向量。
[0183]
参阅图19所示,一些可选的实施方式中,本技术实施例提供另一种视频分类装置1900,在上述视频分类装置1800的基础上,还包括分类模块1804,用于:
[0184]
在融合模块1803得到表征所述待处理视频类别的分类向量之后,基于预设对应关系,确定所述待处理视频的分类向量对应的视频类别;其中,所述预设对应关系包括视频的分类向量与视频类别之间的对应关系。
[0185]
由于该装置即是本技术实施例中的方法中的装置,并且该装置解决问题的原理与该方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
[0186]
如图20所示,基于相同的发明构思,本技术实施例提供一种电子设备2000,包括:处理器2001和存储器2002;
[0187]
存储器2002可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,ram);存储器2002也可以是非易失性存储器(non-volatile memory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,hdd)或固态硬盘(solid-state drive,ssd);或者存储器2002是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器2002可以是上述存储器的组合。
[0188]
处理器2001,可以包括一个或多个中央处理单元(central processing unit,cpu),图形处理单元(graphics processing unit,gpu)或者数字处理单元等等。
[0189]
本技术实施例中不限定上述存储器2002和处理器2001之间的具体连接介质。本申
请实施例在图20中以存储器2002和处理器2001之间通过总线2003连接,总线2003在图20中以粗线表示,所述总线2003可以分为地址总线、数据总线、控制总线等。为便于表示,图20中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0190]
其中,所述存储器2002存储有程序代码,当所述程序代码被所述处理器2001执行时,使得所述处理器2001执行下列过程:
[0191]
将待处理视频通过不同卷积核的卷积进行特征提取,得到各卷积核对应的特征向量序列以及目标特征向量,并基于卷积核的大小对所述目标特征向量进行排序;
[0192]
针对任一目标特征向量,基于与所述目标特征向量相邻的目标特征向量,对所述目标特征向量进行更新;
[0193]
对所述待处理视频的所有特征向量序列以及更新后的目标特征向量进行特征融合,得到表征所述待处理视频类别的分类向量。
[0194]
一些可选的实施方式中,所述处理器2001具体执行:
[0195]
将所述待处理视频的所有目标特征向量输入更新模型,通过所述更新模型基于与任一目标特征向量相邻的目标特征向量,对所述目标特征向量进行更新。
[0196]
一些可选的实施方式中,所述处理器2001具体执行:
[0197]
通过所述更新模型对第k层级的第一特征向量以及第k层级的第二特征向量进行平均池化操作,得到第k层级的平均向量;其中,1≤k≤k,k为所述更新模型迭代更新的层级总数;第1层级的第一特征向量为任一目标特征向量,第1层级的第二特征向量为所述相邻的目标特征向量;
[0198]
对所述第k层级的平均向量进行全连接层计算,得到第k层级的调整向量;
[0199]
将所述第k层级的调整向量与所述第k层级的第一特征向量之和,确定为第k+1层级的第一特征向量;其中,第k层级的第一特征向量为所述更新后的目标特征向量。
[0200]
一些可选的实施方式中,所述处理器2001具体执行:
[0201]
对所述第k层级的平均向量进行第一全连接层计算,得到第k层级的第一向量;以及对所述第k层级的平均向量进行第二全连接层计算,得到第k层级的第二向量,并对所述第k层级的第二向量进行归一化计算,得到第k层级的权重信息;
[0202]
基于所述第k层级的第一向量以及所述第k层级的权重信息,得到所述第k层级的调整向量。
[0203]
一些可选的实施方式中,所述处理器2001具体执行:
[0204]
将所述待处理视频的所有特征向量序列以及更新后的目标特征向量进行拼接,得到初始特征矩阵;
[0205]
将所述初始特征矩阵输入融合模型,通过所述融合模型对所述初始特征矩阵进行特征融合,得到表征所述待处理视频类别的分类向量。
[0206]
一些可选的实施方式中,所述处理器2001具体执行:
[0207]
通过所述融合模型基于第m层级的邻接矩阵、第m层级的特征矩阵以及第m层级的调整参数,确定第m层级的更新矩阵;其中,1≤m≤m,m为所述融合模型迭代融合的层级总数;若2≤m≤m,第m层级的邻接矩阵是基于第m-1层级的更新矩阵与第m-1层级的邻接矩阵确定的,第1层级的邻接矩阵为预设矩阵,第1层级的特征矩阵为所述初始特征矩阵;
[0208]
将第m层级的更新矩阵的逆矩阵与第m层级的特征矩阵的乘积确定为第m+1层级的
特征矩阵;其中,第m层级的特征矩阵为所述分类向量。
[0209]
一些可选的实施方式中,所述处理器2001具体执行:
[0210]
针对任一卷积核,将所述待处理视频通所述卷积核的卷积进行特征提取,得到所述卷积核对应的多个多维矩阵;
[0211]
将所述多个多维矩阵分别进行线性转化,得到所述特征向量序列;
[0212]
将所述特征向量序列以及预设向量输入编码器,得到所述编码器输出的所述卷积核对应的目标特征向量。
[0213]
一些可选的实施方式中,所述处理器2001在得到表征所述待处理视频类别的分类向量之后,还执行:
[0214]
基于预设对应关系,确定所述待处理视频的分类向量对应的视频类别;其中,所述预设对应关系包括视频的分类向量与视频类别之间的对应关系。
[0215]
由于该电子设备即是执行本技术实施例中的方法的电子设备,并且该电子设备解决问题的原理与该方法相似,因此该电子设备的实施可以参见方法的实施,重复之处不再赘述。
[0216]
本技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述视频分类方法的步骤。其中,可读存储介质可以为非易失可读存储介质。
[0217]
以上参照示出根据本技术实施例的方法、装置(系统)和/或计算机程序产品的框图和/或流程图描述本技术。应理解,可以通过计算机程序指令来实现框图和/或流程图示图的一个块以及框图和/或流程图示图的块的组合。可以将这些计算机程序指令提供给通用计算机、专用计算机的处理器和/或其它可编程装置,以产生机器,使得经由计算机处理器和/或其它可编程装置执行的指令创建用于实现框图和/或流程图块中所指定的功能/动作的方法。
[0218]
相应地,还可以用硬件和/或软件(包括固件、驻留软件、微码等)来实施本技术。更进一步地,本技术可以采取计算机可使用或计算机可读存储介质上的计算机程序产品的形式,其具有在介质中实现的计算机可使用或计算机可读程序代码,以由指令执行系统来使用或结合指令执行系统而使用。在本技术上下文中,计算机可使用或计算机可读介质可以是任意介质,其可以包含、存储、通信、传输、或传送程序,以由指令执行系统、装置或设备使用,或结合指令执行系统、装置或设备使用。
[0219]
尽管已描述了本技术的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本技术范围的所有变更和修改。
[0220]
显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1