全景视频行为识别方法、装置、设备与介质

文档序号:31448367发布日期:2022-09-07 12:33阅读:100来源:国知局
全景视频行为识别方法、装置、设备与介质

1.本发明涉及图像处理技术领域,尤其涉及一种全景视频行为识别方法、装置、设备与介质。


背景技术:

2.全景视频是一种用全景摄像机进行全方位360度进行拍摄的视频,用户在观看视频的时候,可以随意调节视频上下左右进行观看。
3.目前,主要是采用双流网络和三维卷积网络来实现全景视频的行为识别;其中,双流网络需要分别提取rgb图和光流图;三维卷积网络的缺点在于网络模型的参数较多,较难训练,网络模型容易过拟合。而这两种方法都是使用等距投影法将全景图片转为平面图片,所生成的平面图片中含有大量扭曲形变的部分,使得神经网络无法提取到有效的特征信息。


技术实现要素:

4.本发明的主要目的在于提出一种全景视频行为识别方法、装置、设备与介质,旨在通过提高行为识别的准确率,有效降低失真形变。
5.为实现上述目的,本发明提供一种全景视频行为识别方法,所述全景视频行为识别方法运用于非局部注意力加权关系网络模型,所述非局部注意力加权关系网络模型包括多图片模块、特征融合模块以及非局部注意力加权关系网络模块,所述全景视频行为识别方法包括如下步骤:
6.获取待识别的全景视频,并提取出所述全景视频中各个视频帧对应的全景图片;
7.基于所述全景图片,通过所述多图片模块进行投影变换处理和编码,生成对应的特征图;
8.基于所述特征图,通过所述特征融合模块进行特征融合,得到对应的全局特征;
9.基于所述全局特征,通过所述非局部注意力加权关系网络模块构建各个视频帧之间的时序关系函数,并通过所述时序关系函数进行行为识别,得到对应的识别结果。
10.优选地,所述获取待识别的全景视频,并提取出所述全景视频中各个视频帧对应的全景图片的步骤之前,所述全景视频行为识别方法还包括:
11.获取多个不同场景的样本全景视频,并将所述样本全景视频构建用于训练初始模型的训练集;
12.获取各个样本全景视频对应的样本识别结果;
13.将所述训练集中的所述样本全景视频作为所述初始模型的输入,将所述样本识别结果作为所述初始模型的输出,并对所述初始模型进行迭代训练,获得所述非局部注意力加权关系网络模型。
14.优选地,所述提取出所述全景视频中各个视频帧对应的全景图片的步骤包括:
15.对所述全景视频进行视频帧提取和均匀采样,得到各个视频帧对应的全景图片。
16.优选地,所述基于所述全景图片,通过所述多图片模块进行投影变换处理和编码,生成对应的特征图的步骤包括:
17.将所述全景图片输入到所述多图片模块,并将所述全景图片映射到球形二十面体进行投影变化处理,生成预设数量个的切面图,其中,所述球形二十面体包括二十个等面积三角形面,将各个等面积三角形面进行预设次数划分,得到预设数量个等面积三角形面;
18.根据所述切面图,通过预设主干网络进行编码,得到对应的特征图。
19.优选地,所述基于所述特征图,通过所述特征融合模块进行特征融合,得到对应的全局特征的步骤包括:
20.将所述特征图输入到所述特征融合模块,并采用平均池化对所述特征图进行特征融合,得到对应的全局特征。
21.优选地,所述非局部注意力加权关系网络模块包括非局部注意力网络单元和关系网络单元,所述基于所述全局特征,通过所述非局部注意力加权关系网络模块构建各个视频帧之间的时序关系函数,并通过所述时序关系函数进行行为识别,得到对应的识别结果的步骤包括:
22.将所述全局特征输入到所述非局部注意力网络单元中,并对所述全局特征进行加权处理,得到对应的加权后的特征;
23.根据所述加权后的特征和所述全局特征,通过预设残差注意力模型进行残差训练,得到对应的编码特征;
24.将所述编码特征输入到所述关系网络单元,并构建各个视频帧之间的时序关系函数,以及通过所述时序关系函数进行行为识别,得到对应的识别结果。
25.优选地,所述基于所述全局特征,通过所述非局部注意力加权关系网络模块构建各个视频帧之间的时序关系函数,并通过所述时序关系函数进行行为识别,得到对应的识别结果的步骤之后,所述全景视频行为识别方法还包括:
26.将所述识别结果输出。
27.此外,为实现上述目的,本发明还提供一种全景视频行为识别装置,所述全景视频行为识别装置包括:
28.获取模块,用于获取待识别的全景视频,并提取出所述全景视频中各个视频帧对应的全景图片;
29.变换模块,用于基于所述全景图片,通过所述多图片模块进行投影变换处理和编码,生成对应的特征图;
30.融合模块,用于基于所述特征图,通过所述特征融合模块进行特征融合,得到对应的全局特征;
31.识别模块,用于基于所述全局特征,通过所述非局部注意力加权关系网络模块构建各个视频帧之间的时序关系,并通过所述时序关系函数进行行为识别,得到对应的识别结果。
32.此外,为实现上述目的,本发明还提供一种设备,所述设备为全景视频行为识别设备,所述全景视频行为识别设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的全景视频行为识别程序,所述全景视频行为识别程序被所述处理器执行时实现如上所述的全景视频行为识别方法的步骤。
33.此外,为实现上述目的,本发明还提供一种介质,所述介质为计算机可读存储介质,所述计算机可读存储介质上存储有全景视频行为识别程序,所述全景视频行为识别程序被处理器执行时实现如上所述的全景视频行为识别方法的步骤。
34.本发明提出的全景视频行为识别方法、装置、设备和介质;所述全景视频行为识别方法运用于非局部注意力加权关系网络模型,所述非局部注意力加权关系网络模型包括多图片模块、特征融合模块以及非局部注意力加权关系网络模块,所述全景视频行为识别方法包括:获取待识别的全景视频,并提取出所述全景视频中各个视频帧对应的全景图片;基于所述全景图片,通过所述多图片模块进行投影变换处理和编码,生成对应的特征图;基于所述特征图,通过所述特征融合模块进行特征融合,得到对应的全局特征;基于所述全局特征,通过所述非局部注意力加权关系网络模块构建各个视频帧之间的时序关系函数,并通过所述时序关系函数进行行为识别,得到对应的识别结果。本发明通过获取待识别的全景视频,并提取出全景视频中各个视频帧对应的全景图片;根据多图片模块对全景图片进行投影变换处理和编码,得到对应的特征图;通过特征融合模块对特征图进行特征融合,得到特征图对应的全局特征;通过非局部注意力加权关系网络模块对全局特征进行构建各个视频帧之间的时序关系函数,并通过时序关系函数进行行为识别,得到对应的识别结果;从而提高行为识别的准确率,有效降低失真形变。
附图说明
35.图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图;
36.图2为本发明全景视频行为识别方法第一实施例的流程示意图;
37.图3为本发明全景视频行为识别方法第一实施例的非局部注意力加权关系网络模型示意图;
38.图4为本发明全景视频行为识别方法第一实施例的一子流程示意图;
39.图5为本发明全景视频行为识别方法第一实施例的二子流程示意图;
40.图6为本发明全景视频行为识别方法第二实施例的流程示意图;
41.图7为本发明全景视频行为识别方法第三实施例的流程示意图;
42.图8为本发明全景视频行为识别方法第四实施例的流程示意图;
43.图9为本发明全景视频行为识别方法第五实施例的流程示意图;
44.图10为本发明全景视频行为识别装置第一实施例的功能模块示意图。
45.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
46.应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
47.如图1所示,图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。
48.本发明实施例设备可以是移动终端或服务器设备。
49.如图1所示,该设备可以包括:处理器1001,例如cpu,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接
口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
50.本领域技术人员可以理解,图1中示出的设备结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
51.如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及全景视频行为识别程序。
52.其中,操作系统是管理和控制全景视频行为识别设备与软件资源的程序,支持网络通信模块、用户接口模块、全景视频行为识别程序以及其他程序或软件的运行;网络通信模块用于管理和控制网络接口1002;用户接口模块用于管理和控制用户接口1003。
53.在图1所示的全景视频行为识别设备中,所述全景视频行为识别设备通过处理器1001调用存储器1005中存储的全景视频行为识别程序,并执行下述全景视频行为识别方法各个实施例中的操作。
54.基于上述硬件结构,提出本发明全景视频行为识别方法实施例。
55.参照图2,图2为本发明全景视频行为识别方法第一实施例的流程示意图,所述全景视频行为识别方法包括:
56.步骤s10,获取待识别的全景视频,并提取出所述全景视频中各个视频帧对应的全景图片;
57.步骤s20,基于所述全景图片,通过所述多图片模块进行投影变换处理和编码,生成对应的特征图;
58.步骤s30,基于所述特征图,通过所述特征融合模块进行特征融合,得到对应的全局特征;
59.步骤s40,基于所述全局特征,通过所述非局部注意力加权关系网络模块构建各个视频帧之间的时序关系函数,并通过所述时序关系函数进行行为识别,得到对应的识别结果。
60.本实施例通过获取待识别的全景视频,并提取出全景视频中各个视频帧对应的全景图片;根据多图片模块对全景图片进行投影变换处理和编码,得到对应的特征图;通过特征融合模块对特征图进行特征融合,得到特征图对应的全局特征;通过非局部注意力加权关系网络模块对全局特征进行特征加权,接着构建各个视频帧之间的时序关系函数,并通过时序关系函数进行行为识别,得到对应的识别结果;从而提高行为识别的准确率,有效降低失真形变。
61.以下将对各个步骤进行详细说明:
62.步骤s10,获取待识别的全景视频,并提取出所述全景视频中各个视频帧对应的全景图片。
63.在本实施例中,全景视频行为识别方法运用于非局部注意力加权关系网络模型,参照图3,图3为非局部注意力加权关系网络模型示意图,非局部注意力加权关系网络模型包括多图片模块、特征融合模块以及非局部注意力加权关系网络模块;其中,多图片模块用于对全景图片进行投影变换和编码,生成对应的特征图;特征融合模块用于对特征图进行特征融合,生成对应的全局特征;非局部注意力加权关系网络模块用于根据全局特征构建
出各个视频帧之间的时序关系函数,并通过关系函数进行识别,得到最终的识别结果;通过利用非局部注意力加权关系网络模型进行全景视频识别,可以提高行为识别的准确率,以及有效降低失真形变。
64.通过从不同的渠道获取待识别的全景视频,可以是从系统的数据库中获取待识别的全景视频,也可以是接收第三方客户端中获取待识别的全景视频;本实施例对获取待识别的全景视频的渠道不作限定。
65.通过使用ffmpeg(fast forward mpeg,多媒体视频处理工具)提取出全景视频中各个视频帧对应的全景图片。
66.进一步地,参照图4,在一实施例中,步骤s10包括:
67.步骤s11,对所述全景视频进行视频帧提取和均匀采样,得到各个视频帧对应的全景图片。
68.在一实施例中,通过ffmpeg提取出全景视频p中的所有的全景视频帧;根据全景视频帧的帧数在所有的全景视频帧中进行均匀采样,得到各个视频帧对应的全景图片;从而获得高质量的全景图片ui,便于提高全景视频行为的识别效率。
69.步骤s20,基于所述全景图片,通过所述多图片模块进行投影变换处理和编码,生成对应的特征图。
70.在本实施例中,将全景图片ui输入到多图片模块中,通过多图片模块将全景图片投影到球形二十面体进行投影变换处理,得到各个面体的切面图t
il
(0《l《n);再对各个面体的切面图t
il
进行编码,生成对应的特征图f
il
(0《l《n)。其中,多图片模块可以解决全景视频帧投影所导致的扭曲效应,有效降低失真形变。
71.球形二十面体为具有二十个等面积三角面的球形多面体,其中,每一个等面积三角面都可以进一步细分为4个面积更小的等面积三角面,也即,在每一个等面积三角面进行一次细分后,得到含有20
×
4个总面数n的球形二十面体,也即可以得到80个切面图。
72.步骤s30,基于所述特征图,通过所述特征融合模块进行特征融合,得到对应的全局特征。
73.在一实施例中,将上述生成的特征图f
il
输入到特征融合模块,并通过特征融合模块对所述特征图f
il
进行特征融合,得到特征图对应的全局特征gi。其中,可以通过对特征图f
il
进行卷积、池化等处理,从而得到对应的全局特征gi。
74.步骤s40,基于所述全局特征,通过所述非局部注意力加权关系网络模块构建各个视频帧之间的时序关系函数,并通过所述时序关系函数进行行为识别,得到对应的识别结果。
75.在本实施例中,将上述生成的全局特征gi输入到非局部注意力加权关系网络模块,并通过非局部注意力加权关系网络模块对全局特征gi构建各个视频帧之间的时序关系函数;通过时序关系函数进行识别,识别出的全景视频对应的识别结果t(p)。
76.进一步地,参照图5,在一实施例中,步骤s40之后,所述全景视频行为识别方法还包括:
77.步骤s50,将所述识别结果输出。
78.在一实施例中,在通过时序关系函数进行识别,识别出的全景视频对应的识别结果t(p)的步骤之后;将该识别结果输出,从而完成该全景视频p的识别任务。在此之后,返回
步骤:获取待识别的全景视频,并提取出所述全景视频中各个视频帧对应的全景图片。开始下一轮的全景视频的识别任务,进而提高全景视频识别的效率。
79.本实施例通过获取待识别的全景视频,并提取出全景视频中各个视频帧对应的全景图片;根据多图片模块对全景图片进行投影变换处理和编码,得到对应的特征图;通过特征融合模块对特征图进行特征融合,得到特征图对应的全局特征;通过非局部注意力加权关系网络模块对全局特征进行特征加权,接着构建各个视频帧之间的时序关系函数,并通过时序关系函数进行行为识别,得到对应的识别结果;从而提高行为识别的准确率,有效降低失真形变。
80.进一步地,基于本发明全景视频行为识别方法第一实施例,提出本发明全景视频行为识别方法第二实施例。
81.全景视频行为识别方法的第二实施例与全景视频行为识别方法的第一实施例的区别在于本实施例是对步骤s10,获取待识别的全景视频,并提取出所述全景视频中各个视频帧对应的全景图片的步骤之前,参照图6,所述全景视频行为识别方法还包括:
82.步骤a10,获取多个不同场景的样本全景视频,并将所述样本全景视频构建用于训练初始模型的训练集;
83.步骤a20,获取各个样本全景视频对应的样本识别结果;
84.步骤a30,将所述训练集中的所述样本全景视频作为所述初始模型的输入,将所述样本识别结果作为所述初始模型的输出,并对所述初始模型进行迭代训练,获得所述非局部注意力加权关系网络模型。
85.在本实施例中,通过获取大量的样本全景视频,并将这些样本全景视频构建用于训练初始模型的训练集;获取每一个样本全景视频对应的样本识别结果;将训练集中的各个样本全景视频作为初始模型的输入,将对应的样本识别结果作为初始模型的输出,并对初始模型进行迭代训练,训练得到非局部注意力加权关系网络模型;从而提高训练后的非局部注意力加权关系网络模型的识别的准确率。
86.以下将对各个步骤进行详细说明:
87.步骤a10,获取多个不同场景的样本全景视频,并将所述样本全景视频构建用于训练初始模型的训练集。
88.在本实施例中,获取多个不同场景的样本全景视频,以这些样本全景视频为基础,构建初始模型的训练集。在构建训练集的过程中,需要对这些样本全景视频进行事先处理,使得从样本全景视频中提取后得到的全景图片大小和格式统一,这是为了便于批量处理。
89.需要说明的是,为确保非局部注意力加权关系网络模型的准确性,训练集中的样本全景视频要足够多,本实施例不限定训练集中样本全景视频的数量,一般采用样本全景视频作为一个训练集,在实际应用中,训练集中的样本全景视频越多,非局部注意力加权关系网络模型输出的识别结果就越准确。
90.步骤a20,获取各个样本全景视频对应的样本识别结果。
91.在本实施例中,获取用户对各个样本全景视频标注的样本识别结果,样本识别结果是用户事先在样本全景视频对应的样本全景图片上进行标注的结果。其中,样本识别结果对应的样本全景图片也需要进行事先处理,使得每一个样本识别结果对应的样本全景图片的大小和格式统一,这是为了便于批量处理。
92.步骤a30,将所述训练集中的所述样本全景视频作为所述初始模型的输入,将所述样本识别结果作为所述初始模型的输出,并对所述初始模型进行迭代训练,获得所述非局部注意力加权关系网络模型。
93.在本实施例中,将训练集中的各个样本全景视频作为初始模型的输入,将对应的样本识别结果作为初始模型的输出,并对初始模型进行迭代训练,训练得到非局部注意力加权关系网络模型;从而提高训练后的非局部注意力加权关系网络模型的识别的准确率。
94.在本实施例中,通过获取大量的样本全景视频,并将这些样本全景视频构建用于训练初始模型的训练集;获取每一个样本全景视频对应的样本识别结果;将训练集中的各个样本全景视频作为初始模型的输入,将对应的样本识别结果作为初始模型的输出,并对初始模型进行迭代训练,训练得到非局部注意力加权关系网络模型;从而提高训练后的非局部注意力加权关系网络模型的识别的准确率。
95.进一步地,基于本发明全景视频行为识别方法第一、二实施例,提出本发明全景视频行为识别方法第三实施例。
96.全景视频行为识别方法的第三实施例与全景视频行为识别方法的第一、二实施例的区别在于本实施例是对步骤s20,基于所述全景图片,通过所述多图片模块进行投影变换处理和编码,生成对应的特征图的细化,参照图7,该步骤具体包括:
97.步骤s21,将所述全景图片输入到所述多图片模块,并将所述全景图片映射到球形二十面体进行投影变化处理,生成预设数量个的切面图,其中,所述球形二十面体包括二十个等面积三角形面,将各个等面积三角形面进行预设次数划分,得到预设数量个等面积三角形面;
98.步骤s22,根据所述切面图,通过预设主干网络进行编码,得到对应的特征图。
99.在本实施例中,通过将全景图片输入到多图片模块,并将全景图片映射到球形二十面体进行投影变换处理,生成预设数量个切面图;通过预设主干网络对各个切面图进行编码,得到对应的特征图;从而获得精细化的全景图片的特征。
100.以下将对各个步骤进行详细说明:
101.步骤s21,将所述全景图片输入到所述多图片模块,并将所述全景图片映射到球形二十面体进行投影变化处理,生成预设数量个的切面图,其中,所述球形二十面体包括二十个等面积三角形面,将各个等面积三角形面进行预设次数划分,得到预设数量个等面积三角形面。
102.在本实施例中,将全景图片ui输入到多图片模块中,通过多图片模块将全景图片ui投影到球形二十面体进行投影变换处理,得到各个面体的切面图t
il
(0《l《n),也即一系列的切面图t
i1
,t
i2
,...,t
in
。其中,多图片模块可以解决全景图片投影所导致的扭曲效应,有效降低失真形变。
103.球形二十面体为具有二十个等面积三角面的球形多面体,其中,每一个等面积三角面都可以进一步细分为4个面积更小的等面积三角面,也即,在每一个等面积三角面进行一次细分后,得到含有20
×
4个总面数的球形二十面体,也即可以得到80个切面图。其中,将各个等面积三角形面进行预设次数划分,得到预设数量个等面积三角形面;也即,可对球形二十面体中每一个等面积三角面进行预设次数b细分,进而得到预设数量n=20
×4b
个等面积三角形面的球形二十面体;其中,预设次数b又称为球形二十面体的基础划分等级;实际
的预设次数可根据实际情况进行设置。
104.其中,使用切面图上的像素细分等级s,通过利用像素细分等级s和球形二十面体的基础划分等级b可计算得到整张切面图的分辨率r,分辨率r的公式表达如下:
105.r=2
s-b
×2s-b
106.其中,s标识像素细分等级,b为球形二十面体的基础划分等级,r为各个切面图的分辨率。
107.步骤s22,根据所述切面图,通过预设主干网络进行编码,得到对应的特征图。
108.在本实施例中,通过预设主干网络对各个面体的切面图t
il
进行编码,生成对应的特征图f
il
(0《l《n);其中,预设主干网络优选为cnn(卷积神经网络)主干网络。
109.在本实施例中,通过将全景图片输入到多图片模块,并将全景图片映射到球形二十面体进行投影变换处理,生成预设数量个切面图;通过预设主干网络对各个切面图进行编码,得到对应的特征图;从而获得精细化的全景图片的特征。
110.进一步地,基于本发明全景视频行为识别方法第一、二、三实施例,提出本发明全景视频行为识别方法第四实施例。
111.全景视频行为识别方法的第四实施例与全景视频行为识别方法的第一、二、三实施例的区别在于本实施例是对步骤s30,基于所述特征图,通过所述特征融合模块进行特征融合,得到对应的全局特征的细化,参照图8,该步骤具体包括:
112.步骤s31,将所述特征图输入到所述特征融合模块,并采用平均池化对所述特征图进行特征融合,得到对应的全局特征。
113.在本实施例中,将特征图输入到特征融合模块,采用平均池化对特征图进行特征融合,得到特征图对应的全局特征;从而获得精细化的全局特征。
114.以下将对各个步骤进行详细说明:
115.步骤s31,将所述特征图输入到所述特征融合模块,并采用平均池化对所述特征图进行特征融合,得到对应的全局特征。
116.在本实施例中,将特征图f
il
(0《l《n)输入到特征融合模块,采用平均池化对特征图f
il
进行特征融合,得到表示全局图片ui的全局特征gi;从而获得精细化的全局特征。
117.在本实施例中,将特征图输入到特征融合模块,采用平均池化对特征图进行特征融合,得到特征图对应的全局特征;从而获得精细化的全局特征。
118.进一步地,基于本发明全景视频行为识别方法第一、二、三、四实施例,提出本发明全景视频行为识别方法第五实施例。
119.全景视频行为识别方法的第五实施例与全景视频行为识别方法的第一、二、三、四实施例的区别在于本实施例是对步骤s40,基于所述全局特征,通过所述非局部注意力加权关系网络模块构建各个视频帧之间的时序关系函数,并通过所述时序关系函数进行行为识别,得到对应的识别结果的细化,参照图9,该步骤具体包括:
120.步骤s41,将所述全局特征输入到所述非局部注意力网络单元中,并对所述全局特征进行加权处理,得到对应的加权特征;
121.步骤s42,根据所述加权特征和所述全局特征,通过预设残差注意力模型进行残差训练,得到对应的编码特征;
122.步骤s43,将所述编码特征输入到所述关系网络单元,并构建各个视频帧之间的时
序关系函数,以及通过所述时序关系函数进行行为识别,得到对应的识别结果。
123.本实施例通过将全局特征输入到非局部注意力网络单元,并对全局特征进行加权处理,得到对应的加权特征;通过预设残差注意力模型对加权特征和全局特征进行残差训练,得到对应的编码特征;将编码特征输入到关系网络单元,通过关系网络单元对编码特征进行构建各个视频帧之间的时序关系函数,以及通过时序关系函数进行行为识别,得到对应的识别结果;从而提高行为识别的准确率。
124.以下将对各个步骤进行详细说明:
125.步骤s41,将所述全局特征输入到所述非局部注意力网络单元中,并对所述全局特征进行加权处理,得到对应的加权特征。
126.在本实施例中,非局部注意力加权关系网络模块包括非局部注意力网络单元和关系网络单元。由于不同的全景图片ui中所含有的动作信息不同,然后使用点积注意力来分辨具有显著动作片段的全景图片ui,用于行为识别。
127.将全局特征gi输入到非局部注意力加权关系网络模块中的非局部注意力网络单元,通过非局部注意力网络单元对全局特征gi进行加权处理,得到处理后的加权特征y。其中,加权特征y的表达式如下:
[0128][0129]
其中,分别为不同卷积神经网络中的可学习参数,softmax函数的输出是一个由不同的帧特征计算的加权矩阵y,为缩放因子。
[0130]
步骤s42,根据所述加权特征和所述全局特征,通过预设残差注意力模型进行残差训练,得到对应的编码特征。
[0131]
在本实施例中,通过预设残差注意力模型对加权特征和全局特征进行残差训练,得到对应的编码特征;其中,预设残差注意力模型优选为残差非局部注意力机制模型。其中,编码特征z的表达式如下:
[0132]
z=wzy+g
[0133]
其中,wz是需要在神经网络中训练的权重矩阵;y为加权矩阵;g为全局特征矩阵,且全局特征矩阵g被用作残差连接因子。
[0134]
步骤s43,将所述编码特征输入到所述关系网络单元,并构建各个视频帧之间的时序关系函数,以及通过所述时序关系函数进行行为识别,得到对应的识别结果。
[0135]
在本实施例中,将上述得到的编码特征z输入到非局部注意力加权关系网络模块中的关系网络单元,并通过关系网络单元对编码特征z构建各个视频帧之间的时序关系函数,以及通过时序关系函数进行行为识别,得到对应的识别结果t(p)。其中,识别结果t(p)的表达式如下:
[0136]
t(p)=r
φ
(∑
i《j《knθ
(zi,zj,zk))
[0137]
其中,p={zi,...,zk}为有序并加权的视频帧;zi表示全景视频中的第i
th
帧;函数r
φ
和函数n
θ
分别是参数为φ和θ的多层感知机函数。
[0138]
如,从一个给定的全景视频p中均匀地采样k个视频帧,公式t(p)=r
φ
(∑
i《j《knθ
(zi,zj,zk))中仅显示k=3,即采样3帧时的情况。而t(p)表示网络所识别出全景视频对应的识别结果。
[0139]
在本实施例中,将全局特征输入到非局部注意力网络单元,并对全局特征进行加权处理,得到对应的加权特征;通过预设残差注意力模型对加权特征和全局特征进行残差训练,得到对应的编码特征;将编码特征输入到关系网络单元,通过关系网络单元对编码特征进行构建各个视频帧之间的时序关系函数,以及通过时序关系函数进行行为识别,得到对应的识别结果;从而提高行为识别的准确率。
[0140]
本发明还提供一种全景视频行为识别装置。参照图10,本发明全景视频行为识别装置包括:
[0141]
获取模块10,用于获取待识别的全景视频,并提取出所述全景视频中各个视频帧对应的全景图片;
[0142]
变换模块20,用于基于所述全景图片,通过所述多图片模块进行投影变换处理和编码,生成对应的特征图;
[0143]
融合模块30,用于基于所述特征图,通过所述特征融合模块进行特征融合,得到对应的全局特征;
[0144]
识别模块40,用于基于所述全局特征,通过所述非局部注意力加权关系网络模块构建各个视频帧之间的时序关系函数,并通过所述时序关系函数进行行为识别,得到对应的识别结果。
[0145]
此外,本发明还提供一种介质,所述介质为计算机可读存储介质,其上存储有全景视频行为识别程序,全景视频行为识别程序被处理器执行时实现如上所述的全景视频行为识别方法的步骤。
[0146]
其中,在所述处理器上运行的全景视频行为识别程序被执行时所实现的方法可参照本发明全景视频行为识别方法各个实施例,此处不再赘述。
[0147]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
[0148]
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0149]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
[0150]
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书与附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1