视频场景识别方法、装置、存储介质及电子设备与流程

文档序号：33753519发布日期：2023-04-18 14:01阅读：79来源：国知局

本说明书涉及计算机，尤其涉及一种视频场景识别方法、装置、存储介质及电子设备。

背景技术：

1、视频场景识别是计算机视觉领域中基于图像分割技术的重要研究方向，视频场景识别作为图像语义理解的重要一环。基于图像分割技术的视频场景识别是指将图像分成若干具有相似性质的区域的过程，简单来讲就是对于视频中至少一帧视频帧，分割出不同类别的物体所在的区域。

技术实现思路

1、本说明书提供了一种视频场景识别方法、装置、存储介质及电子设备，所述技术方案如下：

2、第一方面，本说明书提供了一种视频场景识别方法，所述方法包括：

3、获取目标视频的目标视频帧；

4、将目标视频帧输入场景解析网络中，通过所述场景解析网络确定所述目标视频帧对应的第一区域图像特征和参考视频帧对应的第二区域图像特征，所述参考视频帧为所述目标视频帧之前的视频帧；

5、通过所述场景解析网络对所述第一区域图像特征和第二区域图像特征进行时序特征融合，输出所述目标视频帧对应的区域类别图。

6、第二方面，本说明书提供了一种视频场景识别装置，所述装置包括：

7、帧获取模块，用于获取目标视频的目标视频帧；

8、特征确定模块，用于将目标视频帧输入场景解析网络中，通过所述场景解析网络确定所述目标视频帧对应的第一区域图像特征和参考视频帧对应的第二区域图像特征，所述参考视频帧为所述目标视频帧之前的视频帧；

9、特征融合模块，用于通过所述场景解析网络对所述第一区域图像特征和第二区域图像特征进行时序特征融合，输出所述目标视频帧对应的区域类别图。

10、第三方面，本说明书提供一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行上述的方法步骤。

11、第四方面，本说明书提供一种电子设备，可包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行上述的方法步骤。

12、在本说明书实施例中，通过获取目标视频的目标视频帧，将目标视频帧输入场景解析网络中，通过场景解析网络来确定所述目标视频帧对应的第一区域图像特征和参考视频帧对应的第二区域图像特征，所述参考视频帧为所述目标视频帧之前的视频帧；再通过场景解析网络对所述第一区域图像特征和第二区域图像特征进行时序特征融合，通过基于参考视频帧的第二区域图像特征可以辅助对目标视频帧的视频场景识别，进而获取到视频场景中丰富的图像信息，再输出目标视频帧对应的区域类别图，区域类别图中包含准确的区域类别结果，可以大幅提高视频场景识别的准确率。

技术特征：

1.一种视频场景识别方法，所述方法包括：

2.根据权利要求1所述的方法，所述场景解析网络包含空间分支网络、语义分支网络以及特征融合网络，

3.根据权利要求2所述的方法，所述通过所述语义分支网络对所述目标视频帧进行语义信息分割处理，得到语义信息特征，包括：

4.根据权利要求1所述的方法，所述通过所述场景解析网络对所述第一区域图像特征和第二区域图像特征进行时序特征融合，输出所述目标视频帧对应的区域类别图，包括：

5.根据权利要求4所述的方法，所述对所述第一区域图像特征和第二区域图像特征进行特征拼接处理，得到图像融合特征，包括：

6.根据权利要求4所述的方法，所述时序特征融合模块包含至少一个视觉变换器，

7.根据权利要求4所述的方法，所述第二区域图像特征为多个，

8.根据权利要求7所述的方法，所述基于所述场景解析网络的时序特征融合模块对各所述第二区域特征进行特征融合，得到特征融合处理后的目标第二区域图像特征，包括：

9.根据权利要求1所述的方法，所述将目标视频帧输入场景解析网络中，通过所述场景解析网络确定所述目标视频帧对应的第一区域图像特征和参考视频帧对应的第二区域图像特征，包括：

10.根据权利要求1或9所述的方法，所述方法还包括：

11.根据权利要求10所述的方法，所述基于目标帧间隔获取所述目标视频帧之前的目标数量指示的参考视频帧之前，还包括：

12.根据权利要求10所述的方法，所述基于所述至少一帧历史视频帧确定目标数量指示的参考视频帧，包括：

13.一种视频场景识别装置，所述装置包括：

14.一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1～12任意一项的方法步骤。

15.一种电子设备，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1～12任意一项的方法步骤。

技术总结
本说明书公开了一种视频场景识别方法、装置、存储介质及电子设备，其中方法包括：获取目标视频的目标视频帧，将目标视频帧输入场景解析网络中，通过所述场景解析网络确定目标视频帧对应的第一区域图像特征和参考视频帧对应的第二区域图像特征，通过场景解析网络对第一区域图像特征和第二区域图像特征进行时序特征融合，输出目标视频帧对应的区域类别图。采用本说明书，可以提高视频场景识别的准确率。

技术研发人员：颜波
受保护的技术使用者：支付宝（杭州）信息技术有限公司
技术研发日：
技术公布日：2024/1/13

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：颜波
技术所有人：支付宝（杭州）信息技术有限公司
我是此专利的发明人

上一篇：一种用于农作物秸秆还田的复合微生物菌剂的制作方法
上一篇：一种人体生理指标监测分析系统及方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。