基于相似性度量的沉浸式视频质量评价方法及装置

文档序号:39145419发布日期:2024-08-22 12:13阅读:18来源:国知局
基于相似性度量的沉浸式视频质量评价方法及装置

本发明涉及视频编码领域,特别涉及一种基于纹理和结构相似性度量的沉浸式视频质量评价方法及装置。


背景技术:

1、随着高速网络传输、视频采集、视频处理和显示技术的迅猛发展,以及人类对沉浸式体验需求的日益增长,沉浸式视频迎来爆发期,成为视频技术研究热点,在远程办公,智能交通、商业广播等领域广泛应用。相较于传统视频,沉浸式视频具备超广视角、高自由度、高分辨率等特性,具有极高的沉浸感和交互感。其中高自由度体现在当人观看视频时能够提供三个主轴上的平移以及三个辅助轴上的旋转运动,给用户带来一种身临其境的感觉。

2、沉浸式视频主要是采用多视点纹理加深度的视频格式,可由计算机生成或相机拍摄而成。其在视频处理过程中会受到各种失真的干扰,削弱了沉浸式场景的视觉表达效果,影响到用户的体验和降低主观感知质量。因此提出一种符合人眼视觉特性并能准确快速地对沉浸式视频的质量做出评价的算法是非常重要的。

3、现阶段大部分视频质量评价算法都主要集中在自然视频领域,但由于沉浸式视频在内容与视频格式上和自然视频都具有不同的时空特性导致了直接将自然视频相关的质量评价算法迁移到沉浸式视频上效果相对较差。因此设计符合人类视觉特性和沉浸式视频特点的质量评价算法具有重要的理论研究意义和实际应用价值。


技术实现思路

1、本发明的主要目的在于提出一种符合人类视觉系统主观感知和沉浸式视频特点的质量评价方法及装置,为解决视频中存在大量冗余信息的问题,对输入的参考和失真沉浸式视频进行筛选得到视频帧,然后利用预训练好的resnet50网络进行多尺度的帧级特征提取,对得到的特征图进行全局均值和相关性的计算并作相似性度量,接着通过设计一个具有记忆效应的时间池化策略分别得到纹理和深度视频的质量分数,最后依据人眼的视觉偏好,调整纹理和深度视频的质量分数权重以得到最终沉浸式视频的质量分数,具有较好的沉浸式视频质量评价效果。

2、本发明采用如下技术方案:

3、一方面,一种基于相似性度量的沉浸式视频质量评价方法,包括:

4、s101,将输入的参考沉浸式视频中的纹理视频和深度视频按照每预设帧选一帧来筛选视频帧,获得参考纹理视频帧和参考深度视频帧;将输入的失真沉浸式视频纹理视频和深度视频按照每预设帧选一帧来筛选视频帧,获得失真纹理视频帧和失真深度视频帧;

5、s102,采用预训练好resnet50的模型分别对参考纹理视频帧、失真纹理视频帧、参考深度视频帧和失真深度视频帧进行多尺度特征提取,获得参考纹理视频帧特征、失真纹理视频帧特征、参考深度视频帧特征和失真深度视频帧特征;

6、s103,基于参考纹理视频帧特征和失真纹理视频帧特征,计算全局均值和相关性,并做相似性度量,获得纹理视频帧的纹理特征和结构特征,通过全连接函数得到纹理视频帧的单帧质量分数;基于参考深度视频帧特征和失真深度视频帧特征,计算全局均值和相关性,并做相似性度量,获得深度视频帧的纹理特征和结构特征,通过全连接函数得到深度视频帧的单帧质量分数;

7、s104,对于纹理视频和深度视频,分别用前几帧质量分数的最小值来表示当前帧记忆质量元素,用后续帧的加权质量分数来构建当前帧质量元素,将记忆质量元素与当前帧质量元素通过线性表示来拟合当前帧的质量分数,并通过全局平均池化得到纹理视频的质量分数和深度视频的质量分数;

8、s105,将纹理视频的质量分数和深度视频的质量分数依据人眼偏好特性分配权重,得到最终的沉浸式视频质量分数。

9、优选的,s101中,将输入的参考沉浸式视频中的纹理视频和深度视频按照每预设帧选一帧来筛选视频帧,具体包括:将输入的参考沉浸式视频中的纹理视频和深度视频按照每12帧选一帧来筛选视频帧;

10、将输入的失真沉浸式视频中的纹理视频和深度视频按照每预设帧选一帧来筛选视频帧,具体包括将输入的失真沉浸式视频中的纹理视频和深度视频按照每12帧选一帧来筛选视频帧。

11、优选的,s102中,采用预训练好resnet50的模型分别对参考纹理视频帧、失真纹理视频帧、参考深度视频帧和失真深度视频帧进行多尺度特征提取,获得各视频帧的特征,具体如下:

12、

13、

14、其中, 和分别表示参考视频帧和失真视频帧,表示纹理视频和深度视频;当表示纹理视频时,表示输入的参考纹理视频帧,表示输入的失真纹理视频帧,表示提取到的参考纹理视频帧特征,表示提取到的失真纹理视频帧特征;当表示深度视频时,表示输入的参考深度视频帧,表示输入的失真深度视频帧,表示提取到的参考深度视频帧特征,表示提取到的失真深度视频帧特征;表示resnet50的5个尺度,表示第个阶段中的特征图的数量。

15、优选的,s103中,获得的纹理视频帧的纹理特征和深度视频帧的纹理特征,表示如下:

16、

17、获得的纹理视频帧的结构特征和深度视频帧的结构特征,表示如下:

18、

19、得到的纹理视频帧的单帧质量分数和深度视频帧的单帧质量分数,表示如下:

20、

21、其中,表示的全局均值;表示的全局均值;表示的方差;表示的方差;表示和的协方差;和是两个避免公式中的数值不稳定的常数;表示两个全连接层函数;当表示纹理视频时,表示纹理视频中第帧的质量分数,当表示深度视频时,表示深度视频中第帧的质量分数。

22、优选的,s104中,用前几帧质量分数的最小值来表示当前帧的记忆质量元素,表示如下:

23、

24、其中,,表示的记忆效应所考虑的帧数,表示与时间持续相关的超参数;当表示纹理视频时,表示纹理视频中第帧的质量分数,当表示深度视频时,表示深度视频中第帧的质量分数;

25、用后续帧的加权质量分数来构建当前帧质量元素,表示如下:

26、

27、

28、其中,表示相关帧的索引集;表示加权质量分数;

29、将记忆质量元素与当前帧质量元素通过线性表示来拟合当前帧的质量分数,并通过全局平均池化得到纹理视频的质量分数和深度视频的质量分数,表示如下:

30、

31、

32、其中,表示拟合质量分数;是一个用来平衡记忆元素和当前元素对当前视频帧分数的超参数;表示输入的视频帧数;当表示纹理视频时,为表示纹理视频的质量分数,当表示深度视频时,为表示深度视频的质量分数。

33、优选的,s105中,将纹理视频的质量分数和深度视频的质量分数依据人眼偏好特性分配权重,得到最终的沉浸式视频质量分数,表示如下:

34、

35、其中,表示沉浸式视频质量分数;用于调整和的相对重要性。

36、另一方面,一种基于相似性度量的沉浸式视频质量评价装置,包括:

37、纹理视频帧和深度视频帧获取模块,用于将输入的参考沉浸式视频中的纹理视频和深度视频按照每预设帧选一帧来筛选视频帧,获得参考纹理视频帧和参考深度视频帧;将输入的失真沉浸式视频中的纹理视频和深度视频按照每预设帧选一帧来筛选视频帧,获得失真纹理视频帧和失真深度视频帧;

38、视频帧特征获取模块,用于采用预训练好resnet50的模型分别对参考纹理视频帧、失真纹理视频帧、参考深度视频帧和失真深度视频帧进行多尺度特征提取,获得参考纹理视频帧特征、失真纹理视频帧特征、参考深度视频帧特征和失真深度视频帧特征;

39、单帧质量分数获取模块,用于基于参考纹理视频帧特征和失真纹理视频帧特征,计算全局均值和相关性,并做相似性度量,获得纹理视频帧的纹理特征和结构特征,通过全连接函数得到纹理视频帧的单帧质量分数;基于参考深度视频帧特征和失真深度视频帧特征,计算全局均值和相关性,并做相似性度量,获得深度视频帧的纹理特征和结构特征,通过全连接函数得到深度视频帧的单帧质量分数;

40、纹理视频和深度视频质量分数获取模块,用于对于纹理视频和深度视频,分别用前几帧质量分数的最小值来表示当前帧记忆质量元素,用后续帧的加权质量分数来构建当前帧质量元素,将记忆质量元素与当前帧质量元素通过线性表示来拟合当前帧的质量分数,并通过全局平均池化得到纹理视频的质量分数和深度视频的质量分数;

41、沉浸式视频质量分数获取模块,用于将纹理视频的质量分数和深度视频的质量分数依据人眼偏好特性分配权重,得到最终的沉浸式视频质量分数。

42、与现有技术相比,本发明的有益效果如下:

43、考虑到卷积神经网络能够通过多层卷积提取沉浸式视频中视觉特征和语义信息,模拟人类视觉特性对关键信息进行表征,因此本发明首先利用卷积神经网络进行特征提取,计算每一对特征图的全局均值和全局相关性,并将二者的相似性度量结果作为纹理和结构的特征表示;然后设计基于主观启发的时间池化策略得到纹理和深度视频的质量分数;最后依据人眼视觉偏好,对纹理和深度视频质量评分进行权重调整,得到最终的沉浸式视频质量分数;本发明充分考虑人眼视觉系统特性及沉浸式视频的特点,具有较高的稳定性和鲁棒性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1