无参考全景视频质量评价方法、系统、终端及介质

文档序号:25647354发布日期:2021-06-25 17:43阅读:156来源:国知局
无参考全景视频质量评价方法、系统、终端及介质

1.本发明涉及多媒体技术领域的一种全景视频质量评估方法,特别是涉及一种基于超像素的无参考全景视频质量评价方法、系统、终端及介质。


背景技术:

2.随着虚拟现实(virtual reality,vr)技术的快速发展,越来越多的vr应用需要高质量的全景视频。全景图像和视频解决了一般平面图的视角单一、不能带来全方位感受的缺憾,其记录的360度球面范围内所有的景致使得全景图像和视频的场景更加丰富。高分辨率的全景图像和视频能够提供给用户更加具有沉浸式、更加真实的体验,然而,在真实通信系统中,全景图像视频必须经过投影和压缩处理才能便于存储、传输和处理,质量下降的全景图像和视频会降低用户体验质量,更严重会引起用户头晕与不适感。
3.全参考质量评价模型的准确度虽然一般来说较高,但在实际通信系统中,一般而言,接收方通常没有未失真的源图像/视频,因此全参考模型的实用性会大大降低。无参考视频质量评价(no

reference panoramic video quality assessment,nr

pvqa)是指在参考序列不存在的情况下,直接衡量失真序列的视觉质量。nr

pvqa不需要原始的参考序列,也不需要知道序列的失真类型,更适合实际应用中评估传输中产生的失真情况。因此,设计一种无参考的全景视频质量评估方法具有重大意义。
4.经过检索发现:
5.公开号为cn110691236a,公开日为2020年1月14日的中国发明专利申请《一种全景视频质量评价方法》,其将原始全景视频和待评价的全景视频分成若干个帧组,并采用立方体投影方法投影到立方体的六个平面上,然后计算在每个帧组和每个投影面的空域相似性和频域相似性,并根据所有帧组和所有投影面的空域相似性和频域相似性,融合得到待评价的全景视频的客观评价值。该方法仍然存在如下技术问题:该方法是一种全参考全景评估方法,需要原始的参考全景图像,这在现实应用中是无法获得的;该方法仅仅提取了原始全景图像和失真图像的空域相似性和频域相似来评价全景质量,没有考虑投影关系和人眼感知特征,无法准确反映观察空间和处理平面之间全景内容的畸变情况。
6.目前没有发现同本发明类似技术的说明或报道,也尚未收集到国内外类似的资料。


技术实现要素:

7.本发明针对现有技术中存在的上述不足,提供了一种基于超像素的无参考全景视频质量评价方法、系统、终端及介质。
8.根据本发明的一个方面,提供了一种无参考全景视频评价方法,包括:
9.获得失真图像的基于梯度域的局部二值模式的erp(经纬图投影equi

rectangular projection,erp)平面结构特征;
10.对失真图像进行超像素分割处理,分别获得基于超像素的人眼感知的权重和基于
超像素的投影关系的权重;
11.根据所述局部二值模式的结构特征以及所述人眼感知的权重和所述投影关系的权重,提取全景视频单帧图像的结构特征;
12.根据所述全景视频单帧图像的结构特征,估计全景视频质量分数。
13.优选地,所述获得失真图像的基于梯度域的局部二值模式的erp平面结构特征,包括:
14.计算全景视频中失真图像的单帧图像的梯度图像;
15.在梯度域的基础上,对所述梯度图像的像素进行编码,得到基于梯度域的局部二值模式的erp平面结构特征。
16.优选地,所述计算全景视频中的单帧图像的梯度图像,包括:
17.采用prewitt算子计算图像梯度,通过单帧图像与prewitt算子两个方向的模版的卷积表示失真图像的梯度等级,则失真图像i(x,y)的梯度图像g(x,y)表示为:
[0018][0019]
式中,*表示卷积运算;p
x
和p
y
表示横向和纵向两个方向的模板,分别用于计算横向和纵向的边缘;
[0020]
所述在梯度域的基础上,对所述梯度图像的像素进行编码,包括:
[0021]
使用旋转不变的均匀lbp算子,对所述梯度图像的像素点进行编码,得到基于梯度域的局部二值模式的结构特征lbp
p,r

[0022][0023]
式中,p表示中心点像素周围的元素个数,r表示周围像素选取的半径,g
c
表示中心像素点梯度幅值,g
i
表示周围像素点梯度幅值;其中:
[0024][0025][0026]
式中,u为逐比特进行计算的均匀尺度,表示二进制序列从0到1和从1到0的跳变次数。
[0027]
优选地,所述跳变次数一共不超过2次。
[0028]
优选地,所述对失真图像进行超像素分割处理,包括:
[0029]
采用线性迭代聚类法,对失真图像中的像素进行聚集,进而将离散的像素分割成由多个像素组成的超像素。
[0030]
优选地,所述获得基于超像素的人眼感知的权重,包括:
[0031]
设全景图像的尺寸为m
×
n,超像素的纵坐标即该超像素距离全景图像上边界的距离为y1,n

y1为该超像素到全景图像下边界的距离,则单个超像素的权重ω
1i
为:
[0032]
ω
1i
=min{d1,d2}
[0033]
其中:
[0034][0035]
每个超像素的权重ω
1i
由超像素中距离边界最近的像素决定,因此每个超像素的人眼感知的权重ω1定义为:
[0036]
ω1=min{y1,n

y1,

y
n
,n

y
n
}
[0037]
式中,n表示超像素中像素的个数;ω1越大,表明该超像素越接近全景图像的赤道附近,反之则距离赤道越远。
[0038]
优选地,所述获得基于超像素的投影关系的权重,包括:
[0039]
设erp平面和球面的坐标在连续空域中分别为(x,y)和则erp平面和球面之间的变换关系为:
[0040][0041]
其中,θ∈(

π,π),因此,面积拉伸比sr定义为:
[0042][0043]
则数字图像的权重sr(i,j)定义为:
[0044]
sr(i,j)=sr(x(i,j),y(i,j))
[0045]
设m
×
n为erp平面图像的尺寸,则{(i,j)|0<i≤m,0<j≤n},那么连续域与离散域的变换关系为:
[0046][0047]
因此,投影关系最终定义为:
[0048][0049]
将所述投影关系与超像素分割处理后得到的超像素分割图进行结合,即计算超像素中所有像素与全景图像上下边界之间的距离,用距离最小的像素点对应的投影关系作为整个超像素的权重,即单个超像素于全景投影的权重ω2为:
[0050]
ω2=sr(i,d
min
)
[0051]
所述ω2即为基于超像素的投影关系的权重;
[0052]
其中,d
min
表示每个超像素中所有像素点与全景图像上下边界最近的距离:
[0053]
d
min
=min{y1,n

y1,

y
n
,n

y
n
}。
[0054]
优选地,所述提取全景视频单帧图像的结构特征,包括:
[0055]
将所述人眼感知的权重ω1和所述投影关系的权重ω2进行融合,则获得融合权重为:
[0056]
ω=ω1·
ω2[0057]
将获得的erp平面结构特征与所述融合权重ω进行结合,具有相同lbp编码的融合
权重进行叠加统计然后归一化即获得全景视频单帧图像的结构特征pw(k):
[0058][0059]
其中:
[0060][0061]
式中,n为像素的个数;k为梯度域lbp编码的取值情况,表示全景统合权重;
[0062]
对失真图像进行多次下采样,获得不同尺度上的全景的结构特征。
[0063]
优选地,所述估计全景视频质量分数,包括:
[0064]
获取全景视频前t帧的全景视频单帧图像的结构特征并取其平均值,则针对失真视频序列,其全景的结构特征pw
video
为:
[0065][0066]
式中,pw
i
为全景视频前t帧中第i帧的全景视频单帧图像的结构特征;
[0067]
将获得的全景的结构特征pw
video
输入至svr模型中,获得质量分数预测模型,将特征映射为最终全景视频质量分数。
[0068]
根据本发明的另一个方面,提供了一种无参考全景视频评估系统,包括:
[0069]
局部结构特征获取模块,该模块获得失真图像的基于梯度域的局部二值模式的erp平面结构特征;
[0070]
权重获取模块,该模块对失真图像进行超像素分割处理,分别获得基于超像素的人眼感知的权重和基于超像素的投影关系的权重;
[0071]
全景结构特征获取模块,该模块根据所述局部二值模式的结构特征以及所述人眼感知的权重和所述投影关系的权重,提取全景视频单帧图像的结构特征;
[0072]
质量评价模块,该模块根据所述全景视频单帧图像的结构特征,估计全景视频质量分数。
[0073]
根据本发明的第三个方面,提供了一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行上述任一项所述的方法。
[0074]
根据本发明的第四个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可用于执行上述任一项所述的方法。
[0075]
由于采用了上述技术方案,本发明与现有技术相比,具有如下至少一项的有益效果:
[0076]
本发明提供的无参考全景视频质量评价方法、系统、终端及介质,基于投影关系(投影格式)和人眼感知构建全景加权结构特征,能够准确反映观察空间和处理平面之间全景内容的畸变情况。
[0077]
本发明提供的无参考全景视频质量评价方法、系统、终端及介质,不需要原始的参考序列,也不需要知道序列的失真类型,属于无参考视频质量评估技术,更适合实际应用中评估传输中产生的失真情况。
[0078]
本发明提供的无参考全景视频质量评价方法、系统、终端及介质,考虑了观察空间和映射空间不一致的特性,但所使用的全景结构特征与人眼感知更一致。
[0079]
本发明提供的无参考全景视频质量评价方法、系统、终端及介质,在实时通信系统中实用性更强。
[0080]
本发明提供的无参考全景视频质量评价方法、系统、终端及介质,失真的实验结果性能均为最高,具有更好的鲁棒性。
附图说明
[0081]
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
[0082]
图1为本发明一实施例提供的无参考全景视频质量评价方法流程图。
[0083]
图2为本发明一优选实施例提供的无参考全景视频质量评价方法流程图。
[0084]
图3为本发明一优选实施例中lbp计算过程示意图。
[0085]
图4为本发明一优选实施例中梯度域lbp图;其中,(a)为原始图像,(b)为原始图像对应lbp,(c)~(f)依次为jpeg失真、jpeg2000失真、高斯噪声、高斯模糊对应lbp。
[0086]
图5为本发明一优选实施例中基于超像素的人眼感知的权重示意图。
[0087]
图6为本发明一优选实施例中erp平面与球面图像之间的映射关系示意图。
[0088]
图7为本发明一优选实施例中失真图像及其融合权重示意图;其中,(a)为失真图像,(b)为融合权重。
[0089]
图8为本发明一优选实施例中预测分数与主观分数的拟合散点图;其中,(a)~(e)分别为ws

ssim、s

psnr、ws

psnr、cpp

psnr和sp

pvqa方法获得的预测分数与主观分数的拟合散点图。
[0090]
图9为本发明一实施例提供的无参考全景视频质量评价系统组成模块示意图。
具体实施方式
[0091]
下面对本发明的实施例作详细说明:本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
[0092]
图1为本发明一实施例提供的无参考全景视频质量评价方法流程图。
[0093]
如图1所示,该实施例提供的无参考全景视频质量评价方法,可以包括如下步骤:
[0094]
s100,获得失真图像的基于梯度域的局部二值模式的erp(经纬图投影equi

rectangular projection,erp)平面结构特征;
[0095]
s200,对失真图像进行超像素分割处理,分别获得基于超像素的人眼感知的权重和基于超像素的投影关系的权重;
[0096]
s300,根据局部二值模式的结构特征以及人眼感知的权重和投影关系的权重,提取全景视频单帧图像的结构特征;
[0097]
s400,根据全景视频单帧图像的结构特征,估计全景视频质量分数。
[0098]
在该实施例的s100中,获得失真图像的基于梯度域的局部二值模式的erp平面结
构特征,可以包括如下步骤:
[0099]
s101,计算全景视频中失真图像的单帧图像的梯度图像;
[0100]
s102,在梯度域的基础上,对梯度图像的像素进行编码,得到基于梯度域的局部二值模式的erp平面结构特征。
[0101]
进一步地,在该实施例的s101中,计算全景视频中的单帧图像的梯度图像,可以包括如下步骤:
[0102]
采用prewitt算子计算图像梯度,通过单帧图像与prewitt算子两个方向的模版的卷积表示失真图像的梯度等级,则失真图像i(x,y)的梯度图像g(x,y)表示为:
[0103][0104]
式中,*表示卷积运算;p
x
和p
y
表示横向和纵向两个方向的模板,分别用于计算横向和纵向的边缘。
[0105]
进一步地,在该实施例的s102中,在梯度域的基础上,对梯度图像的像素进行编码,可以包括如下步骤:
[0106]
使用旋转不变的均匀lbp算子,对梯度图像的像素点进行编码,得到基于梯度域的局部二值模式的结构特征lbp
p,r

[0107][0108]
式中,p表示中心点像素周围的元素个数,r表示周围像素选取的半径,g
c
表示中心像素点梯度幅值,g
i
表示周围像素点梯度幅值;其中:
[0109][0110][0111]
式中,u为逐比特进行计算的均匀尺度,表示二进制序列从0到1和从1到0的跳变次数。
[0112]
进一步地,该跳变次数一共不超过2次。
[0113]
在该实施例的s200中,对失真图像进行超像素分割处理,可以包括如下步骤:
[0114]
采用线性迭代聚类法,对失真图像中的像素进行聚集,进而将离散的像素分割成由多个像素组成的超像素。
[0115]
进一步地,进行聚集的像素通过以下方式确定:
[0116]
将彩色的失真图像转化为5维特征向量,该5维特征向量包括cielab颜色空间中的三维颜色信息和两维空间位置,然后对5维特征向量构造距离度量标准,通过距离度量判断进行聚集的像素。
[0117]
在该实施例的s200中,获得基于超像素的人眼感知的权重,可以包括如下步骤:
[0118]
s2a1,设全景图像的尺寸为m
×
n,超像素的纵坐标即该超像素距离全景图像上边界的距离为y1,n

y1为该超像素到全景图像下边界的距离,则单个超像素的权重ω
1i
为:
[0119]
ω
1i
=min{d1,d2}
[0120]
其中:
[0121][0122]
s2a2,每个超像素的权重ω
1i
由超像素中距离边界最近的像素决定,因此每个超像素的人眼感知的权重ω1定义为:
[0123]
ω1=min{y1,n

y1,

y
n
,n

y
n
}
[0124]
式中,n表示超像素中像素的个数;ω1越大,表明该超像素越接近全景图像的赤道附近,反之则距离赤道越远。
[0125]
在该实施例的s200中,获得基于超像素的投影关系的权重,可以包括如下步骤:
[0126]
s2b1,设erp平面和球面的坐标在连续空域中分别为(x,y)和则erp平面和球面之间的变换关系为:
[0127][0128]
其中,θ∈(

π,π),因此,面积拉伸比sr定义为:
[0129][0130]
则数字图像的权重sr(i,j)定义为:
[0131]
sr(i,j)=sr(x(i,j),y(i,j))
[0132]
s2b2,设m
×
n为erp平面图像的尺寸,则{(i,j)|0<i≤m,0<j≤n},那么连续域与离散域的变换关系为:
[0133][0134]
因此,投影关系最终定义为:
[0135][0136]
s2b3,将投影关系与超像素分割处理后得到的超像素分割图进行结合,即计算超像素中所有像素与全景图像上下边界之间的距离,用距离最小的像素点对应的投影关系作为整个超像素的权重,即单个超像素于全景投影的权重ω2为:
[0137]
ω2=sr(i,d
min
)
[0138]
ω2即为基于超像素的投影关系的权重;
[0139]
其中,d
min
表示每个超像素中所有像素点与全景图像上下边界最近的距离:
[0140]
d
min
=min{y1,n

y1,

y
n
,n

y
n
}。
[0141]
在该实施例的s300中,提取全景视频单帧图像的结构特征,可以包括如下步骤:
[0142]
s301,将人眼感知的权重ω1和投影关系的权重ω2进行融合,则获得融合权重为:
[0143]
ω=ω1·
ω2[0144]
s302,将获得的erp平面结构特征与融合权重ω进行结合,具有相同lbp编码的融
合权重进行叠加统计然后归一化即获得全景视频单帧图像的结构特征pw(k):
[0145][0146]
其中:
[0147][0148]
式中,n为像素的个数;k为梯度域lbp编码的取值情况,表示全景统合权重;
[0149]
s303,对失真图像进行多次下采样,获得不同尺度上的全景的结构特征。
[0150]
在该实施例的s400中,估计全景视频质量分数,可以包括如下步骤:
[0151]
s401,获取全景视频前t帧的全景视频单帧图像的结构特征并取其平均值,则针对失真视频序列,其全景的结构特征pw
video
为:
[0152][0153]
式中,pw
i
为全景视频前t帧中第i帧的全景视频单帧图像的结构特征;
[0154]
s402,将获得的全景的结构特征pw
video
输入至svr模型中,获得质量分数预测模型,将特征映射为最终全景视频质量分数。
[0155]
本发明上述实施例提供的无参考全景视频质量评价方法,针对失真的全景视频进行质量监控,用户观看全景视频的主观数据显示赤道附近的对象会吸引更多的人眼关注,利用这一中心理论,本发明上述实施例提供了一种基于超像素分割的无参考全景视频质量评价算法(panoramic video quality assessment based on super

pixel,sp

pvqa)。该实施例基于投影格式和人眼感知构建全景加权结构特征,能够准确反映观察空间和处理平面之间全景内容的畸变情况。该实施例不需要原始的参考序列,也不需要知道序列的失真类型,属于无参考视频质量评估模型,更适合实际应用中评估传输中产生的失真情况。
[0156]
图2为本发明一优选实施例提供的无参考全景视频质量评价方法流程图。
[0157]
该优选实施例提供的无参考全景视频质量评价方法,首先利用全景视频中每一帧图像的二阶导数表达在erp平面上的结构特征,其次将基于超像素的投影格式(投影关系)和人眼感知形成的融合(全景)权重与该结构特征融合,获得单帧的全景结构特征,最后取视频中的前t帧的平均值作为全景视频序列的全景结构特征,最后将所得全景结构特征放入svr模型建立质量预测模型,完成质量评价。
[0158]
如图2所示,该优选实施例提供的无参考全景视频质量评价方法,可以包括如下步骤:
[0159]
步骤1、基于梯度域的局部二值模式的erp平面结构特征提取:图像的二阶导数可以有效地捕捉到对全景图像视觉感知质量有影响的局部边缘的变化。因此,首先计算全景视频中的单帧图像的梯度强度作为一阶导数信息,在梯度域的基础上使用lbp算子对像素进行编码,获得基于梯度域的局部二值模式的erp平面结构特征,得到更详细的边缘信息;
[0160]
步骤2、基于超像素的人眼感知的权重计算:超像素分割方法可以将相似的像素进行聚集,也就是将离散的像素分割成了多个像素组成的超像素,而相较于离散像素,分割成超像素更接近于人眼对图像内容的理解;
[0161]
步骤3、基于超像素的投影关系(投影格式)的权重计算:当像素点从erp平面映射到球面时,像素的面积被不同程度地拉伸。因此,观察空间和处理空间之间的关系可以表示为两者的面积拉伸比;
[0162]
步骤4、全景视频单帧图像的结构特征提取:由步骤1中erp平面结构特征在erp平面图像上计算,不能线性反应球面上的失真,因此将步骤2和步骤3得到的权重图与步骤1中erp平面结构特征进行结合得到映射加权的全景的结构特征,能够准确的反应球面上的失真情况,更接近人眼主观感知;
[0163]
步骤5、全景图像质量分数估计:由上述步骤4获得全景视频单帧图像的结构特征训练得到的质量分数预测模型将失真图像的特征映射为最终的全景视频质量分数。
[0164]
作为一优选实施例,在步骤1中,基于梯度域的局部二值模式的erp平面结构特征提取的方法如下:
[0165]
采用计算简单的prewitt算子计算图像梯度,通过图像与prewitt算子两个方向的模版的卷积表示失真图像的梯度等级,i(x,y)表示失真图像,则其梯度图像计算如下:
[0166][0167]
式中,*表示卷积运算,p
x
和p
y
代表横向和纵向的模板,分别计算横向和纵向的边缘,i(x,y)和g(x,y)分别表示失真图像和对应的梯度图像。
[0168]
使用旋转不变的均匀lbp算子,对梯度图像的像素点进行编码,计算公式为:
[0169][0170]
式中,p表示中心点像素周围的元素个数,r表示周围像素选取的半径,g
c
表示中心像素点梯度幅值,g
i
表示周围像素点梯度幅值。其中:
[0171][0172][0173]
u是逐比特进行计算的均匀尺度,即二进制序列从0到1、从1到0的跳变次数不超过2次。lbp描述了图像中心像素点和周围像素点的关系,这些图像的局部结构模式可以有效地描述不同失真原因引起的图像结构失真。
[0174]
作为一优选实施例,在步骤2中,获得基于超像素的人眼感知的权重的方法如下:
[0175]
首先,使用简单线性迭代聚类法(simple linear iterativeclustering,slic)对失真图像进行超像素分割处理,可获得超像素;然后,进一步通过赤道附近的内容更容易吸引关注这一中心理论,分别计算每个超像素的人眼感知权重。设全景图像的尺寸为m
×
n,超像素的纵坐标为y1,即该超像素距离全景图像上边界的距离,n

y1为该超像素到全景图像下边界的距离,则单个像素的权重为:
[0176]
ω
1i
=min{d1,d2}
[0177]
其中:
[0178][0179]
每个超像素的权重应该由超像素中距离边界最近的像素决定,因此则每个超像素的人眼感知的权重定义为:
[0180]
ω1=min{y1,n

y1,

y
n
,n

y
n
}
[0181]
其中,n表示超像素中像素的个数。ω1越大,表明该超像素越接近全景图像的赤道附近,反之则距离赤道越远。
[0182]
作为一优选实施例,在步骤3中,获得基于超像素的投影关系的权重的方法,包括:
[0183]
设erp平面和球面的坐标在连续空域中分别为(x,y)和两者之间的变换关系为:
[0184][0185]
其中,θ∈(

π,π),因此,面积拉伸比sr(stretching ratio,sr)可以定义为:
[0186][0187]
则数字图像的权重sr(i,j)可以定义为:
[0188]
sr(i,j)=sr(x(i,j),y(i,j))
[0189]
设m
×
n为erp平面图像的尺寸,则{(i,j)|0<i≤m,0<j≤n},那么连续域与离散域的变换关系为:
[0190][0191]
因此,投影关系最终定义为:
[0192][0193]
将此投影关系与超像素分割图进行结合,即计算超像素中所有像素与全景图像上下边界之间的距离,用距离最小的像素点对应的投影关系作为整个超像素的权重,即单个超像素于全景投影的权重为:
[0194]
ω2=sr(i,d
min
)
[0195]
ω2即为基于超像素的投影关系的权重;
[0196]
其中,d
min
表示每个超像素中所有像素点与全景图像上下边界最近的距离:
[0197]
d
min
=min{y1,n

y1,

y
n
,n

y
n
}。
[0198]
作为一优选实施例,在步骤4中,将基于人眼感知的权重和基于投影关系的权重进行融合,则可获得融合后的权重(融合权重)为:
[0199]
ω=ω1·
ω2[0200]
图中越亮的部分表示超像素的权重越大。
[0201]
将获得的erp平面结构特征与融合权重进行结合,具有相同lbp编码的融合权重进
行叠加统计然后归一化即可获得全景视频单帧图像的结构特征,计算公式如下:
[0202][0203]
其中:
[0204][0205]
n是像素的个数,k为梯度域lbp编码的取值情况,为全景统合权重,pw(k)即全景结构特征。考虑到人眼视觉系统在不同的图像尺度上可以捕捉不同的信息,对失真图像进行多次(如4次)下采样,获得不同尺度上的全景结构特征,图7列出了不同失真情况下的全景结构统计直方图,可以看出不同失真导致单帧的全景特征与原始视频中单帧的全景特征发生了明显变化。
[0206]
作为一优选实施例,在步骤5中,为了避免引起用户的眩晕和不适感,全景视频的内容通常场景的变化很小,因此利用此特点,对全景视频的前t帧分别计算全景视频单帧图像的结构特征并取其平均值,则对失真视频序列来说,其全景结构特征定义为:
[0207][0208]
最后将获得的全景结构特征pw
video
放入svr模型中,获得质量分数预测模型,将特征映射为最终的质量分数。
[0209]
下面结合附图,对本发明优选实施例所提供的技术方案进一步详细描述如下。
[0210]
本优选实施例提供的无参考全景视频质量评价方法,其具体步骤如图2所示。在win10环境下编程仿真实现本方法,具体步骤如下:
[0211]
步骤1、基于梯度域的局部二值模式的erp平面结构特征提取:图像的二阶导数可以有效地捕捉到对全景图像视觉感知质量有影响的局部边缘的变化(可以参考y.fang,j.yan,l.li,j.wu and w.lin,"no reference quality assessment for screen content images with both local and global feature representation,"in ieee transactions on image processing,vol.27,no.4,pp.1600

1610,april 2018.)。因此,我们首先计算全景视频中的单帧图像的梯度强度作为一阶导数信息,在梯度域的基础上使用lbp算子对像素进行编码,获得基于梯度域的局部二值模式的erp平面结构特征,得到更详细的边缘信息;
[0212]
步骤2、基于超像素的人眼感知的权重计算:超像素分割方法可以将相似的像素进行聚集,也就是将离散的像素分割成了多个像素组成的超像素,而相较于离散像素,分割成超像素更接近于人眼对图像内容的理解(可以参考j.lei et al.,"a universal framework for salient object detection,"in ieee transactions on multimedia,vol.18,no.9,pp.1783

1795,sept.2016.和y.fang,x.zhang,n.imamoglu,“a novel superpixel

based saliency detection model for 360

degree images,”signal processing:image communication,vol.69,pp.1

7,2018.);
[0213]
步骤3、基于超像素的投影关系的权重计算:如图6所示,当像素点从erp平面映射到球面时,像素的面积被不同程度地拉伸。因此,观察空间和处理空间之间的关系可以表示
为两者的面积拉伸比;
[0214]
步骤4、全景视频单帧图像的结构特征提取:由步骤1中erp平面结构特征在erp平面图像上计算,不能线性反应球面上的失真,因此将步骤2和步骤3得到的权重图与步骤1中erp平面结构特征进行结合得到映射加权的全景的结构特征,能够准确的反应球面上的失真情况,更接近人眼主观感知;
[0215]
步骤5、全景图像质量分数估计:由上述步骤4获得全景视频单帧图像的结构特征训练得到的质量分数预测模型将失真图像的特征映射为最终的全景视频质量分数。
[0216]
在步骤1中,采用计算简单的prewitt算子计算图像梯度,通过图像与prewitt算子两个方向的模版的卷积表示失真图像的梯度等级,i(x,y)表示失真图像,则其梯度图像计算如下:
[0217][0218]“*”表示卷积运算,p
x
和p
y
代表横向和纵向的模板,分别计算横向和纵向的边缘,i(x,y)和g(x,y)分别表示失真图像和对应的梯度图像。
[0219]
原始的lbp算子定义在3*3的窗口内进行计算,如图3所示,以窗口的中心像素为阈值,将相邻的8个像素的灰度值与中心像素灰度值进行比较,若周围像素灰度值大于等于中心像素灰度值,则该像素点的位置被编码为1,否则为0,按照顺时针方向将会产生一个8位二进制数,使用时通常将二进制转换为十进制数即lbp码,并用这个值来反映该窗口区域的结构信息。传统lbp计算过程如图3中所示,3
×
3邻域内的8个像素点经过比较产生8位二进制数,转换成十进制时共256种模式,如此产生的模式过多。因此,为解决二进制模式过多的问题,使用旋转不变的均匀lbp算子,对梯度图像的像素点进行编码,计算公式为:
[0220][0221]
p表示中心点像素周围的元素个数,r表示周围像素选取的半径,g
c
表示中心像素点梯度幅值,g
i
表示周围像素点梯度幅值。其中:
[0222][0223][0224]
u是逐比特进行计算的均匀尺度,即二进制序列从0到1、从1到0的跳变次数不超过2次。lbp描述了图像中心像素点和周围像素点的关系,这些图像的局部结构模式可以有效地描述不同失真原因引起的图像结构失真,如图4所示,列出了参考图像及其对应失真图像的梯度域的lbp图,其中,(b)为全景参考图像的梯度域lbp编码图,(c)~(f)表示四种不同类型的失真,可以看出不同失真类型会导致lbp编码产生不同的变化,因此用梯度域的lbp可以有效描述图像失真。
[0225]
在步骤2中,首先,使用简单线性迭代聚类法(simple linear iterativeclustering,slic)(可以参考r.achanta,a.shaji,k.smith,et al."slic superpixels compared to state

of

the

art superpixel methods."ieee transactions on pattern analysis and machine intelligence vol.34,no11,
pp.2274

2282,2012)对失真图像进行超像素分割处理,其优势在于计算量小、数量可定和产生的超像素形状规范。
[0226]
通过slic分割算法可获得超像素,进一步通过赤道附近的内容更容易吸引关注这一中心理论,分别计算每个超像素的人眼感知权重,原理如图5所示。每个超像素的权重由超像素中的所有像素点距离全景图像的上下边界的最小距离决定,假设全景图像的尺寸为m
×
n,假设像素的纵坐标为y1,即该像素距离全景图像上边界的距离,n

y1为该像素到全景图像下边界的距离,则单个像素的权重为:
[0227]
ω
1i
=min{d1,d2}
ꢀꢀꢀ
(5)
[0228]
其中:
[0229][0230]
每个超像素的权重应该由超像素中距离边界最近的像素决定,因此则每个超像素的人眼感知权重定义为:
[0231]
ω1=min{y1,n

y1,

y
n
,n

y
n
}
ꢀꢀꢀ
(7)
[0232]
其中n表示超像素中像素的个数。1越大,表明该超像素越接近全景图像的赤道附近,反之则距离赤道越远。
[0233]
经过上述计算过程,可以获得erp平面上的结构特征,但是由于处理平面和观察空间之间存在非线性关系,因此处理平面上的特征不能准确反映观察空间的质量变化,因此需要进一步利用全景视频的特点提取全景加权的结构特征。
[0234]
在步骤3中获得基于超像素的投影格式的权重,假设erp和球面的坐标在连续空域中分别为(x,y),两者之间的变换关系为:
[0235][0236]
其中,θ∈(

π,π),因此,面积拉伸比sr(stretching ratio,sr)可以定义为:
[0237][0238]
则数字图像的权重sr(i,j)可以定义为:
[0239]
sr(i,j)=sr(x(i,j),y(i,j))
ꢀꢀꢀ
(10)
[0240]
假设m
×
n为erp图像的尺寸,则{(i,j)|0<i≤m,0<j≤n},那么连续域与离散域的变换关系为:
[0241][0242]
因此,投影关系最终定义为:
[0243][0244]
将此投影关系与超像素分割图进行结合,即计算超像素中所有像素与全景图像上下边界之间的距离,用距离最小的像素点对应的投影关系作为整个超像素的权重,即单个
超像素于全景投影的权重为:
[0245]
ω2=sr(i,d
min
)
ꢀꢀꢀ
(13)
[0246]
其中d
min
表示每个超像素中所有像素点与全景图像上下边界最近的距离:
[0247]
d
min
=min{y1,n

y1,

y
n
,n

y
n
}
ꢀꢀꢀ
(14)
[0248]
在步骤4中,我们把基于人眼感知的权重和基于投影关系的权重进行融合,则可获得融合后的权重为:
[0249]
ω=ω1·
ω2ꢀꢀꢀ
(15)
[0250]
如图7所示,越亮的部分表示超像素的权重越大。
[0251]
将erp平面上获得的结构特征与融合权重进行结合,具有相同lbp编码的融合权重进行叠加统计然后归一化即可获得全景视频单帧图像的全景结构特征,计算公式如下:
[0252][0253]
其中:
[0254][0255]
n是像素的个数,k为梯度域lbp编码的取值情况,为全景统合权重,pw(k)即全景结构特征。考虑到人眼视觉系统在不同的图像尺度上可以捕捉不同的信息,对失真图像进行4次下采样,获得不同尺度上的全景结构特征,通过绘制不同失真情况下的全景结构统计直方图可以看出,不同失真导致单帧的全景特征与原始视频中单帧的全景特征发生了明显变化。
[0256]
在步骤5中,为了避免引起用户的眩晕和不适感,全景视频的内容通常场景的变化很小,因此利用此特点,对全景视频的前t帧分别计算全景视频单帧图像的结构特征并取其平均值,则对失真视频序列来说,其全景结构特征定义为:
[0257][0258]
最后将获得的全景结构特征pw
video
放入svr中,获得质量分数预测模型,将特征映射为最终的质量分数。
[0259]
下面在vr

vqa视频数据集(可以参考m.xu,c.li,y.liu,x.deng and j.lu,“a subjective visual quality assessment method of panoramic videos,”in ieee international conference on multimedia and expo(icme),hong kong,2017,pp.517

522.)上进行试验来评估本发明上述实施例所提出的基于超像素的无参考全景视频质量评价方法(sp

pvqa)。实验过程为,将失真图像分为训练集和测试集,失真图像的80%为训练集,剩余20%进行测试,重复1000次,分别取结果中斯皮尔曼秩序相关系数(srcc)、皮尔森线性相关系数(plcc)、肯德尔秩序相关系数(krcc)和均方根误差(rmse)的中值作为性能评价指标。表1分别列出了峰值信噪比(psnr)、卡斯特抛物线映射峰值信噪比(cpp

psnr)、球面加权峰值信噪比(ws

psnr)、球面峰值信噪比(s

psnr)、球面加权结构相似度(ws

ssim)五种全参考全景方法的性能与本发明上述实施例所提出的sp

pvqa方法的性能对比,指标最高的已用粗体表示。
[0260]
表1 整体性能对比
[0261][0262]
从表1首先可以看到本发明上述实施例提出的sp

pvqa相比于其他几种全参考质量评价方法在三个指标上都达到了最佳,虽然rmse略为逊色,但本发明上述实施例提出的sp

pvqa方法不需要任何的参考视频信息,在实时通信系统中实用性更强。特别地,其中ws

psnr和ws

ssim这两个模型同样考虑了观察空间和映射空间不一致的特性,但本发明上述实施例提出的sp

pvqa方法所使用的全景结构特征与人眼感知更一致。
[0263]
本发明上述实施例提出的sp

pvqa方法也可应用到全景图像中,计算全景失真图像在erp平面上的结构特征,然后使用同样的步骤获取融合权重,使用融合权重将平面上的特征加权为能够表示球面失真的全景结构特征,将全景结构特征放入svr获得失真图像的视觉质量分数。
[0264]
为了验证本发明上述实施例所提出的无参考全景视频质量评价方法(sp

pvqa)在全景图像评价中的性能,在oiqa图像数据集(可以参考h.duan,g.zhai,x.min,y.zhu,y.fang and x.yang,"perceptual quality assessment of omnidirectional images,"in ieee international symposium on circuits and systems(iscas),florence,2018,pp.1

5.)上进行了实验。将失真图像分为训练集和测试集,失真图像的80%为训练集,剩余20%进行测试,重复1000次,分别选取结果中plcc、srcc、krcc和rmse的中值作为性能评价指标。表2分别列出了psnr、ssim两种传统方法、cpp

psnr、ws

psnr、s

psnr、ws

ssim四种全景方法的性能与本发明上述实施例所提出的sp

pvqa方法进行比较,此外还分别列出了仅考虑投影格式(projection format,pf)为权重或人眼感知特性(human perception,hp)情况下的性能,表2中四种指标最高的算法用粗体表示。
[0265]
表2 整体性能对比
[0266][0267]
通过表2可以看出,本发明上述实施例提出的sp

pvqa方法在四个指标上均达到了最佳性能,此外,仅考虑一种加权因素的pf和hp也获得了良好的性能,进一步将两者结合后获得了最好的性能。如图8所示,给出了ws

ssim、s

psnr、ws

psnr、cpp

psnr四种全景方法和sp

pvqa方法在相同测试集上获得的预测分数和主观分数之间的拟合散点图,可以看出本发明上述实施例提供的sp

pvqa方法拟合效果最好。
[0268]
本发明另一实施例提供了一种无参考全景视频评估系统,如图9所示,可以包括:局部结构特征获取模块、权重获取模块、全景结构特征获取模块以及质量评价模块;其中:
[0269]
局部结构特征获取模块,该模块获得失真图像的基于梯度域的局部二值模式的erp平面结构特征;
[0270]
权重获取模块,该模块对失真图像进行超像素分割处理,分别获得基于超像素的人眼感知的权重和基于超像素的投影关系的权重;
[0271]
全景结构特征获取模块,该模块根据局部二值模式的结构特征以及人眼感知的权重和投影关系的权重,提取全景视频单帧图像的结构特征;
[0272]
质量评价模块,该模块根据全景视频单帧图像的结构特征,估计全景视频质量分数。
[0273]
本发明第三个实施例提供了一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时可用于执行上述任一项的方法。
[0274]
可选地,存储器,用于存储程序;存储器,可以包括易失性存储器(英文:volatilememory),例如随机存取存储器(英文:random

access memory,缩写:ram),如静态随机存取存储器(英文:static random

access memory,缩写:sram),双倍数据率同步动态随机存取存储器(英文:double data rate synchronous dynamic random access memory,缩写:ddr sdram)等;存储器也可以包括非易失性存储器(英文:non

volatile memory),例如快闪存储器(英文:flash memory)。存储器用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等,上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调
用。
[0275]
上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。
[0276]
处理器,用于执行存储器存储的计算机程序,以实现上述实施例涉及的方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。
[0277]
处理器和存储器可以是独立结构,也可以是集成在一起的集成结构。当处理器和存储器是独立结构时,存储器、处理器可以通过总线耦合连接。
[0278]
本发明第四个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可用于执行上述任一项的方法。
[0279]
本发明上述实施例提供的无参考全景视频质量评价方法、系统、终端及介质,基于超像素,首先利用全景视频中每一帧图像的二阶导数表达在erp平面上的结构特征,其次将基于超像素的投影格式和人眼感知形成的融合全景权重与该结构特征融合,获得单帧的全景结构特征,最后取视频中的前t帧的平均值作为全景视频序列的全景结构特征,最后将所得全景结构特征放入svr建立质量预测模型。在公开的全景视频主观质量评价数据库上进行实验,证明本发明上述实施例提供的无参考全景视频质量评价方法、系统、终端及介质,可在实际应用中评估传输中产生的失真情况。
[0280]
需要说明的是,本发明提供的方法中的步骤,可以利用系统中对应的模块、装置、单元等予以实现,本领域技术人员可以参照方法的技术方案实现系统的组成,即,方法中的实施例可理解为构建系统的优选例,在此不予赘述。
[0281]
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
[0282]
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1