屏幕内容图像的JND预测方法、装置、计算机设备及存储介质与流程

文档序号:24122597发布日期:2021-03-02 12:09阅读:1341来源:国知局
屏幕内容图像的JND预测方法、装置、计算机设备及存储介质与流程
屏幕内容图像的jnd预测方法、装置、计算机设备及存储介质
技术领域
[0001]
本发明涉及图像视频编码技术领域,特别是涉及一种屏幕内容图像的jnd预测方法、装置、计算机设备及存储介质。


背景技术:

[0002]
随着互联网技术和多媒体信息技术的快速发展,产生了越来越多的屏幕图像/视频数据,给数据的压缩、传输和存储带来巨大压力。为了进一步提高编码效率,利用人眼视觉特性来去除图像/视频中的视觉冗余是当前学术界和工业界的研究热点。基于生理学和心理学的研究表明,人眼视觉系统在对图像感知过程中存在视觉掩蔽效应,即当图像像素值的变化小于一定的阈值时,人眼感知不到任何像素值的变化,该阈值就是恰可察觉失真(justnoticeable difference,简称jnd)阈值。jnd可以有效地表征人眼视觉冗余,并且已被广泛应用于基于视觉感知的图像/视频处理算法和系统中。
[0003]
目前,jnd模型主要分为两类:像素域jnd模型和变换域jnd模型。传统的像素域jnd模型主要考虑亮度自适应掩蔽和对比度掩蔽,亮度自适应掩蔽指在不同的亮度背景下,物体变化的可见性阈值会不一样,对比度掩蔽是指一个物体在另一个物体存在的情况下,这个物体变化的可见性阈值会降低。亮度自适应掩蔽得到的度量值和对比度掩蔽得到的度量值通过非线性叠加模型得到最终的jnd值。
[0004]
在现有的jnd模型中,绝大多数都是针对自然图像场景,少数专门考虑屏幕内容图像的特点。相比于自然图像,屏幕内容图像有更明显的锐利边缘和细线,并且这些边缘和细线往往更容易吸引人的注意。同时,人眼对不同方向的边缘的变化有不同的程度的掩蔽,一般情况下,人眼对水平方向和竖直方向的边缘变化的感知能力最强,对于45
°
和135
°
方向的边缘变化的感知能力最弱。现有的jnd模型中并没有使用基于方向的权重因子专门针对边缘进行精确的调整。此外,图像模糊小于一定程度时也不会被人眼感知到,人眼对图像模糊的掩蔽也应该被考虑进jnd模型中。


技术实现要素:

[0005]
基于此,有必要针对上述技术问题,提供一种屏幕内容图像的jnd预测方法、装置、计算机设备及存储介质。
[0006]
一种屏幕内容图像的jnd预测方法,所述方法包括:
[0007]
获取输入的待预测图像;
[0008]
计算所述图像的谱残差,并通过提取衡量像素的有序性特征得到所述图像中每个像素的不确定度;
[0009]
根据所述不确定度将所述图像划分为可预测内容部分和不可预测内容部分;
[0010]
通过计算对比度掩蔽度量值得到所述不可预测内容部分的jnd阈值;
[0011]
通过计算亮度对比度掩蔽及模糊掩蔽度量值得到所述可预测部分的jnd阈值;
[0012]
将所述不可预测内容部分的jnd阈值和所述可预测部分的jnd阈值进行非线性叠
加,并根据基于方向的权重因子对不同方向的边缘像素赋予不同的权重得到所述图像最终的jnd阈值。
[0013]
在其中一个实施例中,所述计算所述图像的谱残差的步骤包括:
[0014]
将获取到的图像进行傅里叶变换,并对幅度值取对数值得到ls(u,v);
[0015]
将ls(u,v)与h(u,v)进行卷积得到均值滤波结果as(u,v);
[0016]
将ls(u,v)减去as(u,v)得到谱残差rs(u,v);
[0017]
其中,h(u,v)是一个7x7的矩阵。
[0018]
在其中一个实施例中,所述通过提取衡量像素的有序性特征得到所述图像中每个像素的不确定度的步骤包括:
[0019]
计算所述图像中以像素点(x,y)为中心的7x7尺寸大小窗口内像素的标准差σ
i
(x,y);
[0020]
根据所述标准差σ
i
(x,y)计算像素点的有序性特征m(x,y)及归一化的有序性特征m

(x,y);
[0021]
对rs(u,v)进行傅里叶反变换,并将其归一化,然后结合m

(x,y)计算出每个像素的不确定度值。
[0022]
在其中一个实施例中,所述通过计算对比度掩蔽度量值得到所述不可预测内容部分的jnd阈值的步骤包括:
[0023]
计算所述不可预测内容部分的jnd阈值jnd
u

[0024][0025]
其中,g(x,y)表示像素(x,y)的梯度,f1(x,y)表示不可预测内容部分的像素值,表示5x5窗口内的f1(x,y)平均亮度值,a=0.0003,b=0.13,p0=1,p1=0.6。
[0026]
在其中一个实施例中,所述将所述通过计算亮度对比度掩蔽及模糊掩蔽度量值得到所述可预测部分的jnd阈值jnd
p
的步骤包括:
[0027]
计算亮度对比度掩蔽阈值t
lc
(x,y);
[0028][0029][0030][0031]
其中,f2(x,y)表示可预测内容部分的像素值,表示5x5窗口内的f2(x,y)平均亮度值,l1,l2,l3控制背景亮度与可见性阈值的关系,分别设置为15,2,2/128,c=0.0004,d=0.15,f1=0.5,z1=0.7,l4=1,l5=1,m=127,p2=0.6,p3=1;
[0032]
计算模糊掩蔽阈值bd(x,y);
[0033]
bd(x,y)=i(x,y)-gf(x,y)
[0034][0035][0036]
其中,gf(x,y)表示高斯平滑后的结果,g(x,y)为高斯方程,σ
g
为其标准差,j=0.9961,h=-0.0059;
[0037]
将bd(x,y)和t
lc
(x,y)进行非线性叠加得到jnd
p

[0038][0039]
其中,z2=0.6,f2=0.6,p4=1。
[0040]
在其中一个实施例中,所述将所述不可预测内容部分的jnd阈值和所述可预测部分的jnd阈值进行非线性叠加,并根据基于方向的权重因子对不同方向的边缘像素赋予不同的权重得到所述图像最终的jnd阈值的步骤包括:
[0041]
对所述jnd
u
和jnd
p
进行非线性组合,并结合权重因子o(x,y)对不同方向的边缘像素赋予不同的权重,得到输入图片最终的jnd;
[0042][0043]
其中,k=0.3,f3=0.6,z3=0.2,p5=1。
[0044]
在其中一个实施例中,所述权重因子o(x,y)为:
[0045][0046]
其中,
[0047][0048]
一种屏幕内容图像的jnd预测装置,所述装置包括:
[0049]
图像获取模块,所述图像获取模块用于获取输入的待预测图像;
[0050]
第一计算模块,所述第一计算模块用于计算所述图像的谱残差,并通过提取衡量像素的有序性特征得到所述图像中每个像素的不确定度;
[0051]
划分模块,所述划分模块用于根据所述不确定度将所述图像划分为可预测内容部分和不可预测内容部分;
[0052]
第二计算模块,所述第二计算模块用于通过计算对比度掩蔽度量值得到所述不可预测内容部分的jnd阈值;
[0053]
第三计算模块,所述第三计算模块用于通过计算亮度对比度掩蔽及模糊掩蔽度量值得到所述可预测部分的jnd阈值;
[0054]
最终预测模块,所述最终预测模块用于将所述不可预测内容部分的jnd阈值和所述可预测部分的jnd阈值进行非线性叠加,并根据基于方向的权重因子对不同方向的边缘像素赋予不同的权重得到所述图像最终的jnd阈值。
[0055]
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的
计算机程序,所述处理器执行所述计算机程序时实现上述任意一项方法的步骤。
[0056]
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项方法的步骤。
[0057]
上述屏幕内容图像的jnd预测方法、装置、计算机设备及存储介质,根据像素不确定度将图像分成不可预测部分和可预测部分,对不同的部分考虑不同的掩蔽效应,并在可预测部分中考虑模糊掩蔽,进一步去除视觉冗余,最后结合人眼视觉特性,对不同方向的边缘的阈值进行调整,使得更多的噪声被加在人眼不容易发现的地方,人眼容易关注到的地方添加更少的噪声。
附图说明
[0058]
图1为一个实施例中屏幕内容图像的jnd预测方法的流程示意图;
[0059]
图2为一个实施例中屏幕内容图像的jnd预测方法的整体构思示意图;
[0060]
图3为一个实施例中屏幕内容图像的jnd预测装置的结构框图;
[0061]
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
[0062]
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0063]
在一个实施例中,如图1所示,提供了一种屏幕内容图像的jnd预测方法,该方法包括:
[0064]
步骤102,获取输入的待预测图像;
[0065]
步骤104,计算图像的谱残差,并通过提取衡量像素的有序性特征得到图像中每个像素的不确定度;
[0066]
步骤106,根据不确定度将图像划分为可预测内容部分和不可预测内容部分;
[0067]
步骤108,通过计算对比度掩蔽度量值得到不可预测内容部分的jnd阈值;
[0068]
步骤110,通过计算亮度对比度掩蔽及模糊掩蔽度量值得到可预测部分的jnd阈值;
[0069]
步骤112,将不可预测内容部分的jnd阈值和可预测部分的jnd阈值进行非线性叠加,并根据基于方向的权重因子对不同方向的边缘像素赋予不同的权重得到图像最终的jnd阈值。
[0070]
针对屏幕内容图像的特性,为了进一步去除人眼的视觉冗余,在本实施例中提出一种屏幕内容图像的jnd预测方法。该方法的整体构思参考图2所示,至少包括如下几个发明点:
[0071]
首先,通过提出一个有序性特征可以有效地衡量像素的有序性。其次,通过提出一种基于谱残差的不确定度估计方法,可用于对输入图像进行内容分类。再次,通过提出一个特征,可用于表达人眼视觉系统对图像模糊的掩蔽能力。通过提出一种符合人眼视觉的权重因子预测方法,可用于表达人眼视觉系统对不同方向的边缘的敏感性。最后,通过提出组合不同类型的内容所对应的视觉阈值,并利用人眼视觉系统对不同方向刺激的敏感性进一
步调整,可用于获得整张图像恰可察觉失真阈值。该方法的具体实现步骤如下:
[0072]
第一步,获取输入的待预测图像数据,然后计算该图像的谱残差。在一个具体的实施例中,计算图像的谱残差的步骤包括:
[0073]
将获取到的图像进行傅里叶变换,并对幅度值取对数值得到ls(u,v);将ls(u,v)与h(u,v)进行卷积得到均值滤波结果as(u,v);将ls(u,v)减去as(u,v)得到谱残差rs(u,v);其中,h(u,v)是一个7x7的矩阵。
[0074]
具体地,对于一张给定的屏幕内容图像i(x,y),在本实施例中设计了一个基于谱残差的内容不确定度估计方法,用于计算每个图像像素的不确定度。
[0075]
首先,将输入图片进行傅里叶变换,并对幅度值取对数值,得到ls(u,v),相位为ps(u,v)。然后,将ls(u,v)与h(u,v)(其中h(u,v)是一个7x7的矩阵)进行卷积,得到均值滤波结果as(u,v),再用ls(u,v)减去as(u,v)得到谱残差rs(u,v)。
[0076][0077][0078]
rs(u,v)=ls(u,v)-as(u,v)
[0079]
其中,n=7,p
17
=1。
[0080]
接着,计算输入图像以像素点(x,y)为中心的7x7尺寸大小的窗口内像素的标准差σ
i
(x,y),并得到m(x,y),将m(x,y)的值归一化到[0,1]得到m

(x,y),m

(x,y)用于衡量像素的规律性,值越大表示越无序,值越小表示越有序。
[0081][0082][0083]
其中,m0,m1,m2分别等于0.5,1,0.83;m
min
,m
max
分别表示图像中m(x,y)的最小值和最大值。
[0084]
对rs(u,v)进行傅里叶反变换,并将其归一化至[0,1],然后结合m

计算出每个像素的不确定度值。
[0085][0086]
其中,f-1
表示傅里叶反变换,f
fmin
,f
fmax
分别表示傅里叶反变换后的最大值和最小值。
[0087]
第二步,基于像素的不确定度值,将输入图像可以划分为不可预测内容部分f1(x,y)和可预测内容部分f2(x,y),具体地,
[0088][0089]
第三步,计算不可预测内容部分的jnd阈值jnd
u

[0090][0091]
其中,g(x,y)表示像素(x,y)的梯度,f1(x,y)表示不可预测内容部分的像素值,表示5x5窗口内的f1(x,y)平均亮度值,a=0.0003,b=0.13,p0=1,p1=0.6。
[0092]
第四步,通过计算亮度对比度掩蔽及模糊掩蔽度量值得到可预测部分的jnd阈值jnd
p
。具体地,先计算亮度对比度掩蔽阈值t
lc
(x,y);
[0093][0094][0095][0096]
其中,f2(x,y)表示可预测内容部分的像素值,表示5x5窗口内的f2(x,y)平均亮度值,l1,l2,l3控制背景亮度与可见性阈值的关系,分别设置为15,2,2/128,c=0.0004,d=0.15,f1=0.5,z1=0.7,l4=1,l5=1,m=127,p2=0.6,p3=1。
[0097]
然后,计算模糊掩蔽阈值bd(x,y);
[0098]
bd(x,y)=i(x,y)-gf(x,y)
[0099][0100][0101]
其中,gf(x,y)表示高斯平滑后的结果,g(x,y)为高斯方程,σ
g
为其标准差,j=0.9961,h=-0.0059;
[0102]
最后,将bd(x,y)和t
lc
(x,y)进行非线性叠加得到jnd
p

[0103][0104]
其中,z2=0.6,f2=0.6,p4=1。
[0105]
第五步,针对人眼视觉特性对不同方向的刺激有不同敏感性,敏感度随刺激的方向变化而变化,敏感度从0
°
到45
°
依次降低,从45
°
到90
°
依次升高,从90
°
到135
°
依次降低,从135
°
到180
°
依次升高,对水平方向和竖直方向最高的敏感度,对45
°
和135
°
方向的敏感度最低,根据人眼的这个特性,本实施例中提出一种基于边缘方向的权重因子预测方法。
[0106][0107]
其中,
[0108][0109]
第六步:对可预测内容类型和不可预测内容类型的可见性阈值jnd
p
和jnd
u
行非线性组合,并结合权重因子o(x,y),对不同方向的边缘像素赋予不同的权重,得到输入图片最终的jnd。
[0110][0111]
其中,k=0.3,f3=0.6,z3=0.2,p5=1。
[0112]
在上述实施例中,根据像素不确定度将图像分成不可预测部分和可预测部分,对不同的部分考虑不同的掩蔽效应,并在可预测部分中考虑模糊掩蔽,进一步去除视觉冗余,最后结合人眼视觉特性,对不同方向的边缘的阈值进行调整,使得更多的噪声被加在人眼不容易发现的地方,人眼容易关注到的地方添加更少的噪声。
[0113]
在一个实施例中,如图3所示,提供了一种屏幕内容图像的jnd预测装置300,该装置包括:
[0114]
图像获取模块301,用于获取输入的待预测图像;
[0115]
第一计算模块302,用于计算所述图像的谱残差,并通过提取衡量像素的有序性特征得到所述图像中每个像素的不确定度;
[0116]
划分模块303,用于根据所述不确定度将所述图像划分为可预测内容部分和不可预测内容部分;
[0117]
第二计算模块304,用于通过计算对比度掩蔽度量值得到所述不可预测内容部分的jnd阈值;
[0118]
第三计算模块305,用于通过计算亮度对比度掩蔽及模糊掩蔽度量值得到所述可预测部分的jnd阈值;
[0119]
最终预测模块306,用于将所述不可预测内容部分的jnd阈值和所述可预测部分的jnd阈值进行非线性叠加,并根据基于方向的权重因子对不同方向的边缘像素赋予不同的权重得到所述图像最终的jnd阈值。
[0120]
在一个实施例中,第一计算模块302还用于:
[0121]
将获取到的图像进行傅里叶变换,并对幅度值取对数值得到ls(u,v);
[0122]
将ls(u,v)与h(u,v)进行卷积得到均值滤波结果as(u,v);
[0123]
将ls(u,v)减去as(u,v)得到谱残差rs(u,v);
[0124]
其中,h(u,v)是一个7x7的矩阵。
[0125]
在一个实施例中,第一计算模块302还用于:
[0126]
计算所述图像中以像素点(x,y)为中心的7x7尺寸大小窗口内像素的标准差σ
i
(x,y);
[0127]
根据所述标准差σ
i
(x,y)计算像素点的有序性特征m(x,y)及归一化的有序性特征m

(x,y);
[0128]
对rs(u,v)进行傅里叶反变换,并将其归一化,然后结合m

(x,y)计算出每个像素的不确定度值。
[0129]
在一个实施例中,第二计算模块304还用于:
[0130]
计算所述不可预测内容部分的jnd阈值jnd
u

[0131][0132]
其中,g(x,y)表示像素(x,y)的梯度,f1(x,y)表示不可预测内容部分的像素值,表示5x5窗口内的f1(x,y)平均亮度值,a=0.0003,b=0.13,p0=1,p1=0.6。
[0133]
在一个实施例中,第三计算模块305还用于:
[0134]
计算亮度对比度掩蔽阈值t
lc
(x,y);
[0135][0136][0137][0138]
其中,f2(x,y)表示可预测内容部分的像素值,表示5x5窗口内的f2(x,y)平均亮度值,l1,l2,l3控制背景亮度与可见性阈值的关系,分别设置为15,2,2/128,c=0.0004,d=0.15,f1=0.5,z1=0.7,l4=1,l5=1,m=127,p2=0.6,p3=1;
[0139]
计算模糊掩蔽阈值bd(x,y);
[0140]
bd(x,y)=i(x,y)-gf(x,y)
[0141][0142][0143]
其中,gf(x,y)表示高斯平滑后的结果,g(x,y)为高斯方程,σ
g
为其标准差,j=0.9961,h=-0.0059;
[0144]
将bd(x,y)和t
lc
(x,y)进行非线性叠加得到jnd
p

[0145][0146]
其中,z2=0.6,f2=0.6,p4=1。
[0147]
在一个实施例中,最终预测模块306还用于:
[0148]
对所述jnd
u
和jnd
p
进行非线性组合,并结合权重因子o(x,y)对不同方向的边缘像素赋予不同的权重,得到输入图片最终的jnd;
[0149][0150]
其中,k=0.3,f3=0.6,z3=0.2,p5=1。
[0151]
在一个实施例中,权重因子o(x,y)为:
[0152][0153]
其中,
[0154][0155]
关于屏幕内容图像的jnd预测装置的具体限定可以参见上文中对于屏幕内容图像的jnd预测方法的限定,在此不再赘述。
[0156]
在一个实施例中,提供了一种计算机设备,其内部结构图可以如图4所示。该计算机设备包括通过装置总线连接的处理器、存储器以及网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作装置、计算机程序和数据库。该内存储器为非易失性存储介质中的操作装置和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种屏幕内容图像的jnd预测方法。
[0157]
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0158]
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以上各个方法实施例中的步骤。
[0159]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以上各个方法实施例中的步骤。
[0160]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0161]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0162]
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来
说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1