一种基于多尺度字典的立体图像视觉舒适度评价方法与流程

文档序号：11961231阅读：来源：国知局

技术特征：

1.一种基于多尺度字典的立体图像视觉舒适度评价方法，其特征在于包括训练阶段和测试阶段两个过程；在训练阶段中，选取五个不同舒适度等级的多幅立体图像，构成初始训练图像集；然后通过获取初始训练图像集中的每幅立体图像的视差统计特征矢量和神经响应特征矢量，得到初始训练图像集中的每幅立体图像的用于反映视觉舒适度的特征矢量；接着根据初始训练图像集中的所有立体图像的用于反映视觉舒适度的特征矢量构造多尺度字典，并确定多尺度字典对应的多尺度质量表；在测试阶段中，对于任意一幅测试立体图像，以相同的方式获得测试立体图像的用于反映视觉舒适度的特征矢量；然后根据在训练阶段构造的多尺度字典，计算测试立体图像的用于反映视觉舒适度的特征矢量的稀疏系数矩阵，进而确定测试立体图像的用于反映视觉舒适度的特征矢量对应于多尺度字典的不同舒适度等级的稀疏系数矩阵；接着根据在训练阶段确定的多尺度质量表和对应于多尺度字典的不同舒适度等级的稀疏系数矩阵，计算测试立体图像对应于不同舒适度等级的舒适度评价预测值；最后结合测试立体图像对应于不同舒适度等级的舒适度评价预测值，获得测试立体图像的视觉舒适度客观评价预测值。

2.根据权利要求1所述的一种基于多尺度字典的立体图像视觉舒适度评价方法，其特征在于所述的训练阶段具体包括以下步骤：

①_1、选取五个不同舒适度等级各幅宽度为W且高度为H的立体图像，将选取的共M幅立体图像构成初始训练图像集，记为{S_i|1≤i≤M}，其中，M>5且M为5的整数倍，S_i表示{S_i|1≤i≤M}中的第i幅立体图像；

①_2、获取{S_i|1≤i≤M}中的每幅立体图像的视差统计特征矢量，将S_i的视差统计特征矢量记为其中，的维数为1×5，此处符号“[]”为矢量表示符号，f_i¹、f_i²、f_i³、f_i⁴和f_i⁵对应表示S_i的左视点图像与右视点图像之间的视差图像{d_i(x,y)}的平均最大视差、平均最小视差、视差对比度、视差散度和视差偏度，d_i(x,y)表示{d_i(x,y)}中坐标位置为(x,y)的像素点的像素值，1≤x≤W，1≤y≤H；

①_3、获取{S_i|1≤i≤M}中的每幅立体图像的神经响应特征矢量，将S_i的神经响应特征矢量记为其中，的维数为1×13，此处符号“[]”为矢量表示符号，1≤j≤13，r_i¹,r_i²,…,r_i^j,…,r_i¹³对应为中的第1个元素、第2个元素、…、第j个元素、…、第13个元素，符号“||”为取绝对值符号，表示S_i中的第j个神经元在所有视差区间的响应构成的向量经最大池化后得到的特征矢量；

①_4、将{S_i|1≤i≤M}中的每幅立体图像的视差统计特征矢量和神经响应特征矢量组合成一个新的矢量作为对应的立体图像的用于反映视觉舒适度的特征矢量，将S_i的用于反映视觉舒适度的特征矢量记为D_i，其中，D_i的维数为1×18，此处符号“[]”为矢量表示符号，表示将和连接起来形成一个新的矢量；

①_5、根据{S_i|1≤i≤M}中的所有立体图像的用于反映视觉舒适度的特征矢量构造多尺度字典，记为D，并确定D对应的多尺度质量表，记为q，其中，D_1,1表示{S_i|1≤i≤M}中属于第1个舒适度等级的第1幅立体图像的用于反映视觉舒适度的特征矢量，表示{S_i|1≤i≤M}中属于第1个舒适度等级的第幅立体图像的用于反映视觉舒适度的特征矢量，D_2,1表示{S_i|1≤i≤M}中属于第2个舒适度等级的第1幅立体图像的用于反映视觉舒适度的特征矢量，表示{S_i|1≤i≤M}中属于第2个舒适度等级的第幅立体图像的用于反映视觉舒适度的特征矢量，D_3,1表示{S_i|1≤i≤M}中属于第3个舒适度等级的第1幅立体图像的用于反映视觉舒适度的特征矢量，表示{S_i|1≤i≤M}中属于第3个舒适度等级的第幅立体图像的用于反映视觉舒适度的特征矢量，D_4,1表示{S_i|1≤i≤M}中属于第4个舒适度等级的第1幅立体图像的用于反映视觉舒适度的特征矢量，表示{S_i|1≤i≤M}中属于第4个舒适度等级的第幅立体图像的用于反映视觉舒适度的特征矢量，D_5,1表示{S_i|1≤i≤M}中属于第5个舒适度等级的第1幅立体图像的用于反映视觉舒适度的特征矢量，表示{S_i|1≤i≤M}中属于第5个舒适度等级的第幅立体图像的用于反映视觉舒适度的特征矢量，q_1,1表示{S_i|1≤i≤M}中属于第1个舒适度等级的第1幅立体图像的平均主观评分均值，表示{S_i|1≤i≤M}中属于第1个舒适度等级的第幅立体图像的平均主观评分均值，q_2,1表示{S_i|1≤i≤M}中属于第2个舒适度等级的第1幅立体图像的平均主观评分均值，表示{S_i|1≤i≤M}中属于第2个舒适度等级的第幅立体图像的平均主观评分均值，q_3,1表示{S_i|1≤i≤M}中属于第3个舒适度等级的第1幅立体图像的平均主观评分均值，表示{S_i|1≤i≤M}中属于第3个舒适度等级的第幅立体图像的平均主观评分均值，q_4,1表示{S_i|1≤i≤M}中属于第4个舒适度等级的第1幅立体图像的平均主观评分均值，表示{S_i|1≤i≤M}中属于第4个舒适度等级的第幅立体图像的平均主观评分均值，q_5,1表示{S_i|1≤i≤M}中属于第5个舒适度等级的第1幅立体图像的平均主观评分均值，表示{S_i|1≤i≤M}中属于第5个舒适度等级的第幅立体图像的平均主观评分均值；

所述的测试阶段具体包括以下步骤：

②_1、对于任意一幅测试立体图像S_test，按照步骤①_2至步骤①_4的过程，以相同的操作获取S_test的用于反映视觉舒适度的特征矢量，记为G_t，其中，G_t的维数为1×18；

②_2、根据在训练阶段构造的多尺度字典D，计算G_t的稀疏系数矩阵，记为是通过求解得到的，其中，α_1,1表示G_t对应于多尺度字典D的第1个舒适度等级的第1幅立体图像的稀疏系数，表示G_t对应于多尺度字典D的第1个舒适度等级的第幅立体图像的稀疏系数，α_2,1表示G_t对应于多尺度字典D的第2个舒适度等级的第1幅立体图像的稀疏系数，表示G_t对应于多尺度字典D的第2个舒适度等级的第幅立体图像的稀疏系数，α_3,1表示G_t对应于多尺度字典D的第3个舒适度等级的第1幅立体图像的稀疏系数，表示G_t对应于多尺度字典D的第3个舒适度等级的第幅立体图像的稀疏系数，α_4,1表示G_t对应于多尺度字典D的第4个舒适度等级的第1幅立体图像的稀疏系数，表示G_t对应于多尺度字典D的第4个舒适度等级的第幅立体图像的稀疏系数，α_5,1表示G_t对应于多尺度字典D的第5个舒适度等级的第1幅立体图像的稀疏系数，表示G_t对应于多尺度字典D的第5个舒适度等级的第幅立体图像的稀疏系数，符号“||||₂”为求取矩阵的2-范数符号，ε为误差阈值，min{}为取最小值函数；

②_3、根据确定G_t对应于多尺度字典D的不同舒适度等级的稀疏系数矩阵，将G_t对应于多尺度字典D的第1个舒适度等级的稀疏系数矩阵记为将G_t对应于多尺度字典D的第2个舒适度等级的稀疏系数矩阵记为将G_t对应于多尺度字典D的第3个舒适度等级的稀疏系数矩阵记为将G_t对应于多尺度字典D的第4个舒适度等级的稀疏系数矩阵记为将G_t对应于多尺度字典D的第5个舒适度等级的稀疏系数矩阵记为

②_4、计算S_test对应于不同舒适度等级的舒适度评价预测值，将S_test对应于第n个舒适度等级的舒适度评价预测值记为Q_n，其中，1≤n≤5，符号“<>”为求内积操作符号，q为在训练阶段确定的多尺度质量表，符号“||||₁”为求取矩阵的1-范数符号；

②_5、通过对S_test对应于不同舒适度等级的舒适度评价预测值进行结合，获得S_test的视觉舒适度客观评价预测值，记为Q_t，其中，

3.根据权利要求2所述的一种基于多尺度字典的立体图像视觉舒适度评价方法，其特征在于所述的步骤①_2中{d_i(x,y)}采用基于光流的视差估计算法获得。

4.根据权利要求2或3所述的一种基于多尺度字典的立体图像视觉舒适度评价方法，其特征在于所述的步骤①_2中其中，d_max表示{d_i(x,y)}中的所有像素点的像素值按从大到小的顺序排序后最大的像素值，表示{d_i(x,y)}中的所有像素点的像素值按从大到小的顺序排列后、前10％的像素值对应的所有像素点的坐标位置构成的集合，表示{d_i(x,y)}中的所有像素点的像素值按从大到小的顺序排列后、前10％的像素值对应的像素点的总个数，表示{d_i(x,y)}中的所有像素点的像素值按从小到大的顺序排列后、前10％的像素值对应的所有像素点的坐标位置构成的集合，表示{d_i(x,y)}中的所有像素点的像素值按从小到大的顺序排列后、前10％的像素值对应的像素点的总个数，N_R表示采用超像素分割技术对{d_i(x,y)}进行分割得到的分割区域的总个数，1≤p≤N_R，SP_p表示采用超像素分割技术对{d_i(x,y)}进行分割得到的第p个分割区域，p≠q，exp()表示以自然基数e为底的指数函数，λ为控制参数，符号“||||”为求欧式距离符号，表示SP_p中的中心像素点的坐标位置，SP_q表示采用超像素分割技术对{d_i(x,y)}进行分割得到的第q个分割区域，表示SP_q中的中心像素点的坐标位置，max()为取最大值函数，表示SP_p中的所有像素点的坐标位置构成的集合，表示SP_p中包含的像素点的总个数，表示SP_q中的所有像素点的坐标位置构成的集合，表示SP_q中包含的像素点的总个数，符号“||”为取绝对值符号。

5.根据权利要求2所述的一种基于多尺度字典的立体图像视觉舒适度评价方法，其特征在于所述的步骤①_3中的获取过程为：

①_3a、采用基于光流的视差估计算法获取S_i的视差图像，记为{d_i(x,y)}；然后利用视差转换算法计算{d_i(x,y)}的角视差图像，记为{φ_i(x,y)}；再计算{φ_i(x,y)}的视差直方图，记为其中，1≤x≤W，1≤y≤H，d_i(x,y)表示{d_i(x,y)}中坐标位置为(x,y)的像素点的像素值，φ_i(x,y)表示{φ_i(x,y)}中坐标位置为(x,y)的像素点的像素值，表示{φ_i(x,y)}中像素值属于第k个视差区间的像素点的总个数，L表示中的视差区间的总数；

①_3b、利用13个不同神经元的视差调制函数对{d_i(x,y)}进行调制操作，得到{d_i(x,y)}中的不同神经元在不同视差区间的响应，将{d_i(x,y)}中的第j个神经元在第k个视差区间的响应记为R_j,k，其中，1≤j≤13,1≤k≤L，p(k|φ_i(x,y))表示φ_i(x,y)属于第k个视差区间的概率，如果φ_i(x,y)属于第k个视差区间，则p(k|φ_i(x,y))＝1，如果φ_i(x,y)不属于第k个视差区间，则p(k|φ_i(x,y))＝0，g_j(φ_i(x,y))表示第j个神经元的视差调制函数，A_j表示第j个神经元的视差调制函数的振幅，A_j∈{44,67,73,42,110,124,51,77,46,121,49,31,92}，表示第j个神经元的视差调制函数的中心，δ_j表示第j个神经元的视差调制函数的高斯核宽度，δ_j∈{1.86,1.16,1.07,0.62,0.53,0.31,0.62,0.67,0.57,0.52,1.01,2.10,0.56}，cos()为求余弦函数，f_j表示第j个神经元的视差调制函数的频率，f_j∈{0.19,0.25,0.28,0.43,0.51,0.37,0.42,0.50,0.49,0.30,0.21,0.19,0.33}，Φ_j表示第j个神经元的视差调制函数的相位，Φ_j∈{74,86,123,73,40,-51,-38,-55,-92,-61,-19,38,-162}；

①_3c、将{d_i(x,y)}中的第j个神经元在所有视差区间的响应构成一个向量，记为然后利用最大池化方法，获取经最大池化后得到的特征矢量，记为其中，对应表示{d_i(x,y)}中的第j个神经元在第1个视差区间的响应、在第2个视差区间的响应、…、在第k个视差区间的响应、…、在第L个视差区间的响应，对应表示中的第1个元素、第2个元素、…、第k个元素、…、第L个元素，

6.根据权利要求5所述的一种基于多尺度字典的立体图像视觉舒适度评价方法，其特征在于所述的步骤①_3c中获取经最大池化后得到的特征矢量的过程为：获取中的每个元素经最大池化后得到的值，将经最大池化后得到的值记为其中，max()为取最大值函数；然后将中的所有元素经最大池化后得到的值按顺序排列构成

完整全部详细技术资料下载

当前第2页1 2 3