一种基于显著标签排序的图像显著性目标检测方法与流程

文档序号:11865352阅读:441来源:国知局
一种基于显著标签排序的图像显著性目标检测方法与流程

本发明涉及文章图像处理技术领域,尤其涉及一种基于显著标签排序的图像显著性目标检测方法。



背景技术:

近年来,随着互联网技术和多媒体信息技术的快速发展,以图像为载体的多媒体信息逐渐成为人们传递信息和获取信息的重要手段。然而,与图像数据的爆炸式增长相比,可以用来对多媒体信息进行处理的计算资源则非常有限。因此,显著性检测技术可以结合人类认知系统的信息选择能力,将感兴趣的内容从复杂的图像中提取出来,合理有效的利用复杂的海量多媒体视觉信息资源,在图像的分析理解领域占据重要的作用。

近来,利用数据驱动的自顶向下方法在该图像的显著性提取领域中达到了很好的效果,现有的监督算法把显著性检测问题看做一个两分类或者是回归问题,为了学习到一个可靠的模型,大都要依赖于大规模的训练数据集,具有一定的局限性。因此,想要开发出一种简单有效的显著性目标检测算法是非常必要的。



技术实现要素:

本发明的实施例提供了一种基于显著标签排序的图像显著性目标检测方法和装置,以实现有效地检测出图像中的显著目标。

为了实现上述目的,本发明采取了如下技术方案。

根据本发明的一个方面,提供了一种基于显著标签排序的图像显著性目标检测方法,包括:

建立图像样本集,将所述图像样本集中的每幅图像使用超像素分割SLIC分割方法划分成多个图像区域,并对每个图像区域提取视觉特征和背景对比度特征;

利用图像显著性检测算法对所述图像样本集中的每一幅图像进行显著性目标的提取,得到每幅图像中每个图像区域的显著值标签;

根据每个图像区域的视觉特征、背景对比度特征和显著值标签组成训练集与测试集,并使用基于显著标签排序的算法学习出每幅图像中每个图像区域的显著值;

利用低秩矩阵恢复理论利用每个图像区域的显著值对每幅图像进行显著图的恢复,检测出图像中的显著目标。

进一步地,所述的对每个图像区域提取视觉特征和背景对比度特征,包括:

所述视觉特征包括颜色特征和纹理特征,所述颜色特征包含每个图像区域所包含像素点的平均RGB,LAB,HSV颜色值以及相应的颜色空间直方图;所述纹理特征包括图像区域的LBP、LM filter分布特征;所述背景对比度特征采用一定数量的四周边缘区域作为背景,并分别提取背景区域的颜色纹理以及相互之间的对比度特征;

所述图像区域的背景对比度特征定义如下:

对每一个图像区域使用边界的四周区域作为伪背景区域,图像区域Rt的背景值可以表示为:

其中B代表整个伪背景区域,表示伪背景中每个小区域的特征向量,vB表示整个伪背景的整体特征向量;对于伪背景的图像区域Rt,图像区域Rt的背景对比度特征定义如下:

<mrow> <msubsup> <mi>x</mi> <mi>k</mi> <mi>c</mi> </msubsup> <mrow> <mo>(</mo> <msub> <mi>R</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>N</mi> <mi>t</mi> </mrow> </munderover> <msub> <mi>&lambda;</mi> <mi>j</mi> </msub> <msub> <mi>w</mi> <mrow> <mi>t</mi> <mi>j</mi> </mrow> </msub> <msub> <mi>D</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <msup> <mi>v</mi> <msub> <mi>R</mi> <mi>t</mi> </msub> </msup> <mo>,</mo> <msup> <mi>v</mi> <msub> <mi>R</mi> <mi>j</mi> </msub> </msup> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>w</mi> <mrow> <mi>t</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mfrac> <mrow> <mo>||</mo> <mrow> <msub> <mi>p</mi> <mi>t</mi> </msub> <mo>-</mo> <msub> <mi>p</mi> <mi>j</mi> </msub> </mrow> <mo>||</mo> </mrow> <mrow> <mn>2</mn> <msup> <mi>&sigma;</mi> <mn>2</mn> </msup> </mrow> </mfrac> </mrow> </msup> </mrow>

其中λj是对区域Rt面积的约束参数,pt和pj分别是对应的图像区域Rt与Rj之间的平均位置距离,σ是空间权重系数,N是图像样本集中图像的总数目,表示每个通道中特征向量与之间的直方图距离;

将图像区域的各种视觉特征和背景对比度特征拼接起来,得到图像区域的特征向量。

进一步地,所述的根据每个图像区域的视觉特征、背景对比度特征和显著值标签组成训练集与测试集,并使用基于显著标签排序的算法学习出每幅图像中每个图像区域的显著值,包括:

将每个区域的显著值标签看做是256个类,将图像区域的显著值作为正标签,将显著值在集合{0,1…255}中的补集作为此图像区域的反标签,将正标签,反标签以及该图像区域的特征向量组成样本集,从样本集中选取一部分作为训练集,其余部分作为测试集;

利用所述训练集和测试集建立显著性目标检测参数模型框架,再建立误差损失模型,然后利用误差损失模型对显著性目标检测模型进行优化求解出参数,获取每幅图像中每个图像区域的显著值。

进一步地,所述的利用所述训练集和测试集建立显著性目标检测参数模型框架,再建立误差损失模型,再利用误差损失模型对显著性目标检测模型进行优化求解出参数,获取每幅图像中每个图像区域的显著值,包括:

将显著性检测看作是一个多分类问题,通过一个基于排序的多标签学习算法,找到分类的模型,将每幅图像的所有图像区域特征的训练集表示为I={r1,r2…rn},每一个图像区域特征ri∈Rd是一个d维向量,n是训练集的总数,将每幅图像的所有图像区域对应的显著性标签表示为τ={l1,l2…lm},使用y=(y1,y2…yn)∈{0,1}m×n表示训练集对应的显著性标签,yi∈{0,1}m表示分配给第i个区域的显著性标签,利用yji=1表示显著标签lj分配给区域ri,反之,yji=0;m属于集合{0,1...255}表示标签对应的显著值。

对于图像区域ri,如果yji=1并且yki=0,利用多标签排序的方法预测出第i个标签的排序函数fi(r),对于此图像区域ri中正反标签之间的损失定义如下:

其中,I(z)表示指示函数,当z是真时输出1;否则输出0,使用线性函数表示预测函数,定义为fi(g)=wiTg,其中W=[w1,w2…wm]∈Rd×m,根据公式(1),对于训练集中所有图像区域的误差损失模型定义如下:

利用正则化进行所述误差损失模型的约束,将W看作是低秩矩阵,并引入了核范数,最小化损失函数如下:

<mrow> <munder> <mrow> <mi>min</mi> <mi>f</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>W</mi> <mo>&Element;</mo> <msup> <mi>R</mi> <mrow> <mi>d</mi> <mo>&times;</mo> <mi>m</mi> </mrow> </msup> </mrow> </munder> <mo>+</mo> <mi>&lambda;</mi> <msub> <mrow> <mo>||</mo> <mi>W</mi> <mo>||</mo> </mrow> <mo>*</mo> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

其中λ是约束参数。

对于两个区域特征向量ri与rj,定义相似性矩阵S=[sij]n×n,其中sij=e(-||ri-rj||22),当且仅当xi∈Nk(rj)或者xj∈Nk(ri),sij表示两个区域特征之间的视觉相似性,Nk(r)是区域r的k个紧邻集合,结合图拉普拉斯正则理论,如果两个区域的视觉特征相似,那么其所对应的标签空间也具有相似性。将视觉性约束正则项定义如下:

<mrow> <mi>min</mi> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <msup> <msub> <mrow> <mo>||</mo> <mrow> <mfrac> <mrow> <msup> <mi>W</mi> <mi>T</mi> </msup> <msub> <mi>r</mi> <mi>i</mi> </msub> </mrow> <msqrt> <msub> <mi>E</mi> <mrow> <mi>i</mi> <mi>i</mi> </mrow> </msub> </msqrt> </mfrac> <mo>-</mo> <mfrac> <mrow> <msup> <mi>W</mi> <mi>T</mi> </msup> <msub> <mi>r</mi> <mi>j</mi> </msub> </mrow> <msqrt> <msub> <mi>E</mi> <mrow> <mi>j</mi> <mi>j</mi> </mrow> </msub> </msqrt> </mfrac> </mrow> <mo>||</mo> </mrow> <mn>2</mn> </msub> <mn>2</mn> </msup> <mo>=</mo> <mi>T</mi> <mi>r</mi> <mo>&lsqb;</mo> <msup> <mi>W</mi> <mi>T</mi> </msup> <msup> <mi>rLr</mi> <mi>T</mi> </msup> <mi>W</mi> <mo>&rsqb;</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

其中是一个对角矩阵,L是拉普拉斯矩阵,结合公式(3)(4),将所述优化问题抽象为以下目标函数:

<mrow> <munder> <mrow> <mi>min</mi> <mi>F</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>W</mi> <mo>&Element;</mo> <msup> <mi>R</mi> <mrow> <mi>d</mi> <mo>&times;</mo> <mi>m</mi> </mrow> </msup> </mrow> </munder> <mo>=</mo> <mi>f</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>&lambda;</mi> <msub> <mrow> <mo>||</mo> <mi>W</mi> <mo>||</mo> </mrow> <mo>*</mo> </msub> <mo>+</mo> <mi>&alpha;</mi> <mi>T</mi> <mi>r</mi> <mo>&lsqb;</mo> <msup> <mi>W</mi> <mi>T</mi> </msup> <msup> <mi>rLr</mi> <mi>T</mi> </msup> <mi>W</mi> <mo>&rsqb;</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

其中,α,λ是平衡参数,L=E-1/2(E-s)E-1/2是标准化图拉普拉斯矩阵。

利用APG方法对所述公式(5)进行求解,求出训练集的特征相似矩阵L,对W进行迭代求解如下:

<mrow> <msubsup> <mi>W</mi> <mi>t</mi> <mo>&prime;</mo> </msubsup> <mo>=</mo> <msub> <mi>W</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>-</mo> <msub> <mi>&eta;</mi> <mi>t</mi> </msub> <mo>&dtri;</mo> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> </mrow>

其中,将优化问题解决为是对f(Wt)求梯度,Wt′=U∑VT是W′奇异值分解,是一个对角矩阵,计算为ηt为更新的步长。

根据本发明的另一个方面,提供了一种基于显著标签排序的图像显著性目标检测装置,包括:

图像区域特征获取模块,用于建立图像样本集,将所述图像样本集中的每幅图像使用超像素分割SLIC分割方法划分成多个图像区域,并对每个图像区域提取视觉特征和背景对比度特征;

图像区域的显著值标签获取模块,用于利用图像显著性检测算法对所述图像样本集中的每一幅图像进行显著性目标的提取,得到每幅图像中每个图像区域的显著值标签;

图像区域的显著值获取模块,用于根据每个图像区域的视觉特征、背景对比度特征和显著值标签组成训练集与测试集,并使用基于显著标签排序的算法学习出每幅图像中每个图像区域的显著值;

图像的显著目标获取模块,利用低秩矩阵恢复理论利用每个图像区域的显著值对每幅图像进行显著图的恢复,检测出图像中的显著目标。

进一步地,所述的图像区域特征获取模块,具体用于设所述视觉特征包括颜色特征和纹理特征,所述颜色特征包含每个图像区域所包含像素点的平均RGB,LAB,HSV颜色值以及相应的颜色空间直方图;所述纹理特征包括图像区域的LBP、LM filter分布特征;所述背景对比度特征采用一定数量的四周边缘区域作为背景,并分别提取背景区域的颜色纹理以及相互之间的对比度特征;

所述图像区域的背景对比度特征定义如下:

对每一个图像区域使用边界的四周区域作为伪背景区域,图像区域Rt的背景值可以表示为:

其中B代表整个伪背景区域,表示伪背景中每个小区域的特征向量,vB表示整个伪背景的整体特征向量;对于伪背景的图像区域Rt,图像区域Rt的背景对比度特征定义如下:

<mrow> <msubsup> <mi>x</mi> <mi>k</mi> <mi>c</mi> </msubsup> <mrow> <mo>(</mo> <msub> <mi>R</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>N</mi> <mi>t</mi> </mrow> </munderover> <msub> <mi>&lambda;</mi> <mi>j</mi> </msub> <msub> <mi>w</mi> <mrow> <mi>t</mi> <mi>j</mi> </mrow> </msub> <msub> <mi>D</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <msup> <mi>v</mi> <msub> <mi>R</mi> <mi>t</mi> </msub> </msup> <mo>,</mo> <msup> <mi>v</mi> <msub> <mi>R</mi> <mi>j</mi> </msub> </msup> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>w</mi> <mrow> <mi>t</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mfrac> <mrow> <mo>||</mo> <mrow> <msub> <mi>p</mi> <mi>t</mi> </msub> <mo>-</mo> <msub> <mi>p</mi> <mi>j</mi> </msub> </mrow> <mo>||</mo> </mrow> <mrow> <mn>2</mn> <msup> <mi>&sigma;</mi> <mn>2</mn> </msup> </mrow> </mfrac> </mrow> </msup> </mrow>

其中λj是对区域Rt面积的约束参数,pt和pj分别是对应的图像区域Rt与Rj之间的平均位置距离,σ是空间权重系数,N是图像样本集中图像的总数目,表示每个通道中特征向量与之间的直方图距离;

将图像区域的各种视觉特征和背景对比度特征拼接起来,得到图像区域的特征向量。

进一步地,所述的图像区域的显著值获取模块,具体用于将每个区域的显著值标签看做是256个类,将图像区域的显著值作为正标签,将显著值在集合{0,1…255}中的补集作为此图像区域的反标签,将正标签,反标签以及该图像区域的特征向量组成样本集,从样本集中选取一部分作为训练集,其余部分作为测试集;

利用所述训练集和测试集建立显著性目标检测参数模型框架,再建立误差损失模型,然后利用误差损失模型对显著性目标检测模型进行优化求解出参数,获取每幅图像中每个图像区域的显著值。

进一步地,所述的图像区域的显著值获取模块,具体用于将显著性检测看作是一个多分类问题,通过一个基于排序的多标签学习算法,找到分类的模型,将每幅图像的所有图像区域特征的训练集表示为I={r1,r2…rn},每一个图像区域特征ri∈Rd是一个d维向量,n是训练集的总数,将每幅图像的所有图像区域对应的显著性标签表示为τ={l1,l2…lm},使用y=(y1,y2…yn)∈{0,1}m×n表示训练集对应的显著性标签,yi∈{0,1}m表示分配给第i个区域的显著性标签,利用yji=1表示显著标签lj分配给区域ri,反之,yji=0;m属于集合{0,1…255}表示标签对应的显著值。

对于图像区域ri,如果yji=1并且yki=0,利用多标签排序的方法预测出第i个标签的排序函数fi(r),对于此图像区域ri中正反标签之间的损失定义如下:

其中,I(z)表示指示函数,当z是真时输出1;否则输出0,使用线性函数表示预测函数,定义为fi(g)=wiTg,其中W=[w1,w2…wm]∈Rd×m,根据公式(1),对于训练集中所有图像区域的误差损失模型定义如下:

利用正则化进行所述误差损失模型的约束,将W看作是低秩矩阵,并引入了核范数,最小化损失函数如下:

<mrow> <munder> <mrow> <mi>min</mi> <mi>f</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>W</mi> <mo>&Element;</mo> <msup> <mi>R</mi> <mrow> <mi>d</mi> <mo>&times;</mo> <mi>m</mi> </mrow> </msup> </mrow> </munder> <mo>+</mo> <mi>&lambda;</mi> <msub> <mrow> <mo>||</mo> <mi>W</mi> <mo>||</mo> </mrow> <mo>*</mo> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

其中λ是约束参数。

对于两个区域特征向量ri与rj,定义相似性矩阵S=[sij]n×n,其中sij=e(-||ri-rj||22,当且仅当xi∈Nk(rj)或者xj∈Nk(ri),sij表示两个区域特征之间的视觉相似性,Nk(r)是区域r的k个紧邻集合,结合图拉普拉斯正则理论,如果两个区域的视觉特征相似,那么其所对应的标签空间也具有相似性。将视觉性约束正则项定义如下:

<mrow> <mi>min</mi> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <msup> <msub> <mrow> <mo>||</mo> <mrow> <mfrac> <mrow> <msup> <mi>W</mi> <mi>T</mi> </msup> <msub> <mi>r</mi> <mi>i</mi> </msub> </mrow> <msqrt> <msub> <mi>E</mi> <mrow> <mi>i</mi> <mi>i</mi> </mrow> </msub> </msqrt> </mfrac> <mo>-</mo> <mfrac> <mrow> <msup> <mi>W</mi> <mi>T</mi> </msup> <msub> <mi>r</mi> <mi>j</mi> </msub> </mrow> <msqrt> <msub> <mi>E</mi> <mrow> <mi>j</mi> <mi>j</mi> </mrow> </msub> </msqrt> </mfrac> </mrow> <mo>||</mo> </mrow> <mn>2</mn> </msub> <mn>2</mn> </msup> <mo>=</mo> <mi>T</mi> <mi>r</mi> <mo>&lsqb;</mo> <msup> <mi>W</mi> <mi>T</mi> </msup> <msup> <mi>rLr</mi> <mi>T</mi> </msup> <mi>W</mi> <mo>&rsqb;</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

其中是一个对角矩阵,L是拉普拉斯矩阵,结合公式(3)(4),将所述优化问题抽象为以下目标函数:

<mrow> <munder> <mrow> <mi>min</mi> <mi>F</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>W</mi> <mo>&Element;</mo> <msup> <mi>R</mi> <mrow> <mi>d</mi> <mo>&times;</mo> <mi>m</mi> </mrow> </msup> </mrow> </munder> <mo>=</mo> <mi>f</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>&lambda;</mi> <msub> <mrow> <mo>||</mo> <mi>W</mi> <mo>||</mo> </mrow> <mo>*</mo> </msub> <mo>+</mo> <mi>&alpha;</mi> <mi>T</mi> <mi>r</mi> <mo>&lsqb;</mo> <msup> <mi>W</mi> <mi>T</mi> </msup> <msup> <mi>rLr</mi> <mi>T</mi> </msup> <mi>W</mi> <mo>&rsqb;</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

其中,α,λ是平衡参数,L=E-1/2(E-s)E-1/2是标准化图拉普拉斯矩阵。

利用APG方法对所述公式(5)进行求解,求出训练集的特征相似矩阵L,对W进行迭代求解如下:

<mrow> <msubsup> <mi>W</mi> <mi>t</mi> <mo>&prime;</mo> </msubsup> <mo>=</mo> <msub> <mi>W</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>-</mo> <msub> <mi>&eta;</mi> <mi>t</mi> </msub> <mo>&dtri;</mo> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> </mrow>

其中,将优化问题解决为是对f(Wt)求梯度,Wt′=U∑VT是W′奇异值分解,是一个对角矩阵,计算为ηt为更新的步长。

由上述本发明的实施例提供的技术方案可以看出,本发明的方法充分利用矩阵的核范数控制模型的复杂度,结合视觉特征相似相以及语义标签相似性,利用图拉普拉斯正则化约束之间的相关性,有效解决了显著性标签空间较大但训练图像数量有限的问题。

本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供了一种基于显著标签排序的图像显著性目标检测方法的流程图;

图2是本发明实施例提供的一种基于显著标签排序的图像显著性目标检测算法的模型示意图;

图3为本发明实施例提供的一种基于显著标签排序的图像显著性目标检测装置的具体结构图,包括,图像区域特征获取模块31,图像区域的显著值标签获取模块32,图像区域的显著值获取模块33。

具体实施方式

下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。

实施例一

本发明实施例提供了一种基于显著标签排序的图像显著性目标检测方法的流程图如图1所示,该方法包括以下步骤:

步骤S110:从现有的一些包含显著目标的数据集上建立图像样本集;

上述数据集包括MSRA1000,ECSSD以及ICOSEG。

步骤S120:将图像样本集中的每幅图像使用SLIC(simple lineariterative clustering)分割方法划分成t个图像区域,其中t为自然数,优选为150。并对每个图像区域提取视觉特征和背景对比度特征,上述视觉特征包括颜色特征,纹理特征。对图像样本集中的每幅图像使用图像区域的特征来表示。

所述图像的颜色特征包含每个图像区域所包含像素点的平均RGB,LAB,HSV颜色值以及相应的颜色空间直方图;所述纹理特征包括图像区域的LBP,LMfilter分布特征;所述背景特征采用一定数量的四周边缘区域作为背景区域,并分别提取背景区域的颜色纹理以及相互之间的对比度特征。

其中,颜色特征计算如下。研究表明,进行显著性目标检测时,RGB颜色空间与LAB颜色空间发挥着互补的作用,且HSV颜色空间可以更准确的描述人眼视觉感知能力。于是,对于划分的每个图像区域,其平均RGB颜色,LAB颜色以及HSV颜色作为颜色特征,表示每个图像区域的颜色对比度向量。

其中,纹理特征计算如下:利用LBP以及LMFilter表示纹理特征描述符,提取每个图像区域的8*8*8的LBP(Local Binary Pattern,局部二值模式)直方图,计算相邻两区域LBP直方图之间的χ2距离如下:

<mrow> <msup> <mi>&chi;</mi> <mn>2</mn> </msup> <mrow> <mo>(</mo> <msub> <mi>h</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>h</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>b</mi> </msubsup> <mfrac> <mrow> <mn>2</mn> <msup> <mrow> <mo>(</mo> <msub> <mi>h</mi> <mrow> <mn>1</mn> <mi>t</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>h</mi> <mrow> <mn>2</mn> <mi>t</mi> </mrow> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> <mrow> <msub> <mi>h</mi> <mrow> <mn>1</mn> <mi>t</mi> </mrow> </msub> <mo>+</mo> <msub> <mi>h</mi> <mrow> <mn>2</mn> <mi>t</mi> </mrow> </msub> </mrow> </mfrac> </mrow>

其中hi表示图像区域i的LBP直方图。

对于LMFilter利用同样的方式,提取每个图像区域的8*8*8的LMFilter直方图,计算相邻两区域LMFilter直方图之间的χ2距离。

其中,背景对比度特征计算如下。在显著性目标检测中,背景对比度特征常常作为抑制特征辅助于显著性目标的提取。对每一个图像区域使用边界的四周区域作为伪背景区域,图像区域Rt的背景值可以表示为:

其中B代表整个伪背景区域,表示伪背景中每个小区域的特征向量,vB表示整个伪背景的整体特征向量,由上述方法通过计算得到的。这里伪背景的特征向量也主要是由颜色,纹理组成,因此计算方法类比上述区域的特征向量获取方法即可;于是,对于伪背景的图像区域Rt,图像区域Rt的背景对比度特征定义如下:

<mrow> <msubsup> <mi>x</mi> <mi>k</mi> <mi>c</mi> </msubsup> <mrow> <mo>(</mo> <msub> <mi>R</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>N</mi> <mi>t</mi> </mrow> </munderover> <msub> <mi>&lambda;</mi> <mi>j</mi> </msub> <msub> <mi>w</mi> <mrow> <mi>t</mi> <mi>j</mi> </mrow> </msub> <msub> <mi>D</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <msup> <mi>v</mi> <msub> <mi>R</mi> <mi>t</mi> </msub> </msup> <mo>,</mo> <msup> <mi>v</mi> <msub> <mi>R</mi> <mi>j</mi> </msub> </msup> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>w</mi> <mrow> <mi>t</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mfrac> <mrow> <mo>||</mo> <mrow> <msub> <mi>p</mi> <mi>t</mi> </msub> <mo>-</mo> <msub> <mi>p</mi> <mi>j</mi> </msub> </mrow> <mo>||</mo> </mrow> <mrow> <mn>2</mn> <msup> <mi>&sigma;</mi> <mn>2</mn> </msup> </mrow> </mfrac> </mrow> </msup> </mrow>

其中λj是对区域Rt面积的约束参数,pt和pj分别是对应的图像区域Rt与Rj之间的平均位置距离,pt和pj分别是对应的图像区域Rt与Rj的区域像素点的平均位置坐标

σ是空间权重系数,N是图像样本集中图像的总数目,表示每个通道中特征向量与之间的直方图距离。在数字图像处理中,图像是由R,G,B三个颜色通道构成的,通过计算三个通道的一些特征得到通道中的特征向量。

于是,得到3种颜色的区域对比度特征,最后每个图像区域利用28维的特征向量表示颜色特征。

将以上的各种特征进行拼接起来,每个图像区域可以获取到74维的特征向量

步骤S130:利用现有的图像显著性检测算法对样本集中的每一幅图像进行显著性目标的提取,以得到每幅图像中每个图像区域的显著值标签。上述现有图像显著性检测算法是基于结构化矩阵分解的算法,采用将图像中的背景与目标进行分离的思想,得到图像的显著图,进而对每个图像区域像素的显著值取其平均值,作为此图像区域的显著值标签。

步骤S140:将每个图像区域的视觉特征与对应的显著值标签集合划分成训练集与测试集,并使用基于显著标签排序的算法学习出每幅图像中每个图像区域对应的显著值。

将每个区域的显著值标签看做是256个类,将图像区域的显著值作为正标签,将显著值在集合{0,1…255}中的补集作为此图像区域的反标签,将正标签,反标签以及该图像区域的特征向量组成样本集,从样本集中选取一部分作为训练集,其余部分作为测试集。

利用训练集和测试集建立显著性目标检测参数模型框架,再建立误差损失模型,再利用误差损失模型对显著性目标检测模型进行优化求解出参数,获取每幅图像中每个图像区域的显著值。

经过提出的优化算法,可以在训练数据集上训练出一个模型参数W,然后对于每幅图像中的每个区域,用W乘以特征向量X得到关于每个区域的显著值标签出现的概率,将此概率进行降序排列,取最大的概率值所对应的W的列坐标的位置作为该区域所有像素点的显著值。

图2示出了本发明提供的基于显著标签排序的图像显著性目标检测算法的模型示意图。如图2所示,将显著性检测看作是一个多分类问题,通过一个基于排序的多标签学习算法,找到分类的模型。此算法尤其适用于在有限的训练样本集中学习大规模类别的情形。首先,将步骤S120中的所有区域特征的训练集表示为I={r1,r2…rn},每一个区域ri∈Rd是一个d维向量,n是训练集的总数。将步骤S130中所有区域对应的显著性标签表示为τ={l1,l2…lm},使用y=(y1,y2…yn)∈{0,1}m×n表示训练特征集对应的显著性标签,yi∈{0,1}m表示分配给第i个区域的显著性标签,利用yji=1表示显著标签lj分配给区域ri,反之,yji=0;m属于集合{0,1…255}表示标签对应的显著值。

本发明针对于此显著性目标检测问题,对于区域ri,如果yji=1并且yki=0,利用多标签排序的方法预测出第i个标签的排序函数fi(r),此函数可以分派给标签li一个高的显著值,而给标签lk一个低的显著值。因此,对于此区域中正反标签之间的损失定义如下:

其中,I(z)表示指示函数,当z是真时输出1否则输出0。为使计算方便高效,使用线性函数表示预测函数,定义为fi(g)=wiTg,其中W=[w1,w2…wm]∈Rd×m。于是,根据公式(1),对于训练集中所有区域的损失函数定义如下:

本发明为控制模型的复杂度的同时防止出现数据的过拟合情况,利用正则化进行模型的约束,将W看作是低秩矩阵,并引入了核范数,最小化损失函数如下:

<mrow> <munder> <mrow> <mi>min</mi> <mi>f</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>W</mi> <mo>&Element;</mo> <msup> <mi>R</mi> <mrow> <mi>d</mi> <mo>&times;</mo> <mi>m</mi> </mrow> </msup> </mrow> </munder> <mo>+</mo> <mi>&lambda;</mi> <msub> <mrow> <mo>||</mo> <mi>W</mi> <mo>||</mo> </mrow> <mo>*</mo> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

其中λ是约束参数。

此外,本发明为更好的解决显著性目标检测问题,将充分考虑到图像区域的视觉相似性特点,对于两个区域特征ri与rj,定义相似性矩阵S=[sij]n×n,其中sij=e(-||ri-rj||22)当且仅当xi∈Nk(rj)或者xj∈Nk(ri),sij表示两个区域特征之间的视觉相似性,Nk(r)是区域r的k个紧邻集合,优选为0.01*n。于是结合图拉普拉斯正则理论,如果两个区域的视觉特征相似,那么其所对应的标签空间也具有相似性。将视觉性约束正则项定义如下:

<mrow> <mi>min</mi> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <msup> <msub> <mrow> <mo>||</mo> <mrow> <mfrac> <mrow> <msup> <mi>W</mi> <mi>T</mi> </msup> <msub> <mi>r</mi> <mi>i</mi> </msub> </mrow> <msqrt> <msub> <mi>E</mi> <mrow> <mi>i</mi> <mi>i</mi> </mrow> </msub> </msqrt> </mfrac> <mo>-</mo> <mfrac> <mrow> <msup> <mi>W</mi> <mi>T</mi> </msup> <msub> <mi>r</mi> <mi>j</mi> </msub> </mrow> <msqrt> <msub> <mi>E</mi> <mrow> <mi>j</mi> <mi>j</mi> </mrow> </msub> </msqrt> </mfrac> </mrow> <mo>||</mo> </mrow> <mn>2</mn> </msub> <mn>2</mn> </msup> <mo>=</mo> <mi>T</mi> <mi>r</mi> <mo>&lsqb;</mo> <msup> <mi>W</mi> <mi>T</mi> </msup> <msup> <mi>rLr</mi> <mi>T</mi> </msup> <mi>W</mi> <mo>&rsqb;</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

其中是一个对角矩阵,L是拉普拉斯矩阵。结合公式(3)(4),将上述优化问题抽象为以下目标函数:

<mrow> <munder> <mrow> <mi>min</mi> <mi>F</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>W</mi> <mo>&Element;</mo> <msup> <mi>R</mi> <mrow> <mi>d</mi> <mo>&times;</mo> <mi>m</mi> </mrow> </msup> </mrow> </munder> <mo>=</mo> <mi>f</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>&lambda;</mi> <msub> <mrow> <mo>||</mo> <mi>W</mi> <mo>||</mo> </mrow> <mo>*</mo> </msub> <mo>+</mo> <mi>&alpha;</mi> <mi>T</mi> <mi>r</mi> <mo>&lsqb;</mo> <msup> <mi>W</mi> <mi>T</mi> </msup> <msup> <mi>rLr</mi> <mi>T</mi> </msup> <mi>W</mi> <mo>&rsqb;</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

其中,α,λ是平衡参数,L=E-1/2(E-s)E-1/2是标准化图拉普拉斯矩阵。

本发明充分考虑到上述优化问题所设计的函数引入到了核范数为非凸函数,因此利用APG(Accelerated proximal gradient)方法对上述(5)进行求解。首先,求出训练集的特征相似矩阵L,然后,对W进行迭代求解如下:

<mrow> <msubsup> <mi>W</mi> <mi>t</mi> <mo>&prime;</mo> </msubsup> <mo>=</mo> <msub> <mi>W</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>-</mo> <msub> <mi>&eta;</mi> <mi>t</mi> </msub> <mo>&dtri;</mo> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> </mrow>

其中,将优化问题解决为是对f(Wt)求梯度。于是,Wt′=U∑yT是W′奇异值分解,是一个对角矩阵,计算为ηt为更新的步长。

步骤S150:利用低秩矩阵恢复理论将得到的每一个图像区域的显著值对样本集中的图像进行显著图的恢复,检测出图像中的显著目标,得到最后的显著图。

实施例二

该实施例提供了一种基于显著标签排序的图像显著性目标检测装置,该装置的具体结构如图3所示,包括:

图像区域特征获取模块31,用于建立图像样本集,将所述图像样本集中的每幅图像使用SLIC分割方法划分成多个图像区域,并对每个图像区域提取视觉特征和背景对比度特征;

图像区域的显著值标签获取模块32,用于利用图像显著性检测算法对所述图像样本集中的每一幅图像进行显著性目标的提取,得到每幅图像中每个图像区域的显著值标签;

图像区域的显著值获取模块33,用于根据每个图像区域的视觉特征、背景对比度特征和显著值标签组成训练集与测试集,并使用基于显著标签排序的算法学习出每幅图像中每个图像区域的显著值;

图像的显著目标获取模块34,利用低秩矩阵恢复理论利用每个图像区域的显著值对每幅图像进行显著图的恢复,检测出图像中的显著目标。

进一步地,所述的图像区域特征获取模块31,具体用于设所述视觉特征包括颜色特征和纹理特征,所述颜色特征包含每个图像区域所包含像素点的平均RGB,LAB,HSV颜色值以及相应的颜色空间直方图;所述纹理特征包括图像区域的LBP、LMfilter分布特征;所述背景对比度特征采用一定数量的四周边缘区域作为背景,并分别提取背景区域的颜色纹理以及相互之间的对比度特征;

所述图像区域的背景对比度特征定义如下:

对每一个图像区域使用边界的四周区域作为伪背景区域,图像区域Rt的背景值可以表示为:

其中B代表整个伪背景区域,表示伪背景中每个小区域的特征向量,vB表示整个伪背景的整体特征向量;对于伪背景的图像区域Rt,图像区域Rt的背景对比度特征定义如下:

<mrow> <msubsup> <mi>x</mi> <mi>k</mi> <mi>c</mi> </msubsup> <mrow> <mo>(</mo> <msub> <mi>R</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>N</mi> <mi>t</mi> </mrow> </munderover> <msub> <mi>&lambda;</mi> <mi>j</mi> </msub> <msub> <mi>w</mi> <mrow> <mi>t</mi> <mi>j</mi> </mrow> </msub> <msub> <mi>D</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <msup> <mi>v</mi> <msub> <mi>R</mi> <mi>t</mi> </msub> </msup> <mo>,</mo> <msup> <mi>v</mi> <msub> <mi>R</mi> <mi>j</mi> </msub> </msup> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>w</mi> <mrow> <mi>t</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mfrac> <mrow> <mo>||</mo> <mrow> <msub> <mi>p</mi> <mi>t</mi> </msub> <mo>-</mo> <msub> <mi>p</mi> <mi>j</mi> </msub> </mrow> <mo>||</mo> </mrow> <mrow> <mn>2</mn> <msup> <mi>&sigma;</mi> <mn>2</mn> </msup> </mrow> </mfrac> </mrow> </msup> </mrow>

其中λj是对区域Rt面积的约束参数,pt和pj分别是对应的图像区域Rt与Rj之间的平均位置距离,σ是空间权重系数,N是图像样本集中图像的总数目,表示每个通道中特征向量与之间的直方图距离;

将图像区域的各种视觉特征和背景对比度特征拼接起来,得到图像区域的特征向量。

进一步地,所述的图像区域的显著值获取模块33,具体用于将每个区域的显著值标签看做是256个类,将图像区域的显著值作为正标签,将显著值在集合{0,1…255}中的补集作为此图像区域的反标签,将正标签,反标签以及该图像区域的特征向量组成样本集,从样本集中选取一部分作为训练集,其余部分作为测试集;

利用所述训练集和测试集建立显著性目标检测参数模型框架,再建立误差损失模型,再利用误差损失模型对显著性目标检测模型进行优化求解出参数,获取每幅图像中每个图像区域的显著值。

将显著性检测看作是一个多分类问题,通过一个基于排序的多标签学习算法,找到分类的模型,将每幅图像的所有图像区域特征的训练集表示为I={r1,r2…rn},每一个图像区域特征ri∈Rd是一个d维向量,n是训练集的总数,将每幅图像的所有图像区域对应的显著性标签表示为τ={l1,l2…lm},使用y=(y1,y2…yn)∈{0,1}m×n表示训练集对应的显著性标签,yi∈{0,1}m表示分配给第i个区域的显著性标签,利用yji=1表示显著标签lj分配给区域ri,反之,yji=0;m属于集合{0,1…255}表示标签对应的显著值。

对于图像区域ri,如果yji=1并且yki=0,利用多标签排序的方法预测出第i个标签的排序函数fi(r),对于此图像区域ri中正反标签之间的损失定义如下:

其中,I(z)表示指示函数,当z是真时输出1;否则输出0,使用线性函数表示预测函数,定义为fi(g)=wiTg,其中W=[w1,w2…wm]∈Rd×m,根据公式(1),对于训练集中所有图像区域的误差损失模型定义如下:

利用正则化进行所述误差损失模型的约束,将W看作是低秩矩阵,并引入了核范数,最小化损失函数如下:

<mrow> <munder> <mrow> <mi>min</mi> <mi>f</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>W</mi> <mo>&Element;</mo> <msup> <mi>R</mi> <mrow> <mi>d</mi> <mo>&times;</mo> <mi>m</mi> </mrow> </msup> </mrow> </munder> <mo>+</mo> <mi>&lambda;</mi> <msub> <mrow> <mo>||</mo> <mi>W</mi> <mo>||</mo> </mrow> <mo>*</mo> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

其中λ是约束参数。

对于两个区域特征向量ri与rj,定义相似性矩阵S=[sij]n×n,其中sij=e(-||ri-rj||22),当且仅当xi∈Nk(rj)或者xj∈Nk(ri),sij表示两个区域特征之间的视觉相似性,Nk(r)是区域r的k个紧邻集合,结合图拉普拉斯正则理论,如果两个区域的视觉特征相似,那么其所对应的标签空间也具有相似性。将视觉性约束正则项定义如下:

<mrow> <mi>min</mi> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <msup> <msub> <mrow> <mo>||</mo> <mrow> <mfrac> <mrow> <msup> <mi>W</mi> <mi>T</mi> </msup> <msub> <mi>r</mi> <mi>i</mi> </msub> </mrow> <msqrt> <msub> <mi>E</mi> <mrow> <mi>i</mi> <mi>i</mi> </mrow> </msub> </msqrt> </mfrac> <mo>-</mo> <mfrac> <mrow> <msup> <mi>W</mi> <mi>T</mi> </msup> <msub> <mi>r</mi> <mi>j</mi> </msub> </mrow> <msqrt> <msub> <mi>E</mi> <mrow> <mi>j</mi> <mi>j</mi> </mrow> </msub> </msqrt> </mfrac> </mrow> <mo>||</mo> </mrow> <mn>2</mn> </msub> <mn>2</mn> </msup> <mo>=</mo> <mi>T</mi> <mi>r</mi> <mo>&lsqb;</mo> <msup> <mi>W</mi> <mi>T</mi> </msup> <msup> <mi>rLr</mi> <mi>T</mi> </msup> <mi>W</mi> <mo>&rsqb;</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

其中是一个对角矩阵,L是拉普拉斯矩阵,结合公式(3)(4),将所述优化问题抽象为以下目标函数:

<mrow> <munder> <mrow> <mi>min</mi> <mi>F</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>W</mi> <mo>&Element;</mo> <msup> <mi>R</mi> <mrow> <mi>d</mi> <mo>&times;</mo> <mi>m</mi> </mrow> </msup> </mrow> </munder> <mo>=</mo> <mi>f</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>&lambda;</mi> <msub> <mrow> <mo>||</mo> <mi>W</mi> <mo>||</mo> </mrow> <mo>*</mo> </msub> <mo>+</mo> <mi>&alpha;</mi> <mi>T</mi> <mi>r</mi> <mo>&lsqb;</mo> <msup> <mi>W</mi> <mi>T</mi> </msup> <msup> <mi>rLr</mi> <mi>T</mi> </msup> <mi>W</mi> <mo>&rsqb;</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

其中,α,λ是平衡参数,L=E-1/2(E-s)E-1/2是标准化图拉普拉斯矩阵。

利用APG方法对所述公式(5)进行求解,求出训练集的特征相似矩阵L,对W进行迭代求解如下:

<mrow> <msubsup> <mi>W</mi> <mi>t</mi> <mo>&prime;</mo> </msubsup> <mo>=</mo> <msub> <mi>W</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>-</mo> <msub> <mi>&eta;</mi> <mi>t</mi> </msub> <mo>&dtri;</mo> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> </mrow>

其中,将优化问题解决为是对f(Wt)求梯度,Wt′=U∑VT是W′奇异值分解,是一个对角矩阵,计算为ηt为更新的步长。

用本发明实施例的装置进行基于显著标签排序的图像显著性目标检测的具体过程与前述方法实施例类似,此处不再赘述。

综上所述,本发明实施例提供的这种显著性目标检测算法,将显著性检测问题看做一个多分类的问题,从显著性标签排序映射为矩阵恢复问题,并结合视觉以及对比度特征充分利用人的视觉认知过程来检测图像中的显著目标。

本发明提供的这种显著性目标检测算法,充分利用矩阵的核范数控制模型的复杂度,并且结合视觉特征相似相以及语义标签相似性,利用图拉普拉斯正则化约束之间的相关性,有效解决显著性标签空间较大但训练图像数量有限的问题。

本系统的所有模块都是自动的完成,无需人工干预,能够简单便捷地嵌入到图像的其他语义分析系统中去,具有广泛通用的应用前景。

本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1