联合低秩表示和稀疏回归的学习方法与流程

文档序号:13472989阅读:1866来源:国知局
联合低秩表示和稀疏回归的学习方法与流程

本发明涉及低秩表示和稀疏回归领域,用于图像的记忆度预测,尤其涉及联合低秩表示和稀疏回归的学习方法。



背景技术:

人类有记住成千上万图像的能力,然而并不是所有的图像都以同样的方式被储存在大脑中。一些有代表性的图片看一眼就能记住,而其他图像很容易从记忆中消失。图像记忆被用来测量在特定时间段之后图像被记住或被遗忘的程度。以前的研究工作已经表明,对图片的记忆力和图像的固有属性有关,即对图片的记忆力在不同的时间间隔内以及在不同观察者之间是一致性的。在这种情况下,就像研究许多其他高级图像属性(如人气,兴趣,情绪和美学)一样,一些研究工作开始探索图像内容表示和图像记忆之间的潜在相关性。

分析图像可记忆性可以应用在诸如用户界面设计、视频摘要、场景理解和广告设计等几个领域中。例如,可以通过选择有意义的图像来将可记忆性用作引导标准来总结图像集合或视频。通过提高消费者对目标品牌的记忆,可以设计难忘的广告帮助商人扩大影响力。

近来,低秩表现(lrr)已经成功应用于多媒体和计算机视觉领域。为了更好地处理特征表示问题,lrr用于通过将原始数据矩阵分解为低秩表示矩阵,同时消除不相关的细节,揭示嵌入数据中的底层低秩子空间结构。传统方法通常不足以进行异常值的处理。为了解决这个问题,最近有一些研究也着重于稀疏回归学习。

然而,这些方法的主要缺点之一是特征表示和记忆预测在两个分开的阶段进行。也就是说,当确定用于图像可记忆性预测的特征组合的图案时,回归步骤的最终性能主要由处理的特征决定。虽然参考文献[1]提出了联合低秩和稀疏回归的特征编码算法来处理异常值。同样,参考文献[2]开发了一种联合图嵌入和稀疏回归框架。但它们都是为视觉分类问题设计的,而不是图像记忆预测任务。



技术实现要素:

本发明提供了一种联合低秩表示和稀疏回归的学习方法,本发明联合低秩表示和稀疏回归的学习框架,准确预测图像区域的可记忆性,详见下文描述:

一种联合低秩表示和稀疏回归的学习方法,所述方法包括以下步骤:

对带有图像记忆度分数标签的sun数据集进行特征提取;

将低秩表示和结合稀疏回归模型两部分放在同一个框架下构成一个整体,构建联合低秩和稀疏回归的模型;

利用多视觉自适应回归算法解决自动预测图像的可记忆性的问题,在最优参数下得到图像特征和图像记忆度的关系;

组合图像提出的特征,利用在最优参数下得到的关系结果,预测数据库测试集图像记忆度,并用相关评价标准来验证预测结果。

所述方法还包括:获取图像可记忆性数据集。

所述特征包括:尺度不变特征变换特征、搜索树特征、方向梯度直方图特征、以及结构相似性特征。

所述联合低秩和稀疏回归的模型具体为:

其中:

x是输入的特征,a∈rd×d是n个样本的低秩投影矩阵来捕获样本之间共享的底层低秩结构,e∈rn×d是利用l1范数来解决随机误差;w∈rd×1是变换矩阵,将变换后的样本与他们的记忆得分相关联,y为训练样本的标签;是定义的误差函数;λ>0是平衡参数。

本发明提供的技术方案的有益效果是:

1、联合低秩表示和稀疏回归用于图像可记忆性预测,其中采用低等级约束来揭示嵌入原始数据的内在结构,利用稀疏约束去除异常值以及冗余信息,当低秩表示和稀疏回归共同执行时,所有特征共享的低秩表示可以捕获特征的内部结构,从而提高了预测的准确率;

2、本发明基于多视觉自适应回归(mar)算法,以快速收敛来解决目标函数的优化问题。

附图说明

图1为联合低秩表示和稀疏回归的学习方法的流程图;

图2为标有图像记忆度分数的数据库图像样例;

图3为算法收敛图;

图4为本方法框架下单类图像属性特征的预测结果与所有属性特征预测结果的对比图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步的详细描述。

实施例1

对图像的特征进行研究并对图像记忆度进行预测,本发明实施例提出了一种联合低秩表示和稀疏回归的学习方法,参见图1,该方法包括以下步骤:

101:获取图像可记忆性数据集;

其中,该图像可记忆性数据集[1]包含来自sun数据集[11]的2,222张图像。图像的记忆得分通过amazonmechanicalturk的visualmemorygame得到,图像可记忆性是从0到1的连续值。值越高,图像越难记忆。具有各种记忆得分的样本图像如图2所示。

102:对带有图像记忆度分数标签的sun数据集分别进行特征提取;

其中,提取的特征包括:sift(尺度不变特征变换,scale-invariantfeaturetransform,sift)、gist(搜索树,generalizedsearchtrees)、hog(方向梯度直方图,histogramoforientedgradient)和ssim(结构相似性,structuralsimilarityindex))特征,该4种特征共同构成了特征数据库。

103:将低秩表示和稀疏回归模型两部分放在同一个框架下构成一个整体,构建jlrsr(联合低秩和稀疏回归)模型;

104:利用多视觉自适应回归(mar)算法解决自动预测图像的可记忆性的问题,在最优参数下得到图像特征和图像记忆度的关系;

105:组合图像特征,利用在最优参数下得到的关系结果,预测数据库测试集图像记忆度,并用相关评价标准来验证预测结果。

综上所述,本发明实施例通过上述步骤101-步骤105采用低秩约束来揭示原始数据的内在结构并利用稀疏约束去除特征的异常值以及冗余信息,当低秩表示和稀疏回归共同执行时,所有特征共享的低秩表示不仅可以捕获所有模态的全局结构,而且可以表示回归的要求;由于拟订的目标函数不平滑,难以解决,因此利用多视角自适应回归(mar)算法来解决自动预测图像的可记忆性问题,以快速收敛来解决优化问题。

实施例2

下面结合具体的计算公式对实施例1中的方案进行进一步地介绍,详见下文描述:

201:图像可记忆性数据集[1]包含来自sun数据集[17]的2,222张图像;

其中,该数据集为本领域技术人员所公知,本发明实施例对此不做赘述。

202:对带有图像记忆度分数标签的sun数据集的图片进行特征提取,提取的sift,gist,hog和ssim特征构成特征库。

这个数据库包括2222张各种环境下的图片,每张图片都标记好了图像记忆度分数,附图2展示了数据库中标有记忆度分数图片的样例。特征表示为di代表此类特征的维数,n代表数据库中所含图像个数(2222)。这些特征构成特征库b={b1,...,bm}。

203:建立jlrsr(jointlow-rankandsparseregression,联合低秩和稀疏回归)模型,在提取的特征的基础上联合低秩表示和稀疏回归,建立更鲁棒的特征表示和准确的回归模型。jlrsr模型所定义的一般框架如下所示:

其中,f(a,w)是用作预测误差的损耗函数;l(a,e)表示基于低秩表示的特征编码器;g(a)是用于解决过拟合问题的图形正则化表示。a为低秩表示的映射矩阵;w为低秩特征表示和输出记忆度分数之间的线性依赖关系;e是稀疏误差约束部分。

图像可记忆性数据集[1]包含来自sun数据集[17]的2,222张图像,图像的记忆得分通过amazonmechanicalturk的visualmemorygame得到;结合自适应迁移学习的回归训练,采用线性回归的方法对提取的特征库进行训练。图像记忆度的分数预测分为两方面,一方面是直接利用特征表示来预测图像记忆度,得到每一类图像特征到图像记忆度的映射矩阵wi,结合低秩学习,得到每类图像属性与图像记忆度的关系;根据初始图像特征向量集x∈rn×d,jlrsr模型的目标是在提取的视觉线索的基础上联合低秩表示和稀疏回归以增强鲁棒特征表示、建立准确回归模型。

对每一个部分进行具体介绍:

由于低秩约束可以去除噪声或冗余信息来帮助揭示数据的本质结构。因此,这些低秩属性可以被集成到特征学习中来处理这些问题。lrr假设原始特征矩阵包含所有样本共享的潜在最低秩结构分量及其唯一的误差矩阵,

其中a∈rd×d是n个样本的低秩投影矩阵,e∈rn×d是用范数约束的唯一稀疏误差部分,以便处理随机误差,λ>0是平衡参数,x为输入的特征;d为低秩约束后的特征维数;rank为特征的低秩表示法。

由于上述方程很难优化,因此采用核范数||a||*(*表示核范数是指矩阵奇异值的和)来逼近a的秩,因此l(a,e)的公式可以被定义如下

在本发明实施例提出的框架中,将图像记忆预测的问题作为标准回归问题。提出了lasso[5]回归方法,通过建立输入特征矩阵x与可记忆度分数向量y之间的线性关系v,最小化最小二乘误差来解决预测问题。在最小二乘误差部分加入岭正则化后,获得具有岭回归[6]的典型最小二乘问题。

其中,α是预测误差部分和正则化部分之间的平衡参数。

从矩阵分解的角度来看,变换向量v可以被分解为两个分量的乘积,即应用低秩投影矩阵a来捕获样本之间共享的低秩结构,并将系数向量w应用于将变换后的样本与他们的记忆得分相关联。引入v=aw并将损失函数f(a,w)定义为

基于多元学习的思想,采用图形正则化来保持几何结构的一致性来解决这个问题。图形正则化的核心思想是样本在特征表示形式上是接近的,那么他们的记忆得分也是接近的,反之亦然。通过最小化图形正则化器g(a),实现特征和记忆度得分之间的几何结构一致性:

其中,l=b-s是拉普拉斯算子,b是角矩阵,bii=∑jsij,s是高斯相似性函数所计算出的权重矩阵,它的计算由高斯相似性函数得到,

其中,yi和yj是第i个样本和第j个样本的流行度得分,nk表示xi是xj的k临近数据,σ是一个半径参数,它被简单地设置为所有图片对上的欧氏距离的中值。

因此定义jlrsr模型为:

其中:

a∈rd×d是n个样本的低秩投影矩阵来捕获样本之间共享的底层低秩结构,

e∈rn×d是利用l1范数来解决随机误差;x为特征;w为特征的低秩表示和输出记忆度分数之间的线性依赖关系,y为训练样本的标签。

是为了保证特征相近的样本记忆力分数也是接近的。

对jlrsr模型目标函数中的α,β,λ和φ初始化;分别固定a,e,w和q并求导,不断重复求导过程直到误差达到设定的最小值。

下面具体介绍求解过程,利用多视觉自适应回归(mar)算法[7]来解决自动预测图像的可记忆性的问题,来解决优化问题。首先,介绍一个松弛变量q来转换上述等价的问题:

s.t.x=xa+e,q=aw

然后,引入两个松弛变量y1和y2以获得增广的拉格朗日函数:

其中<,>代表矩阵的内积操作,y1和y2代表拉格朗日算子矩阵,μ>0是正惩罚参数,将上述方法合并为:

其中

本方法采用交替迭代的方法来求解。通过将二次项h(a,q,e,w,y1,y2,μ)近似为二阶泰勒展开来分别处理每个子问题。为了更好地理解和理解这个过程,引入了一个变量t,并定义了,at,et,qt,wt,y1,t,y2,t和μ作为变量的第t次迭代的结果,因此得到第t+1次迭代结果如下所示。

a的迭代结果:

然后固定w,a,q得到e的优化如下:

然后优化w通过固定的e,a,q,结果如下:

上述问题实际上是众所周知的岭回归问题,其最优解是

最后固定e,w,a优化q,可以得到:

其中,

此外,拉格朗日乘数y1和y2通过以下方案更新:

y1,t+1=y1,t+μt(x-xat+1-et+1)

y2,t+1=y2,t+μt(qt+1-at+1wt+1)

其中,▽为求偏导的符号。

在所选评价标准下研究预测的分数与实际分数间的关系,得到算法性能结果。

其中,本发明实施例将数据库随机分为10组,对每一组都进行上述步骤得到10组相关系数,取平均值评价算法性能。本方法选择的评价标准有排序相关(rankingcorrelation)和r-value,在实施例3中还有详细介绍。

实施例3

下面结合具体的实验数据,图3至图4对实施例1和2中的方案进行可行性验证,详见下文描述:

图像可记忆性数据集包含来自sun数据集的2,222张图像。图像的记忆得分通过amazonmechanicalturk的visualmemorygame得到,图像可记忆性是从0到1的连续值。值越高,图像越难记忆,具有各种记忆得分的样本图像如图2所示。

本方法采取两种评估方法:

排序相关评估方法(rankingcorrelation,rc):得到真实记忆度排序和预测记忆度分数排序关系,采用排序相关的spearman相关系数的标准来衡量两种排序之间的相关系数。它的取值范围是[-1,1],值越高代表两种排序更接近:

其中,n是测试集图像个数,r1中的元素r1i是第i张图片在真实结果中排序的位置,r2中的元素r2i是第i张图片在预测结果中排序的位置。

r-value:评估预测分数与实际分数间的相关系数便于回归模型比较。r-value取值范围是[-1,1],1代表正相关,-1代表负相关:

其中,n是测试集图像个数,si是图像真实记忆度分数向量,是所有图像真实记忆度分数的均值;vi是图像预测记忆度分数向量,是所有图像预测记忆度分数的均值。

实验中将本方法与以下四种方法进行对比:

lr(linerregression):利用线性预测函数训练底层特征与记忆度分数之间的关系;

svr(supportvectorregression):支持向量回归,将底层特征串在一起,结合rbf核函数学习非线性函数预测图像记忆度;

mrr[9](multiplerankregression):采用多阶左投影向量和右投影向量建立回归模型;

mlhr[10](multi-levelviahierarchicalregression):基于分层回归的多媒体信息分析。

图3验证了算法的收敛性;图4展示了本方法与其他方法性能比较结果,可以看到本方法优于其他方法。对比方法只探究了底层特征与记忆度预测的关系。本方法将底层特征同图像属性特征结合在同一框架下对图像记忆度进行预测。同时本方法还采用迁移学习从外部数据库训练得到图像属性探测器,得到一个较为稳定的模型。实验结果验证了本方法的可行性与优越性。

参考文献:

[1]zhangz,lif,zhaom,etal.jointlow-rankandsparseprincipalfeaturecodingforenhancedrobustrepresentationandvisualclassification[j].ieeetransactionsonimageprocessing,2016,25(6):2429-2443.

[2]shix,guoz,laiz,etal.aframeworkofjointgraphembeddingandsparseregressionfordimensionalityreduction[j].ieeetransactionsonimageprocessing,2015,24(4):1341-1355.

[3]p.isola,j.xiao,a.torralba,anda.oliva,“whatmakesanimagememorable?”inproc.int.conf.comput.vis.patternrecognit.,2011,pp.145–152.

[4]p.isola,d.parikh,a.torralba,anda.oliva,“understandingtheintrinsicmemorabilityofimages,”inproc.adv.conf.neuralinf.process.syst.,2011,pp.2429–2437.

[5]tibshiranir.regressionshrinkageandselectionviathelasso[j].journaloftheroyalstatisticalsociety.seriesb(methodological),1996:267-288.

[6]hoerlae,kennardrw.ridgeregression:biasedestimationfornonorthogonalproblems.technometrics,1970,12(1):55-67.

[7]purcells,nealeb,todd-brownk,etal.plink:atoolsetforwhole-genomeassociationandpopulation-basedlinkageanalyses.theamericanjournalofhumangenetics,2007,81(3):559-575.

[8]q.you,h.jin,andj.luo,“visualsentimentanalysisbyattendingonlocalimageregions,”inthirty-firstaaaiconferenceonartificialintelligence,2017.

[9]houc,nief,yid,etal.efficientimageclassificationviamultiplerankregression.ieeetransactionsonimageprocessing,2013,22(1):340-352.

[10]sundtb.amulti-levelhierarchicalcredibilityregressionmodel[j].scandinavianactuarialjournal,1980,1980(1):25-32.

[11]j.xiao,j.hays,k.ehinger,a.oliva,a.torralbaetal.,“sundatabase:large-scalescenerecognitionfromabbeytozoo,”inproc.int.conf.comput.vis.patternrecognit.,2010,pp.3485–3492.

本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1