本发明涉及微视频流行度预测领域,尤其涉及一种基于低秩约束和多视角特征融合的微视频流行度预测方法。
背景技术:
随着网络技术与社交平台的普及,微视频已经作为一种新的用户内容,受到了越来越多的关注。微视频是指短则30秒,长则不超过20分钟的视频短片。微视频的出现,不仅符合现代社会快节奏生活方式下的网络观看习惯和移动终端特色,也可满足娱乐爆炸、注意力稀缺时代消费者的自主参与感和注意力回报率的需求,可以预见,“微视频”带给大众的将是随时随地随意的视频享受。而微视频流行度的预测在广告推送,视频推荐以及预留带宽方面均具有指导作用,因此,对于微视频流行度的预测具有重要的意义。
在现实生活中,每一个对象均可以用多种不同的视角特征进行表示,例如:微视频的表示可以存在声学特征,视觉特征,社会属性特征以及文本特征等多种形式,不同视角的特征可以为微视频流行度的预测起到不同的作用,因此特征融合以及特征选择也是目前比较流行的处理多视角特征的方法[1]。
发明人在实现本发明的过程中,发现现有技术中至少存在以下缺点和不足:
在实际的应用中,由于外部环境的变化以及相机的抖动导致微视频受到污染,视频提取的特征具有噪声是不能完全依赖的,目前的方法并没有很好的解决噪声对于特征的影响的问题,无法满足实际应用中多种需要。
技术实现要素:
本发明提供了一种基于低秩约束和多视角特征融合的微视频流行度预测方法,本发明避免了单一视角的特征对于流行度预测的局限性,采用低秩约束处理各视角的特征,使得建立的特征之间的拉普拉斯矩阵有更高的稳定性,详见下文描述:
一种基于低秩约束和多视角特征融合的微视频流行度预测方法,所述方法包括:
对4种视角模态特征分别进行低秩近似处理,得到去除噪声的4种低秩特征信息;
通过多视角信息典型相关分析对4种低秩特征信息进行特征融合;
利用融合后的特征信息,建立表示各微视频之间的图关系的拉普拉斯矩阵;基于拉普拉斯矩阵,利用半监督的方法对微视频的流行度进行预测。
所述方法还包括:对给定的微视频提取4种视角模态特征。
所述4种视角模态特征具体为:视觉特征、声学特征、文本特征以及社会属性特征。
所述通过多视角信息典型相关分析对4种低秩特征信息进行特征融合具体为:
使各个视角的低秩特征投影到公共子空间上的余弦距离最大,用低秩特征公共子空间表示融合之后的特征空间,在此基础上进行微视频流行度的预测。
所述利用融合后的特征信息,建立表示各微视频之间的图关系的拉普拉斯矩阵具体为:
其中,l为低秩特征子空间
本发明提供的技术方案的有益效果是:
1、对各视角的特征信息进行低秩化近似处理,获得更加紧密的结构特征,以及采用去除噪声处理,使获取到的拉普拉斯矩阵具有更高的稳定性;
2、利用多视角典型相关分析的方法对4种视角信息进行学习,达到特征融合的目的,学习得到公共子空间,以此来消除单一特征空间对于预测结果的局限;
3、利用获取到的拉普拉斯矩阵表示各微视频特征之间的图关系,以此来提高流行度预测的精度,满足实际应用中的多种需要。
附图说明
图1为一种基于低秩约束和多视角特征融合的微视频流行度预测方法的流程图;
图2为本发明提出的方法与其他流行度预测算法的对比结果的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
实施例1
为了达到较好的预测效果,需要能够全面、自动、准确进行微视频流行度预测的方法。研究表明:相近特征之间的微视频具有相似的流行度。本发明实施例提出了一种基于低秩约束和多视角特征融合的微视频流行度预测方法,参见图1,详见下文描述:
101:对4种视角模态特征分别进行低秩近似处理,得到去除噪声的4种低秩特征信息;
102:通过多视角信息典型相关分析对4种低秩特征信息进行特征融合;
103:利用融合后的特征信息,建立表示各微视频之间的图关系的拉普拉斯矩阵;基于拉普拉斯矩阵,利用半监督的方法对微视频的流行度进行预测。
其中,在步骤101之前,该方法还包括:对给定的微视频提取4种视角模态特征。
进一步地,上述4种视角模态特征具体为:视觉特征、声学特征、文本特征以及社会属性特征。
其中,步骤102中的通过多视角信息典型相关分析对4种低秩特征信息进行特征融合具体为:
使各个视角的低秩特征投影到公共子空间上的余弦距离最大,用低秩特征公共子空间表示融合之后的特征空间,在此基础上进行微视频流行度的预测。
其中,步骤103中的利用融合后的特征信息,建立表示各微视频之间的图关系的拉普拉斯矩阵具体为:
其中,l为低秩特征子空间
综上所述,本发明实施例通过上述步骤101-步骤103避免了单一视角的特征对于流行度预测的局限性,采用低秩约束处理各视角的特征,使得建立的特征之间的拉普拉斯矩阵有更高的稳定性。
实施例2
下面结合具体的计算公式、实例对实施例1中的方案进行进一步地介绍,详见下文描述:
201:对给定的微视频提取4种视角模态特征,即:视觉特征、声学特征、文本特征以及社会属性特征;
本发明实施例首先对给定的微视频提取4种微视频研究的常用特征,包括:视觉特征、声学特征、文本特征以及社会属性特征。
1、视觉特征包括:颜色直方图信息、微视频中的物体信息(可以用卷积神经网络的方法得到,也可以采用其他方法获取,本发明实施例对此不做限制)和美学特征。
2、声学特征包括:微视频中的音乐以及其他主要背景音的特征。
3、文本特征包括:微视频中的文本标注等,可以用word2vec[2]方法直接得到。
4、社会属性特征是指用户账号的信息,包括:账号是否通过验证,粉丝数等信息。这4种模态的特征均能对流行度的预测起到影响,而且互为补充。
其中,上述视觉特征、声学特征、文本特征以及社会属性特征为微视频领域公知的技术术语,本发明实施例对此仅做简单的介绍,在此不做赘述。
202:利用低秩近似的方法对4种视角模态特征分别进行处理,得到低秩处理后的去除噪声的4种低秩特征信息;
在实际提取的4种视角模态特征中,由于微视频本身的噪音,视角等影响,会使得建立的视频图关系适用性不高,因此采用低秩化对提取的微视频模态特征进行处理,去除噪音等污染信息,使得建立的拉普拉斯矩阵更加稳定。隐含低秩化处理的公式表示如下:
s.t.xk=akzk+ek(1)
其中,λ为平衡常数,||.||1表示矩阵的l-1范数,||.||*表示矩阵的迹范数,xk为第k个视角的原始特征数据,zk表示低秩转换矩阵,ek表示噪声信息,ak表示预先设定的字典矩阵,在一般情况下,从实际应用角度出发,通常选定ak=xk,则得到原始特征空间的低秩化表示结果
203:利用多视角信息典型相关分析处理4种低秩特征信息,进行特征融合;
在步骤202中得到了4个视角的特征数据的低秩化结果,需要利用多视角典型相关分析的方法进行特征融合,来得到公共子空间以便综合考虑各个视角的信息。多视角典型相关分析的公式如下:
其中,w1,...,wk为多视角典型相关分析中的特征转换矩阵,sij为不同视角的微视频之间的协方差矩阵,sii为自方差矩阵,k为视角特征的数量,di为第i个模态的特征维数,t表示转置,i,j为微视频的特征视角的标号,i为单位矩阵,k的取值为大于1的正整数。w1,...,wk的求解可以采用标准的traceratio[3]方法,具体求解的步骤为本领域技术人员所公知,本发明实施例对此不做赘述。
多视角典型相关分析的目的是计算一个公共子空间,使得各个视角的特征投影到该公共子空间上的余弦距离最大,即越接近,则可以用该公共子空间表示融合之后的特征空间,在此基础上进行微视频流行度的预测。
204:利用融合后的特征信息,建立表示各微视频之间的图关系的拉普拉斯矩阵;
存在一个先验知识,即相似的微视频应该会有相似的流行度分数,在此先验知识的基础上,要求建立各微视频之间的图关系。比较普遍的表征各视频之间的图关系的方法是建立拉普拉斯矩阵,其计算拉普拉斯矩阵的具体方法如下:
其中,
在此基础上,可以按照如下方法计算归一化拉普拉斯矩阵:
其中,l为低秩特征子空间
其中,f表示预测的微视频流行度分数。
205:基于拉普拉斯矩阵,利用半监督的方法对微视频的流行度进行预测。
在拉普拉斯矩阵的基础上,采用半监督回归的方式进行流行度分数的预测,具体操作如下:
其中,α为平衡系数,f为预测得到的流行度,y为真实的流行度分数,m为对角矩阵,其中有标记的微视频值为1,未标记的微视频值为0,在该流行度预测中,只需要保证训练集的流行度与真实值相近,测试集的流行度分数则用图关系进行限定。目标函数的求解可以采用标准的求导方式进行求解,具体求解过程为本领域技术人员所公知,本发明实施例对此不做赘述。
综上所述,本发明实施例通过上述步骤201-步骤205避免了单一视角的特征对于流行度预测的局限性,采用低秩约束处理各视角的特征,使得建立的特征之间的拉普拉斯矩阵有更高的稳定性。
实施例3
下面结合具体的实例对实施例1和2中的方案进行可行性验证,详见下文描述:
一、测试数据集
本实验使用的测试数据集为从vine社交网站上下载的微视频集,其微视频长度均为6s。
二、评估标准
采用均方误差和p值衡量本方法的微视频流行度预测性能,均方误差(nmse)表征预测的准确性,p值(p-value)表征预测的可靠性。
三、对比算法
实验中将本方法与多种方法进行对比,包括tmall[1],mlr[2],lasso[3],svr[4],regmvmt[5],mlhr[6],msnl[7],mvda[8]等8种近期比较普遍的微视频流行度预测方法。
四、实验结果
图2为本方法与其他8种微视频流行度预测算法的nmse和p值指标的对比结果。由对比可知,tlrmvr(本发明提出的方法)在现有数据集上其预测的准确度(nmse值最低)高于其他对比方法,稳定性(nmse的均方误差比较小)较好。通过其他方法以本实验为对照计算p值,p值均为比较小的值,证明了本方法的可靠性。实验验证了本方法的可行性与优越性。
参考文献:
[1]chenj,songx,niel,etal.microtellsmacro:predictingthepopularityofmicro-videosviaatransductivemodel[c]//proceedingsofthe2016acmonmultimediaconference.acm,2016:898-907.
[2]t.mikolov,i.sutskever,k.chen,g.s.corrado,andj.dean.distributedrepresentationsofwordsandphrasesandtheircompositionality.inproceedingsoftheannualconferenceonneuralinformationprocessingsystems,pages3111–3119.nipsfoundation,2013.
[3]yangqingjia,feipingnie,changshuizhang.traceratioproblemrevisited.ieeetransactionsonneuralnetworks(tnn),volume20,issue4,pages729-735,2009.
[4]a.j.smolaandb.scholkopf,“atutorialonsupportvectorregression,”statisticsandcomputing,vol.14,no.3,pp.199–222,2004.
[5]j.zhangandj.huan,“inductivemulti-tasklearningwithmultipleviewdata,”inproceedingsofacminternationalconferenceonknowledgediscoveryanddatamining.acm,2012,pp.543–551.
[6]y.yang,j.song,z.huang,andz.ma,“multi-featurefusionviahierarchicalregressionformultimediaanalysis,”ieeetransactionsonmultimedia,vol.15,no.3,pp.572–581,2013.
[7]x.song,l.nie,l.zhang,m.akbari,andt.-s.chua,“multiplesocialnetworklearninganditsapplicationinvolunteerismtendencyprediction,”inproceedingsofacmsigirconferenceonresearchanddevelopmentininformationretrieval.acm,2015,pp.213–222.
[8]m.kan,s.shan,h.zhang,s.lao,andx.chen,“multi-viewdiscriminantanalysis,”ieeetransactionsonpatternanalysisandmachineintelligence,vol.38,no.1,pp.188–194,2016.
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。