本发明属于深度学习和多媒体检索
技术领域:
:,涉及跨媒体检索方法,尤其涉及一种利用卷积神经网络提取图像特征和FisherVector提取文本特征的跨媒体检索方法。
背景技术:
::随着互联网的高速发展,图像、文本、视频、音频等不同类型的多媒体数据呈现出爆炸性的增长。这些多媒体数据经常会同时出现,用来描述一个相同的事物。不同模态的信息反映了事物的不同属性,人们需要获取不同模态的信息来满足对事物不同形式的描述的需求。比如,对于一副图像,我们想要找到与其相关的文字描述;或者对于一段文本,找到符合这段文本语义的图像或是视频。要满足上述需求,就需要实现跨媒体检索的相关技术。现有检索系统大都是建立在单一模态文本信息的基础上,例如谷歌、百度等搜索引擎。通过查询请求检索图像、音频、视频的功能本质上是对一个由文字信息组成的元数据库上的内容匹配,这种检索仍然属于传统的基于关键字的检索技术。虽然关键字能够准确地描述概念的细节信息,但是它很难完整、生动地呈现一幅图片或一段视频的内容,并可能带有标注人的主观意愿。其固有缺陷使得大批学者开始转向研究基于内容的检索技术,通过充分挖掘多媒体数据的语义关联,使计算机能够更准确地理解多媒体信息表达的内容。然而,基于内容的检索一般只关注媒体底层特征,且通常针对单一模态媒体对象,使得查询和检索结果必须为相同的模态,无法实现跨越各种媒体类型的综合检索。因此,跨媒体检索的概念被提出。跨媒体检索是不依托于某个单一模态的媒体,可以实现任意模态媒体之间的相互检索。输入任意类型媒体的信息,通过跨媒体检索即可得到相关的其他媒体信息在多模态的巨量数据中,更快地检索出符合要求的结果。现有的跨媒体检索方法主要涉及三个关键问题:跨媒体度量、跨媒体索引、跨媒体排序。针对这三个关键问题的典型方法分别是基于匹配模型的跨媒体度量方法、基于哈希学习的跨媒体索引方法和基于排序学习的跨媒体排序方法,具体如下:第一,基于匹配模型的跨媒体度量方法,通过已知类别的训练数据对匹配模型进行训练,来挖掘不同类型数据之间的内在联系,进而对跨媒体数据之间的相似度进行计算,返回相关性最高的检索结果。匹配模型有两种匹配方法,一种是基于相关性的匹配,如利用典型相关性分析(CanonicalCorrelationAnalysis,CCA)的方法;另一种是基于语义的匹配(SemanticMatching,SM),如利用多类逻辑回归的方法进行语义分类。第二,基于哈希学习的跨媒体索引方法。由于互联网中海量大数据的出现,使得人们对检索速度提出了更高的要求。哈希索引是加快近似近邻检索的一种有效方法。该方法通过学习到的哈希模型将原始特征数据转化为二进制哈希码,同时尽可能地保持原空间中的近邻关系,即保持相关性。第三,基于排序学习的跨媒体排序方法。跨媒体排序的目的是学习不同模态之间的基于语义相似度的排序模型。具体做法是在检索出语义相关的跨媒体数据之后,对检索结果做一个更优的排序,使得相关性更高的数据更加靠前,不断迭代优化过程,直到收敛得到最优检索。上述这些方法中,所用的图像和文本特征几乎都是使用人工定义的传统特征,如SIFT特征。随着计算机处理性能和计算能力的不断提高,传统的人工特征极大地阻碍了跨媒体检索性能的提升,近一年,人们开始关注深度学习相关技术与跨媒体检索的结合。事实证明,深度学习的有效应用往往能对检索效果带来突破性的进展。技术实现要素:为了克服上述现有技术的不足,本发明提供一种新的跨媒体检索方法,利用VisualGeometryGroup团队(简称VGG)提出的卷积神经网络(称作VGGnet)提取图像特征,利用基于Word2vec的FisherVector提取文本特征,通过逻辑回归的方法对异构图像、文本特征进行语义匹配,从而实现跨媒体检索;现有跨媒体检索方法普遍都是基于传统的人工提取的特征,与人工定义的传统特征相比,本发明的特征提取方法能有效地表示图像和文本的深层语义,可提高跨媒体检索的准确度,从而大幅度提升跨媒体检索效果。本发明的原理是:将文献[1](SimonyanK,ZissermanA.VeryDeepConvolutionalNetworksforLarge-ScaleImageRecognition[J].ComputerScience,2014)记载的VGG卷积神经网络用来提取图像特征,使用基于Word2vec的FisherVector(简称,FV)特征作为文本特征,再通过基于逻辑回归的语义匹配(SemanticMatching,SM)方法找到图像、文本这两种异构特征之间的关联,由此达到跨媒体检索的目的。本发明所提出的特征能更好的对图像和文本进行表达,可提高跨媒体检索的准确度。本发明提供的技术方案是:一种跨媒体检索方法,利用VGG提出的卷积神经网络(称作VGGnet)提取图像特征,利用基于Word2vec的FisherVector提取文本特征,通过逻辑回归的方法对异构图像、文本特征进行语义匹配,从而实现跨媒体检索;包括如下步骤:1)收集含有类别标签的跨媒体检索数据集,设为D={D1,D2,…,Dn},n表示数据集的大小;所述跨媒体检索数据集中数据的类型包括图像和文本两种媒体类型,表示为图像-文本对Di(Di∈D),其中表示图像的原始数据,表示文本的原始数据;类别标签设为L,L=[l1,l2,…,ln],其中li∈[1,2,…,C],C为类别的数目,li表示第i对图像和文本所属的类别;将所述跨媒体检索数据集划分为训练数据和测试数据;2)对于数据集D中的所有图像数据DI,其中使用VGG卷积神经网络方法提取得到图像特征,将VGG卷积神经网络中的第七层全连接层fc7通过ReLU激活函数之后的4096维特征,记作I={I1,I2,…,In},其中Ij∈R4096,j∈[1,n],作为图像特征;3)对于数据集中的文本特征数据DT,其中使用基于Word2vec的FisherVector方法提取文本特征;具体将DT转换成词向量集合W={W1,W2,…,Wn},W为DT包含的单词的词向量集合;将W={W1,W2,…,Wn}中的每个文本词向量集合Wi代入式1中的X,求得每个文本的FisherVector,记作T={T1,T2,…,Tn},Ti∈R(2×dw+1)×G-1,i∈[1,n],其中,Ti表示由第i个文本计算出来的FisherVector;由此提取得到文本特征;4)使用执行步骤2)和步骤3)得到的训练数据中的图像特征和文本特征对基于逻辑回归的语义匹配模型进行训练,将文本特征T转换成了文本语义特征ПT,c是类别的个数,也是文本语义特征的维数;将图像特征Ii转换成后验概率组成的语义特征,后验概率为k∈[1,C],表示图像Ii属于类别k的概率;5)利用步骤4)训练好的语义匹配模型,使用步骤2和步骤3得到的测试数据的图像特征和文本特征,针对一幅图片或文本进行测试,得到相关的文本或图片,即为跨媒体检索结果。针对上述跨媒体检索方法,进一步地,步骤3)使用基于Word2vec的FisherVector方法提取文本特征,具体包括如下过程:31)将原始文本数据DT,其中转换成词向量集合W={W1,W2,…,Wn},W为DT包含的单词的词向量集合;32)将单词记作w,单词w所对应的词向量为fword2vec(w);对于有fword2vec(w)∈Wi,i∈[1,n],即其中wi,jRdw,j∈1,bi],wi,j为包含单词所对应的词向量,dw为词向量的维度,bi为中包含的单词个数;33)用X={x1,x2,…,xnw}表示一个文本的词向量集合,nw为词向量个数;令混合高斯模型GMM的参数为λ,λ={ωi,μi,∑i,i=1..G},其中ωi,μi,∑i分别表示GMM中每个高斯函数的权重、均值向量和协方差矩阵,G表示模型中高斯函数的个数;GMM函数定义为式1:其中,p(xt|λ)表示对于向量xt(t∈[1,nw]),由GMM产生的概率值p(xt|λ),表示为式2:对权重ωi设置总和为1约束,表示为式3:其中,pi(x|λ)表示GMM中的第i个高斯函数,由式4给出:其中,dw是向量的维度,|∑i|表示求∑i的行列式;用γt(i)来表示向量xt由第i个高斯函数产生的概率,表示为式5:34)对高斯模型的参数求偏导即得到FisherVector;所述FisherVector是将所有参数的求导结果连接组成的向量;所述高斯混合模型中高斯函数个数为G,向量维度为dw,所述FisherVector的维度为(2×dw+1)×G-1;权重ω的自由度为N-1;35)将W={W1,W2,…,Wn}中的每个文本词向量集合Wi代入式1中的文本的词向量集合X,求得每个文本的FisherVector,记作T={T1,T2,…,Tn},Ti∈R(2×dw+1)×G-1,i∈[1,n],其中,Ti表示由第i个文本计算出来的FisherVector。更进一步地,步骤34)所述对高斯模型的参数求偏导,具体地,对各个参数的求导公式如式6~式8:其中,上标d表示向量的第d个维度。针对上述跨媒体检索方法,进一步地,步骤4)所述使用训练数据中的图像特征和文本特征对基于逻辑回归的语义匹配模型进行训练,所述图像特征为I={I1,I2,…,In},Ij∈R4096;所述文本特征为T={T1,T2,…,Tn},Ti∈R(2×dw+1)×G-1;相应的图像特征和文本特征具有共同的标签为L=[l1,l2,…,ln],其中li∈[1,2,…,C];所述训练具体包括:41)将文本特征Ti转换成由后验概率组成的语义特征ПT,c是类别的个数,也是文本语义特征的维数;表示为式10:其中,上标d表示向量中的第d个维度;后验概率为k∈[1,C],表示文本Ti属于类别k的概率,通过式9计算得到其中,是多类别逻辑回归线性分类器的参数,,表示的转置,对应类别k,其中DT=(2×dw+1)×G-1,DT为文本特征的维度;42)将图像特征T转换成图像语义特征ПI,c是类别的个数,也就是图像语义特征的维数;表示为式12:其中,上标d表示向量中的第d个维度;后验概率为k∈[1,C],表示图像Ii属于类别k的概率,其中的计算公式如下:其中,是多类别逻辑回归线性分类器的参数,对应类别k,是一个DI维的向量,DI为图像特征的维度。针对上述跨媒体检索方法,进一步地,步骤5)所述针对一幅图片或文本进行测试,得到相关的文本或图片;所述相关性的度量方法包括Kullback–Leiblerdivergence方法、NormalizedCorrelation方法、CenteredCorrelation方法和L2范式方法中的一种或多种。与现有技术相比,本发明的有益效果是:本发明使用VGG卷积神经网络提取图像特征,使用基于Word2vec的FisherVector(FV)特征作为文本特征,图像和文本都使用了神经网络提取特征的方法。与传统的人工特征相比,神经网络特征更加复杂,更能表现出图像和文本的内容。所以,使用神经网络特征来进行跨媒体检索,在检索效果上会有较大提升。具体地,本发明具有如下优点:第一,本发明采用神经网络模拟生物视觉神经网络系统,将像素级别的特征表示成高层的更加抽象的特征,用来解释图像数据。第二,本发明技术方案得益于计算机计算性能的提升,神经网络特征经过更加复杂的计算得到,能够在通过大规模数据的训练后取得很好的效果。附图说明图1是本发明提供的跨媒体检索方法的流程框图。图2是本发明实施例采用wikipedia数据集中的图像和文本实例;其中,(a)是wikipedia数据集中的一副图像;(b)是该图像所对应的文本,文本呈现形式为长段落。图3是本发明实施例采用pascalsentence数据集的图像和文本实例;其中,(a)是pascalsentence数据集中的一副图像;(b)是该图像所对应的文本,文本为五个句子。具体实施方式下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。本发明提供一种新的跨媒体检索方法,利用VisualGeometryGroup团队(简称VGG)提出的卷积神经网络(称作VGGnet)提取图像特征,利用基于Word2vec的FisherVector提取文本特征,通过逻辑回归的方法对异构图像、文本特征进行语义匹配,从而实现跨媒体检索;现有跨媒体检索方法普遍都是基于传统的人工提取的特征,与人工定义的传统特征相比,本发明的特征提取方法能有效地表示图像和文本的深层语义,可提高跨媒体检索的准确度,从而大幅度提升跨媒体检索效果。图1是本发明提供的跨媒体检索方法的流程框图,包括如下步骤:步骤1,收集含有类别标签的针对图像和文本两种媒体类型的跨媒体检索数据集,分别将图像和文本划分为训练数据和测试数据;步骤2,对于数据集中的所有图像数据,使用VGG卷积神经网络的方法提取图像特征。步骤3,对于数据集中的文本特征,使用基于Word2vec的FisherVector方法提取文本特征。步骤4,使用步骤2,3后得到的训练数据中的图像和文本特征对基于逻辑回归的语义匹配模型进行训练。步骤5,利用训练好的语义匹配模型,使用步骤2,3得到的测试数据的图像和文本特征进行测试,检验本发明的效果。各步骤具体包括如下过程:步骤1,收集含有类别标签(如在pascalsentence数据集中,分为20类,有飞机,汽车,鸟等类别)的针对图像和文本两种媒体类型的跨媒体检索数据集,将数据集划分为训练数据和测试数据。将数据集定义为D={D1,D2,…,Dn},其中n表示数据集的大小,对数据集中的任一图像-文本对Di(Di∈D),可表示为其中表示图像的原始数据,表示文本的原始数据。L=[l1,l2,…,ln],其中li∈[1,2,…,C],C为类别的数目,li表示第i对图像和文本所属的类别。步骤2,对于数据集中的所有图像数据,使用VGG卷积神经网络的方法提取图像特征。VGG卷积神经网络有A~E五种配置,卷积层数从8到16递增。本发明实施例中,优选地,使用的卷积层数为16层,再加上3个全连接层,一共是19层的VGG网络。每幅图像输入VGG网络后,在第七层全连接层(fc7)得到一个4096维的向量,通过ReLU(RectifiedLinearUnits)激活函数后,用这个向量作为图像特征。具体地,将原始图像数据DI,其中输入VGG网络中并提取图像特征。图像特征是第七层全连接层(fc7)通过ReLU(RectifiedLinearUnits)激活函数之后的4096维特征,记作I={I1,I2,…,In},其中Ij∈R4096,j∈[1,n]。步骤3,对于数据集中的文本特征,使用基于Word2vec的FisherVector方法提取文本特征。将原始文本数据DT,其中转换成词向量集合W={W1,W2,…,Wn},W为DT包含的单词的词向量集合。进一步地,将单词记作w,单词w所对应的词向量为fword2vec(w),则对于有fword2vec(w)∈Wi,i∈[1,n]。即其中wi,j∈Rdw,j∈[1,bi],wi,j为包含单词所对应的词向量,dw为词向量的维度,bi为中包含的单词个数。这里先假设用X={x1,x2,…,xnw}表示一个文本的词向量集合,nw为词向量个数。令混合高斯模型(GaussionMixtureModel,GMM)参数为λ,则λ={ωi,μi,∑i,i=1..G},其中ωi,μi,∑i分别表示GMM中每个高斯函数的权重、均值向量和协方差矩阵,G表示模型中高斯函数的个数。对GMM函数定义如下:其中,p(xt|λ)表示对于向量xt(t∈[1,nw]),由GMM产生的概率值p(xt|λ),表示为式2:对权重ωi有如下约束,总和为1,表示为式3:其中,pi(x|λ)表示GMM中的第i个高斯函数,由式4给出:其中,dw是向量的维度,|∑i|表示求∑i的行列式用γt(j)来表示向量xt由第i个高斯函数产生的概率,表示为式5:对高斯模型的参数求偏导即得到FisherVector,对各个参数的求导公式如式6~式8,其中,上标d表示向量的第d个维度:FisherVector就是将上述所有参数的求导结果连接组成的向量。因为高斯混合模型中高斯函数个数为G,向量维度为dw,所以,FisherVector的维度为(2×dw+1)×G-1;对于权重ω,含有总和为1的约束条件,其自由度为G-1;G为高斯模型中高斯函数的个数。最后,将W={W1,W2,…,Wn}中的每个文本词向量集合Wi代入式1中的X,求得每个文本的FisherVector,记作T={T1,T2,…,Tn},Ti∈R(2×dw+1)×G-1,i∈[1,n],其中,Ti表示由第i个文本计算出来的FisherVector。步骤4,使用执行步骤2、3之后得到的训练数据中的图像和文本特征对基于逻辑回归的语义匹配模型进行训练。得到的图像特征为I={I1,I2,…,In},Ij∈R4096。得到的文本特征为T={T1,T2,…,Tn},Ti∈R(2×dw+1)×G-1。对于相应的图像和文本特征,有着共同的标签,L=[l1,l2,…,ln],其中li∈[1,2,…,C]。我们将文本特征Ti转换成由后验概率组成的语义特征,后验概率为k∈[1,C],表示文本Ti属于类别k的概率,其中,通过式9计算得到其中,是多类别逻辑回归线性分类器(multi-classlogisticregression)的参数,,表示的转置,对应类别k,其中DT=(2×dw+1)×G-1,DT为文本特征的维度。这样,我们将文本特征T转换成了文本语义特征ПT,c是类别的个数,也是文本语义特征的维数。上标d表示向量中的第d个维度,则表示为式10:同理,我们将图像特征Ii也转换成后验概率组成的语义特征,后验概率为k∈[1,C],表示图像Ii属于类别k的概率,其中的计算公式如下:其中,是多类别逻辑回归线性分类器(multi-classlogisticregression)的参数,对应类别k,是一个DI维的向量,DI为图像特征的维度。这样,我们将图像特征T转换成了图像语义特征ПI,c是类别的个数,也就是图像语义特征的维数。用上标d来表示,向量中的第d个维度,则表示为式12:以上对图像和文本语义特征进行计算,训练得到语义匹配模型。步骤5,利用步骤4训练好的语义匹配模型,使用步骤2和步骤3得到的测试数据的图像和文本特征,针对一幅图片(或文本)进行测试,得到相关的文本(或图片);并检验本发明的效果。对于图像检索文本(Img2Text),计算图像语义特征ПI和文本语义特征ПT的相关性,将文本语义特征ПT按相关性从大到小排序,则和图像ПI越相关的文本越靠前。同理,对于文本检索图像(Text2Img)计算文本语义特征ПT和图像语义特征ПI的相关性,将图像语义特征ПI按相关性从大到小排序,则和文本ПT越相关的图像越靠前。其中相关性的度量方法包括Kullback–Leiblerdivergence(KL)、NormalizedCorrelation(NC)、CenteredCorrelation(CC)以及L2范式(L2)。对于图像检索文本(Img2Text)和文本检索图像(Text2Img)的结果,计算其MAP值(MeanAveragePrecision),衡量检索结果。在具体实施实验中,实施例一使用wikipedia的数据集,共包括2866对图像及其文本,有10个类别,分别为:Art&architecture(艺术&建筑)、Biology(生物)、Geography&places(地理&地点)、History(历史)、Literature&theatre(文学&戏剧)、Media(媒体)、Music(音乐)、Royalty&nobility(皇室&贵族)、Sport&recreation(运动&娱乐)、Warfare(战争)。划分其中的2173个数据为训练数据,693个数据为测试数据。数据集的图像和文本实例如图2所示,每个图像对应一段长文本。通过步骤2和步骤3得到图像特征和文本特征。其中,文本数据先用textteaser(一种开源文本自动摘要工具)提取出每个文本的前两个主题句,对于每个主题句提取FisherVector特征,然后将这两句的FisherVector特征连接在一起形成更高维度的特征,作为最终的特征。如一句话的Fishervector特征是d维,两句话连接后的最终特征是2d维。之后,按照步骤4训练得到语义匹配模型,按照步骤5对待测试样本得到检索结果。实验结果表明,与现有方法相比,本发明方法在Img2Text和Text2Img两个任务中,都取得了较优的结果。用于对比的提取传统人工特征进行跨媒体检索的方法包括CCA[2],LCFS[3],CDLFA[4],HSNN[5]。他们使用的文本特征为10维的隐狄利克雷分布(LatentDirichletAllocation,LDA)特征,图像特征为128维的SIFT特征。同时本发明与最新的利用深度学习进行跨媒体检索的论文CVF[6]中的结果进行比较。CVF[6]中文本特征使用100维的LDA特征,图像特征使用4096维的DeCAF深度网络的CNN特征.下表给出了实验结果,Proposed表示的是本发明的结果,通过对比可知,本发明较CCA[2],LCFS[3],CDLFA[4],HSNN[5]中的方法效果有很大提升,和最新的CVF[6]中的方法效果相近,使用CC相关性度量的方法较CVF[6]效果有一定的提升。表1Wikipedia数据集实验结果第二个实施例使用PascalSentence数据集,该数据集包含1000对图像-文本数据,分为20类(对应类别标签),包括飞机、汽车、鸟等类别,如表2所示;每类包含50对图像和文本。表2PascalSentence数据集的20个类别aeroplane飞机diningtable饭桌bicycle自行车dog狗boat船house房子bird鸟motorbike摩托车bottle瓶子person人bus公交车pottedplant盆栽car汽车sheep羊cat猫sofa沙发chair椅子train火车cow牛tvmonitor电视图像和文本数据实例如图3所示,每个图像对应5个句子。从每类中随机抽取30对图像和文本,共600对作为训练数据,其余的400对作为测试数据。通过步骤2和步骤3提取出相应的图像特征和文本特征,其中,由于PascalSentence中的文本数据已经是句子,不需要做文本摘要处理,可直接提取FisherVector特征,一句话的Fishervector特征是d维,然后,按照步骤4训练得到语义匹配模型,按照步骤5对待测试样本得到检索结果。由于文献[2]~[5]中记载的方法没有使用本数据集做评测,我们直接与CVF[6]的结果进行比较,结果如表3:表3PascalSentence数据集实验结果从实验结果可以看出,我们的方法对于PascalSentence数据集的检索正确率有较大提升。需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。当前第1页1 2 3 当前第1页1 2 3