基于深度学习的跨模态主题相关性建模方法与流程

文档序号:17567462发布日期:2019-05-03 18:59阅读:来源:国知局

技术特征:

1.一种基于深度学习的跨模态主题相关性建模方法,其特征在于具体步骤如下:

(1)数据预处理:从多媒体数据集中采集不同模态的数据图像,得到图像和图像描述数据,整理图像标注数据集中不常出现或者无用的标注词;

(2)提取多模态深度特征:利用深度学习方法来提取图像的视觉特征与图像描述的语义特征;具体来说,分别利用Region-CNN模型和Skip-gram模型来抽取图像的区域特征和文本的词汇特征;其中,Region-CNN首先检测图像中有代表性的区域候选集,之后利用预训练的卷积神经网络来对抽取相应区域所对应的特征;Skip-gram模型则是利用文本词汇与词汇之间的共现信息直接训练得到词汇的特征向量表示;

(3)构建深度词袋模型:首先采用聚类算法K-means将步骤(2)中所得到的图像区域特征和文本词汇特征进行聚类,得到限定维度的深度视觉词典和深度文本词典,进而将相应图像中所有的区域特征映射到相应的视觉词典,从而构建得到深度视觉词袋模型;相似地,所有的文本中的词汇也映射到文本词典得到深度文本词袋模型;

(4)多模态主题生成:利用潜在狄利克雷模型的假设来模拟整个多模态数据集的生成过程,并且推导得到文本集合和图像集背后所隐藏的主题分布特征,充分利用词汇之间的共现信息;

(5)融合跨模态主题相关性分析的关系主题模型建模:构建相应的关系主题模型,即在构建主题模型的同时考虑不同模态之间主题特征的相关性,将步骤(4)中得到的多模态主题特征作为初始值,同时利用图像和文本之间的关联信息来计算图像和文本之间的相关性,利用计算得到的相关性来更新多模态文档的主题信息,从而交叉迭代地进行相关性计算与主题分布更新进而构建得到最终的关系主题模型;

(6)基于主题相关性的跨媒体信息检索:将得到的跨模态主题相关性应用到跨媒体信息检索中,分别是给定某种模态的查询,利用相关性计算得到与该查询最相关的其他模态的数据。

2.根据权利要求1所述的方法,其特征在于:步骤(2)中,所述分别利用Region-CNN和Skip-gram模型来抽取图像的区域特征和文本的词汇特征,具体过程如下:

给定图像,Region-CNN首先利用选择搜索的方法从图像选择出物体可能出现的位置作为候选集,以region的形式存在;之后,再针对每个区域提取CNN特征;在具体实现上,Region-CNN将每个图像区域转换成为固定的像素尺寸227*227,用于提取特征的卷积网络由5个卷积层和2个完全连接层构成;

给定文本文档,利用Skip-gram模型训练得到文本文档中出现的每一个词对应的特征向量;用TD表示整个多模态文档数据集合的文本描述部分,TW是在TD中出现过的所有的文本词汇,TV是文本词汇对应的词典,对于TW中的每一个词汇tw,ivtw和ovtw是针对tw的输入特征向量和输出特征向量,Context(tw)是词tw在其上下文中出现的词汇;将上下文对应的窗口大小设置为5,将整个文本数据集所对应的所有输入向量和输出向量统一用一个长参数向量来表示W∈R2*|TV|*dim,其中dim是输入向量和输出向量的维度;整个Skip-gram模型的目标函数如下描述:

利用负样本采样方法来近似计算logP(twj|twi),其计算公式如下所示:

其中,σ(·)是sigmoid函数,m是负样本的数量,每一个负样本都是从基于词频的噪音分布P(tw)所生成的。

3.根据权利要求1所述的方法,其特征在于:步骤(3)是在步骤(2)得到相应深度词汇的基础上,进一步通过向量量化的方法来构建深度词袋模型,具体过程为:对于利用R-CNN提取得到的区域候选集以及相应的特征,首先利用K-means的方法将多模态文档数据集中所有图像所包含的区域特征来进行聚类,得到固定数量的类别,每一个聚类类别的中心点作为该类别的代表元素,所有这些类别构成一个相应的词典;之后,把图像里的每一个候选区域都映射到相应的类别当中来表示,映射方法是通过计算每一个区域的特征与类别中心特征的欧氏距离,从而找到与区域特征最近的相应的类别,在向量对应该类别的位置累加,从而把整个数据集中的每一幅图像都表示成为深度视觉词袋的形式,即每一幅图像对应一个向量,向量的维度是类别的数目,而向量的元素值是该类别在图像中出现的次数,用向量VT∈RC来表示,其中C是聚类得到的类别数目;同样地,对于文本文档所对应的所有的词向量,也通过聚类的方式来得到相应的深度文本词典,最终用同样的映射方法将每一个文本都表示成深度文本词袋的形式。

4.根据权利要求1所述的方法,其特征在于:在步骤(4)中,利用潜在狄利克雷模型分别对图像和文本集合进行概率建模,潜在狄利克雷模型假设在文档集的背后隐藏着一个共同的主题集合,而具体的每一篇文档背后又分别对应着在该主题集合上的一个概率分布,该文档中的每一个词背后都对应着一个由该概率分布所生成的主题;而所有文档的概率分布不是毫无关系的,都是从一个共同的狄利克雷分布所生成;在此模型假设的基础上,将步骤(3)得到的深度视觉词袋与深度文本词袋作为输入,利用LDA模型来推导得到不同模态文档背后所隐藏的概率主题分布。

5.根据权利要求1所述的方法,其特征在于:步骤(5)在构建模型的过程中,将多模态文档集合DM分为三部分构成,即第一部分是视觉图像集合DV,第二部分是文本描述集合DT,第三部分是链接集合LVT,该集合指示图像和文本之间的关联信息;其中,DV由深度视觉词汇集合DWV构成,而DVV是深度视觉词典,同时文本描述集合DT由深度文本词汇集合DWT构成,DVT是深度文本词典;对于lvt∈LVT,lvt=1意味着视觉图像dv∈DV与文本描述dt∈DT是相关的,而lvt=0则意味着视觉图像dv与文本描述dt是不相关的;基于以上描述,关系主题模型形式化表示如下:给定DTV为视觉主题集合,DTT是文本主题集合,α和β是两个超参数,其中α针对主题的狄利克雷分布,β针对主题-深度词汇的狄利克雷分布,θv对应视觉图像dv背后的主题分布,θt对应视觉图像dt背后的主题分布,Φ是每个主题对应所有深度词汇所对应的多项式分布,z是由θ实际生成的对应所有词汇的背后主题信息,Dir()与Mult()分别表示狄利克雷分布与多项式分布,Nd表示在文档d中的深度词汇的数量,n表示第n个深度词汇;整个关系主题模型的生成过程如下所示:

(1)对于视觉主题集合中的每个主题tv∈DTV:

根据主题-视觉词汇的狄利克雷分布采样得到tv对应所有视觉词汇的多项式分布,即:φvtv~Dir(φvv);

(2)对于文本主题集合中的每个主题tt∈DTT:

根据主题-文本词汇的狄利克雷分布采样得到tt对应所有文本词汇的多项式分布,即:φttt~Dir(φtt);

(3)对于每一个视觉文档d∈DV:

(a)根据在主题集合上的狄利克雷分布采样得到d背后对应的主题分布,即:

θvd~Dir(θvv);

(b)对于d中的每一个深度视觉词汇wvd,n:

i.根据文档d背后的主题分布得到该词汇对应的主题,即:zvd,n~Mult(θvd);

ii.根据主题-视觉词汇采样得到在文档中对应的词汇,即:wvd,n~Mult(φvzd,n);

(4)对于每一个文本文档d∈DT:

(a)根据在主题集合上的狄利克雷分布采样得到d背后对应的主题分布,即:θtd~Dir(θtt);

(b)对于d中的每一个深度文本词汇wtd,n:

i.根据文档d背后的主题分布得到该词汇对应的主题,即:ztd,n~Mult(θtd);

ii.根据主题-文本词汇采样得到在文档中对应的词汇,即:wtd,n~Mult(φtzd,n);

(5)对于每一个链接lvt∈LVT,表示视觉文档dv与文本文档dt之间的关联信息:

(a)根据dv与dt的主题特征来计算其相关性从而对lvt进行采样,即:其中分别对应文档dv与dt的经验主题分布,是两个映射矩阵分别映射视觉和文本主题特征到公共子空间,其中公共子空间的维度是dim维,TCor(lvt=1)表示文档dt与dv的主题相关性,而TCor(lvt=0)表示文档dt与dv的主题非相关性;

基于以上过程,最终构建联合概率分布形式来针对整个多模态文档集合进行建模,如下所示:

其中,第一项对应主题-深度词汇的生成过程,中间两项对应深度视觉词汇与深度文本词汇的生成过程,最后一项表示图像-描述连接的生成过程。

6.根据权利要求1所述的方法,其特征在于:步骤(6)是步骤(5)所建立的关系主题模型,用于跨媒体信息检索;跨媒体信息检索分为两类,即文本-查询-图像和图像-查询-文本,文本-查询-图像考虑的是根据给定的查询文本,利用关系主题模型计算不同图像对该文本相关度来对所有图像进行排序,图像-查询-文本是根据不同文本文档对于给定查询图像的相关度来对所有文本文档进行排序;

对于给定的利用图像查询文本,利用关系主题模型推导出相应的主题特征,并且利用步骤(5)中得到的主题特征的相关性计算方法来计算与其他模态文档之间的相关性信息,通过相关性信息的高低来对文本文档进行排序,从而返回得到与查询图像最相关的文本文档;同样地,上述过程也适用于利用文本查询图像的跨媒体信息检索过程。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1