一种基于统一关联超图规约的跨媒体检索方法
【技术领域】
[0001] 本发明涉及多媒体检索领域,具体涉及一种基于统一关联超图规约的跨媒体检索 方法。
【背景技术】
[0002] 近年来,互联网上的多媒体数据(如图像、视频、文本、音频等)总量飞速增长,已经 成为大数据的主要内容。面对快速增长的媒体数量和丰富多样的媒体种类,用户对多媒体 数据的检索需求越来越强烈。然而,现有的搜索引擎系统(如百度等)仍然主要基于文本关 键词,通过对用户输入文本进行匹配来实现检索。另一方面,基于内容的多媒体检索能够根 据内容的相似性进行检索,但局限在单媒体检索上,即返回的检索结果媒体类型与用户输 入的媒体类型必须一致,从而限制了检索的灵活性和全面性。跨媒体检索是指用户以任意 一种媒体类型作为输入,系统经过检索后返回所有媒体类型的结果。如用户输入一幅图片, 不仅能够返回内容相关的图片,还能够得到相关文本、音频、视频等数据。
[0003] 相比较单媒体检索,跨媒体检索具有两方面的优势:一方面能够返回所有媒体的 相关数据,增加了检索的灵活性;另一方面多种媒体相互促进,起到了降低噪声的修正作 用。
[0004] 现有的最常见的跨媒体检索方法是基于统计分析的映射学习方法。其代表为典型 相关分析(Canonical Correlation Analysis,简称CCA) <XCA通过统计分析,学习得到能够 最大化两组异构数据关联性的子空间,从而将两种媒体的特征向量映射到统一空间中。CCA 被广泛应用于如视频音源定位、视频说话人检测等研究中。另一种相关方法是跨模态因子 分析(Cross-modal Factor Analysis,简称CFA),由Li等人在文献"Multimedia content processing through cross-modal association"中提出。该方法直接在映射后的空间中 最小化两组数据间的弗罗贝尼乌斯范数(Frobenius Norm),也取得了较好的效果。
[0005] 为了利用已知的数据标注信息,Rasiwasia等人在其文献"A New Approach to Cross-Modal Multimedia Retrieval"中提出了高层语义映射方法:先对不同媒体数据进 行CCA学习关联,再在统一空间中使用逻辑回归得到高层语义表示(相同维度的语义概念向 量)。该方法在CCA的基础上取得了一定的效果提升,但只利用了有标注的信息,且无法同时 建模两种以上媒体。另外,关联学习和高层语义表示是两个独立的步骤,无法同时考虑。针 对这些问题,Zhai等人在文南犬"Learning Cross-Media Joint Representation with Sparse and Semi-Supervised Regularization"中提出了一种基于稀疏和半监督规约的 跨媒体检索方法,同时进行关联学习和语义抽象。该方法在一个统一的框架中对不同媒体 的数据使用半监督图规约方法,且加入稀疏规约项,从而能够利用无监督的数据取得更好 的效果。另外,该方法也能够同时建模两种以上媒体。但是,它对于不同媒体分别建图,不能 同时有效考虑所有媒体的关联信息,从而在信息的全面性上有所欠缺。
【发明内容】
[0006] 针对现有技术的不足,本发明提出了一种基于统一关联超图规约的跨媒体检索方 法,能够在映射后的统一空间中,同时将所有媒体建模在同一个超图中,从而使得模型具有 全面分析跨媒体关联的能力。该方法同时学习不同媒体的统一特征表示映射矩阵,且利用 超图表达复杂关联的能力,使得模型的信息更加完整,提高了跨媒体检索的准确率。
[0007] 为达到以上目的,本发明采用的技术方案如下:
[0008] 一种基于统一关联超图规约的跨媒体检索方法,用于同时学习不同媒体的统一空 间映射,进而得到不同媒体的统一特征表示,实现跨媒体检索,包括以下步骤:
[0009] (1)建立包含多种媒体类型的跨媒体数据集,提取每种媒体类型数据的特征向量;
[0010] (2)通过跨媒体数据集,同时为所有媒体类型学习得到统一特征表示映射矩阵;
[0011] (3)根据映射矩阵,将不同媒体类型映射到统一空间,在统一空间中计算媒体数据 间的相似性;
[0012] (4)进行跨媒体检索时,以任意一种媒体类型作为查询,按照步骤(3)计算其与作 为查询目标的媒体类型数据的相似性,并根据相似性从大到小排序,最终输出检索结果。
[0013] 进一步,上述一种基于统一关联超图规约的跨媒体检索方法,所述步骤(1)中的多 媒体类型为五种媒体类型,包括:文本、图像、视频、音频和3D模型。
[0014] 进一步,上述一种基于统一关联超图规约的跨媒体检索方法,所述步骤(1)中的特 征向量具体为:文本数据是提取隐狄雷克雷分布特征向量;图像数据是提取词袋特征向量; 视频数据是提取关键帧后,对关键帧提取词袋特征向量;音频数据是提取其梅尔频率倒谱 系数特征向量;3D数据是提取其光场特征向量。
[0015] 进一步,上述一种基于统一关联超图规约的跨媒体检索方法,所述步骤(2)中的映 射矩阵学习过程,通过在一个关联超图中建模所有媒体的数据(包括标注数据和未标注数 据),能够同时考虑所有媒体之间的关联关系,使得学习得到的映射矩阵能够全面地利用媒 体类型之间、媒体类型内部的数据关联关系。另外,该方法考虑到了映射矩阵的稀疏性,对 数据噪声有抑制作用。
[0016] 进一步,上述一种基于统一关联超图规约的跨媒体检索方法,所述步骤(3)的相似 性定义为两个媒体数据属于同一语义类别的概率。
[0017] 进一步,上述一种基于统一关联超图规约的跨媒体检索方法,所述步骤(4)的跨媒 体检索是指,使用一种媒体类型的数据作为查询,返回另一种媒体类型的相关结果。步骤 (2)中的学习过程同时学习对于所有媒体的映射矩阵,但一次检索只在两种媒体间进行。该 步骤计算得到所述相似性后,根据相似性从大到小排序,最终输出检索结果。
[0018] 本发明的效果在于:与现有方法相比,本方法能够通过构建跨媒体统一关联超图, 充分考虑了媒体类型之间、媒体类型内部的关联关系,同时学习所有媒体的统一特征表示 映射矩阵,进而得到多种媒体类型的更加精确的统一特征表示。通过综合考虑不同媒体的 信息及其关联,兼顾统一特征表示的稀疏性,进一步提高了统一特征表示的有效性,提高了 跨媒体检索的准确率。
[0019]本方法之所以具有上述发明效果,其原因在于:在建模过程中以跨媒体统一关联 超图为中心。一方面,将所有媒体类型数据统一建模在一张超图中(而不是对不同媒体类型 分别建图),大大提高了建模的统一性与模型信息的全面性。另一方面,相比起普通图,超图 表达复杂关联结构的能力更强,能够起到更好地描述跨媒体关联的作用,进一步提高了该 方法关联学习及语义抽象的能力。通过上述一种基于统一关联超图规约的跨媒体检索方法 学习得到的统一特征表示,具有更高的有效性,从而提高了跨媒体检索的准确率。
【附图说明】
[0020] 图1是本发明的基于统一关联超图规约的跨媒体检索方法的流程示意图。
[0021] 图2是本发明的超图构建过程、统一特征表示学习过程的示意图。
【具体实施方式】
[0022]下面结合附图和具体实施例对本发明作进一步详细的描述。
[0023] 本发明的一种基于统一关联超图规约的跨媒体检索方法,其流程如图1所示,包含 以下步骤:
[0024] (1)建立包含多种媒体类型的跨媒体数据集,并将所述数据集分为训练集和测试 集,提