从检索图像中筛选有用图像的方法
【专利摘要】本发明公开了一种从检索图像中筛选有用图像的方法,主要用于解决当前图像检索排序结果准确率低的问题。其主要实现步骤为:(1)提取数据库图像视觉词袋特征和语义属性特征;(2)离线训练学习视觉词袋特征和语义属性的映射字典;(3)根据用户给出待搜索图像,检索得到初始图像排序列表;(4)根据用户给出待搜索图像,分析视觉单词语义重要性;(5)根据用户给出待搜索图像,分析视觉单词上下文重要性;(6)结合视觉单词的语义和上下文重要性,重新计算待排序图像相关性分数,完成对初始结果的重新排序,以供用户筛选出有用的相关图像。本发明明显提高最终图像检索的准确率,可用于图像检索。
【专利说明】从检索图像中筛选有用图像的方法
【技术领域】
[0001]本发明属于信息检索【技术领域】,具体的说是一种从检索图像中筛选有用图像的方法,该方法可用于改善互联网上图像检索结果的准确率。
【背景技术】
[0002]随着互联网技术的快速发展,Flicker,人人网,Facebook,新浪微博等基于web2.0环境的社交媒体日益兴起,这就使得图像、视频等海量多媒体数据的共享成为可能。现在互联网上每时每刻,都有大量的图像、视频上传。与此同时,人们越来越习惯在互联网上进行图像、文字等各种信息的搜索查询。在此背景下,如何实现符合用户搜索意图的高效图像搜索就变得非常重要。当前互联网背景下,诸如Google、Baidu、Bing等商用搜索引擎都在致力于开发更加智能的能符合用户搜索意图的图像搜索系统。传统的图像搜索主要以用户输入的文本关键字作为查询,搜索引擎根据离线建好的语料库对用户输入的关键字进行扩展,构建用户查询的文本特征,搜索时,主要根据图像所在网页中的标签文字,例如图像文件名,图像标注标签,网页URL等,构建图像的文本特征,根据用户的查询文本特征和图像的文本特征计算相似度,以此返回给用户图像搜索的结果。由于当前互联网基于文本的搜索技术已经相当成熟,基于文本特征的图像搜索可以很方便实现,然而,问题在于图像周围的文字标签很可能和图像的视觉内容并不相一致。另一方面,随着当前互联网不断地往社交性、商业性上发展,近些年,直接以图像作为查询的以图搜图系统得到很多用户的青睐。当前的直接以图像作为查询的搜索技术主要利用图像的底层视觉特征来进行相似性的计算,然而,由于图像的低层视觉特征和高层的语义概念之间存在语义鸿沟,低层视觉特征相似的图像并不一定意味着图像之间拥有着相似的语义内容。这样,无论以文本作为查询还是直接以图像作为查询,搜索引擎对于图像的直接搜索结果常常很难令人满意。
[0003]在此背景下,结合图像内容对初始搜索结果重新排序就成为了一项非常重要的工作。随着图像搜索技术的不断发展,目前已经提出了很多图像重排序方法。经典的方法包括聚类,分类等技术,将图像的排序问题转变成经典的半监督学习问题,以实现噪音图像的过滤。基于机器学习的方法根据初始的搜索结果去自主的学习用户的搜索意图,以此来改善最终图像搜索的结果。结合当前图像重排序技术,当前的图像搜索结果性能已经得到相当大程度的提高。然而,传统的经典图像重排序技术往往没有考虑图像的语义内容信息。图像语义鸿沟的问题还是没有很好的得到解决。目前的研究趋势正是如何结合图像的语义内容信息,针对图像的语义鸿沟问题研究算法以实现更高性能的图像重排序。
[0004]尽管现今基于多特征融合的图像重排序方法可以在一定程度上改善图像搜索排序结果的准确率,但是本质的问题依然存在。一方面,基于伪相关反馈策略选择的标注样例不一定总是正确的。另一方面,在图像的视觉一致性上,挖掘每一个标注样本的每一个视觉元素并不能很好地反映用户的查询目的。这些问题将详述如下:
[0005]基于伪相关反馈策略,一个基本的假设是初始排在最前面的样本往往是和查询相关的,因此可以被作为学习排序函数的正样例。然而,实际中一些与查询无关的图像也会在初始排序结果中排在靠前的位置,从而影响挑选的正样本的纯度。另一方面,不止要求用户标注正样本不仅效率低下,而且在实际系统中令人无法接受。即使排在初始结果前面的样本可以被准确的标记,实际中也无法保证可以获得足够多数量的正样本。因此,有选择的对待噪音样本方法就很有必要。比如文献W.Liu, Y.Jiang, J.Luo, and S.-F.Chang, “Noiseresistant graph ranking for improved web image search,,,in Proc.1EEE Int.Conf.Comput.Vis.Pattern Recognit., 2011, pp.849 - 856.利用一些排在初始结果前面的图像做为伪标记样本,进一步通过正则化图拉普拉斯算子选择一部分特征基来过滤噪声样本。
[0006]视觉一致性方面,在传统定义下,彼此相似的图像应该被排列在最终排序结果前面的位置。这一策略的缺陷在于如果两幅图像缺乏足够的相似性,判断两幅图像是否和查询相关就会变的相当困难。另一方面,纯粹图像级别的监督算法并不能很好的捕获标注样本的语义信息,很多情况下,用户很难通过文本关键字描述其查询意图的语义内容。
【发明内容】
[0007]本发明的目的在于提出一种从检索图像中筛选有用图像的方法,以解决现有排序过程中噪音样本影响排序准确度的问题,以及因缺乏视觉上的一致性而造成无法关联两幅图像的问题,提高初排序中正样本的纯净度,增强图像之间的查询相关性,更准确地获取符合用户意图的图像。
[0008]实现本发明目的技术方案是:采用用户查询图像之间的相关性的方法来编码图像间的相似性,利用图像的底层视觉特征和高层语义属性的联合,最终通过重排序能够更精确的获取对用户有用的图像,具体步骤包括如下:
[0009](I)根据视觉词袋词频特征BOW和语义属性的概率分布生成视觉语义字典:
[0010](Ia)对数据库中的初始搜索结果图像分别提取8192维视觉词袋词频特征;
[0011](Ib)通过离线训练学习,针对2659种基本语义属性,分别训练2659种语义属性的分类器,在做图像搜索时,对每幅图像用这2659种分类器做预测,将每一幅图像对应于2659维特征得到的预测分数向量作为图像的属性特征,每一维对应一种特定的语义属性;
[0012](Ic)用映射函数sigmoid将训练图像的语义属性特征映射到0_1范围,视作语义概率分布,把数据库中所用图像的集合用Τ={1,2,...?.,.η}表示,η表示数据库中图片的数量大小,i表示数据库中的任意一幅图片,分别提取第i幅图像的视觉词袋词频特征Vi和语义属性的概率分布A1:
[0013]Vi= {p ⑴(V1),P ⑴(V2),...P ⑴(Vj),...P ⑴(Vk)},
[0014]Ai= {p ⑴(?),P ⑴(a2),…p⑴(a」)....p⑴(an)}
[0015]其中,Vj代表一个视觉单词,ρω (Vj)为第i幅图像在Vj这个视觉单词的概率分布值,k表示视觉词袋词频特征的维数,Bj代表一种语义属性,P⑴(Bj)为第i幅图像在a」这个语义属性的概率分布值,η表示语义属性的维数;
[0016](Id)用BOW的概率分布和语义属性的概率分布生成视觉语义映射字典D ;
[0017](2)初始图像检索排序:
[0018](2a)根据视觉词袋词频特征Vi,利用下式计算两幅图像之间的相似性距离F(t):
【权利要求】
1.一种从检索图像中筛选有用图像的方法,包括如下步骤: (1)根据视觉词袋词频特征BOW和语义属性的概率分布生成视觉语义字典: (Ia)对数据库中的初始搜索结果图像分别提取8192维视觉词袋词频特征; (Ib)通过离线训练学习,针对2659种基本语义属性,分别训练2659种语义属性的分类器,在做图像搜索时,对每幅图像用这2659种分类器做预测,将每一幅图像对应于2659维特征得到的预测分数向量作为图像的属性特征,每一维对应一种特定的语义属性; (Ic)用映射函数sigmoid将训练图像的语义属性特征映射到0-1范围,视作语义概率分布,把数据库中所用图像的集合用Τ={1,2,...?.,.η}表示,η表示数据库中图片的数量大小,i表示数据库中的任意一幅图片,分别提取第i幅图像的视觉词袋词频特征Vi和语义属性的概率分布Ai:
V1= {p(1) (V1),P(1) (V2),…P(1) (Vj),…P(1) (Vk) I,
A1= {p(1) (a^,P(1) (a2),...p(1) (a」)——p(1) (an)} 其中,' 代表一个视觉单词,P⑴(Vj)为第i幅图像在 ' 这个视觉单词的概率分布值,k表示视觉词袋词频特征的维数,Bj代表一种语义属性,P⑴(Bj)为第i幅图像在a」这个语义属性的概率分布值,η表示语义属性的维数; (Id)用BOW的概率分布和语义属性的概率分布生成视觉语义映射字典D ; (2)初始图像检索排序: (2a)根据视觉词袋词频特征Vi,利用下式计算两幅图像之间的相似性距离F(t):
2.根据权利要求1所述的从检索图像中筛选有用图像的方法,其中步骤(Id)所述的生成视觉语义映射字典D,按如下步骤进行: (Idl)用每一个视觉单字和每一种语义属性的关联性来表示映射值,根据每一幅图像的词袋词频概率特征矩阵B和每一幅图像的语义属性概率分布A,构建语义映射字典D的目标函数为:
【文档编号】G06F17/30GK103778227SQ201410032416
【公开日】2014年5月7日 申请日期:2014年1月23日 优先权日:2014年1月23日
【发明者】邓成, 王东旭, 杨延华, 王嘉龙, 李洁, 高新波 申请人:西安电子科技大学