用于相关反馈图像检索的自适应训练样本选取方法
【专利摘要】本发明公开一种可增加样本数量及正样本比例的用于相关反馈图像检索的自适应训练样本选取方法,按如下步骤进行:提取图像库中每幅图像的底层视觉特征,然后将提取的特征放入特征库中;将特征库中每幅图像的特征与用户选取的示例图像特征进行相似度比较,最后返回给用户与该示例图像最相似的N副图像;用户将最相似的N副图像标记为正例图像或反例图像;将标记好的图像放到支持向量机中进行训练学习,最终将学习后的结果反馈给用户,用户对反馈结果满意,输出结果;否则,继续此步骤。
【专利说明】用于相关反馈图像检索的自适应训练样本选取方法
【技术领域】
[0001]本发明属于多媒体信息处理的相关反馈图像检索领域,尤其是一种可增加样本数量及正样本比例的用于相关反馈图像检索的自适应训练样本选取方法。
【背景技术】
[0002]目前,随着多媒体技术的快速发展及Internet技术的日益普及,数字图像的来源越来越广泛,每天各个领域都会产生数以千兆字节的图像信息。为了能够从大量的图像数据中快速、准确地找到用户所需内容,基于内容的图像检索技术得到了广泛关注,成为信息检索领域的研究热点,得到了国际学术界广泛研究。所谓基于内容的图像检索,就是根据图像的颜色、纹理、形状等特征,按照某种相似度计算方法,从图像库中找出于用户事先想要查询的图像最相似的若干幅图像。由于图像底层视觉特征与高级语义之间存在代沟,因此人们提出了基于反馈的图像检索方法来解决这一问题。早期的相关反馈技术主要采用启发式方法,并可大致分为两类:查询点移动和权值调整。前者通过修改查询向量的方法移动查询点,使得移动后的查询点靠近特征空间中正样本集中的区域;后者通过调整特征分量权重的方式修改距离度量公制,以加强那些能使正样本聚拢或能区分正、负样本的特征向量。启发式方法基于这样的一种假设:所有正样本大致被包含在特征空间中一个超椭球区域内,但是,该假设过于理想,实际应用中很难满足。目前,基于支持向量机(SVM)的相关反馈方法由于支持向量机具有很好的模式分类性能而被广泛应用。
[0003]一般情况下,对于大型的图像数据库,由于图像数据量大,而正例图像占据很小的比例,正确的选择训练样本也尤为重要。截止目前有以下几种主要选取方法:通过反馈结果增加样本数目;通过随机选取训练样本;对图像库进行聚类算法等。其中,通过反馈结果增加样本数目很少,不能满足反馈的需要;通过随机选取方法大大的提高了样本数目,但此类方法只能增加反例样本,且在选取的样本中不能确定是否真的能够代表反例样本;对图像库进行聚类算法,同第一类方法一样,每次增加的数目较少,不能使反馈效果达到理想。即现有方法存在着训练样本少造成不稳定以及正例样本远远少于反例样本造成分类器最优超平面偏移的问题。
【发明内容】
[0004]本发明是为了解决现有技术所存在的上述技术问题,提供一种可增加样本数量及正样本比例的用于相关反馈图像检索的自适应训练样本选取方法。
[0005]本发明的技术解决方案是:一种用于相关反馈图像检索的自适应训练样本选取方法,其特征在于按如下步骤进行:
a.提取图像库中每幅图像的底层视觉特征,然后将提取的特征放入特征库中;
b.将特征库中每幅图像的特征与用户选取的示例图像特征进行相似度比较,最后返回给用户与该示例图像最相似的N副图像;
c.将反馈池中的图像根据它们与用户所选择示例图像是否属于同一个语义类,将其标记为正例样本或反例样本;
d.将标记好的图像放到支持向量机中进行训练学习,最终将学习后的结果反馈给用户,用户对反馈结果满意,输出结果;否则,继续此步骤。
[0006]所述d步骤如下:
d.1对图像库中的图像进行K均值聚类得到k类图像
选取当前检索结果中的最相关M幅图像库,对图像库进行K均值聚类,聚类数目由每次反馈时的标记图像决定;
第一步,将标记的N幅图像5",? 作为初始聚类中心;
第二步,计算图像库5;^中每个图像与各个聚类中心之间的距离,把各个图像分配给距离它最近的聚类中心;
第三步,重新计算每一类的聚类中心;
迭代第二、第三步,直到聚类中心不再发生改变。最终得到:
【权利要求】
1.一种用于相关反馈图像检索的自适应训练样本选取方法,其特征在于按如下步骤进行: a.提取图像库中每幅图像的底层视觉特征,然后将提取的特征放入特征库中; b.将特征库中每幅图像的特征与用户选取的示例图像特征进行相似度比较,最后返回给用户与该示例图像最相似的N副图像; c.用户将最相似的N副图像标记为正例图像或反例图像; d.将标记好的图像放到支持向量机中进行训练学习,最终将学习后的结果反馈给用户,用户对反馈结果满意,输出结果;否则,继续此步骤。
2.根据权利要求1所述用于相关反馈图像检索的自适应训练样本选取方法,其特征在于所述d步骤如下: d.1对图像库中的图像进行K均值聚类得到k类图像 选取当前检索结果中的最相关M幅图像库,对图像库进行K均值聚类,聚类数目由每次反馈时的标记图像决定; 第一步,将标记的N幅图像
【文档编号】G06K9/62GK103761503SQ201310735558
【公开日】2014年4月30日 申请日期:2013年12月28日 优先权日:2013年12月28日
【发明者】王向阳, 张贝贝, 李永威 申请人:辽宁师范大学