基于视觉词语空间共生性的图像检索方法

文档序号：6371654阅读：334来源：国知局

专利名称：基于视觉词语空间共生性的图像检索方法
技术领域：
本发明属于图像检索与高维数据搜索技术领域，涉及基于字袋模型的图像检索技术，具体涉及一种利用视觉词语空间共生性的图像检索方法。
背景技术：
基于内容的图像检索系统中，图像被表示成尺度不变的局部特征的集合。通过将数据库中图像特征聚类与量化，可以得到视觉字典。则任意一幅新的图像的特征，都可以根据这本视觉字典映射到相应的视觉词语，图像被表示为一袋视觉词语，这就是字袋模型的产生。其中如何将图像特征映射到相应的视觉词语也即是所谓的视觉词语产生阶段，是字袋模型的重要环节，其时间与精度直接决定了字袋模型的检索效率与效果。
作为一种经典算法，树形搜索算法被广泛应用于图像检索的视觉词语产生阶段。通过多叉树的索引，视觉词语的产生理论上最快可以在O(Iog2N)的时间内完成，N是视觉词典大小。代表算法包括KD树和K均值树。KD树是在近似最近邻查找问题中应用最广泛的算法之一，它是一种由二叉搜索树推广而来的多维数据结构，其中每个结点为一个K维向量，它通过超平面把结点空间递归的划分为两个子空间来实现二叉搜索。在K维空间中，对N
个点中查找最近邻，蛮力算法的时间复杂度为0(N2)，KD树的最大时间复杂度，
当N个点是随机分布时，甚至可以将搜索的复杂度降到O(Iog2N)。然而，KD树是局部优化算法，其搜索直接返回的结果并不一定是最近邻点，还需要对其相邻区域进行回溯比较，以确定最终的最近邻点。随着数据维度的增长，基于KD树的搜索需要的回溯比较次数将呈指数型增长，导致KD树的性能越来越差，当维度增长到一定程度，比如0(d>log2N)时，回溯需要消耗的时间太多，以至于KD树的检索效率并不比蛮力算法的优越。为了解决这个问题，研究人员又提出了一系列近似最近邻算法。下面分别介绍KD树与K均值树。I.基于KD树的搜索算法Arya 等人(S. Arya, D. M. Mount, N. S. Netanyahu, R. Silverman, and A. Y. ffu. Anoptimal algorithm for approximate nearest neighbor searching fixed dimensions.Journal of the ACM(JACM)，45 (6) :891_923，1998.)釆用优先队列的方法来加速搜索的剪枝过程，提高搜索效率；Beis 和 Lowe (J. S. Be is，D. G. Lowe. Shape indexing usingapproximate nearest neighbor search in high-dimensional spaces[C]. In Proc.CVPRj pages 1000 - 1006，1997.)提出一种相似的近似搜索方法〃Best Bin First〃。与 Arya不同之处在于，它们将检索的停止条件改为检测叶子节点数是否达到某一阈值，如果是则停止搜索；SiIpa-Anan 和 Hartley (C. Silpa-Ananj R. Hartley. Optimised kd-trees forfast image descriptor matching[C]. In Proc. CVPRj pages 1-8，2008.)改进了原来的KD树算法，它们建立多棵KD树并且利用它们同时进行搜索来获得检索性能的提高。2.基于K均值树的搜索算法作为K均值树的一种变形，球形树(Metric Tree)是一种点集的分层表示结构，树的节点是多维空间的超球面，每个非叶子节点包含多个子节点，并以中心和半径来表示。中心是子叶子结点的算术平均，半径是由中心到最远结点的距离；对球形树的结构进行改进，使其左右子树存在重合区域的树称为spill-tree (T. Liu, A. ff. Moore, A. Gray, K.Yang. An investigation of practical approximate nearest neighbor algorithms[C].In Proc. NIPS, pages 825 - 832，2004.)，这种树在搜索树剪枝上有提高，因为重叠部分的存在，降低了因为误剪枝导致的错误，但也因此降低了树缩减效率；Gray等人(A.Gray and A. ff. Moore.N-Body Problems in Statistical Learning. In T.K.Leen, T.G. Dietterich, and V. Tresp, editors, Advances in Neural Information ProcessingSystems 13 (December 2000). MIT Press, 2001.)提出〃dual tree〃算法，其思想是对目标数据集和查询数据集分别建立有序索引树，同时遍历两棵树来进行剪枝判断和比较。该方法的好处在于利用查询数据特征空间的相关信息，将相近的特征放在一起，在搜索的过程中对相近的特征进行共同剪枝，减少了比较次数，进而实现搜索过程的加速；Nister(D.Nister, H. Stewenius. Scalable recognition with a vocabulary tree[C]. In Proc.CVPR, pages 2161-2168, 2006.)等人提出一种分级索引的K均值树(hierarchical K-meanstree)。Muja (M. Muja, D. G. Lowe. Fast approximate nearest neighbors with automaticalgorithm configuration [C]. In Proc. VISSAPP, pages 331 - 340，2009.)于 2009 年提出FLANN (Fast Liberary for Approximate Nearest Neighbor)的最近邻查询方法，该方法可以根据数据集合的分布特点、对映射精度和空间资源消耗的要求来推荐索引类型和检索参数，在高维空间最近邻查找领域得到广泛的使用。在本发明中，将采用FLANN作为直接映射的初步映射和间接映射的基准。FLANN主要包括两类索引结构基于KD树的变形随机KD森林和K均值树。KD树和K均值树本质上都属于局部搜索的算法，从其根节点直接单次下降到叶子节点所得到的映射结果通常局部性太强，误差太大(对牛津建筑物数据库中所有特征进行基于KD树的不回溯搜索，所得精度仅为0. 05)，为了获取更高的映射精度，需要对查询特征进行大量的回溯工作。在FLANN中这两种数据结构的回溯过程都是基于Best Bin First算法的，其核心思想是以节点和被查询节点距离递增的顺序来搜索节点，在索引的过程中，利用一个优先队列记录被删减掉的节点(即未搜索的节点)以及与查询节点的可能的最近距离，并且按照距离从小到大的顺序排列，在回溯的过程中，优先队列每次首先弹出未搜索节点中与查询节点最近的那个，这样一方面保证可以尽快的找到最近的节点，另一方面通过判断避免多余的比较运算，在保证算法精度的同时，提高了算法的效率。此外，在高维数据K近邻问题中，局部敏感哈希(LSH)因为其运行时间与数据维度无关而被广泛采用。其思想就是对数据根据LSH方程进行映射，而LSH方程需要满足如下特性对于相近的两个点，以较高的概率映射到同一个bucket ;而对于距离远的两点则以较低的概率映射到同一个bucket。经过一系列的哈希映射,对映射后的buckets进行检索进而完成近似 k 近邻的搜索。Liu (T. Liu, A. ff. Moore, A. Gray, K. Yang. An investigationof practical approximate nearest neighbor algorithms[C]. In Proc. NIPS, pages825 - 832，2004.)在球形树的基础上提出了比LSH更简单地算法，更小的资源占用率的随机映射方法。尽管上述算法在传统的查找近似最近邻问题中得到了很好的应用，对于图像特征到视觉词典映射的过程，上述方法均是在视觉词典上建立有序索引，然后将各个图像特征在这个索引之上分别进行查找，并没有考虑图像特征之间的相关性(R. Xu, M. Shi1B.Geng, C. Xu. Fast visual word assignment via spatial neighborhood boosting[C]. InProc. ICME, pages 262 - 270，2011.)。然而，图像的特征之间并非独立不相关的，它们在特征空间或者几何空间的相互关系都包含了很多的信息量，如果加以合理的利用必将进一步提闻映射生成视觉词语的效率，进而提闻图像检索的效率
发明内容

本发明的目的在于针对上述问题，提出一种基于空间共生的视觉词语产生方法，通过挖掘视觉词语之间的共生性，实现高效、快速地产生视觉词语。发明人经过大量的实验发现，自然图片的特征是空间上紧密联系的。图I为从标准牛津数据库(J. Philbin, 0. Chum, M. Isard, J. Sivic, A. Zisserman. Object retrievalwith large vocabularies and fast spatial matching[C]. In Proc.CVPR, pages1-8, 2007. ) Radcliffe地标中选出三对共生视觉词语的示意图。其中，每对共生对包含两个共生词语(白色的三角形与圆圈点对)，其中三角形表示中心点，椭圆示意它的仿射不变区域。所选的三对共生对在整个数据库中分别共生80次、66次和171次。任何一个特征的出现总能对其临近特征的出现给予一定的语义暗示，而这也是人体视觉的功能之一，任何一个局部的特征或结构经过人眼识别后总能在大脑中根据已有记忆的相似影像给出一些其它相关特征或结构的预期。本发明用数学语言来描述这种预期，在整个训练数据库中记录任意两个视觉词语出现的条件概率，并且建立一张视觉词语共生表，以此来表示视觉词语之间的语义相关性。本发明提出一种基于预测编码的高阶概率预测器任何未来的变量都可以根据已经观测到的变量进行预测。既然已知视觉词语是空间共生的，那么就可以根据已知视觉词语去预测与之近邻的共生视觉词语。因为任意一个视觉词语频繁与其共现的视觉词语已经记录在共现表中，则对测试图片，当已知一些特征对应的视觉词语后(通过精确映射实现)，剩余特征的对应视觉词语都可以通过一定的规则，利用概率预测器给出最可能出现的候选视觉词语，然后通过距离比较得出特征的最小误差的视觉词语。具体来说，为了实现上述目的，本发明采用如下技术方案一种基于视觉词语空间共生性的图像检索方法，其步骤包括I)统计训练数据库中任意两个视觉词语之间共生的概率，构建视觉词语共生表；2)提取输入的查询图像的尺度不变特征；3)在所述尺度不变特征中随机选择部分特征作为中心特征，对所述中心特征做精确映射；并在所述中心特征的仿射不变区域内统计其近邻特征；4)根据所述视觉词语共生表和所述精确映射的结果，利用高阶概率预测器为所述近邻特征预测候选视觉词语；5)比较所述候选词语与所述尺度不变特征之间的距离，确定最优的视觉词语；6)根据所述最优的视觉词语，对所述查询图像进行检索，并返回相关图像。进一步地，如果视觉词语W1对应的特征位于视觉词语W2对应的特征的仿射不变区域内，则认为W1与W2是共生的。进一步地，将所述仿射不变区域扩大至原区域的3至10倍，在扩大后的区域上记录任意两个视觉词语之间的共生次数。
进一步地，从所述尺度不变特征中随机选择20%至30%作为所述中心特征。进一步地，进行所述精确映射的方法包括但不限于=FLANN算法、蛮力算法、ANN算法、局部敏感哈希算法。进一步地，所述高阶概率预测器利用贝叶斯准则得到所述候选视觉词语，其计算公式为
权利要求
1.一种基于视觉词语空间共生性的图像检索方法，包括下列步骤 1)统计训练数据库中任意两个视觉词语之间共生的概率，构建视觉词语共生表； 2)提取输入的查询图像的尺度不变特征； 3)在所述尺度不变特征中随机选择部分特征作为中心特征，对所述中心特征做精确映射；并在所述中心特征的仿射不变区域内统计其近邻特征； 4)根据所述视觉词语共生表和所述精确映射的结果，利用高阶概率预测器为所述近邻特征预测候选视觉词语； 5)比较所述候选视觉词语与所述尺度不变特征之间的距离，确定最优的视觉词语； 6)根据所述最优的视觉词语，对所述查询图像进行检索，并返回相关图像。
2.如权利要求I所述的方法，其特征在于，如果视觉词语W1对应的特征位于视觉词语W2对应的特征的仿射不变区域内，则认为W1与W2是共生的。
3.如权利要求2所述的方法，其特征在于，将所述仿射不变区域扩大至原区域的3至10倍，在扩大后的区域上记录任意两个视觉词语之间的共生次数。
4.如权利要求I所述的方法，其特征在于，从所述尺度不变特征中随机选择20%至30%作为所述中心特征。
5.如权利要求I所述的方法，其特征在于，进行所述精确映射的方法包括FLANN算法、蛮力算法、ANN算法、局部敏感哈希算法。
6.如权利要求I所述的方法，其特征在于，所述高阶概率预测器利用贝叶斯准则得到所述候选视觉词语，其计算公式为承A Ws = argmax A p(ws |， wseW 其中，Wci, W1, . . . , Ws_!为通过精确映射得到的视觉词语力最可能与Wci, W1, . . . , Ws_!共生的视觉词语，JKwJ MViWy )表示后验概率，&表示从候选视觉词语集合W选出的任意词语。
7.如权利要求I所述的方法，其特征在于，所述距离采用下列距离中的一种欧式距离、闵可夫斯基距离、马氏距离、切比雪夫距离。
8.如权利要求I所述的方法，其特征在于在建立所述共生表时，统计每一个中心特征区域所包括的共生特征；在进行图像检索时，统计所述查询图片的每一个特征所属的中心特征，以获得更多的共生信息。
9.如权利要求I所述的方法，其特征在于对于不属于任何中心特征的特征，以及利用所述高阶概率预测器进行预测后误差仍较大的特征，采用精确映射的方法搜索其对应的视觉词语。
10.如权利要求I至9任一权利要求所述的方法，其特征在于步骤6)中，将查询图像表示成视觉词语的高维向量，度量数据库中图像对应的视觉词语向量与该高维向量的相似度，按照相似度从高到低的顺序返回所述相关图像。
全文摘要
本发明提供一种基于视觉词语空间共生性的图像检索方法，其步骤包括统计训练数据库中任意两个视觉词语之间共生的概率，构建视觉词语共生表；提取输入的查询图像的尺度不变特征；在尺度不变特征中随机选择部分特征作为中心特征，对中心特征做精确映射；并在中心特征的仿射不变区域内统计其近邻特征；根据视觉词语共生表和精确映射的结果，利用高阶概率预测器为近邻特征预测候选视觉词语；比较候选词语与尺度不变特征之间的距离，确定最优的视觉词语，进而进行图像检索。本发明利用了视觉词语之间的共生性，能够更加有效、快速的产生视觉词语和进行图像检索。
文档编号G06F17/30GK102799614SQ201210199158
公开日2012年11月28日申请日期2012年6月14日优先权日2012年6月14日
发明者史淼晶, 徐蕊鑫, 许超申请人:北京大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：史淼晶;徐蕊鑫;许超
技术所有人：北京大学
我是此专利的发明人

上一篇：一种目标跟踪的方法
上一篇：针对Landsat TM和ETM图像的厚云及其阴影检测方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。