基于视觉词组的图像检索方法

文档序号：6560528阅读：351来源：国知局

专利名称：基于视觉词组的图像检索方法
技术领域：
本发明涉及的是计算机信息处理技术领域的方法，具体是一种基于视觉词组的图像检索方法。
背景技术：
随着具有拍照功能的手机价格更加低廉以及互联网的发展，图像的获取更加简捷方便，图像数量也呈现爆炸性的增长。图像数量的快速增长对图像数据的存储、搜索和组织提出了巨大的挑战和考验。在现实生活中，如何在大规模图像库中根据手机拍摄图像获取最有用的信息，成为人们关注和研究的焦点之一。图像检索技术是指根据查询图像内容信息或者指定查询标准，在标准图像库中进行搜索并查找出符合条件的相关图像。传统的图像检索技术大多采用基于文本的检索方法，它沿用了传统的文本检索技术，从图像名称、图像尺寸、压缩类型、作者、年代等方面描述图像，通过关键词的形式查询图像。基于文本的图像检索技术，不能对图像低层特征元素进行客观分析和描述，逐渐被基于内容的图像检索技术所取代。基于内容的图像检索技术，早期大多采用颜色、纹理、形状等全局特征进行相似性搜索，但是这些特征对于光照、遮挡以及几何形变等不具有稳健性，因此逐渐被SIFT、SURF 等局部不变性特征描述子所取代。与传统的图像全局特征相比，图像的局部不变性特征具有更好的唯一性、不变性和鲁棒性，能够适应图像背景混杂、局部遮挡、光线变化等各种情况，因此适用于在各种情况下拍摄的手机图像。将图像的局部不变性特征进行聚类量化，并在高维索引结构中进行相似性搜索，即可根据手机拍摄图像在标准图像库中查询出相关结^ ο经对现有技术的文献检索发现，Andrew Zisserman等在专利“Object Retrieval”(美国专利号为US 2005/0225678 Al，
公开日期为2005年12月13日)中提供了用户在图像中自定义目标进行检索的方法。在该方法中，首先采用形状自适应与最大稳健区域进行特征提取，并采用SIFT描述子进行特征描述，然后采用K-Means聚类方法对所有 SIFT描述子进行聚类，创建视觉码书，接着进行标准图像矢量化，并根据标准图像矢量的稀疏性创建倒排索引，进行相似性搜索。在创建视觉码书的过程中，标准图像中的每个SIFT 描述子通过一个聚类中心进行表示，从而降低了同一类别SIFT描述子之间的区分性，造成了量化损失。在待检索图像查询过程中，必须先对待检索图像的SIFT描述子进行矢量化，然后才能在倒排索引中进行相似性查询，待检索图像矢量化过程以及待检索图像和标准图像相似性度量过程耗费了不少时间，从而降低了检索的实时性。进一步检索发现，DavidNister等在专利“Salable Object Recognition Using Hierarchical Quantization with a Vocabulary Tree”(美国专利号为 US7725484 B2，
公开日期为2010年5月25日)中提供了一种图像检索方法。该方法在K-Means聚类的基础上引入了分层的概念，虽然降低了传统K-Means聚类的时间，但是属于同一类别的描述子往往会被划分到不同的类别中，以及同一类别SIFT描述子之间不存在区分性的问题，造成了更大的量化损失。在待检索图像查询的过程中，由于同样要进行矢量化以及倒排索引相似性搜索，从而也降低了检索的实时性。

发明内容
本发明针对现有技术存在的上述不足，提供一种基于视觉词组的图像检索方法，通过基于视觉词组的二维倒排索引以及对图像进行空间几何关系度量得以实现，能够提高图像中尺度不变描述子的区分性，并在保证检索准确率的同时，降低检索过程中的计算量，提高了检索的实时性。本发明是通过以下技术方案来实现的，本发明具体为
首先对标准图像和待检索图像分别提取显著性区域，并在显著性区域中提取特征描述
子；
然后对标准图像库中的特征描述子采用随机kd树进行聚类；接着将标准图像和待检索图像的特征描述子分别通过视觉词组进行表示，并根据标准图像的视觉词组创建二维倒排索引；
最后将由视觉词组表示的待检索图像的特征描述子在二维倒排索引中进行相似性搜索以及空间几何关系度量，给出最终检索结果。所述的对标准图像和待检索图像分别提取显著性区域是指将图像从空间坐标变换到频率坐标，计算图像的对数谱，并将其与滤波后的对数谱进行差分得到谱残差，进而反变换得到显著性区域。进一步的，所述的提取显著性区域包括离线处理和实时处理两个步骤，其中在离线处理中，对于标准图像库JD (JiJ2,…，Js)中的图像丨(iDXX…JV),提取到的
显著性区域为马D is^l-^y ,其中IA…，两)是图像Zf中的第I个显著性区域，
是图像各中显著性区域的个数。在实时处理中，对于待检索图像Q，提取到的显著性区域为冬！]^1，!·2，…》,)，其
中妒(ptllA-vK)是待检索图像Q中第P个显著性区域，I是待检索图像Q中显著性区域的个数。所述的提取特征描述子是指在提取到的显著性区域中首先采用高斯差分算子 (Different of Gaussian, DOG)进行特征点检测，然后将每个高斯差分算子通过尺度不变描述子(Scale Invariant Feature Transformation, SIFT)进行描述。进一步的，所述的提取特征描述子包括离线处理和实时处理两个步骤，其中
在离线处理中，在图像&提取到的显著性区域馮中，提取到的SIFT描述子表示为
ti:fXk…為、是图像乙中第r个描述子，维数为128维，^是
图像i中SIFT描述子的个数。标准图像库中全部SIFT描述子表示为JTD PTtZ23…，^r)。在实时处理中，在待检索图像Q提取到的显著性区域冬中，提取到的SIFT描述子表示为 □(/，/，---，/，其中Ζ&[]1Α---，Ι5是图像Q中第g个描述子，维数为1 维，L是图像Q中SIFT描述子的个数。所述的对标准图像的特征描述子进行聚类是指在离线处理中，聚类过程中采用随机kd树进行近似最近邻搜索，将特征描述子划分到对应的类别，并在多次迭代后确定聚类中心。所述采用随机kd树进行聚类的步骤包括
1)在全部SIFT描述子JT中随机选择fc个对象作为聚类中心
权利要求
1.一种基于视觉词组的图像检索方法，其特征在于具体为首先对标准图像和待检索图像分别提取显著性区域，并在显著性区域中提取特征描述子；然后对标准图像库中的特征描述子采用随机kd树进行聚类；接着将标准图像和待检索图像的特征描述子分别通过视觉词组进行表示，并根据标准图像的视觉词组创建二维倒排索引；最后将由视觉词组表示的待检索图像的特征描述子在二维倒排索引中进行相似性搜索以及空间几何关系度量，给出最终检索结果。
2.根据权利要求1所述的基于视觉词组的图像检索方法，其特征是，所述的对标准图像和待检索图像分别提取显著性区域是指将图像从空间坐标变换到频率坐标，计算图像的对数谱，并将其与滤波后的对数谱进行差分得到谱残差，进而反变换得到显著性区域；所述的提取特征描述子是指在提取到的显著性区域中首先采用高斯差分算子进行特征点检测，然后将每个高斯差分算子通过尺度不变描述子进行描述。
3.根据权利要求1或2所述的基于视觉词组的图像检索方法，其特征是，所述的提取显著性区域包括离线处理和实时处理两个步骤，其中所述离线处理中，在图像“提取到的显著性区域馮中，获取到的SIFT描述子表示为式13(1^||，--^ ),其中 ^irU IA-^)是图像^中第r个描述子，维数为1 维，是图像中SIFT描述子的个数，标准图像库中全部SIFT描述子表示为.If」(Jf1,JT2,-- ,Xj,);所述实时处理中，在待检索图像Q提取到的显著性区域&中，获取到的SIFT描述子表示为A□ (/ /,-,/),其中□ …，￡)是图像Q中第ff个描述子，维数为1 维，￡是图像Q中SIFT描述子的个数。
4.根据权利要求1或2所述的基于视觉词组的图像检索方法，其特征是，所述的提取特征描述子包括离线处理和实时处理两个步骤，其中所述离线处理中，在图像易提取到的显著性区域S中，获取到的SIFT描述子表示为 JTiIl (巧1，^，…，^ ,其中IX-,ι%)是图像中第『个描述子，维数为1 维，巧是图像矣中SIFT描述子的个数，标准图像库中全部SIFT描述子表示为JTD (JHf^Tjr)；所述实时处理中，在待检索图像Q提取到的显著性区域^中，获取到的SIFT描述子表示为Λ □,其中Zfe □ IX-·,L)是图像Q中第ff个描述子，维数为1 维，￡是图像Q中SIFT描述子的个数。
5.根据权利要求1所述的基于视觉词组的图像检索方法，其特征是，所述的对标准图像的特征描述子进行聚类是指在离线处理中，聚类过程中采用随机kd树进行近似最近邻搜索，将特征描述子划分到对应的类别，并在多次迭代后确定聚类中心；采用随机kd树确定聚类中心的步骤包括在全部SIFT描述子I中随机选择fc个对象作为聚类中心CD Cck^3-,1 )；根据聚类中心C创建随机kd树，随机kd树中的每个节点在多个较大方差值对应的维数中随机选择，节点的分割阈值在对应维数靠近中值的元素中随机选择；对SIFT描述子JT采用随机kd树进行近似最近邻搜索，将每个SIFT描述子划分到对应的类别中；重新计算每个类别的均值，确定新的聚类中心；重复步骤2) —4)，设迭代的次数为ff次，直到每个类别不再发生变化为止。
6.根据权利要求1所述的基于视觉词组的图像检索方法，其特征是，所述的将标准图像和待检索图像的特征描述子分别通过视觉词组进行表示是指在聚类完成后，根据随机 kd树确定每个SIFT描述子对应的最近邻的两个聚类中心；所述确定每个SIFT描述子对应的最近邻的两个聚类中心步骤包括在确定聚类中心G后，根据聚类中心创建的随机kd树对每个SIFT描述子< 进行近似最近邻搜索；与SIFT描述子< 欧式距离最小的两个聚类中心，即为表示SIFT描述子的视觉词组。
7.根据权利要求1所述的基于视觉词组的图像检索方法，其特征是，所述的根据标准图像的视觉词组创建二维倒排索引是指在离线处理中，分别以最近邻和次近邻的聚类中心作为行索引和列索引，标准图像Jf作为索引目标；对于标准图像心中的第；r个SIFT描述子4，通过视觉词组( = )进行表示，从而标准图像/^被记录在索引值为ferf)的索引列表中；由于同一幅图像中不同的SIFT描述子可能会通过相同的视觉词组进行表示，因此在同一索引列表中重复出现多次的标准图像只被记录一次，从而保证查询的实时性。
8.根据权利要求1所述的基于视觉词组的图像检索方法，其特征是，所述的将由视觉词组表示的待检索图像的特征描述子在二维倒排索引中进行相似性搜索，包含以下步骤根据聚类中心C创建的随机kd树对待检索图像Q中的SIFT描述子R进行近似最近邻搜索，查找出每个SIFT描述子所对应的最近邻和次近邻聚类中心，即将每个SIFT描述子通过视觉词组进行表示；在二维倒排索引中进行相似性搜索时，存在累加器^4，用于记录标准图像/出现的次数巧，每个标准图像都对应着一个累加器約，则viD (fl,,^,-,当待检索图像Q中的一个SIFT描述子通过视觉词组(I^vi)进行表示时，存储在索引值为力的索引列表中的标准图像被查询一次，对应的累加器《加!,WllaiUaiUil ；将标准图像A对应的累加器A进行排序，数值较大的前U个累加器对应的标准图像，即为待检索图像Q的Λ个候选标准图像结果。
9.根据权利要求1所述的基于视觉词组的图像检索方法，其特征是，所述的空间几何关系度量是指对于包含有同一内容的两幅图像，图像中特征点的空间几何关系具有很大的相似性，根据待检索图像Q与标准图像冬中特征点空间位置坐标的对应关系，计算两幅图像的变换矩阵，进而根据变换矩阵估计待检索图像Q与标准图像心中特征点空间几何关系相似性。
10.根据权利要求1或9所述的基于视觉词组的图像检索方法，其特征是，所述空间几何关系度量步骤包括根据SIFT描述子与视觉词组的对应关系，确定待检索图像Q与标准图像/,中特征点空间位置坐标的对应关系，获取· 对两两相互对应的特征点，其中传，約为标准图像A出现的次数；不同的SIFT描述子可能会通过相同的视觉词组进行表示，因此在■ 对特征点中可能会存在特征点对一对多的对应关系，即一个特征点同时会有多个特征点与其相对应，统计待检索图像Q与标准图像J中早一对应的特征点对，设单一对应特征点对的数量为《C ；从nC对特征点对中随机选取ζ对特征点，根据特征点空间位置坐标的对应关系计算待检索图像Q与标准图像乃的变换矩阵Ji ；根据变换矩阵Ji及特征点空间位置坐标，将待检索图像Q中剩余的ζ个特征点映射到标准图像冬中，并计算映射后的特征点坐标与原特征点坐标的欧式距离，如果小于阈值/7则待检索图像Q与标准图像夂中的特征点存在对应关系，统计对应的特征点对数量，设其数量为&；重复步骤3)-4)，设迭代的次数力/次，计算待检索图像Q与标准图像^对应的特征点 1 *对的平均数量
全文摘要
本发明公开一种计算机信息处理技术领域的基于视觉词组的图像检索方法，首先对标准图像和待检索图像分别提取显著性区域，并在显著性区域中提取特征描述子，然后对标准图像库中的特征描述子采用随机kd树进行聚类，接着将标准图像和待检索图像的特征描述子分别通过视觉词组进行表示，并根据标准图像的视觉词组创建二维倒排索引，最后将由视觉词组表示的待检索图像的特征描述子在二维倒排索引中进行相似性搜索以及空间几何关系度量，给出最终检索结果。本发明在保证检索准确率的情况下，降低了检索过程的计算量，提高了检索的实时性。
文档编号G06F17/30GK102254015SQ20111020541
公开日2011年11月23日申请日期2011年7月21日优先权日2011年7月21日
发明者冯德瀛, 刘从新, 杨杰, 杨程申请人:上海交通大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：冯德瀛;杨杰;杨程;刘从新
技术所有人：上海交通大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。