基于三维点云模型的地标建筑图像分类方法

文档序号：6357215阅读：321来源：国知局

专利名称：基于三维点云模型的地标建筑图像分类方法
技术领域：
本发明属于计算机视觉和多媒体分析技术领域，涉及基于三维点云模型的地标建筑图像分类方法。
背景技术：
随着图像共享网站(如!^cebook和Flickr)的发展，越来越多的旅游图像被上传到网络上。在这些旅游图像中，地标建筑图像(如图1)是其中最吸引人们注意的之一。有些地标建筑图像在上传的时候已经被标注好了，但是更多的是没有标注的图像。由于地标建筑图像在拍摄的时候处于不同的环境下，例如光照，视角，镜头拉近和遮挡等，如图1中示出美国国会图片中的上幅国会大楼，下幅示出将镜头拉近的国会大楼；比萨斜塔图片中的上幅示出一座大楼、人和比萨斜塔，下幅示出不同视角的人和比萨斜塔；巴黎圣母院图片中的上幅巴黎圣母院整体建筑图像，下幅示出黎圣母院的局部建筑图像；自由女神像图片中的上幅自由女神像整体建筑图像，下幅示出不同视角自由女神像的局部建筑图像；姬路城图片中的上幅和下幅示出的是不同视角的建筑图像；布达拉宫图片中的不同光照是的建筑图像；根据图1的说明可知对于同一个地标建筑的图像可能表现出不同的形式。用已经标注好的地标建筑图像去分类没有标注在不同环境下拍摄的地标建筑图像是一个难题。对于图像分类的研究已经很多年了，相对于传统的图像分类而言，地标建筑的分类又有很大的不同。首先，地标建筑的唯一性就决定了针对于同一个地标建筑的图像都是同源的。其次，由于拍摄角度，拍摄时间，拍摄时候的环境等原因，同一个地标建筑的图像很可能会有众多不同的表现形式。由于地标建筑具有唯一性和多种的表现形式，地标建筑图像分类更加困难，并且渐渐脱离图像分类成为一个独立的研究课题。现有的研究工作可以大体上分为三类1).基于词带(Bag of Words)的方法；2).基于空间金字塔匹配(Spatial Pyramid Matching)的方法；3).基于代表性图像集的方法。但是这些已有的研究中，都是使用地标建筑图像的全局特征或者是全部的局部特征来表示一个图像的，那些来自非地标建筑区域的特征限制了地标建筑图像分类的准确度。而且，地标建筑本身的特殊性，在以往的方法中都没有被利用。任何一个地标建筑，都有它独有的一些引人注意的局部位置，人们也对这些位置拍摄了很多的图像，如果能够将这些局部热门位置引入到图像分类中的工作中，相信能够更好的地标建筑图像分类结果。

发明内容
为了解决现有技术地标建筑图像分类的准确率低的技术问题，本发明的目的是提出一种利用三维点云模型来描述和收集地标建筑特征来提高地标建筑图像的分类结果，为此提供了一种基于三维点云模型的地标图像分类方法。为达到上述目的，本发明提供的基于三维点云模型的地标图像分类方法的技术方案是通过三维点云模型模型获取地标建筑图像的地标建筑信息，并提高地标建筑图像的分类效果，包括步骤如下步骤Sl 从有标注的地标建筑图像集合中，经过概要性全局特征描述符聚类、候选集选择和几何约束判定，选择出有利于对地标建筑图像三维重建的代表性图像；步骤S2 对选择出的代表性图像进行视觉关注度分析，获得地标建筑图像中的视觉关注区域，并利用运动恢复结构的方法，对地标建筑图像的视觉关注区域进行三维重建，获得重建地标建筑的三维点云模型；步骤S3 利用投影矩阵，将步骤S2所述三维点云模型投影到与三维点云模型相对应的地标建筑图像中，并依靠投影点的分布识别整体图像和局部图像，并从局部图像类别中选取部分有利于三维重建的局部图像，将有利于三维重建的局部图像送入步骤S2，再执行步骤S2的操作，得到包含局部增强信息的重建地标建筑的三维点云模型；步骤S4 将获得的局部增强的地标建筑三维点云模型投影到与局部增强的地标建筑三维点云模型相对应的地标建筑图像中，获得每张地标建筑图像的地标建筑区域，提取地标建筑区域中的局部特征并建立K维搜索树，提取无类别标注地标建筑图像的局部特征并与K维搜索树进行特征匹配，最终利用K维搜索树进行特征匹配，得到匹配数最多的地标建筑K维搜索树所对应的类别为无类别标注地标建筑图像类别。优选实施例，有标注的地表建筑图像的代表性图像的选取的步骤包括步骤Sll 先用概要性全局特征描述符聚类所有的地标建筑图像到K个聚类类别；步骤S12 对于每一个聚类类别，计算其类内地标建筑图像相互之间局部特征匹配数，并将每个聚类类别中的图像按照总匹配数降序排列，选择出按照K计算出的排名最前的已知数量的图像作为候选集合；步骤S13 将来自候选集合中的任意K个地标建筑图像构成一个图像组合，如果他们来自不同的类别，根据几何约束排序所有的图像组合并最终决定代表性地标建筑图像组
I=I O优选实施例，对步骤S2中地标建筑图像的视觉关注区域进行三维重建的步骤包括步骤S21 融合基于反差的方法和基于信息论的方法来计算地标建筑图像中的视觉关注度图，并生成视觉关注区域；步骤S22 提取视觉关注区域中的局部特征，利用运动恢复结构的方法重建地标建筑的三维点云模型。优选实施例，生成局部增强的地标建筑三维点云模型的步骤包括步骤S31 按照投影矩阵，将三维点云投影到二维地标建筑图像上，获得二维投影点的分布；步骤S32 根据二维投影点的分布，识别局部图像并从局部图像所对应的类别中，选择除已经在代表性图像组中的图像之外的类内局部特征匹配数最多的图像，补充到地标建筑代表性组中；步骤S33 将步骤S32中选择新的图像，输入到步骤S3中，获得局部增强的地标建筑三维点云模型。
5
优选实施例，使用地标建筑图像中地标建筑区域的特征生成K维搜索树并进行未标注地标建筑图像分类的步骤包括步骤S41 将局部增强的地标建筑三维点云模型按照其投影矩阵投影到用于三维重建的地标建筑图像中，从而获得图像中的地标建筑区域，提取地标建筑区域中的局部特征构建K维搜索树；步骤S42 提取无类别标注地标建筑图像的局部特征，并与K维搜索树进行特征匹配，匹配数最多的地标建筑K维搜索树所对应的类别即为无类别标注的地标建筑图像的类别。本发明的有益效果本发明通过对有类别标注的地标建筑图像进行有利于三维重建的代表性地标建筑图像选择，对代表性地标建筑图像进行基于视觉关注度的三维重建获得三维点云模型，对三维点云模型进行局部增强以及构建K维搜索树和对无类别标注图像进行分类，利用已标注图像集中的代表性图像获得地标建筑的描述，并选择和利用对应于地标建筑的局部区域的图像来获得局部增强的地标建筑的描述，并通过比较未标注图像与局部增强的地标建筑的描述，获得未标注图像的类别，与传统的地标建筑图像分类方法相比，本发明独创性的将三维点云模型应用到地标建筑图像分类中，有效地提高了地标建筑图像分类的准确率。本发明的地标建筑图像分类结果，证明了本发明的方法有更高的分类准确率。

图1地标建筑图像的例子。图2本发明基于三维点云模型的地标建筑图像分类方法框架图。图3巴黎圣母院整体图像与局部图像举例图4巴黎圣母院视觉关注度分析的例子图5巴黎圣母院基于视觉关注度的地标建筑三维重建的例子图6巴黎圣母院三维点云模型到二维图像投影的例子图7最终分类结果与其他方法比较的例子
具体实施例方式为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。通过滤除地标建筑区域之外的噪音特征，本发明提出了利用三维点云模型来提高地标建筑图像分类的准确度。本发明的方法适用于地标建筑图像分类的特性地标建筑具有唯一性和地标建筑有不同的表现形式。通过与传统的地标建筑方法比较，本发明的方法可以获得更准确的地标建筑图像分类结果。本发明中所使用计算机均在Windows XP操作系统下，硬件设备条件为处理器酷睿双核2. 2G，内存2G。本发明的结构图在图2中显示基于三维点云模型的地标图像分类方法框架图包括1)有标注的地标建筑图像的代表图像选取，幻基于视觉关注度的三维重建，幻利用局部图像对三维点云模型进行增强，4)K维搜索树的建立和未标注的地标建筑图像的分类。步骤Sl有标注的地标建筑图像的代表图像选取
在地标建筑图像分类中，有标注的地标建筑图像作为训练图像，无标注的图像作为测试图像以检验分类算法的效果。本发明，并不使用所有的有标注的图像作为训练图像，因为这样浪费了计算机的效率。本发明中，仅选择有标注图像中，有代表性而且对三维重建有利的图像作为训练图像。训练图像选取主要包括三部分概要性全局特征描述符(GIST) 聚类，代表图像候选集选择和几何约束判定。1. 1概要性全局特征描述符聚类聚类的目的是通过确定一些有代表性的视角来表示地标建筑图像集的内容。如果有很多图像是从相似的视角拍摄的，那么他们中肯定存在相似的图像显示。而这些相似的图像可以用低维的全局特征来描述。本发明提取每幅有标注地标图像的概要性全局特征描述符，并计算全局特征之间的距离，并利用K均值(Kmeans)方法，对这些图像的全局特征进行聚类，生成聚类好的数据。K的取值根据有标注地标图像的数量进行确定。最终，根据聚类的结果，将这些有标注的图像存放到其归属的文件夹中。1. 2代表图像候选集选择—次性选择出来最具有代表性且有利于三维重建的地标建筑图像是非常困难的。于是，本发明中，对于每个聚类类别，首先选取其中的一部分来作为代表性图像的候选集。再从候选集中选择最优的一组代表性图像。对于每个聚类类别中的地标建筑图像，提取其局部特征SIFT特征，并计算类内图像的相互之间的局部特征(SIFT)特征匹配点的数量，并把这些地标建筑图像按照与类内其他地标建筑图像的匹配点数的总数排列顺序。每个类别中，本发明选出事先制定的固定比例的图像(从类内匹配点总数最多的开始)放入候选集合中。本发明计算采样率如下η = l/(n/K) (3)这里，η是采样率，η是有标记的地标建筑图像的总数，K是聚类类别数。对于每个聚类类别，所选入的候选集合的个数计算如下
《=「《;x …(4)这里，Si是第i个聚类类别选出的地标建筑图像的数量，η,是第i个类别中地标建筑图像的总数。1.3几何约束判定对于候选集合中的图像，本发明选择出K张来自不同聚类类别的候选图像作为最终的代表性图像。为了选择三维重建所需要的代表性图像组，本发明依靠几何约束来排序所有的代表性地标建筑图像组。几何约束是为了保证所选出的地标建筑图像组中的地标建筑图像在三维空间中包含重合的区域。本发明提取局部特征，并用随机抽样一致性(RANSAC)算法来估计一个图像间的基本矩阵。对于一个特定的图像组，每个图像与其他图像之间有一定数量匹配点。每个地标建筑图像组中的匹配点的总和对于这个帧组来说，是一个新的表示特征，称为几何约束得分。本发明按照几何约束得分降序排列所有的地标建筑图像组。最终，排名最高的地标建筑图像组中的图像将被选择为代表性图像。步骤S2基于视觉关注度的三维重建
本发明中提出了一种关注度的三维重建方法来提高地标建筑三维重建速度的方法。本发明的方法是一种基于非标定的方法。与先前的三维重建相比方法，本发明的增强三维重建方法，不仅仅突出了感兴趣区域，而且节省了计算量。主要包含两个个步骤关注度分析和基于视觉关注度的三维重建。图像中不同的物体吸引人们不同程度的关注，就是关注度。基于反差的关注度分析引入中心环绕结构的概念来提供人类视觉系统(HVS)以特征反差。基于信息论的方法依靠于这样的前提视觉关注的完全依靠于最大化的信息采样。反差和信息采样是计算关注度的两个因素。本发明融合基于反差的方法和基于信息论的方法来计算视觉关注度图，如公式⑴
权利要求
1.一种基于三维点云模型的地标建筑图像分类方法，其特征在于具体包括如下步骤步骤Sl 从有标注的地标建筑图像集合中，经过概要性全局特征描述符聚类、候选集选择和几何约束判定，选择出有利于对地标建筑图像三维重建的代表性图像；步骤S2 对选择出的代表性图像进行视觉关注度分析，获得地标建筑图像中的视觉关注区域，并利用运动恢复结构的方法，对地标建筑图像的视觉关注区域进行三维重建，获得重建地标建筑的三维点云模型；步骤S3 利用投影矩阵，将步骤S2所述三维点云模型投影到与三维点云模型相对应的地标建筑图像中，并依靠投影点的分布识别整体图像和局部图像，并从局部图像类别中选取部分有利于三维重建的局部图像，将有利于三维重建的局部图像送入步骤S2，再执行步骤S2的操作，得到包含局部增强信息的重建地标建筑的三维点云模型；步骤S4 将获得的局部增强的地标建筑三维点云模型投影到与局部增强的地标建筑三维点云模型相对应的地标建筑图像中，获得每张地标建筑图像的地标建筑区域，提取地标建筑区域中的局部特征并建立K维搜索树，提取无类别标注地标建筑图像的局部特征并与K维搜索树进行特征匹配，最终利用K维搜索树进行特征匹配，得到匹配数最多的地标建筑K维搜索树所对应的类别为无类别标注地标建筑图像类别。
2.根据权利要求1所述的基于三维点云模型的地标建筑图像分类方法，其特征在于，有标注的地表建筑图像的代表性图像的选取的步骤包括步骤Sll 先用概要性全局特征描述符聚类所有的地标建筑图像到K个聚类类别；步骤S12 对于每一个聚类类别，计算其类内地标建筑图像相互之间局部特征匹配数，并将每个聚类类别中的图像按照总匹配数降序排列，选择出按照K计算出的排名最前的已知数量的图像作为候选集合；步骤S13 将来自候选集合中的任意K个地标建筑图像构成一个图像组合，如果他们来自不同的类别，根据几何约束排序所有的图像组合并最终决定代表性地标建筑图像组合。
3.根据权利要求1所述的基于三维点云模型的地标建筑图像分类方法，其特征在于，对步骤S2中地标建筑图像的视觉关注区域进行三维重建的步骤包括步骤S21 融合基于反差的方法和基于信息论的方法来计算地标建筑图像中的视觉关注度图，并生成视觉关注区域；步骤S22:提取视觉关注区域中的局部特征，利用运动恢复结构的方法重建地标建筑的三维点云模型。
4.根据权利要求1所述的基于三维点云模型的地标建筑图像分类方法，其特征在于，生成局部增强的地标建筑三维点云模型的步骤包括步骤S31 按照投影矩阵，将三维点云投影到二维地标建筑图像上，获得二维投影点的分布；步骤S32 根据二维投影点的分布，识别局部图像并从局部图像所对应的类别中，选择除已经在代表性图像组中的图像之外的类内局部特征匹配数最多的图像，补充到地标建筑代表性组中；步骤S33 将步骤S32中选择新的图像，输入到步骤S3中，获得局部增强的地标建筑三维点云模型。
5.根据权利要求1所述的基于三维点云模型的地标建筑图像分类方法，其特征在于，使用地标建筑图像中地标建筑区域的特征生成K维搜索树并进行未标注地标建筑图像分类的步骤包括步骤S41 将局部增强的地标建筑三维点云模型按照其投影矩阵投影到用于三维重建的地标建筑图像中，从而获得图像中的地标建筑区域，提取地标建筑区域中的局部特征构建K维搜索树；步骤S42 提取无类别标注地标建筑图像的局部特征，并与K维搜索树进行特征匹配，匹配数最多的地标建筑K维搜索树所对应的类别即为无类别标注的地标建筑图像的类别。
全文摘要
本发明是基于三维点云模型的地标建筑图像分类方法，从有标注的地标建筑图像集合中，选择地标建筑图像三维重建的代表性图像进行视觉关注度分析，利用运动恢复结构方法获得地标建筑图像中的视觉关注区域进行三维重建，获得地标建筑的三维点云模型；利用投影矩阵将三维点云模型投影到与其相对应的地标建筑图像中，并依靠投影点的分布识别整体图像和局部图像，并从局部图像类别中选取部分有利于三维重建的局部图像对三维点云模型进行局部增强，将获得局部增强的地标建筑三维点云模型投影到与其相对应的地标建筑图像中，提取每张地标建筑图像的地标建筑区域并建立K维搜索树，最终利用K维搜索树获得无类别标注地标建筑图像的类别。
文档编号G06T17/00GK102147812SQ20111008011
公开日2011年8月10日申请日期2011年3月31日优先权日2011年3月31日
发明者徐常胜, 王金桥, 肖宪申请人:中国科学院自动化研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐常胜;肖宪;王金桥
技术所有人：中国科学院自动化研究所
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。