一种全自动的基于单幅图像的三维场景构建方法

文档序号：6620363阅读：266来源：国知局

一种全自动的基于单幅图像的三维场景构建方法
【专利摘要】发明公开了一种全自动的基于单幅图像的三维场景模型构建方法，包括：基于机器学习的方法，利用训练图像集训练得到能够对输入的图像进行粗略分类标注的分类器。利用所述的分类器将输入的图像划分成竖立、地面和天空三种子区域，获得图像区域的粗略分类标注结果。基于所述的粗略分类标注结果中的“可信”区域，利用GrabCut图像分割算法来修正粗略分类标注结果并获得图像几何区域之间精准的边界。在获取了所述的图像几何区域的精确分类标注结果和图像几何区域之间精准边界的基础上，利用计算机图形学的方法进行具有真实感三维场景的建模。通过采用本发明公开的方法实现了全自动的基于单幅图像的三维场景构建。
【专利说明】一种全自动的基于单幅图像的三维场景构建方法

【技术领域】
[0001]本发明涉及基于图像的建模领域，尤其涉及一种全自动的基于单幅图像的三维场景构建方法。

【背景技术】
[0002]基于图像的三维重建技术能够从二维图像出发构造具有真实感的三维图形。基于图像的建模是最近几年兴起的一门新技术，它使用直接拍摄到的图像，采用尽量少的交互操作，重建场景。其最大的特点就是克服了传统的基于几何建模和绘制技术的不足，可以在只具有普通计算能力的计算机上实现具有照片般真实感场景的实时漫游。传统的三维建模工具虽然日益改进，但构建稍显复杂的三维模型依旧是一件非常耗时费力的工作。考虑到要构建的很多三维模型都能在现实世界中找到或加以塑造，因此三维扫描技术和基于图像建模技术就成了人们心目中理想的建模方式；又由于前者一般只能获取景物的几何信息，而后者为生成具有照片级真实感的合成图像提供了一种自然的方式，因此它迅速成为目前计算机图形学领域中的研究热点。
[0003]基于图像的模型重建是计算机图形学研究的前沿问题。该技术结合了计算机图形学、图像处理以及计算机视觉等诸多领域的理论和方法，通过图像场景所包含的二维信息来获取用于模型重建的三维数据，实现在虚拟场景中的模型重建，因此在计算机辅助设计和逆向工程中有很好的应用前景。基于图像的建模技术是在二维图像的基础上进行图像理解并最终重建三维立体，它是计算机视觉要解决的主要问题之一，广泛应用于机器人导航、模糊识别、虚拟现实和建筑物重建等各个领域。
[0004]最初关于三维重建的研究是基于几何信息方法的，如点云等。近些年基于图像的三维重建技术兴起，它使用直接拍摄到的照片进行重建，克服了传统的基于几何重建技术中的标定问题，其具有很大的优越性，因而基于图像的三维重建技术成为众多学者研究的重要课题。
[0005]目前大部分研究是针对两幅或多幅(序列)图像的三维重建。多幅图重建技术上需要先对每幅图像进行繁杂的预处理，寻找图像间用于匹配的特征点，而特征点匹配又是图像处理中的难点，因此利用多幅图像进行三维重建操作上存在重建成本高、操作复杂、计算量大，不适用于动态场景重建等问题。
[0006]基于单幅图像的三维重建的主要思想是通过单张数码影像提取目标的颜色、形状、共面性等二维、三维几何信息，从而利用少量已知条件获取该目标的空间三维信息。单幅图像的三维重建操作上避免了多幅图像重建的麻烦，它重建过程简单、速度快、只需拍摄一张角度合适的数码相片即可获得该目标的三维几何信息；它投入少，不需要多个摄像机或投影仪进行标定，大大减少了人力、物力的投资；而且技术上只对一幅图像进行预处理，无需多幅图像的匹配，避开了多幅图像重建的匹配难点，大大节约了时间，提高了效率。因此，用单幅图像进行三维重建越来越多地得到人们的重视。
[0007]目前的研究方法中，单幅图像的三维重建方法包括交互式的三维场景构建方法和全自动的三维场景构建方法。交互式的三维场景构建方法需要用户的交互进行指导，全自动的三维场景构建方法一般是基于图像特征利用机器学习的方法获得相应的场景结构分类器，利用分类器将图像区域进行分类标注，在此基础上进行三维场景的建模。交互式的建模方法精度高，但需要用户交互指导。全自动的三维场景构建方法是近年来的研究热点，如何快速准确地估计图像区域类别，提高自动重建的精确度是全自动的单幅图像三维重建方法面临的主要问题。

【发明内容】

[0008]本发明的目的是提供一种全自动的基于单幅图像的三维场景构建方法，在有效获取图像几何区域分类标注结果及图像中几何区域之间精准边界的基础上进行具有真实感的三维场景的构建。
[0009]本发明的目的是通过以下技术方案实现的:一种全自动的基于单幅图像的三维场景构建方法，包括以下步骤:
[0010]步骤1:利用训练图像集获得能够进行图像几何区域划分的分类器
[0011]图像几何区域划分的分类器是基于机器学习获得的，首先需要收集训练图像集，然后利用训练图像集获得一组训练样本，最后利用训练样本训练分类器；所述训练样本的是在训练图像集上获得，包括样本标注和样本提取；
[0012]所述样本标注是指对训练图像集里面的每一幅图进行几何区域的标注，即把每一幅图像的整个区域划分成多个几何子区域，每个几何子区域应当归属为三种类别中的一种，这三种类别分别是:竖立区域、地面区域和天空区域；
[0013]经过样本标注后，需要提取真正用于训练的样本集。为了尽可能精确的对图像区域进行几何子区域的划分，以30*40的矩形块作为样本单元，把每一幅图像以10为间隔步长划分成一系列具有一定重叠区域的30*40的样本矩形块。对于每个样本矩形块，提取1031维的样本特征；从而对于每一幅训练图像可以获得一组训练样本(一个训练样本集)，而所有训练图像的训练样本集形成最终的训练样本集；
[0014]提取了训练样本集，采用有监督的训练方式获得能够进行图像几何区域划分的分类器，即采用支持向量机SVM(Support Vector Machine)分类器,训练得到的分类器模型能够输出一个测试样本分别属于三种类别的概率；
[0015]步骤2:利用训练得到的分类器对用户输入的图像进行几何区域的划分，得到粗略分类标注的结果；
[0016]输入一幅图像，先以10为间隔步长将图像区域划分成一系列具有一定重叠区域的30*40的样本矩形块，对于每一个样本矩形块提取1031维度的样本特征；对于每一个样本矩形块，分类器根据其1031维的样本特征，输出该样本分别属于三种类别的概率:P (V I PD、p(g|Pi)和P (s I Pi),其中P (V I Pi)表示样本Pi属于竖立区域的概率，P(g|Pi)和P(SlPi)分别表示样本Pi属于地面区域和天空区域的概率；
[0017]对于图像区域每一个10*10的决策单元Cj其属于三种类别的概率由N个包含该决策单元的样本矩形块的类别共同决定，每一个决策单元&其属于三种类别的概率计算为:
[0018]+K,) =去

丄 V ?=1
[0019]+|c,.)=4i>(g|/:)
\ " /V
[0020]P(Hc7)

上、/=1
[0021]其中N表示包含决策单元的样本矩形块的个数，Pi表示N个矩形块中的某个，从而获得决策单元G分别属于三种类别的概率大小；p(v|Cj表示决策单元&属于竖立区域的概率，P (g Icp和P (si ?_)分别表示决策单元属于地面区域和天空区域的概率；
[0022]当且仅当决策单元&属于某种类别的概率P* > 0.5时，才标注该决策单元为该类另IJ，否则将其标注为未知类别；
[0023]步骤3:利用基于GrabCut图像分割算法修正步骤2中获得的粗略分类标注结果，并优化图像几何区域之间的边界，获得图像几何区域之间精准的边界
[0024]利用基于GrabCut图像分割算法时，以粗略分类结果中“可信的”的区域作为GrabCut的初始输入进行全自动地优化粗略标注结果，所述“可信”区域为具有较大可能性属于某种类别的像素的集合，即属于某种类别的概率大于0.5且在属于该类别的所有像素集合中属于概率较大的前90%;对于每一个类别均计算相应的“可信”区域，获得对于图像区域中某种类别P*的“可信”区域；通过基于GrabCut图像分割算法的输出来修正粗略分类的结果，以获得图像中几何区域之间精准的边界；
[0025]步骤4:针对步骤3输出的标注结果，利用计算机图形学的方法进行三维场景的建模，提供用户具有真实感的三维场景漫游。
[0026]根据图像中几何区域之间精准的边界信息，把图像区域裁剪成不同的几何区域；在设定相机参数的基础上，通过参考地面引入相对深度信息，从而恢复出图像场景中几何区域的重要顶点的三维坐标；最终利用平面近似各个几何子区域，并把各个区域按照几何关系放置在三维场景中，从而生成具有真实感的三维场景漫游。
[0027]所述步骤I中，1031维的样本特征包括:1000维的Bag of Visual Words特征、30维的颜色特征和I维的位置特征。
[0028]所述步骤I中，SVM分类器中的基函数选为径向基函数，模型类别选为多类别的分类器，概率估计参数b设置为1，即训练得到的分类器能够输出一个测试样本分别属于三种类别的概率。
[0029]所述步骤3具体实现为:
[0030](I)中对于图像区域中某种类别P*的“可信”区域的计算方法为:
[0031]>对粗略标注结果中属于该类别P*的所有像素按照它们属于该类别的概率大小降序排列，移除概率较小的像素，其百分比为k% ；
[0032]>产生一个与P*对应的二值模板图像M*，M*和原图大小一样，凡属于集合P*中的像素，其在模板图像的对应像素位置值为1，否则值为O ;
[0033]>检测模板图像M*中的连通区域，对于连通区域内部存在的面积小于A的O值区域，以I值覆盖填充；
[0034]>以大小为β的结构元素腐蚀模板图像队。对于被腐蚀的像素视为可能属于该类别的像素，其集合记为<，经过腐蚀后模板图像Μ*中值为I的像素，视为该类别的“可信”像素，其集合记为C;
[0035]根据所述的计算“可信”区域的方法分别获得三种类别(地面、竖立和天空区域)的“可信”像素集<、<和< 以及“可能”像素集<、<和<，计算参数分别为:对于竖立区域，k, A, β分别取10，5000，20，针对地面区域和天空区域，k, A, β取分别O, 5000，10 ；
[0036](2) GrabCut算法进行全自动地优化粗略标注结果的实现为:
[0037]根据所述的“可信”像素集和“可能”像素集分别对每个类别进行单独分割，对三类中某个类别的单独分割，其计算方法为:将该类别区域视为前景，另外两个类别区域视为背景。具体地，将该类别中“可信”的像素视为前景像素，另外两个类别的“可信”像素视为背景像素，并将该类别中的“可能”像素视为可能的前景，而剩下的其他像素均看作可能的背景；利用上述信息初始化GrabCut分割算法，分别建立前景和背景的混合高斯模型，经过分割后可以获得以某类别区域为前景的单独分割结果；
[0038]根据所述的单独分割的结果进一步优化标注结果，方法为:在三步单独分割结果的基础上，按照单独分割某个区域的方法，再次以竖立区域为前景进行前景背景的分离从而获得最终的图像分割结果；
[0039]根据天空和地面单独分割的结果可以大致估计出地平线的位置，利用地平线将最终的图像分割结果中的背景区域划分成天空和地面区域，其方法为:位于地平线之上的背景区域标注为天空区域，位于地平线之下的背景区域标注为地面区域。
[0040]在所述的图像几何区域标注的结果之上，利用计算机图形学的方法进行三维场景的建模，提供用户具有真实感的三维场景漫游，包括:
[0041]根据所述的图像几何区域标注结果，获得图像几何区域之间的精准边界，用Douglas-Peucker算法对地面和竖立区域的边界用多边形近似获得边界的拟合多边形；
[0042]其中上述利用计算机图形学的方法进行三维场景的建模的步骤为:
[0043](I)对所述的场景建模，使用针孔相机模型，光轴通过图像中心，世界坐标系和相机坐标系重合，相机视野设置为1.431rad ；
[0044](2)利用参考地平面，获得场景中重要顶点的三维坐标，方法为:引入参考地平面，地平面的高度设置为-5 ;根据上述建模信息获得投影矩阵，在地面高度确定的条件下，通过反投影，计算出图像中地面区域的每个像素所对应的在三维场景中的三维坐标，特别地，可以获得地面区域和竖立区域边界点的三维坐标；
[0045](3)根据所述的地面区域和竖立区域边界点的三维坐标以及地面区域和竖立区域边界的拟合多边形，获得一系列竖直平面，方法为:将地面区域和竖立区域边界的拟合多边形上的每一条折线视为某个竖直平面和地面的区域的交线，每个竖直平面的上边界由所述的图像标注结果中竖立区域和天空区域的边界确定；
[0046](4)对所述的竖直平面和地面区域，利用纹理映射获得具有真实感的三维场景模型；真实感的场景漫游包括:变换相机的视角、调节焦距和变换观察位置观察场景模型。
[0047]由上述本发明提供的技术方案可以看出，通过基于机器学习的方法训练得到一个能将输入的图像粗略划分成不同几何子区域的支持向量机(SVM)。这些子区域属于三大类的一种(竖立区域、地面区域和天空区域)。由于粗略分类标注的结果中，图像几何区域之间的边界常出现错分和混淆，从而提出利用图像分割的算法来修正粗略分类标注的结果，以获得几何区域之间精准的边界。利用精准的边界信息，在进行三维场景的构建中可以避免由于边界不精确导致的失真，从而生成具有真实感的三维场景模型。
[0048]本发明与现有技术相比的优点在于:
[0049](I)本发明结合了机器学习和图像分割的优势，以图像分割方法修正机器学习获得的粗略分类标注结果，获得更为精准的几何区域之间的边界，从而在进行三维场景的构建中可以更好地避免由于边界不精确导致的场景模型失真。
[0050](2)在本发明获得的图像分类标注精确度和现有技术具有可比性的基础上，本发明提出的技术解决方法更加简单。现有的技术侧重于利用更多有效的图像特征和构建复杂的分类标注模型来达到更高的分类标注精确度。就图像特征而言，本发明仅使用了少量有效的图像特征。就分类标注模型而言，本发明仅采用单分类器模型。在获得具有可比性的分类标注精确度的基础上，相较于现有技术需要使用更多图像特征以及需要构建复杂的分类模型的而言，本发明提出的技术方案显得更为简单，复杂度低，易于实现。

【专利附图】

【附图说明】
[0051]图1为本发明的技术方案的系统流程示意图；
[0052]图2为本发明的实施例一中使用的训练图像集中的部分图像；
[0053]图3为本发明技术方案中的基于图像分割算法来修正粗略分类标注结果的算法流程图；
[0054]图4为本发明技术方案涉及的GrabCut图像分割算法在不同初始化方法下的分割结果对比图；
[0055]图5为本发明实施例一中的输入图像在本发明技术方案提出的基于粗略分类标注结果的“四步”GrabCut算法下获得的地面区域和竖立区域之间的精准边界；
[0056]图6为本发明实施例一的输入图像的三维场景模型在不同视角下观察的结果图；
[0057]图7是按照本发明的技术方案，在数据库I上进行分类标注获得的混淆矩阵；
[0058]图8是按照本发明的技术方案，在数据库2上以6折交叉验证的方式获得的分类标注结果的精确度和现有技术在该数据库上分类标注结果的对比；
[0059]图9是按照本发明的技术方案，在数据库I和数据库2上采用支持向量机为分类器进行粗略分类标注获得的分类标注精确度和采用图像分割算法进行标注结果修正的精确度的对比。

【具体实施方式】
[0060]下面结合本发明实施例中的附图，对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。
[0061]本发明实施例所述的场景图像是针对室外场景图像，由于室外场景图像内容可以由三种类型的几何区域构成:竖立区域、地面区域和天空区域。一般情况下，室外场景图像内容可以由以上三种类型的几何区域组合构成，例如图2所示的几种常见的室外场景图像中，地面区域可以是草地、道路等，竖立区域可以是建筑、树木等，天空区域即为天空。由于本发明不仅仅要对图像内容进行精准的标注，还需要根据标注结果进行三维场景的构建，而三维场景构建中假设有参考地面的存在，所以适用于本发明技术方案进行三维场景构建的室外场景图像至少包括地面区域。如果仅用本发明技术方案进行图像内容的分类标注，则适用范围不受限于图像需要包括地面区域的假设。
[0062]由于室外场景图像内容可以由三种类型的几何区域构成:竖立区域、地面区域和天空区域。不同的几何区域其图像特征具有一些可以区分性的特征，比如颜色，天空的颜色常见的可以有蓝色，草地的颜色一般是绿色。基于这些观察，本发明首先利用图像数据集来训练一个具有将图像内容按照三种几何区域进行划分判别的分类器，即通过训练得到的分类器能够把输入图像按照图像的局部特征将其划分成不同的几何子区域。本发明实施例中使用的图像特征包括:Dense SIFT(稠密的尺度不变特征转换，Dense Scale InvariantFeature Transform)特征、Bag of Visual Words (视觉词袋特征)，颜色特征(采用LUV或者RGB)，位置特征(采用归一化的高度值h)。训练的分类器采用支持向量机SVM (SupportVector Machine)，训练采用的基函数选为径向基函数，模型类别选为多类别的分类器，概率估计参数b设置为1，即训练得到的模型能够输出一个测试样本分别属于三种类别的概率，其余设置均选用默认参数。
[0063]上述采用机器学习训练的图像几何区域的分类器所使用的图像特征是局部特征，其对图像内容进行几何区域判别分类时，虽然可以获得有效的分类结果，但由于缺乏全局的约束会导致一些语义上的错分以及区域之间的边界不够精准等问题，所以利用GrabCut图像分割算法，进一步引入图像区域之间的约束，以优化和修正由分类器输出的粗略分类标注的结果，从而获得图像几何区域之间更为精准的边界。利用精准的边界信息，在进行三维场景的建模中可以避免由于边界不明确导致的失真，从而生成具有真实感的三维场景模型。
[0064]实施例一
[0065]图1为本发明实施例一提供的全自动的基于单幅图像的三维场景建模方法的系统流程图。实施例一的主要步骤包括:
[0066]步骤1、利用训练图像集获得能够进行图像几何区域划分的分类器。
[0067]因为本发明实施例中图像几何区域划分的分类器是基于机器学习获得的，所以首先需要收集训练图像集，然后利用训练图像集获得一组训练样本，最后利用训练样本训练分类器。
[0068]训练图像集的收集可以通过互联网搜索获得。由于室外场景图像的内容千变万化，收集的训练图像应当具有代表性，尽量多的涵盖各种可能的室外场景。附图2中展示了实施例一中使用的训练图像集中的部分图像，这些图像是几种常见的室外场景图像，它们至少包含了三种类别(地面、竖立和天空)中的一种。三种类别中的地面区域可以是草地、道路等，竖立区域可以是建筑、树木等，天空区域即为天空。当然，如果只是有针对特定室外场景的应用，训练图像集可以更具针对性，比如仅仅针对室外街景图像进行构建，则可以收集不同类别的街景图作为训练图像集。
[0069]训练样本的是在训练图像集上获得，包括样本标注和样本提取。
[0070]样本标注是指对训练图像集里面的每一幅图进行几何区域的标注，即把每一幅图像的整个区域划分成多个几何子区域，每个几何子区域应当归属为三种类别中的一种。这三种类别分别是:竖立区域、地面区域和天空区域。因为在本发明中采用有监督的方式训练分类器，所以样本标注需要人为手动进行标注。
[0071]经过样本标注后，需要提取真正由于训练的样本集。本发明的目的是尽可能精确的对图像区域进行几何子区域的划分，因此本发明的实施例中均以10*10的矩形块作为决策单元，以30*40的矩形块作为样本单元。本发明的实施例中把每一幅图像以10为间隔步长划分成一系列具有一定重叠区域的30*40的样本矩形块，以800*600的图像为例，可以获得58*77 = 4466个样本矩形块。对于每个样本矩形块，提取1031维的样本特征，具体包括1000维的Bag of Visual Words特征,30维的颜色特征，I维的位置信息。
[0072]要提取1000维的Bag of Visual Words特征,首先需要预先提取每幅训练图像的Dense SIFT特征形成SIFT特征集，然后利用聚类算法对特征集进行聚类，获得SIFT特征的1000个聚类中心。本发明实施例中Dense SIFT特征提取采用的间隔步长为4，聚类算法采用K-means(K-均值)聚类算法。对于一幅训练图像中的每个30*40的样本矩形块，根据SIFT特征的聚类中心统计该矩形区域的SIFT特征词频直方图，形成1000维的Bag ofVisual Words特征。本发明实施例中采用的颜色特征采用30维直方图特征,在LUV空间，每个通道统计10个维度的直方图特征。本发明实施例中采用的位置信息为I维度的相对高度信息，即每个样本矩形块在图像中的相对高度。对于每个样本矩形块提取1031维度的特征作为该样本的特征描述。对于每一幅训练图像可以获得一组训练样本，而所有训练图像的样本集形成最终的训练样本集。本发明实施例中仅使用纯的训练样本用于训练分类器，即训练样本所在的矩形区域均属于同一个类别的训练样本构成最终的训练样本集(最终的训练样本集包含三种类别的训练样本)。
[0073]提取了训练样本集，本发明实例采用有监督的训练方式获得能够进行图像几何区域划分的分类器。具体地，分类器采用支持向量机SVM(Support Vector Machine),基函数选为径向基函数，模型类别选为多类别的分类器，概率估计参数b设置为1，即训练得到的模型能够输出一个测试样本分别属于三种类别的概率。
[0074]步骤2、对用户输入的图像，利用训练得到的分类器对其进行几何区域的划分，得到粗略分类标注的结果。
[0075]步骤2的目的是通过训练得到的分类器对输入的图像进行区域类别的粗略标注。输入一幅图像，先以10为间隔步长将图像区域划分成一系列具有一定重叠区域的30*40的样本矩形块，对于每一个样本矩形块提取1031维度的样本特征。对于每一个样本矩形块，分类器根据其1031维的样本特征，输出该样本分别属于三种类别的概率=P(VlPi)WfelPi)和P (s I Pi)，其中P (V I Pi)表示样本Pi属于竖立区域的概率，P (g I Pi)和P (s I Pi)分别表示样本Pi属于地面区域和天空区域的概率。
[0076]本发明的目的是尽可能精确的对图像区域进行子区域的划分，因此本发明的实施例中以10*10的矩形块作为决策单元(互相之间没有重叠)，在图像中每一个决策单元包含在多个样本矩形块中。本发明实施例中采用30*40的样本矩形块，采样间隔步骤是10，则在图像内部区域，每一个决策单元将包含于12个样本矩形块中。因此，对于每一个决策单元Cj其属于三种类别的概率可以由N个包含该决策单元的样本矩形块的类别共同决定。本发明实施例中，每一个决策单元&其属于三种类别的概率计算为:
[0077]+IG) =去

▲V ι=1
[0078]+Ici)
[0079]^(^|C ) = ^Σ^|Ρ)
[0080]其中N表示包含决策单元&的样本矩形块的个数，Pi表示N个矩形块中的某个，从而获得决策单元G分别属于三种类别的概率大小。P (V I CJ表示决策单元&属于竖立区域的概率，P (g Icp和P (si ?_)分别表示决策单元属于地面区域和天空区域的概率。
[0081]本发明实施例中，当且仅当决策单元属于某种类别的概率P* > 0.5时，才标注该决策单元为该类别，否则将其标注为未知类别。输入图像经过分类器(实施例中采用SVM)输出的分类标注结果比较粗略。一些错分主要发生在几何区域之间的边界处，区域内部也存在一些语义错分。为了修正粗略分类标注的结果获得几何区域之间精准的边界，从而利于真实感三维场景的建模，本发明提出一种基于图像分割的修正方法。
[0082]步骤3、利用图像分割算法修正步骤2中获得的粗略分类标注结果，修正分类结果并优化图像几何区域之间的边界。
[0083]针对粗略标注的一些错分以及几何区域边界的不精准，本发明提出一种基于GrabCut图像分割算法的修正方法。GrabCut是一种有效的交互式的分离前景背景的图像分割算法。通过用户给定的一些初始标注信息来初始化前景背景的高斯混合模型。附图4中展示了不同的初始化方式下以竖立区域为前景的GrabCut图像分割算法的结果，图4中的(a)是仅用矩形框作为分割范围约束的GrabCut图像分割算法获得的竖立区域的分割结果，图4中的(b)和(c)是在矩形框约束的基础上，由用户交互标注了前景信息(竖立区域的线条)和背景信息(天空和地面区域的线条)作为GrabCut的分割输入的分割结果，图4中的(b)和(c)的区别在于(c)的用户交互更多，标注了更多前景和背景信息。图4中的(d)是本发明提出的基于图像粗略分类标注结果的全自动的GrabCut图像分割算法获得的竖立区域的分割结果。由于GrabCut图像分割算法需要用户交互，而本发明的旨在建立一个基于单幅图像的全自动的三维场景构建系统，所以不能直接利用GrabCut算法。注意到步骤2中产生的粗略分类结果，虽然存在一些错分，但是图像中仍然存在大部分标注正确的区域。因此，本发明提出利用粗略分类标注结果中“可信的”的区域作为GrabCut的初始输入。“可信”区域在这里定义为具有较大可能性属于某种类别的像素的集合，即属于某种类别的概率大于0.5且在属于该类别的所有像素集合中属于概率较大的前90%。在本发明实施例中，对于每一个类别都计算相应的“可信”区域。以三种类别中的某类别区域为例，“可信”区域的计算方法如下:
[0084]>粗略标注结果中属于某类别区域的所有像素集合记为if"，将该集合里面的像素按照属于该类别区域的概率大小降序排列。经过降序排列后，移除集合后k%的像素获得新的集合P*。即集合〃中概率较小的后k%的像素视为“不可靠”像素并给予移除。
[0085]>产生一个与P*对应的二值模板图像Μ*。M*和原图大小一样，凡属于集合P*中的像素，其在模板图像的对应像素位置值为1，否则值为O。
[0086]>检测模板图像M*中的连通区域，对于连通区域内部存在的面积小于A的O值区域，以I值覆盖填充。
[0087]>以大小为β的结构元素腐蚀模板图像Μ*。对于被腐蚀的像素视为“可能”属于该类别区域的像素，其集合记为经过腐蚀后模板图像Μ*中值为I的像素，视为该类别区域的“可信”像素，其集合记为K。
[0088]经过以上4步，可以获得某类别区域的“可信”像素集尺和“可能”属于该类别区域的像素集C。采用上述方法，针对地面区域、竖立区域和天空区域可以分别获得“可信”像素集C、<'和< 以及“可能”像素集<、!和P本发明实施例中，对于竖立区域，(k，A，β)
取(10，5000，20)，针对地面区域和天空区域，(k, A，β )取(O, 5000，10)。
[0089]由于GrabCut是针对前景背景分离的交互式的二值分割算法，而本发明实施例中涉及三种类别的区域:竖立、地面和天空。因此，本发明技术方案提出一种基于粗略分类标注结果的“四步” GrabCut算法进行全自动地优化粗略标注结果。
[0090]当获取了<、P:.、P:、K、5和'乙后，本发明实施例中先对每个类别分别进行单独分割。对三类中某个类别的单独分割，其计算方法为:将该类别区域视为前景，另外两个类别区域视为背景。具体地，将该类别中“可信”的像素视为前景像素，另外两个类别的“可信”像素视为背景像素，并将该类别中的“可能”像素视为可能的前景，而剩下的其他所有像素均看作可能的背景；利用上述信息初始化GrabCut分割算法，分别建立前景和背景的混合高斯模型，经过分割后可以获得以某类别区域为前景的单独分割结果。
[0091]单独分割的结果可以修正粗略分类标注中不少的错分并且区域之间的边界更准确，但是竖立区域和地面区域，以竖立区域和天空区域之间仍然存在一些错分，为了进一步优化标注结果，本发明技术方案提出的“四步”GrabCut算法的第四步，以竖立区域为前景区域，地面和天空区域视为背景区域。在三步单独分割结果的基础上，按照单独分割竖立区域的方法，再次以竖立区域为前景进行前景背景的分割。图3中描述了利用GrabCut图像分割算法修正图像区域粗略分类标注结果的算法流程。相较于粗略分类标注结果而言，经过GrabCut图像分割算法后的分类标注结果，修正了粗略分类标注的不少错分并且几何区域之间的边界更加精确。利用天空和地面单独分割的结果可以大致估计出地平线的位置，从而可以进行几何校正，即利用地平线将最终的图像分割结果中的背景区域划分成天空和地面区域，其方法为:位于地平线之上的背景区域标注为天空区域，位于地平线之下的背景区域标注为地面区域
[0092]图4中展示了 GrabCut分割算法在不同初始化条件下的分割结果。对于较复杂的背景，GrabCut算法需要不少的用户交互才能获得较好的分割结果。而本发明技术方案提出的基于粗略分类标注结果的“四步”GrabCut分割算法在全自动的情况下可以获得不错的分割结果。
[0093]步骤4、针对步骤3输出的标注结果，利用计算机图形学的方法进行三维场景的建模，提供用户具有真实感的三维场景漫游。
[0094]步骤3获得的图像几何区域的分类标注结果提供了几何区域之间精准的边界，如图5所示，曲线ABCDEF(白色线条)为地面区域和竖立区域之间的边界，其很好的区分开了竖立物体和地面。虽然仅仅由以上步骤获得的结果(几何标注区域、地平线的位置和区域边界)无法精确的恢复出三维场景模型，但仍然可以通过已有的信息，在合理的假设下对场景进行建模，提供用户具有真实感的三维场景漫游。
[0095]本发明实施例中，使用针孔相机模型，光轴通过图像中心，同时假设世界坐标系和相机坐标系重合，相机视野设置为1.431rad。由于模型中参考地面的高度影响着场景模型的尺度，在本发明实施例中地平面的高度设置为-5。由以上条件可以获得投影矩阵，在地面高度确定的情况下，通过反投影，可以计算出图像中地面区域的每个像素所对应的在三维场景中的三维坐标。由于步骤3提供了地面和竖立区域的精确边界，则通过反投影，这些边界点所对应的三维坐标可以计算得到。为了获得竖立区域的三维坐标，本发明实施例中先用Douglas-Peucker算法对地面和竖立区域的边界用多边形近似获得边界的拟合多边形。拟合多边形上的每一条折线，可以看作是某个竖直平面和地面的交线。每一条折线对应一个竖直平面，每个竖直平面的上边界由标注结果中竖立区域和天空区域的边界确定。从而可以获得场景的几何模型，通过纹理映射可以获得具有真实感的三维场景。用户可以变换相机的视角、观察位置和调节焦距等操作进行场景漫游。附图6展示了本发明实施例一的输入图像的三维场景模型在不同视角下观察的结果图，图6中的(a) (b) (c)分别表示视角
1、视角2和视角3下观察场景模型的结果图。
[0096]按照本发明提出的技术方案，分别在两个公认的用于测试分类标注精确度的数据库 Popup 数据库(Derek Hoiem, Alexei A.Efros, and Martial Hebert, “Automatic photopop-up, ” in ACM Transact1ns on Graphics (TOG).ACM, 2005, vol.24, pp.577 - 584.),简称“数据库 I，，和 Geometric context 数据库(Derek Hoiem, Alexei A.Efros, and MartialHebert, “Geometric context from a single image, ”in Internat1nal Conference ofComputer Vis1n (ICCV).2005, vol.1, pp.654 - 661.),简称“数据库 2” 上进行评测本发明技术方案的有效性。数据库I包含144张图像，其中82张训练图像和62张测试图像。数据库2包含300张图像，以50张图像为一份，分成了 6份。数据库2的标准测试方法采用6折交叉验证:测试时轮流将其中I份作为训练图像集，另外5份为测试图像集。附图7是在按照本发明的技术方案，在数据库I上以82张训练图像训练获得粗略标注的分类器，并对62张测试图像进行分类标注获得的混淆矩阵。与该混淆矩阵相对应的本发明的分类标注精确度为92%，即在测试图像集上，92%的图像像素被正确分类标注，而该数据库的分类标注精确度的基准线为87%。图8是按照本发明的技术方案在数据库2上以6折交叉验证的方式获得的分类标注结果的精确度和现有技术在该数据库上分类标注结果的对比。数据显示，在标准测试数据库2上，分类标注精确度的基准线为86.0%，目前最好的分类标注结果为88.9%，而本发明的分类方法获得的分类标注结果的精确度为88.7%。结果表明，本发明的分类方法可以获得和现有技术具有可比性的分类标注精确度。需要注意的是:就图像特征而言，本发明仅使用了少量有效的图像特征；就分类标注模型而言，本发明仅采用单分类器模型。因此在获得和现有技术具有可比性的分类标注精确度的基础上，相较于现有技术需要使用更多图像特征以及需要构建复杂的分类模型的而言，本发明提出的技术方案显得更为简单，复杂度低，易于实现。图9是按照本发明的技术方案在数据库I和数据库2上采用支持向量机为分类器进行粗略标注获得的分类标注精确度和采用图像分割算法进行标注结果修正的精确度的对比。数据显示，在数据库I和数据库2上标注结果修正后的精确度比粗略标注的精确度分别提高4.6 %和3.5 %。结果表明，通过本发明提出的利用图像分割算法对粗略标注结果进行修正的方法可以有效地提高分类标注的精确度。
[0097]通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是⑶-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明实施例所述的方法。
[0098]以上所述，仅为本发明较佳的【具体实施方式】，但本发明的保护范围并不局限于此，任何熟悉本【技术领域】的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。
【权利要求】
1.一种全自动的基于单幅图像的三维场景构建方法，其特征在于包括以下步骤: 步骤1:利用训练图像集获得能够进行图像几何区域划分的分类器；图像几何区域划分的分类器是基于机器学习获得的，首先需要收集训练图像集，然后利用训练图像集获得一组训练样本，最后利用训练样本训练分类器；所述训练样本的是在训练图像集上获得，包括样本标注和样本提取；所述样本标注是指对训练图像集里面的每一幅图进行几何区域的标注，即把每一幅图像的整个区域划分成多个几何子区域，每个几何子区域应当归属为三种类别中的一种，这三种类别分别是:竖立区域、地面区域和天空区域；经过样本标注后，需要提取真正用于训练的样本集；为了尽可能精确的对图像区域进行几何子区域的划分，以30*40的矩形块作为样本单元，把每一幅图像以10为间隔步长划分成一系列具有一定重叠区域的30*40的样本矩形块；对于每个样本矩形块，提取1031维的样本特征；对于每一幅训练图像获得一组训练样本(一个训练样本集)，而所有训练图像的训练样本集形成最终的训练样本集；提取了训练样本集，采用有监督的训练方式获得能够进行图像几何区域划分的分类器，即采用支持向量机SVM(Support Vector Machine)分类器,训练得到的模型能够输出一个测试样本分别属于三种类别的概率；步骤2:利用训练得到的分类器对用户输入的图像进行几何区域的划分，得到粗略分类标注的结果；输入一幅图像，先以10为间隔步长将图像区域划分成一系列具有一定重叠区域的30*40的样本矩形块，对于每一个样本矩形块提取1031维度的样本特征；对于每一个样本矩形块，分类器根据其1031维的样本特征，输出该样本分别属于三种类别的概率=P(VlPi)、P (g I Pi)和P (S I Pi),其中P (V I Pi)表示样本Pi属于竖立区域的概率，P (g I Pi)和P (S I Pi)分别表示样本Pi属于地面区域和天空区域的概率；对于每一个决策单元G其属于三种类别的概率由N个包含该决策单元的样本矩形块的类别共同决定，每一个决策单元&其属于三种类别的概率计算为:
其中N表示包含决策单元&的样本矩形块的个数，Pi表示N个矩形块中的某个，从而获得决策单元G分别属于三种类别的概率大小；p(v|Cj表示决策单元&属于竖立区域的概率，P (g I CJ和P (s| CJ分别表示决策单元属于地面区域和天空区域的概率；当且仅当决策单元&属于某种类别的概率P* > 0.5时，才标注该决策单元为该所述属类别，否则将其标注为未知类别；步骤3:利用基于GrabCut图像分割算法修正步骤2中获得的粗略分类标注结果，并优化图像几何区域之间的边界，获得图像几何区域之间精准的边界；利用基于GrabCut图像分割算法时，以粗略分类结果中“可信的”的区域作为GrabCut的初始输入进行全自动地优化粗略标注结果；所述“可信”区域为具有较大可能性属于某种类别的像素的集合，即属于某种类别的概率大于0.5且在属于该类别的所有像素集合中属于概率较大的前90% ;对于每一个类别均计算相应的“可信”区域，获得对于图像区域中某种类别P*的“可信”区域；基于粗略分类标注的“可信”区域，利用GrabCut图像分割算法的输出来修正粗略分类标注的结果，以获得图像中几何区域之间精准的边界；步骤4:针对步骤3输出的标注结果，利用计算机图形学的方法进行三维场景的建模，提供用户具有真实感的三维场景漫游；根据图像中几何区域之间精准的边界信息，把图像区域裁剪成不同的几何区域；在设定相机参数的基础上，通过参考地面引入相对深度信息，从而恢复出图像场景中几何区域的重要顶点的三维坐标；最终利用平面近似各个几何子区域，并把各个区域按照几何关系放置在三维场景中，从而生成具有真实感的三维场景漫游。
2.根据权利要求1所述的方法，其特征在于:所述步骤I中，1031维的样本特征包括:1000维的Bag of Visual Words特征、30维的颜色特征和I维的位置特征。
3.根据权利要求1所述的方法，其特征在于:所述步骤I中，SVM分类器中的基函数选为径向基函数，模型类别选为多类别的分类器，概率估计参数b设置为1，即训练得到的分类器能够输出一个测试样本分别属于三种类别的概率。
4.根据权利要求1所述的方法，其特征在于:所述步骤3具体实现为: (1)中对于图像区域中某种类别P*的“可信”区域的计算方法为: >对粗略标注结果中属于该类别P*的所有像素按照它们属于该类别的概率大小降序排列，移除概率较小的像素，其百分比为k% ； >产生一个与P*对应的二值模板图像MyM*和原图大小一样,凡属于集合P*中的像素，其在模板图像的对应像素位置值为1，否则值为O ; >检测模板图像中的连通区域，对于连通区域内部存在的面积小于A的O值区域，以I值覆盖填充； <以大小为β的结构元素腐蚀模板图像队，对于被腐蚀的像素视为可能属于该类别的像素，其集合记为#，经过腐蚀后模板图像Μ,中值为I的像素，视为该类别的“可信”像素，其集合记为P ; 根据所述的计算“可信”区域的方法分别获得三种类别的“可信”像素集<、iT和f以及“可能”像素集〃、〃和C，计算参数分别为:对于竖立区域，k，A，β分别取10，5000，20，针对地面区域和天空区域，k, A, β取分另Ij O, 5000，10 ； (2)GrabCut算法进行全自动地优化粗略标注结果的实现为: 根据所述的“可信”像素集和“可能”像素集分别对每个类别进行单独分割，对三类中某个类别的单独分割，计算方法为:将该类别区域视为前景，另外两个类别区域视为背景，即将该类别中“可信”的像素视为前景像素，另外两个类别的“可信”像素视为背景像素，并将该类别中的“可能”像素视为可能的前景，而剩下的所有其他像素均看作可能的背景；利用上述信息初始化GrabCut分割算法，分别建立前景和背景的混合高斯模型，经过分割后可以获得以某类别区域为前景的单独分割结果；根据所述的单独分割的结果进一步优化标注结果，方法为:在三步单独分割结果的基础上，按照单独分割竖立区域的方法，再次以竖立区域为前景进行前景背景的分离从而获得最终的图像分割结果；根据天空和地面单独分割的结果可以大致估计出地平线的位置，利用地平线将最终的图像分割结果中的背景区域划分成天空和地面区域，其方法为:位于地平线之上的背景区域标注为天空区域，位于地平线之下的背景区域标注为地面区域。
5.根据权利要求1所述的方法，其特征在于:在所述的图像几何区域标注的结果之上，利用计算机图形学的方法进行三维场景的建模，提供用户具有真实感的三维场景漫游，包括: 根据所述的图像几何区域标注结果，获得图像几何区域之间的精准边界，用Douglas-Peucker算法对地面和竖立区域的边界用多边形近似获得边界的拟合多边形；利用计算机图形学的方法进行三维场景的建模，包括: (1)对所述的场景建模，使用针孔相机模型，光轴通过图像中心，世界坐标系和相机坐标系重合，相机视野设置为1.431rad ； (2)利用参考地平面，获得场景中重要顶点的三维坐标，方法为:引入参考地平面，地平面的高度设置为-5 ;根据上述建模信息获得投影矩阵，在地面高度确定的条件下，通过反投影，计算出图像中地面区域的每个像素所对应的在三维场景中的三维坐标，获得地面区域和竖立区域边界点的三维坐标； (3)根据所述的地面区域和竖立区域边界点的三维坐标以及地面区域和竖立区域边界的拟合多边形，获得一系列竖直平面，方法为:将地面区域和竖立区域边界的拟合多边形上的每一条折线视为某个竖直平面和地面的区域的交线，每个竖直平面的上边界由所述的图像标注结果中竖立区域和天空区域的边界确定； (4)对所述的竖直平面和地面区域，利用纹理映射获得具有真实感的三维场景模型；真实感的场景漫游包括:变换相机的视角、调节焦距和变换观察位置观察场景模型。
【文档编号】G06T17/00GK104134234SQ201410340189
【公开日】2014年11月5日申请日期:2014年7月16日优先权日:2014年7月16日
【发明者】陈雪锦, 王贵杭, 胡思宇申请人:中国科学技术大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈雪锦;王贵杭;胡思宇
技术所有人：中国科学技术大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。