生成深度图的方法及其设备的制作方法

文档序号:7705543阅读:116来源:国知局
专利名称:生成深度图的方法及其设备的制作方法
技术领域
本发明涉及一种生成深度图的方法及其设备,更具体地,涉及一种从单目视频生 成深度图的方法及其设备。
背景技术
近年来,随着3D技术的不断发展,市场上出现了多种配备有3D特征的电子产品 (诸如,配备有3D特征的显示器、电视机、移动终端等)。然而,大多数现有的视频是通过普 通的单目摄像机捕捉的,因此这些视频不能直接用于3D产品的输入内容。如何从这些单目 视频有效地提取3D信息成为了主要任务。针对上述任务,目前出现了很多方法。大部分方法主要用于生成单个深度图,而不 是深度图序列,因此无法实时生成在线播放的视频的深度图。此外,现有的方法受相机运动 的影响和约束很大,例如,使用这些方法需要相机一直保持水平移动。而且,这些方法使用运动估计结构(SFM)来计算相机的参数,这会导致计算的相 机参数具有较高的误差,从而会很大程度上影响最终结果。同时,加上平滑处理的时间,这 些方法需要大量的时间。

发明内容
本发明的目的在于提供一种生成深度图的方法,所述方法通过将深度图划分为多 个区域并更新所述多个区域,以及检测新区域并仅计算新区域的像素深度来减少了生成深 度图的计算量和所花费的时间,并且能够获得清晰的深度图。本发明的另一目的在于提供一种生成深度图的设备,所述设备通过将深度图划分 为多个区域并更新所述多个区域,以及检测新区域并仅计算新区域的像素深度来减少了生 成深度图的计算量和所花费的时间,并且能够获得清晰的深度图。本发明的一方面在于提供一种从单目视频生成深度图的方法,包括(a)通过稠 密匹配方法,使用单目视频流的第一帧和第二帧获得表示第二帧的像素深度的第一深度 图;(b)检测所述单目视频流的第二帧和第三帧的特征点,将第三帧的特征点与第二帧的 特征点进行匹配以获得特征向量,并根据所述第二帧的像素深度将第一深度图划分为多个 区域;(C)通过对检测到的特征点进行运动估计来获得运动参数,并基于所述运动参数和 所述特征向量更新所述多个区域的参数,从而更新所述多个区域以作为表示第三帧的像素 深度的第二深度图的一部分;(d)在第三帧中检测新区域,所述新区域是在第三帧中出现 而未在第二帧中出现的区域,并通过计算所述第三帧中的新区域的像素深度作为第二深度 图的另一部分,从而获得第二深度图;以及(e)对第二深度图进行平滑处理。当所述新区域是与首次出现的场景相应的区域时,通过第三帧和第四帧对该区域 进行稠密匹配方法来获得该区域的像素深度,并且当所述新区域是与被覆盖的场景相应的 区域时,基于该区域的相邻区域的像素深度通过图像修复方法计算该区域的像素深度。所述稠密匹配方法可以是是图分割算法、信任传播算法和动态规划算法中的任何一种。可以对所述特征向量进行滤波处理以提高匹配准确度。所述多个区域的参数可以是像素深度、几何形状和位置。所述视频流的格式可以是AVI和MPG中的任何一种。本发明的另一方面在于提供一种从单目视频生成深度图的设备,包括初始化模块,通过稠密匹配方法,使用单目视频流的第一帧和第二帧获得表示第二帧的像素深度的 第一深度图;处理模块,检测所述单目视频流的第二帧和第三帧的特征点,将第三帧的特征 点与第二帧的特征点进行匹配以获得特征向量,根据第二帧的特征点的像素深度将第一深 度图划分为多个区域,通过对检测到的特征点进行运动估计来获得运动参数,基于所述运 动参数和所述特征向量更新所述多个区域参数,从而更新所述多个区域以作为表示第三帧 的像素深度的第二深度图的一部分,在第三帧中检测新区域,所述新区域是在第三帧中出 现而未在第二帧中出现的区域,并计算所述第三区域中的新区域的像素深度作为第二深度 图的另一部分,从而获得第二深度图;以及平滑模块,对第二深度图进行平滑处理。当所述新区域是与首次出现的场景相应的区域时,处理模块通过第三帧和第四帧 对该区域进行稠密匹配方法来获得该区域的像素深度,并且当所述新区域是与被覆盖的场 景相应的区域时,处理模块基于该区域的相邻区域的像素深度通过图像修复方法计算该区 域的像素深度。所述稠密匹配方法可以是图分割算法、信任传播算法和动态规划算法中的任何一 种。处理模块可对所述特征向量进行滤波处理以提高匹配准确度。所述多个区域的参数可以是像素深度、几何形状和位置。所述视频流的格式可以是AVI和MPG中的一种。


通过下面结合附图进行的详细描述,本发明的上述和其他目的和特点将会变得更 加清楚,其中图1是示出根据本发明示例性实施例的生成深度图的设备的框图;图2是示出根据本发明示例性实施例的生成深度图的方法的流程图;图3是第二帧和根据第一帧和第二帧计算的第一深度图;图4是示出通过特征点匹配产生的特征向量的示图;图5是示出根据本发明示例性实施例的新区域检测结果和不同新区域的示图;图6是示出根据本发明示例性实施例的彩色帧与其深度图的示图;图7是通过根据本发明示例性实施例的生成深度图的方法获得的深度图序列;以 及图8是通过传统方法和本发明的生成深度图的方法获得的深度图的比较结果。
具体实施例方式以下,参照附图来详细说明本发明的实施例。图1是示出根据本发明示例性实施例的生成深度图的设备的框图。参照图1,根据本发明示例性实施例的生成深度图的设备100包括初始化模块101、处理模块102和平滑模块103。初始化模块101通过稠密匹配方法,使用单目视频流的第一帧和第二帧获得第一深度图。这里,第一帧表示单目视频流的初始帧,第二帧表示第一帧的下一帧,第一深度图 是计算出的第二帧的深度图。图3的(a)表示第二帧,(b)表示第一深度图。所述视频流的 格式可以是AVI、MPG等普通视频流格式,并且所述稠密匹配方法可以是图分割算法(Graph Cut)、信任传播算法(Belief Propagation)、动态规划算法(Dynamic Programming)等。优 选地,可以采用图分割算法来获得第一深度图。所述图分割算法应用于各种不同的场合,例 如,图像恢复、图像分割和立体稠密匹配等,该算法是一种使用图形原理的针对立体匹配问 题的解决方案,其特点在于将立体相应性匹配问题转换为全局能量功能的最小化,通过在 特定图形中找到最优分割来实现该最小化。所述图分割算法、信任传播算法和动态规划算 法都是本领域公知技术,这里将不再详细描述。需要注意的是,在以下描述中出现的第三帧表示第二帧的下一帧,第二深度图表 示第三帧的深度图。可以依此类推,例如,第四帧表示第三帧的下一帧,第三深度图表示第 四帧的深度图。上述第一深度图用作获得第二深度图的依据,第二深度图用作获得第三深 度图的依据。也就是,利用先前深度图获得当前深度图,为了描述的方便,将不再重复获得 第二深度图之后的多个深度图的过程。处理模块102,检测单目视频流中的第二帧和第三帧特征点,将第三帧的特征点与 第二帧的特征点进行匹配以获得特征向量,根据深度将第一深度图划分为多个区域,通过 对检测到的特征点进行运动估计来获得运动参数,基于所述运动参数和所述特征向量更新 所述多个区域的参数,从而更新所述多个区域以作为第二深度图的一部分,在第三帧中检 测新区域,所述新区域是在第三帧中出现而未在第二帧中出现的区域,并计算所述新区域 的像素深度作为第二深度图的另一部分,从而获得第二深度图。下面将对此进行详细描述。现有技术中有很多方法可以检测多个帧中的特征点,这里采用SURF(升速稳健特 征,Speed Up Robust Features)来检测多个帧中的特征点,SURF是一种新的尺度和旋转不 变兴趣点检测器和描述器。具体说来,通过依靠完整图像进行图像旋转来实现SURF,基于来 自兴趣点周围的圆形区域的信息固定可再现的方向,构建调整为所述方向的方形区域,并 提取SURF描述符。实验证明,SURF可更加有效且快速地被计算。此外,处理模块102对特 征点进行的匹配是一种不同于上述的稠密匹配方法的稀疏匹配方法,因此相比于稠密匹配 算法,显著减少计算量和计算时间。图4表示通过第二帧和第三帧获得的特征向量。之后,处理模块102可通过对特 征向量进行滤波以提高匹配准确度。具体地,可计算特征向量的平均长度和方向,并将每个 特征向量与平均值进行比较,如果相差大于预定阀值,则过滤出该特征向量。处理模块102检测到的新区域是指第二帧中未出现而在第三帧中出现的区域。可 以对所述新区域进行上述稠密匹配方法来计算新区域的像素深度。具体地,通过利用单目 视频流的第三帧和随后的第四帧,如获得第一深度图一样,按照上述稠密匹配方法获得新 区域的像素深度作为第二深度图的另一部分。或者,处理模块102可首先判断上述新区域的类型。新区域可以分为与首次出现 的场景相应的区域和与被覆盖的场景相应的区域这两种类型。当所述新区域是与首次出现的场景相应的区域时,处理模块102通过第三帧和第四帧对该区域进行稠密匹配方法来 获得该区域的像素深度,并且当所述新区域是与被覆盖的场景相应的区域时,处理模块102 基于该区域的相邻区域的深度通过图像修复方法计算该区域的像素深度。由于与被覆盖的 区域相邻的区域的像素深度通常与被覆盖的区域的像素深度相似,因此,通过该区域的信 息来获得被覆盖的区域的信息,从而获得被覆盖的区域的像素深度。上述图像修复方法将 在下面进一步描述。平滑模块103,对第二深度图进行平滑处理。平滑处理的目的在于不同帧中的相 同区域应该保持相似的像素深图以避免显著的深度变化。将在下面进一步描述所述平滑处理。以下,将详细描述生成深度图的步骤。如上所述,在以下描述中出现的第一帧表 示视频流的初始帧,第二帧表示第一帧的下一帧,第一深度图是计算出的第二帧的深度图, 第三帧表示第二帧的下一帧,第二深度图表示第三帧的深度图。可以依此类推,例如,第四 帧表示第三帧的下一帧,第三深度图表示第四帧的深度图。第一深度图用作获得第二深度 图的依据,第二深度图用作获得第三深度图的依据。也就是,利用先前深度图获得当前深度 图,为了描述的方便,将不再重复生成第二深度图之后的多个深度图的过程。图2是示出根据本发明示例性实施例的生成深度图的方法的流程图。参照图2,在 步骤S201,初始化模块101通过稠密匹配方法,使用视频流的第一帧和第二帧获得第一深 度图。实际上,该步骤所花费的时间最长,因为第一深度图的准确度在随后的计算中非常重 要,需要在该步骤中尽量准确地获得第一深度图。这里,所述视频流的格式可以是AVI、MPG 等普通视频流格式,并且所述稠密匹配方法可以是图分割算法(Graph Cut)、信任传播算法 (Belief Propagation)、动态规划算法(Dynamic Programming)等。优选地,可以选择结果 较好的图分割算法来获得第一深度图。由于这些算法都是本领域公知技术,因此将省略对 此的详细描述。在步骤S202,处理模块102检测单目视频流的第二帧和第三帧的特征点,将第三 帧的特征点与第二帧中的特征点进行匹配以获得特征向量。处理模块102还可对所述特征 向量进行滤波处理以提高匹配准确度。具体地,可计算特征向量的平均长度和方向,并将每 个特征向量与平均值进行比较,如果相差大于预定阀值,则过滤出该特征向量。在步骤S203,处理模块102根据像素深度将第一深度图划分为多个区域,其中,每 个区域的像素具有相似的深度。这样,每个区域中包含在步骤S202获得的特征向量。在步骤S204,处理模块102通过对检测到的特征点进行运动估计来获得运动参 数,并基于所述运动参数和所述特征向量更新所述多个区域的参数,从而更新所述多个区 域以作为第二深度图的一部分。可通过在2D空间中的欧氏变换来更新所述多个区域的参 数,即,可通过以下等式1来计算运动参数
^χ'λ rcosO -τ ηθ dx二 ν ηθ rcos^ dy *(x γ l)7·等式 1
V1 J [ο 0 1其中,!·指示缩放因子,S卩,表示区域沿着ζ轴(垂直于图像平面)的运动,如果r 大于1,则认为区域朝相机运动,否则认为区域朝相机的相反方向移动。θ表示运动的角 度,dx和dy分别表示位移向量,χ和y表示原来的坐标,χ'和y'表示运动后的新坐标。
优选地,所述多个区域的参数可以是像素深度、几何形状和位置。在步骤S205,处理模块102在第三帧中检测新区域,所述新区域是在第三帧中出 现而未在第二帧中出现的区域,并计算该区域的像素深度作为第二深度图的另一部分,从 而获得第二深度图。这里,处理模块102检测到的新区域是指第二帧中未出现而在第三帧 中出现的区域。在步骤S205,处理模块102可使用上述稠密匹配方法,如计算第一深度图 一样,通过单目视频流的第三帧和随后的第四帧计算该新区域的像素深度。或者,处理模块 102也可以将检测到的新区域分类为两种类型的区域。第一种类型的区域为与首次出现的 场景相应的区域,第二种类型的区域为与被覆盖的场景相应的区域。图5是示出根据本发明示例性实施例的新区域检测结果和不同新区域的示图。其中,图5中的(a)是第二帧,(b)是第三帧,(c)是检测到的新区域。如图5(c)所示,区域1 是与首次出现的场景相应的区域,区域2是与被覆盖的场景相应的区域。对区域1,处理模块102通过第三帧和第四帧对该区域进行稠密匹配方法来获得 该区域的像素深度。所述稠密匹配方法与在计算第一深度图时使用的稠密匹配方法相同。 由于与首次出现的场景相应的区域较小,因此所花费的时间也较短。对区域2,处理模块基 于该区域的相邻区域的像素深度通过图像修复方法计算该区域的像素深度。图像修复方法 可由以下等式2表示d(q) 二 ^^^-----等式 1
λ洲—,尸)其中,q表示与被覆盖的场景相应的区域的像素,d(q)表示q的像素深度,ρ表示 该区域的相邻区域的像素,d(p)表示ρ的像素深度,ω (q,ρ)是像素q和ρ之间的权重,q 和P越靠近权重就越大,V^(P)是像素P的梯度,(q-p)是像素q和P之间的距离。在步骤S206,平滑模块103对第二深度图进行平滑处理。平滑处理的目的在于不 同帧中的相同区域应该保持相似的像素深图以避免显著的深度变化。平滑模块103可通过 已经获得的在不同帧中的相同区域的像素深度对第二深度图进行平滑。可通过以下等式3 对第二深度图进行平滑处理d,{q) 二+...+ fVllVoM + …+ fj^M 等式 3
‘Iti + 1其中,Clt(Qi)表示在第t帧中的区域Qi的像素深度,ω是权重,距离第t帧越近, 权重就越大,即ω _比ω (t_m)大,m是小于t的正整数。图6示出根据本发明示例性实施例的彩色帧与其深度图。图6中,上面一排是彩 色帧,下面一排是根据本发明示例性实施例获得的彩色帧的深度图。图7示出通过根据本 发明示例性实施例的生成深度图的方法获得的视频流的深度图序列。该深度图序列的顺序 为从左到右,从上到下。如图6和图7所示,通过根据本发明示例性实施例的生成深度图的方法,可实时提 供视频的深度图,从而不仅能够提供已经下载的视频的深度图,而且还能够提供在线播放 的视频流的深度图。图8是通过传统方法和本发明的生成深度图的方法获得的深度图的比较结果。图 8中的(a)是基于传统的深度图生成方法生成的深度图,图8中的(b)是根据本发明的生成 深度图的方法生成的深度图。从图8可以看出与通过传统方法生成的深度图比较,根据本发明生成的深度图显著提高了深度图的准确度,从而能够给用户提供更清晰的立体效果。根据本发明示例性实施例的生成深度图的方法及其系统,通过将深度图划分为多个区域并更新所述多个区域,以及仅对新区域分类并计算深度图来减少了生成深度图的计 算量和所花费的时间。同时,通过保证先前深度图的准确率来提高了随后的深度图的准确 率。此外,通过参照先前深度图来计算当前深度图,能够实时生成在线播放的视频流的深度 图。本发明不限于上述实施例,在不脱离本发明的精神和范围的情况下,可以对本发 明进行形式和细节上的各种改变。产业上的可利用性根据本发明示例性实施例的生成深度图的方法及其系统可应用于将普通视频流 作为输入内容以输出立体视频的立体电视机、多视点显示器、移动终端和个人数字助理。
权利要求
一种从单目视频生成深度图的方法,包括步骤(a)通过稠密匹配方法,使用单目视频流的第一帧和第二帧获得表示第二帧的像素深度的第一深度图;(b)检测所述单目视频流的第二帧和第三帧的特征点,将第三帧的特征点与第二帧的特征点进行匹配以获得特征向量,并根据所述第二帧的像素深度将第一深度图划分为多个区域;(c)通过对检测到的特征点进行运动估计来获得运动参数,并基于所述运动参数和所述特征向量更新所述多个区域的参数,从而更新所述多个区域以作为表示第三帧的像素深度的第二深度图的一部分;(d)在第三帧中检测新区域,所述新区域是在第三帧中出现而未在第二帧中出现的区域,并通过计算所述新区域的像素深度作为第二深度图的另一部分,从而获得第二深度图;以及(e)对第二深度图进行平滑处理。
2.如权利要求1所述的方法,其特征在于步骤(d)进一步包括步骤当所述新区域是与首次出现的场景相应的区域时,通过第三帧和第四帧对该区域进行 稠密匹配方法来获得该区域的像素深度,并且当所述新区域是与被覆盖的场景相应的区域 时,基于该区域的相邻区域的像素深度通过图像修复方法计算该区域的像素深度。
3.如权利要求1所述的方法,其特征在于所述稠密匹配方法是图分割算法、信任传播 算法和动态规划算法中的任何一种。
4.如权利要求1所述的方法,其特征在于步骤(b)进一步包括步骤对所述特征向量 进行滤波处理以提高匹配准确度。
5.如权利要求1所述的方法,其特征在于步骤(c)中所述多个区域的参数为像素深度、 几何形状和位置。
6.如权利要求1所述的方法,其特征在于所述视频流的格式是AVI和MPG中的任何一种。
7.一种从单目视频生成深度图的设备,包括初始化模块,通过稠密匹配方法,使用单目视频流的第一帧和第二帧获得表示第二帧 的像素深度的第一深度图;处理模块,检测所述单目视频流的第二帧和第三帧的特征点,将第三帧的特征点与第 二帧的特征点进行匹配以获得特征向量,根据第二帧的特征点的像素深度将第一深度图划 分为多个区域,通过对检测到的特征点进行运动估计来获得运动参数,基于所述运动参数 和所述特征向量更新所述多个区域的参数,从而更新所述多个区域以作为表示第三帧的像 素深度的第二深度图的一部分,在第三帧中检测新区域,所述新区域是在第三帧中出现而 未在第二帧中出现的区域,并计算所述第三区域中的新区域的像素深度作为第二深度图的 另一部分,从而获得第二深度图;以及平滑模块,对第二深度图进行平滑处理。
8.如权利要求7所述的设备,其特征在于当所述新区域是与首次出现的场景相应的 区域时,处理模块通过第三帧和第四帧对该区域进行稠密匹配方法来获得该区域的像素深 度,并且当所述新区域是与被覆盖的场景相应的区域时,处理模块基于该区域的相邻区域的像素深度通过图像修复方法计算该区域的像素深度。
9.如权利要求7所述的设备,其特征在于所述稠密匹配方法是图分割算法、信任传播 算法和动态规划算法中的任何一种。
10.如权利要求7所述的设备,其特征在于处理模块对所述特征向量进行滤波处理以 提高匹配准确度。
11.如权利要求7所述的设备,其特征在于所述多个区域的参数为像素深度、几何形状 和位置。
12.如权利要求7所述的设备,其特征在于所述视频流的格式是AVI和MPG中的一种。
全文摘要
提供一种生成深度图的方法及其设备,所述方法包括通过稠密匹配方法,使用单目视频流的第一帧和第二帧获得表示第二帧的像素深度的第一深度图;检测所述单目视频流的第二帧和第三帧的特征点,将第三帧的特征点与第二帧的特征点进行匹配以获得特征向量,并根据所述第二帧的像素深度将第一深度图划分为多个区域;通过对检测到的特征点进行运动估计来获得运动参数,并基于所述运动参数和所述特征向量更新所述多个区域的参数,从而更新所述多个区域以作为表示第三帧的像素深度的第二深度图的一部分;在第三帧中检测新区域,并通过计算所述第三帧中的新区域的像素深度作为第二深度图的另一部分,从而获得第二深度图。
文档编号H04N13/00GK101815225SQ200910118218
公开日2010年8月25日 申请日期2009年2月25日 优先权日2009年2月25日
发明者王海涛, 王西颖, 金智渊, 马赓宇 申请人:三星电子株式会社;北京三星通信技术研究有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1