一种通过分析深度进行视频场景分层的方法

文档序号:6607941阅读:285来源:国知局
专利名称:一种通过分析深度进行视频场景分层的方法
技术领域
本发明属于视频场景分层技术领域,具体的说是基于深度信息对手持相机拍摄视 频进行场景分层,从而获取视频中不同深度层下各个物体的掩码序列,用于视频场景理解 和基于内容的视频压缩等领域。
背景技术
视频场景分层的目的是从视频中分解出不同的场景层,具有重要的理论意义和应 用价值。在理论意义上,分解出视频层有助于基于视频的场景理解,或构建2. 5维场景模 型,或实现基于内容的视频压缩,或完成新视频的合成制作;在应用价值上,视频场景分层 功能是视频编辑软件的理论基础,从视频中抽取的前景物体可组建出对象库,方便各种虚 实混合项目的应用等。视频场景分层是对每个视频帧进行0-1标注或者多标注的问题。相比于图像分 割而言,视频场景分层要满足时空一致性,视频的时空信息包括光流场和深度图,光流场记 录了视频帧中像素的运动向量,深度图记录了视频帧中像素的深度值,在多视图几何理论 下,深度值就等同于视频帧间像素的匹配关系。在本发明前,文献1-S. Khan and Μ. Shah, Object Based Segmentation of Video Using Color,Motion and Spatial Information, Proceedings of Computer Vision and Pattern Recognition,2001 提出一禾中基于光流 场对视频进行场景分层的方法,首先提取视频帧的光流场,然后对起始帧进行分层,最后, 最大化一个融合光流信息、颜色信息的贝叶斯模型得到模型参数,从而实现后续帧的分层, 但该方法存在很多噪声点,特别是遮挡边缘处,主要原因是遮挡处的光流信息不稳定。文 献 2-J. Xiao and Μ. Shah, Motion Layer Extraction in the Presence of Occlusion using Graph Cut, Proceeding of Computer Vision and Pattern Recognition,2004 提 出了一种利用种子点扩散对视频进行场景分层的方法,该方法假设场景是有多个平面空间 组成的,首先,在两个视频帧间找一些种子点区域,其次,这些种子点区域通过层次集和图 割算法不断地扩展和求解,然后,根据运动相似性融合成几个初始层,最后,由一个马尔科 夫模型获取鲁棒的运动层,由于该方法仅用到了运动深度信息,没有考虑颜色纹理信息,因 此分解的场景层不精细,不能实现同一深度层上不同物体的分层。文献3-N. ApostolofT and A. Fitzgibbon,Automatic Video Segmentation using Spatiotemporal T-junction, Proceeding of British Machine Vision Conference,2007 提出了一种基于时空 T-结点 的视频场景分层方法,该方法将视频看成一个带有时间轴的三维空间X-Y-T,其中的T为时 间轴,X,Y分别为视频帧的纵横轴,用监督学习法在X-T切片中找T-结点,即遮挡边缘点, 然后根据遮挡边缘点分离前景和背景层,该方法也不能分离同一深度层上的不同物体,并 且难以实现复杂边缘的分层,例如树杈。类似的,文献4-A. N. Stein, Τ. S. Stepletion and Μ. Hebert, Towards Unsupervised Whole-Object Segmentation-Combining Automatic Matting with Boundary Detection, Proceeding of Computer Vision and Pattern Recognition,2008提出一种基于遮挡边缘的多前景物体的分层,首先实现视频帧中遮挡边
4缘的检测,然后在每段遮挡边缘两侧用抠图技术分离前景和背景,并在序列图中构建出一 个对称相似矩阵,分解该矩阵的主特征完成了前景物体的抽取,由于该方法也基于遮挡边 缘实现的前景物体的提取,因此也难以完成分离同一深度层上的不同物体,此外,该方法局 限于短基线视频下的场景分层。文献5-P. Bhat,et al.,Piecewise Image Registration in the Presence of Multiple Large Motion,, Proceeding of Computer Vision and Pattern Recognition, 2006实现了宽基线的视频场景分层,该方法假设场景模型都是平面 物体,首先提取图像中的稀疏特征点,根据对极点完成局部空间聚类,进而获取平面运动模 型,然后用一个多标识的马尔科夫模型优化标注每个像素,但该方法分层出的场景模型的 边缘区域不精细。此外,中国专禾Ij “基于H.264压缩域运动对象实时分割方法”,申请号为 200610116363,该专利从H. 264视频提取出的基于4X4块均勻采样的运动矢量场,将该矢 量场作为运动向量,然后采用快速的统计区域生长算法按照运动相似性将其分层成多个区 域,该方法同样仅仅用运动信息进行分层,难于实现同一运动场下多物体的分层。美国专利 "Automatic Video Image Segmentation”,申请号为US 2010/0046830 Al,该专利首先在用 户交互下分层出关键帧中的前景物体,然后将分层结果传递给后续帧中,该方法可以鲁棒 的完成视频中前景物体的提取,但要对整个视频进行分层,用户需要在初始帧中手动分离 开各个场景层,因此操纵复杂,另外,由于该技术通过跟踪边缘完成后续帧中前景分层,因 此难于实现受遮挡背景层的分层。

发明内容
本发明为了克服现有技术的不足,提出一种通过分析深度进行视频场景分层的方 法。该方法同时考虑了场景点的深度信息和颜色信息,可全自动的实现手持相机拍摄视频 场景分层的目的,提高场景分层的精度。另外,相比于固定采样的、以像素点为计算单元的 方法,该方法自适应的选取关键帧,并且以过分割块为计算单元来分割关键帧,因此提高了
计算效率。为了取得上述技术效果,本发明所采用的技术方案是基于视频帧的深度信息和过 分割块对视频图像进行分层。深度信息代表了场景点距离采集相机的远近,从多视图几何 理论下,从深度信息可直接获取同一场景点在多视图中的投影点,即建立了多视图间的匹 配关系。过分割块是图像中局部小范围像素的聚类块,相比于图像/视频的分割块,过分割 块仅包括少量同样颜色的像素点并且没有语义信息,块内像素往往都属于同一场景层。本 发明具体包含的步骤如下(1)对视频帧进行自适应采样,抽取视频帧中的关键帧;(2)对关键帧进行过分割并获取关键帧的深度图,以过分割块为结点构建关键帧 内的无向带权图;(3)建立相邻关键帧间的结点匹配权图;(4)依次对关键帧中的过分割块进行合并,并将合并结果传递给邻居关键帧,实现 关键帧的同步分层;(5)获取原始视频帧的深度信息,将关键帧的分层结果传递给中间帧并优化分层结果。
本发明的原理是由于手持相机拍摄视频具有很大灵活性,视频帧间往往有很高 的冗余度,因此,首先从原始视频帧中采样出一组关键帧,先对关键帧进行分层,再将关键 帧分层结果传递给中间帧。在关键帧分层过程中,本发明以过分割块为计算单元来提高计 算效率,将关键帧分层问题抽象成一个以过分割块为结点的带权无向图结点聚类过程,结 合了颜色纹理信息、深度信息和聚类块大小来定义边权值;在结点聚类过程中,本发明采用 一种时空空间上的快速贪婪的聚类法,优先聚类权值最大的边连接的结点,由于相邻关键 帧间的过分割块具有配准关系,本发明建立了帧间匹配权图,保证每次的聚类结果都会传 递给左右关键帧,从而实现关键帧结点的同步聚类;在中间帧分层过程中,由于中间帧分层 结果仅跟左右关键帧分层结果相关,因此,用关键帧将原始视频帧切成片段来独立计算,先 根据深度信息将关键帧分层结果传递给中间帧,考虑到存在一些被错误分层或者未被分层 的像素点,最后通过一个全局目标优化函数来优化分层结果。本发明与现有技术相比的优点在于相比于固定采样的方法,本方法自适应的采 样出关键帧,提高了整体视频场景分层的效率和鲁棒性;相比于以像素为计算单元的方法, 本方法充分利用了过分割块来分层关键帧,提高了分层效率;在关键帧分层过程中,本方法 用过分割块聚合局部小像素点,同时考虑了深度信息和颜色信息,相比于基于单一运动信 息的分层方法,提高了场景分层的精度。


图1为本发明分析深度进行视频场景分层的方法的主要流程图;图2为本发明在关键帧分层步骤的过程流程图;图3两个关键帧的无向带权图和帧间结点匹配权图的构建示意图,其中,图3A,3B 分别为左,右关键帧和其上的过分割块,图3C为以过分割块为结点构建的帧内无向带权图 和帧间匹配权图;图4为从一组原始视频帧中采样的关键帧序列;图5为该关键帧序列对应的过分割结果;图6为该关键帧序列对应的深度图结果;图7为在5个不同阈值下对一幅关键帧做过分割块聚类的结果;图8A,8B,8C为提取的三个不同场景层的视频序列。具体实施方法结合附图1-8,具体阐述本发明的实施方法。定义视频帧序列为/ = {、:./ },"本发 明的视频场景分层方法如图1所示,其步骤如下(1)抽取关键帧对视频帧进行自适应采样,抽取视频帧序列7中的关键帧,组成 关键帧序列釕{份。。首先,提取视频帧序列/ = {/。.../ }中每帧的SIFT特征点;其次,对两两个视频帧进行特征点匹配,并计算匹配权值W(i, j) = w*+ (1 — w)*exp(-)(1)
N,oa/iOCrdis其中,w为加权值,^),1],经验值设为0.3;队_31)是帧Ii的总特征点数,N(i,j)inner为帧Ii和帧Ij的总匹配点数;Tdis和。dis为常量,代表期望的基线长度和方差; Α^0·,·/) = Σ Γ'('’1 Α(·/)-Λ⑴||2/u/,_Z)为平均的偏移量,其中的 Pk( ·)为 SIFT 特征 点位置;最后,令第一个视频帧Itl为起始关键帧KItl,令每个关键帧的后续权值最大的帧为 其后续关键帧,即KIi+1 = maxj KKIi, j),从而得到一组关键帧序列舒=丨人/…..^^;}。(2)构建关键帧的无向带权图获取关键帧的深度图并对关键帧进行过分割,以 过分割块为结点构建无向带权图(如图3)。首先,用Meanshift分割法对关键帧(如图4)进行过分割(如图5),用多视图立 体匹配法获取关键帧的深度图(如图6);其次,对每个关键帧,以过分割块为结点单元\ e V,以相邻结点为边(Vi,Vj) e Ε, 构造无向带权图G =〈V,Ε>,定义边权值为Win (i, j) = Y !*wc (i, j) + Y 2*wd (i, j) + Y 3*wz (i,j)(2)其中,Y1,Y2, ^为加权项,满足 Yi e
, Y!+γ2+γ3 = ι ;wc(i, j)为颜色差值,定义为:wc(U) = exp(min(k力.)_劝(3)Wd(i, j)为深度差值,定义为:W/,y.) = eXp(min(|A^;凡ωι,ΓΛ2 ⑷Ws (i, j)为分割块大小值,定义为 AWkl-mii^^^^^,))(5)
Oο其中的μ。( ·),μ d( ·)分别为平均颜色和深度均值,Tc, Td分别为颜色和深度截 断值,。。=255,0(1为最大深度值,ys(·)为区域面积,S为图像面积。(3)构建关键帧间的结点匹配图,根据深度图将对相邻关键帧进行结点匹配,得到 双向的带权匹配图。依次将关键帧序列轻^{^^..^,丨中的每个关键帧KIi的每个过分割块(即无向 图结点)Vj e CKi投影到左右邻域帧KIp1和KIi+1上,用{V, I V, € Vk1i i }表示所涵盖的过分割块 集合(这里以左邻居帧ΚΙ"为例,对右邻居帧KIi+1的处理亦同),计算结点Vj和Vt的匹配 权值w。ut(j,t) = a*Wc(j,t) + (l-a)*Wz(j,t)(6)wc(i, j)为颜色差值,定义为:%C/,,) = eXP(min(kC/) —凡(观,7々(7)Ws(i, j)为重叠区比,定义为=(8)其中,α为加权项,α e
; μ。( ·)为颜色均值,Τ。为颜色截断值,ο。= 255 ; μ s( ·)为过分割块区域面积,0( ·)为重叠区域面积。依照公式(6)依次对相邻关键帧间的结点进行匹配计算,从而建立起每两个相邻 关键帧间的双向带权匹配图。(4)关键帧的分层根据边权值依次对无向带权图中的结点进行合并,实现关键 帧的同步分层。首先,按照权值将关键帧序列衍= ^/『j/J的无向带权图中的所有边从大到小排序得到边序列E ;其次,依次从边集合E中找出权值最大的边进行结点合并,直到边集合E的边权值 均小于阈值T,具体过程(如图2)为(4. 1)从边集合E中找出权值最大的边;(4. 2)假设该边所在关键帧为KIi,该边连接的两个结点为(vp,vq) e E,合并这两 个结点;(4.3)找出\和、在左邻居图(以左邻居帧KI^1为例,右邻居帧亦同)中匹配结 点的集合,设为Pe vKi,_t(4. 4)从这两集合中找相邻的结点,选取权值win( ·)最大并且win( · ) > T的结 点进行合并;(4. 5)修改帧内带无向权图中的边权值,修改帧间带权匹配图的边权值,重新排序 边权值集合E中的边序列。(5)中间帧的分层获取原始视频帧的深度信息,将关键帧的分层结果传递给中 间帧并优化分层结果根据关键帧序列径={尤4.14.}将整个视频序列/ = {/。.../ }截取成一些片段序列, 每个片段序列的前后帧分别为两个相邻的关键帧,中间帧是关键帧之间的帧。下面以其中 一段片段序列/ = {火/;),/5.../,,^^+,}为例对中间帧分层过程进行阐述。首先,用双视图立体匹配法获取原始视频帧的深度信息,用 乃={//^,/)、...力,,^^+1}表示片段序列J的深度序列,因为深度信息记录了像素点的匹配关 系,因此,直接将两关键帧的标注结果向内迭代传递到相邻帧。然后,建立一个全局能量函数来优化标注结果,即E = wEd+α (1-W)ES(9)该能量函数E包括数据项Ed和平滑项Es,数据项Ed定义为(/(χ)) = max, III(X)-Ci(Z(X))II2Zx^maX, ||/(x)-Q(Z)H2 (10)其中的1( ·)是对像素点的分层标注,1( ·)为像素点的颜色值,Ck(i)为第i个 标注区域的第k个分量的颜色均值,该值由K-Means法对关键帧中已知分层区域的像素做 空间聚类获取的,设定K-Means的聚类数为5,即k = L··· 5,标注区域数L为两关键帧的标 注区域之并;Es 为平滑项,定义为 A(IOc)M) = “ /(X)"/(f 丨丨2 f (X)’Z⑴)(11)
(£ + 1)
(\ 如果X = y其中的ε为控制参数,3(0定义为凡^)=()胃· Λ (·)是对像素点 的分层标注,1( ·)为像素点的颜色值。用Graphcut求解该目标函数完成中间帧的分层,图8A、8B、8C分别为所提取的三 个不同场景层的视频序列。
8
权利要求
一种通过分析深度进行视频场景分层的方法,其特征在于从原始视频帧中采样关键帧,先对所述关键帧进行分层,再根据深度信息将所述关键帧的分层结果传递给中间帧,具体包含步骤如下(1)对视频帧进行自适应采样,抽取视频帧中的关键帧;(2)对关键帧进行过分割并获取关键帧的深度图,以过分割块为结点构建关键帧内的无向带权图;(3)建立相邻关键帧间的结点匹配权图;(4)依次对关键帧中的过分割块进行合并,并将合并结果传递给邻居关键帧,实现关键帧的同步分层;(5)获取原始视频帧的深度信息,将关键帧的分层结果传递给中间帧并优化分层结果。
2.根据权利要求1所述的方法,其特征在于所述步骤(1)中的抽取关键帧具体为 提取每个视频帧的特征点,对每两个视频帧进行特征点匹配并计算匹配权值,定义匹配权值为wa,j) = w-E^JbJlexp(-(W"卜) U)^d,其中,W为加权值,W e
;Ntotal(i)是帧Ii的总特征点数,N(i,j)inner为 帧Ii和帧Ij的总匹配点数;Tdis和σ dis为常量,代表期望的基线长度和方差;凡力‘,力工,贴“⑴-似她/^义力为平均的偏移量,其中的^ ·)为特征点位 置;以第一个视频帧为起始关键帧,迭代选取后续的关键帧,从而完成关键帧的采样,其 中,对于当前关键帧,其后续关键帧为其后续帧中具有最大匹配权值的帧。
3.根据权利要求1所述的方法,其特征在于所述步骤(2)中构建无向带权图具体为 用图像过分割法对关键帧进行过分割,用多视图立体匹配法获取关键帧的深度信息; 以过分割块为结点单元,在相邻结点单元间搭建一条带权的边,从而构建出无向带权图,定义边权值为win (i, j) = Y !*wc (i, j) + Y 2*wd (i, j) + Y 3*wz (i, j)其中,Y1, Y2, ¥3为加权项,满足 Yi e
, Y !+Υ2+Υ3 = 1 ;Wcα, j)为颜色差值,定义为A(U)=; Wdα, j)为深度差值,定义为A(W)=‘Ws(i, j)为分割块大小值,定义为= (岣),叫咁,));其中的μ。(·),yd(·)分别为平均颜色和深度均值,T。,Td分别为颜色和深度截断值, σ。为最大颜色值,最大深度值,μ3(·)为区域面积,S为图像面积。
4.根据权利要求1所述的方法,其特征在于所述步骤(3)建立相邻关键帧间的结 点匹配权图具体为对于当前关键帧,根据深度信息将每个过分割块即无向图的结点投影 到左右相邻视频帧,获取投影区域所涵盖的左/右帧中过分割块即左右关键帧无向图的 结点,在该过分割块代表的结点和所涵盖过分割块代表的结点间搭建一条边,定义边权值为
5.根据权利要求1所述的方法,其特征在于所述步骤(4)中合并过分割块具体为 按照权值将所有无向带权图中的边从大到小排序,得到一个边序列集合;依次从边序列集合中取出最大权值的边进行结点合并,直到边序列中的边权值均小于 阈值T ;其中,在结点合并过程中,先合并所选边的两个结点,再根据帧间结点匹配权图将 合并结果传递给左右帧对其中的相关结点也进行合并,同时,修改无向带权图和帧间结点 匹配权图的边权值,并重新排序边序列集合。
6.根据权利要求1所述的方法,其特征在于所述步骤(5)中分层结果的传递和优化 方法为对每段关键帧和其中间帧组成的序列独立进行分层结果的传递和优化,该传递过 程建立在像素级别上;根据深度信息即像素点匹配关系将两关键帧的分层结果映射到中间帧上; 建立全局能量函数来优化分层,完成中间帧的分层标注,定义全局能量函数为
全文摘要
一种通过分析深度进行视频场景分层的方法,主要实现手持相机拍摄视频中不同深度层下的物体提取,步骤为(1)对视频帧进行自适应采样,抽取视频帧中的关键帧;(2)对关键帧进行过分割并获取关键帧的深度图,以过分割块为结点构建关键帧的无向带权图;(3)建立相邻关键帧间的结点匹配权图;(4)依次对关键帧中的过分割块进行合并,并将合并结果传递给邻居关键帧,实现关键帧的同步分层;(5)获取原始视频帧的深度信息,将关键帧的分层结果传递给中间帧并优化分层结果。本方法可以有效的全自动的实现手持相机拍摄视频的场景分层,提高视频场景分层的精度和速度。
文档编号G06T7/00GK101951511SQ20101025740
公开日2011年1月19日 申请日期2010年8月19日 优先权日2010年8月19日
发明者吴威, 周忠, 李艳丽, 杜超, 杨抒 申请人:深圳市亮信科技有限公司;北京航空航天大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1