专利名称:一种视频运动对象分割方法
技术领域:
本发明涉及视频领域,尤其涉及一种视频运动对象分割方法。
背景技术:
视频运动对象分割是指将视频中的运动对象从背景中分割出来,它是基于对象的视频检索、面向对象的视频压缩编码、基于视频的智能人机交互等基于内容的视频应用的基础。
目前,视频对象分割算法主要有三类空域算法、时序算法和混合算法。空域分割主要依据图像的亮度、颜色、纹理、边缘等空间属性进行分割,它能获得精确的对象轮廓边缘,但由于只使用了空域信息,分割结果在语义上不一定完整;时序分割依据时间(运动)属性分割图像,比如利用帧差,可以快速地检测出帧间的变化区域,但仅使用运动信息不能获得精确的对象轮廓;混合算法综合利用时空属性对图像进行分割,它们通常先在全图上进行空间分割,将全图分割成若干空间属性一致的区域,然后对各个区域进行分类,分类主要依据由运动估计获得的运动信息进行,最后将各区域按类合并得到具有语义的视频对象。混合算法能够准确地分割出语义对象,但由于在全图上进行分割、合并,往往需要大量的计算开销。同时,运动估计易受对象的不规则运动(如快速移动、非刚性形变),和光照的影响,从而造成对区域的分类不准确。
综上所述,要准确地分割出视频中的运动对象,必须综合考虑视频序列的时空属性。而现有的混合算法又存在着分割速度慢,且分割的准确度易受对象的不规则运动和光照的影响。
发明内容
本发明的目的是为了克服上述技术缺陷,为了提高视频运动对象的分割速度,提高分割的准确度,克服基于运动估计的区域分类易受不规则运动和光照的影响,从而提供一种视频运动对象分割方法。
为了解决上述技术问题,本发明提供一种视频运动对象分割方法,包括以下步骤a)对相邻的视频帧进行全局运动估计和补偿;b)对相邻帧的帧差进行二值化;c)计算运动对象多帧间的连续差分获得准确的初始区域;d)初始区域内的彩色梯度计算,得出彩色梯度信息,彩色梯度是在YCbCr颜色空间计算的,通过对标准化后的Y、Cb、Cr的梯度求取加权最大获得;e)根据彩色梯度信息,在初始区域上进行快速分水岭分割,按照相邻区域的相似度合并小区域以消除图像的过度分割;f)根据区域的空间、时序和邻域相似度,对区域的分类分别加以空间约束、时序约束和邻域约束,并使用MRF模型将这三类约束结合,通过求解MRF的最大后验概率,即后验能量函数的最小,将各区域分类为前景或背景,从而获得准确的区域分类;g)将所有的前景区域合并,分割出运动对象。
在上述方案中,所述后验能量为空间约束能量、时序约束能量和邻域约束能量之和。
在上述方案中,所述后验能量函数表示后验能量为空间约束能量、时序约束能量和邻域约束能量的加权和。
在上述方案中,所述空间约束是根据割域与周围背景的相似度,判断割域为背景的可能性,空间相似度比阈值越大,割域为背景的可能性越高。
在上述方案中,所述时序约束是根据割域与前一帧分割结果的相似度,判断割域为背景的可能性,时序相似度比阈值越大,割域为前景的可能性越大。
在上述方案中,所述邻域约束是根据相邻割域的相似度,判断割域的分类。
在上述方案中,所述相邻割域越相似,它们的分类就越可能相同。
由上可知,为了提高分割速度,本发明在对图像进行空间分割之前,先进行时序分割,将包含运动对象的初始区域和背景分离,随后的空间分割以及对区域的分类、合并都仅在初始区域上进行,从而大大减少了计算开销;为了克服基于运动估计的区域分类的缺点,本发明根据区域与背景、前一帧分割结果及其相邻区域的相似度在MRF模型中分别加入空间、时序和邻域约束,通过求解MRF的最大后验概率获得准确的区域分类,最终准确地分割出运动对象。
图1是本发明一种视频运动对象分割方法的流程图。
具体实施例方式
本发明首先对图像进行时序分割,它在完成全局运动估计和补偿、帧差二值化后,通过计算多帧间的连续差分准确地将包含运动对象的初始区域和背景分离;接着,用基于彩色梯度的分水岭算法将初始区域分割成若干空间属性一致的区域;最后对区域进行分类和合并,它通过求解结合空间、时序和邻域约束的MRF的最大后验概率对区域进行分类和合并实现准确的对象分割。
下面结合附图详细说明本发明的技术方案。
如图1所示的视频运动对象分割方法,包括以下步骤步骤100,对相邻的视频帧进行全局运动估计和补偿;在步骤100中,若背景存在运动(主要是由摄像机的平移、旋转和缩放等运动造成),则必须在求取帧差前进行全局运动估计和补偿,以消除背景运动对帧差的影响。全局运动可用6参数仿射变换模型表示x′=ax+by+ey′=cx+dy+f]]>设(x,y)为某像素点在当前帧中的位置,(x′,y′)为该点在相邻帧中的位置,(a,b,e,c,d,f)为全局运动参数。全局运动估计可用Gauss-Newton(GN)方法迭代求解。为提高效率,GN方法在三层金字塔上计算, 金字塔用[1/4,1/2,1/4]滤波器产生。完成全局运动估计后,通过全局运动补偿就可将运动背景问题转化为静止背景问题。
步骤110,对相邻帧的帧差进行二值化;在步骤110中,用dt,t′表示相邻两帧It和It′的帧差,dt,t′(p)=W×It(p)-W×It′(p′),W为平滑滤波的窗口函数。二值差分模板Dt,t′为Dt,t′(p)=1ifdt,t′(p)>T0else]]>其中阈值T的选取与摄像机噪声的大小相关,可根据具体的视频应用场合在5~10之间选取。
求得Dt,t′后,对其进行连通成份分析,消除由摄像机噪声造成的小面积、孤立噪声区域,并填充前景区域中的空缺。然后,用闭操作和开操作平滑前景区域的边缘。
步骤120,计算运动对象多帧间的连续差分获得准确的初始区域;在步骤120中,在Dt,t′中通常会包含一部分背景。为了获得更为精确的初始区域,我们用当前帧It的前一帧It-1和后一帧It+1计算连续差分令Dt,t-1,Dt,t+1分别为It和It-1、It和It+1的二值化差分模板,求Dt,t-1和Dt,t+1的交集获得细化的初始区域模板DtDt=Dt,t-1IDt,t+1通过连续差分我们可以获得更为精确的初始区域IFt和当前背景IBt,在IFt中只留下了很少的背景区域。
上述步骤100、步骤110和步骤120完成了对运动对象的时序分割,获得了运动对象准确的初始区域,从而使得包含运动对象的初始区域与背景分离。
步骤130,初始区域内的彩色梯度计算;在步骤130中,计算初始区域IFt在YCbCr颜色空间的彩色梯度,Y是指灰度,Cb、Cr是指两个色度,用Canny算子计算图像在Y、Cb和Cr分量上的梯度图GY、GCb和GCr,由于这三个梯度图的取值范围并不一致,先将它们标准化至
区间得到GY′、GCb′和GCr′,再计算彩色梯度GcolGcol(p)=255·max{ωY·GY′(p),ωCb·GCb′(p),ωCr·GCr′(p)}ifDt(p)=10else]]>其中,ωY,ωCb,ωCr分别为三个分量的权值。求得Gcol后,可使用Fast ImmersionSimulation方法实现快速分水岭分割,然后按照相邻区域的相似度合并小区域以消除图像的过度分割。
步骤140,在初始区域上进行快速分水岭分割, 按照相邻区域的相似度合并小区域以消除图像的过度分割。
在步骤140中,求得Gcol后,可使用Fast Immersion Simulation(快速浸入模拟法)方法实现快速分水岭分割。
通过对初始区域进行基于彩色梯度的分水岭分割,可将初始区域分割成了若干空间属性一致的区域,同时也大大减少了后继分类处理中所需计算的区域数量。为了表述方便,用Rt={Rtl,L,RtK}]]>表示空间分割所获得的区域集合,Ni为Rti内的像素数,Nor(Rti)为Rti的邻居集合。E为所有的邻接关系集合,即E={(i,j)|Rtj∈Nor(Rti)]]>且i≠j}。对象初始区域IFt=Ui=1KRti,]]>当前背景IBt=It-IFt。用IOt-1表示从前一帧It-1中分割出的运动对象,即IOt-1=UL(Rt-1i)=FRt-1i,]]>L(Rt-1i)表示区域Rt-1i的分类(L(Rt-1i)∈{F,B},]]>F为前景,B为背景)。
上述步骤130和步骤140完成了运动对象初始区域上的空间分割,产生了不同的运动对象区域分类。
步骤150,根据区域的空间、时序和邻域相似度,即区域与背景、前一帧分割结果及其相邻区域的相似度,对区域的分类分别加以空间约束、时序约束和邻域约束,并使用MRF模型将这三类约束结合,通过求解MRF的最大后验概率(即后验能量函数的最小)将各区域分类为前景或背景,从而获得准确的区域分类。后验概率是指各个区域设定为不同的分类时,MRF有不同的后验概率。而与MRF的最大后验概率相对应的各区域的分类才是最终的解。若所有的区域本身都是背景,而对他们的分类也都是背景时,MRF的后验概率为1,若对他们的分类都是前景时,MRF的后验概率为0;若所有的区域本身都是前景,而对他们的分类也都是前景时,MRF的后验概率为1,若对他们的分类都是背景时,MRF的后验概率为0。
在步骤150中,后验能量为空间约束能量、时序约束能量和邻域约束能量之和。
在本发明中,对空间约束、时序约束和邻域约束定义如下A.空间约束根据割域与周围背景的相似度SD(Rti), 判断割域是为背景的可能性。
SD(Rti)=minv1NbΣl=13ωl·Σp∈Rti|Itl(p)-Itl(p+v)|,Dt(p+v)=0]]>且Nb>23Ni]]>B.时序约束根据割域与前一帧分割结果的相似度TD(Rti),判断割域是为背景的可能性。
TD(Rti)=minRt-1jΣl=13ωl·|avgp∈RtiItl(p)-avgp∈Rt-1jIt-1l(p)|,L(Rt-1j)=F]]>C.邻域约束根据相邻割域的相似度RD(Rti,Rtj),判断割域的分类。若相邻割域越相似,它们的分类就越有可能相同。
RD(Rti,Rtj)=Σl=13ωl·|avgp∈RtiItl(p)-avgp∈RtjItl(p)|,Rtj∈Nor(Rti)]]>令X={X1,L XK}为一组离散随机变量,Xt表示区域Rti的分类的随机变量,即Xt∈{F,B}。O={O1,L,OK}为各个区域的观察集合。根据Hammersley-Cliffod理论]和Bayes规则,可将复杂的MRF最大后验概率(MAP)转化为简单的后验能量最小问题
X^=argmaxXP(X|O)=argminXUp(X|O)]]>其中,P(X|O)为MRF的后验概率,Up(X|O)为后验能量。 使得P(X|O)最大,它是所要求取的各个区域的分类。后验能量的最小化可使用HCF(HighConfidence First)算法快速求解。
定义MRF的后验能量函数Up(X|O)Up(X|O)=Σi=1Kα·ViS(X,O)+β·ViT(X,O)+Σ(i,j)∈Eγ·VijR(X,O)]]>其中,ViS(X,O)、ViT(X,O)、VijR(X,O)分别为表示空间约束、时序约束和邻域约束的能量函数,α、β、γ分别表示空间约束能量、时序约束能量和邻域约束能量的权重。
A.空间约束能量ViS(X,O)ViS(X,O)=f(SD(Rti),Ts,SDh,SDl)Xi=B1-f(SD(Rti),Ts,SDh,SDl)Xi=F]]>其中,SDh=maxiSD(Rti),]]>SDl=miniSD(Rti),]]>SD(Rti)为Rti与IBt匹配的空间相似度SD(Rti)=minv1NbΣl=13ωl·Σp∈Rti|Itl(p)-Itl(p+v)|,]]>且Nb>23Ni]]>It1(p),It2(p),It3(p)分别为Y、Cb和Cr分量在位置p上的值,ω1,ω2,ω3分别为三个分量的权值,v为Rti的匹配向量,可在w×w的匹配窗口内取值,Nb为与Rti匹配的背景像素的数量。函数f(d,T,dh,dl)为分段量化函数,它将d量化至
区间f(d,T,dh,dl)=0.5×(d-dl)/(T-dl)ifd<T0.5+0.5×(d-T)/(dh-T)else]]>ViS(X,O)根据区域Rti的空间相似度与阈值Ts的大小关系描述它为背景或前景的可能性。由于IFt中只有一小部分区域不属于运动对象,并且它们与周围IBt中的区域很相似,因此可以根据区域与背景的相似度,计算它为背景的可能性,这样不仅克服了基于运动估计的区域分类易受不规则运动和光照影响的缺陷,同时也解决了覆盖背景和显露背景的分类问题。空间相似度比Ts越大,它为背景的可能性就越高。
B.时序约束能量VlT(X,O)ViT(X,O)=f(TD(Rti),Tt,TDh,TDl)Xi=F1-f(TD(Rti),Tt,TDh,TDl)Xi=B]]>其中,TDh=maxiTD(Rti),]]>TDl=miniTD(Rti),]]>TD(Rti)为Rti与IOt-1的匹配的时序相似度TD(Rti)=minRt-1jΣl=13ωl·|avgp∈RtiItl(p)-avgp∈Rt-1jIt-1l(p)|,L(Rt-1j)=F]]>ViT(X,O)根据区域Rti的时序相似度和阈值Tt的大小关系描述它归类为背景或前景的可能性,时序相似度比Tt越大,它为前景的可能性就越高,区域Rti与前一帧已分割出的对象IOt-1越相似,就越有可能被归类为前景。通过引入时序约束能量,我们可以防止将与背景相似的前景区域错误分类。
C.邻域约束能量VijR(X,O)VijR(X,O)=(RD(Rti,Rtj)-RDl)/(RDh-RDl)Xi=Xj1-(RD(Rti,Rtj)-RDl)/(RDh-RDl)Xi≠Xj---(13)]]>其中,RDh=maxi,jRD(Rti,Rtj),]]>RDl=mini,jRD(Rti,Rtj),]]>RD(Rti,Rtj)为邻域相似度RD(Rti,Rtj)=Σl=13ωl·|avgp∈RtiItl(p)-avgp∈RtjItl(p)|,Rtj∈Nor(Rti)---(14)]]>VijR(X,O)表示若相邻割域Rtl和Rtj越相似,它们的分类就越有可能相同。
计算各割域在各种不同分类(即前景或背景)下的总体后验能量,取最小后验能量所对应的各割域的分类为最后的解。这种方法计算复杂度很大。可使用HCF算法求得后验能量函数Up(X|O)的最小,从而获得使MRF的后验概率最大的各个区域的分类。HCF(High Confidence First)-高可信度优先算法是一种确定性迭代算法,它可在近线性的计算复杂度下求解Up(X|O)的最小,它是由P.B.Chou等在文献“The theoryand practice of Bayesian image labeling”中提出的。
步骤160,将所有的前景区域合并,分割出运动对象。
权利要求
1.一种视频运动对象分割方法,包括以下步骤a)对相邻的视频帧进行全局运动估计和补偿;b)对相邻帧的帧差进行二值化;c)计算运动对象多帧间的连续差分获得准确的初始区域;d)初始区域内的彩色梯度计算,得出彩色梯度信息,彩色梯度是在YCbCr颜色空间计算的,通过对标准化后的Y、Cb、Cr的梯度求取加权最大获得;e)根据彩色梯度信息,在初始区域上进行快速分水岭分割,按照相邻区域的相似度合并小区域以消除图像的过度分割;f)根据区域的空间、时序和邻域相似度,对区域的分类分别加以空间约束、时序约束和邻域约束,并使用MRF模型将这三类约束结合,通过求解MRF的最大后验概率,即后验能量函数的最小,将各区域分类为前景或背景,从而获得准确的区域分类;g)将所有的前景区域合并,分割出运动对象。
2.如权利要求1所述的一种视频运动对象分割方法,其特征在于,所述后验能为空间约束能量、时序约束能量和邻域约束能量之和。
3.如权利要求1所述的一种视频运动对象分割方法,其特征在于,后验能量函数表示后验能量为空间约束能量、时序约束能量和邻域约束能量的加权和。
4.权利要求1所述的一种视频运动对象分割方法,其特征在于,所述空间约束是根据割域与周围背景的相似度,判断割域是为背景的可能性,空间相似度比阈值越大,割域为背景的可能性越高。
5.如权利要求1所述的一种视频运动对象分割方法,其特征在于,所述时序约束是根据割域与前一帧分割结果的相似度,判断割域是为背景的可能性,时序相似度比阈值越大,割域为前景的可能性越大。
6.如权利要求1所述的一种视频运动对象分割方法,其特征在于,所述邻域约束是根据相邻割域的相似度,判断割域的分类。
7.如权利要求5所述的一种视频运动对象分割方法,其特征在于,所述相邻割域越相似,它们的分类就越可能相同。
全文摘要
本发明涉及一种视频运动对象分割方法,该方法包括先对图像进行时序分割,将包含运动对象的初始区域和背景分离,随后的空间分割以及区域的分类、合并都仅在初始区域上进行,从而大大减少了计算开销,提高分割速度;根据区域的空间、时序和邻域相似度在MRF模型中加入空间约束、时序约束和邻域约束,并通过求解MRF的最大后验概率对区域分类,最终准确地分割出运动对象,克服了运动估计易受不规则运动和光照影响的缺点。
文档编号G06T7/20GK1691065SQ20041003750
公开日2005年11月2日 申请日期2004年4月23日 优先权日2004年4月23日
发明者吴思, 林守勋, 张勇东 申请人:中国科学院计算技术研究所