专利名称:用于在一个视频序列中估计运动的方法和系统的制作方法
技术领域:
本发明一般性涉及视频编码,尤其涉及在视频编码中使用运动估计。
一个视频序列由时间上抽样的三维即3-D景物在两维即2-D图象平面上的投影构成。发生在这一景物中的3-D运动被捕获为这些投影的2-D位移。一个特定画面的元素即象元在当前2-D图象平面内的位移被由这样的一个向量表示,该矢量指向该特定象元在先前图象平面内的位置。位移矢量场即DVF描述所有象素在一给定图象平面组之间的运动,因此代表物体投影到该图象平面上的3-D运动。
在图象序列处理的许多应用中,一个视频序列中DVF的精确估计是决定性的。视频编码,帧合并,目标跟踪,以及空间-时间运动补偿滤波均是这样一些应用,它们需要DVF精确估计以利用存在于视频序列中的帧间相关。
将数字视频压缩至一个极低比特率即VLBR是通信领域中的一个非常重要的问题。通常,VLBR被认为不超过每秒64k比特(Kbps),并且与现行的个人通信系统相联系,诸如公用转接电话网和蜂窝系统。为在这些系统上提供象视频点播和电视会议这样的业务,将要求以一个300到1之间的因子压缩包含在数字视频中的信息。为实现如此之大的压缩率要求去除视频序列中现存的所有冗余度。
当前标准,诸如H.261,MPEG1,以及MPEG2利用一个块运动补偿的离散余弦变换,即DCT方法提供数字视频序列的压缩。这种视频编码技术利用一种两步骤过程去除视频序列中现存的冗余度。在第一步中,一个块匹配即BM运动估计与补偿算法估计发生在时间上相邻的两帧之间的运动。随后将估计的运动补偿给这两帧并比较它们以形成一个差值图象。通过取时间上相邻的两个图象之间的差值,存在的所有时间冗余度被去除。剩余的仅有信息是不能够在运动估计与补偿算法中补偿的新信息。
在第二步中,这个新信息被利用DCT变换到频域。该DCT拥有将此新信息的能量紧缩至几个低频分量的功能。通过限制编码高频信息的量获得对该视频序列的进一步压缩。
这一方法所提供的给视频编码的大部分压缩是通过运动估计与补偿算法而获得的。这就是说,与传送有关亮度和色彩的信息相比,传送有关一个视频序列中存在的运动信息将更为有效。运动信息使用从当前亮度帧一个特定位置指向产生于先前亮度帧中同一位置的矢量表示。对于BM,这些位置被预先设定为相同尺寸的非重叠块,假定包含于这些块中的所有象元拥有相同的运动。通过在时间上相邻的先前帧中的一个预先设定的搜寻区域内搜寻一个最佳匹配,找到与视频序列的当前帧中与一个特定块相联系的运动矢量。这个最佳匹配通常使用两个块之间的均方根误差(MSE)或平均绝对值差(MAD)来确定。该运动矢量从当前帧中该块的中心指向先前帧中提供最佳匹配的块的中心。
利用估计的运动矢量,先前帧的一个副本被每个矢量改变以产生当前帧的一个预测。这一运算被称为运动补偿。如以上所述,从当前帧中减去预测帧以产生这样一个差帧,它被DCT变换到空间频域。这些空间频率系数被量化并且被熵编码以提供对原始视频序列的进一步压缩。运动矢量和DCT系数均被传送给解码器,在这里执行逆运算以产生被解码的视频序列。
在一个视频序列中DVF估计是一个极其困难的问题。获得精确估计中之困难的两个主要根源是DVF的不稳定性和该问题的病态性质。该病态是违反Hadamard的良态问题定义造成的,良态问题的特性由解的存在性,解的唯一性,以及解的连续性表征。估计位移场的问题违反所有的这三个特性。在图象序列中运动的物体将遮挡一定的区域并暴露其它的区域;在这些位置上DVF未定义且不存在解。摄影机视野深度的改变和物体畸变将亦可以导致DVF没有定义的区域。对于给定的图象序列,许多位移场可满足有关数据,因此解是不唯一的。连续性亦被违反,这是因为在一些图象序列中即便是局部亮度值的微小修改将能够在位移估计的幅度和/或方向上引起的改变。DVF估计问题是病态的,如果欲得到任何有用的结果则必须计及这一事实。
DVF的不稳定是物体在引起出现在物体边界上的不连续性的景物中沿不同轨道运动造成的,也是这样的一些区域造成的,其中因运动景物被遮挡或暴露的部分而使运动未被定义。DVF的不稳定性意味着其估计中所使用的任何方法必须是自适应的。这就是说,假定稳定性的各种方法将导致DFV的估值中不同方式运动物体之间的边界畸变。这些运动边界的畸变直接导致物体畸变,进而导致差值图象熵增。
BM所使用的一个块中的运动为常数的假定,有效地抑制了估计DFV中的问题,使得该问题不再是病态的。然而,这同一假定还要求如果欲保存运动边界则它们必须与块边界一致。因为在真实序列中这很少发生,DVF估计中的主要误差产生于边界。如此的误差可被描述为DVF边界的模糊。例如,如果一个块包含一个运动的物体和稳定的背景,则依据物体的尺寸,或者是稳定的背景部分将被位移,或者是运动的物体被当作稳定的背景处理。无论哪一种情形,先前帧的运动补偿块在当前帧中将是一个劣质的预测,这导致DFD图象熵增。
近期得以流行的用于估计DVF的另一种方法是空间-时间梯度方法。空间-时间梯度基运动估计算法是这样导出的基于DFV的一个初始估计,使用先前帧中的时间梯度和空间梯度,使得在每一象元上位移帧差即DFD最小化。执行这一最小化的一种普通方法是首先使用该DVF的一个预测将该DFD线性化。通过假定工作点邻域内的所有象元经历相同的运动,得到一组而不是单个线性方程。如果邻域允许迭代可计算性,则由这种方法导出的算法通常被称为象元迭代即PR运动估计器。尽管PR算法可能要求空间差值以计算先前帧中沿运动方向的空间梯度,但PR算法通常快于BM算法,而且不要求为子象元精度作空间插值。此外,PR算法可被扩展以处理比纯粹平移型更为复杂运动类型。
类似于块匹配,PR算法的性能亦在边界上遭遇分立的不同方式运动的物体之问题。这就是说,在这些运动边界上,局部邻域内的诸象元并不经历相似的运动。通过假定它们经历相似的运动,PR算法在这些边界附近产生不精确的估计。如同块匹配情形下,这些边界附近DVF的劣质估计将导致DFD明显的熵增。
这些是块匹配和空间-时间梯度方法均存在的几个主要问题。例如,一个块或局部邻域内运动是均匀的假定导致DVF之中边界的严重降质。块匹配算法不能够解决在单块中的复杂类型运动,比如各种旋转。同样它们需要为子象元精度作空间插值。空间-时间梯度方法受害于这样的事实,即DFD的线性化极度依赖于对DVF的初始预测。这些困难导致DFD熵增,这对极低比特速率编码应用是被禁止的。极低比特速率被定义为低于64千比特/秒的速率。
因此,存在对用于在视频序列中精确估计运动的一种方法和系统的需求。需要该方法和系统正则化位移矢量场DVF估计,以对抗病态,并对存在于DVF中的边界或不连续性作出估计。
图1是根据本发明的用于估计运动的一个系统的一个最佳实施方式图。
图2是根据本发明的预处理器的一个最佳实施方式图。
图3是根据本发明的空间自适应运动估计器的一个最佳实施方式图。
图4是根据本发明的第一DVF更新电路的一个最佳实施方式图。
图5是根据本发明的运动边界估计器的一个最佳实施方式图。
图6是根据本发明的运动分析器的一个最佳实施方式图。
图7是根据本发明的用于估计运动之方法的一个最佳实施方式的实施步骤流程图。
图8是根据本发明的用于分割之方法的一个最佳实施方式的实施步骤流程图。
图9是根据本发明的用于自适应估计运动之方法的一个最佳实施方式的实施步骤流程图。
图10是根据本发明的用于估计运动边界之方法的一个最佳实施方式的实施步骤流程图。
图11是根据本发明的用于分析运动之方法的一个最佳实施方式的实施步骤流程图。
本发明提供一种方法,用于在一个视频序列中获得运动物体的位移和边界的非常精确的估计。因此病态问题和边界的不稳定性同时得到解决。通过将当前图象帧分割为具有相似亮度的诸区域,获得物体边界在一个视频序列中的估计。分隔这些区域的诸边界被认为是物体在该序列中的边界。使用这个物体边界信息以确定该DVF的一个第一估值。
利用DVF的第一估值,通过增加每个边界位置精度同时去除上述估计中被发现为不运动的边界,获得物体边界的一个第一估值。基于物体边界的这一估计,获得该DVF的一个改善的第二估值。作为最终步骤,基于DVF的一个预定模型,进一步改进DVF的第二估值以及所估计的运动物体边界。这样的模型典型地计及复杂类型运动,诸如物体在视域场中的旋转以及归因于摄影机焦距或位置变化的明显物体运动。DVF的第三估值和运动物体边界的第二估值是用这一模型拟合DVF的第二估值和运动物体边界估值的结果。
图1,参考数100,是根据本发明的用于估计运动的系统的一个最佳实施方式图。该系统包含一个预处理器(102),一个空间自适应运动估计器(104),一个运动边界估计器(106),以及一个运动分析器(108)。预处理部分(102)在时刻k提供当前亮度帧(110)fk的一个物体边界估值(112)。基于这一物体边界估值(112),当前亮度帧(110)fk,以及先前亮度帧(114)fk-1,空间自适应运动估计器(104)提供一个第一DVF估值(116)
。该DVF表征景物中的运动特性,该运动发生于分隔两帧fk与fk-1的时间内。第一DVF估值(116)和物体边界估值(112)均在运动边界估计器(106)和运动分析器(108)中被进一步改进。具体地,使用第一DVF估值(116)
,运动边界估计器(106)改进物体边界估值(112),去除不符合于运动边界的亮度边界。运动边界估计器(106)的输出是第一运动物体边界估值(118)
,并且仅描述在视频序列中正在运动的物体边界。而且,第一DVF估值(116)中的误差在运动边界估计器(106)中被去除,这导致第二DVF估值(120)
。这些误差通常起因于噪声引起的输入视频序列的错误。运动分析器(108)利用基于物体运动原理的建模方法进一步改进
和
。第三DVF估值(122)
和第二运动物体边界估值(124)
分别代表极其精确的DFV和运动物体边界的诸估值。
图2,参考数200,是根据本发明的预处理器的一个最佳实施方式图。该系统包含一个顺序统计量滤波器(202)和这样一个物体边界估计器,它由一个物体生长器(206),以及一个物体合并器(206)组成。该预处理步骤的主要功能是通过将当前亮度帧(210)精确分割成诸区域或物体,提供空间自适应运动估计器(104)。为达此目的,当前亮度帧fk(210)的一个副本首先使用一个顺序统计量滤波器(202)被分开滤波。执行该运算以从分割之前的序列中去除任何小的物体。这些小物体,它们通常是视频序列中照度变化的结果而不是真正的物体,可降低空间自适应运动估计器(104)精确估计该物体中运动的能力。
一个被典型地用以从一图象帧中去除小物体的滤波器是一个7×7的中值滤波器。该滤波器由以下运算描述
yk(i,j)=median{fk(i-3,j-3),fk(i-3,j-2)………,fk(i+3,j+2),fk(i+3,j+3)}其中yk(i,j)是fk(i,j)的已滤波形式。该滤波器的输出(212)yk(i,j)是fk(i,j)(210)的中值和它的49个最近空间近邻。拥有小于7×7空间支撑或尺寸的任何物体均被去除。如同上一段中所描述的,这些小物体必须在图象帧的分割之前被去除以避免降低所得分割的精度。
通过一种两步骤过程(204)估计包含在滤波输出(212)中的物体边界。第一个步骤(206)被称为物体生长,其中将每个象元与其诸近邻比较。基于这一比较,该象元被分类为要么属于其诸近邻的同一物体,要么属于一个新的物体。用以确定象元(i,i)分类的检测给定为
|yk(i,j)-yk(i-m,j-n)|≤T(1)其中m和n可取{-1,0,1}中的值。阈值T被用以确定yk(i,j)是否是与yk(i-m,j-n)同一物体的成员。如果两个相邻象元之差的绝对值|yk(i,j)-yk(i-m,j-n)|小于阈值T,则象元(i,j)被分类为象元(i-m,j-n)同一物体的成员。将这个物体记为Obj(i-m,j-n)。如果上述差大于T,则象元(i,j)被认为不是Obj(i-m,j-n)的成员。对于当象元(i,j)的诸近邻未全部被分类或yk(i,j)被确定为不是诸相邻物体的成员时的情形,则象元(i,j)被分类成一个新物体的初始象元。
阈值T典型地被固定为一个预先设定的值。这一方法的一个缺点是这个值与欲分割的特定图象有关。一种去除这种依赖关系的方法可被下式描述
其中MIN和MAX为包含在Obj(i-m,j-n)之中的亮度最小值和最大值,T1仍是一个预先设定的参数。当每个象元被分类为属于一个特定物体时,检测该物体的最大值和最小值以确定是否需要一个调整。上述检测和调整如下
if(yk(i,j)≤MIN),→MIN=yk(i,j),以及
if(yk(i,j)≥MAX),→MAX=yk(i,j). (3)
这一运算拥有对每个物体提供这样一个可调窗的效果,该窗可适配任何特定亮度帧。典型地,对阈值T1的预先设定值为25。这个调节窗即阈值的方法在对各种各样的视频序列提供一个协调的分割时极为有效。
物体边界估计过程的第二个步骤,检测每个物体以确定它是否应与一个相邻物体合并。将沿一个物体的边界定位的诸象元与相邻物体边界上的诸象元比较。如果上述边界象元之间的差别较小,则合并两物体。具体地,对两相邻物体边界上的诸象元实施以下检测
if(|yk(i,j)-yk(i-m,j-n)|≤T2)→merge(Obj(i,j)&Obj(i-n,j-m)), (4)其中T2是一个预先设定的参数,典型地设为30。
还执行一个第二比较以试图再次防止小物体的产生。这些小物体通常是视频序列中逐渐改变的照度变化结果而它们被物体生长算法解释为物体边界。这一测试将一个物体的尺寸即包含在一个物体中的象元数量与一个第三预先设定的阈值比较,如果上述象元数量小于该预先设定的阈值,则将该物体与一个相邻物体合并。使用与该当前物体最为相似的相邻物体执行这一合并运算。使用公式(4)所描述的边界差衡量被合并的两物体之间的相似量。典型地,尺寸阈值设为256个象元。对于去除那些可能是在物体生长运算过程中形成的小物体,物体合并运算(208)是有效的。
对比于其它分割方法,这种两步骤物体边界估计方法(204)的一个优点是它保证提供连续且闭合的边界。对于运动估计和分析的应用,这是非常重要的结果,这是因为我们知道视频序列中的诸物体通常是由连续且闭合的边界定义的。另外,包含在亮度帧中的边界是相应的DVF边界的超集。因此,出现在DVF中的边界或间断亦是连续的。
预处理单元(102)的输出为物体边界估值(216)Sk。物体边界估值(216)Sk给每个yk(i,j)(212)中的每一个象元指定一个值,该值对应于它所属的物体。采用确定在何处物体的编号发生变化的方法,从(216)Sk恢复边界。物体边界(216)Sk与当前亮度帧fk(110)以及先前亮度帧fk-1(114)结合,被空间自适应运动估计单元(104)使用,来确定DVF的第一估值
(116)。如同以上所讨论的,物体边界估值Sk(112)包含DVFdk的间断,因此,被认为是不同方式运动的物体之间边界的第一估值。行过程的第一或初始估值Sk被用作这样的机制,借助于这一机制空间自适应运动估计算法适配于这些间断。
图3,参考数300,是根据本发明的空间自适应运动估计器的一个最佳实施方式图。该空间自适应运动估计单元(104)包括一个因果关系查阅表(312),一个DVF预测器装置(318),以及一个更新电路(320)。自适应运动估计单元的输入是估计的物体边界Sk(304),以往位移估值dk(306)的一个预先设定的因果局部邻域,一个当前亮度帧fk-1(308),以及一个当前亮度帧fk(310)。因果关系查阅表装置(312)存储预先设定的自回归即AR预测系数集(314),以及相应的预测不定度(316)。
典型地,预先设定的因果AR预测系数集(314)和相应的预测不定度(316)是经验性地取得的。通常对一个范例或是先前估计的DVF使用最小二乘估计方法。基于物体边界估值Sk(304),从查阅表(312)中为预测器(318)和更新电路(320)选取预先设定的AR系数集(314)的一个子集a(m,n|Sk)以及一个相应的不定度项w(i,j|Sk)(316)。DVF预测器电路基于AR预测系数集(314)的上述子集以及位移矢量(306)的一个局部邻域确定DVF的一个预测。该预测运算被以下公式描述其中
为在当前图象帧中发生在象元位置r≡(j,j)的运动的预测,a(m,n|Sk)为具有局部支撑R的AR预测系数。
局部邻域R由以下象元位置构成直接向左一列的象元(i,j-1),向上一行并向左一列的象元(i-1,j-1),直接向上一行的象元(i-1,j),以及向上一行并向右一列的象元(i-1,j+1)。应指出的是,R的选择是在实用时作出的,而且与遍巡两维数据集所使用的方法及特定时刻的位于信息有关,上述数据集被用以代表特定时刻图象和位移信息。对于此一特别的R,假定数据读取是从顶行开始从左到右横穿每一行。亦可以使用其它遍巡图象和位移数据的方法,这将需要对局部邻域R略加修改,然而运算将保持不变。
如同公式(5)所描述以及以上所讨论的,如果物体边界估值(304)Sk指示出一个物体的边界出现在一个预先设定的局部邻域R内,则AR系数a(m,n|Sk)(314)被调适以使得预测中不包含任何属于另一个物体的位移矢量。以上等式所基于的不稳定性假定在整个DVF中有效并导致一致精确的预测。减轻了由稳定性模型所招致的归因于位于物体边界附近的位移矢量的混乱和模糊的误差。
将预测位移矢量
(324),附带的不定度项w(i,j|Sk)(316),先前亮度帧fk-1(308),以及当前亮度帧fk(310)输入第一DVF更新电路(320)。第一DVF更新电路更新上述预测位移矢量
(324),产生第一DVF估值(322)。
图4,参考数400,是根据本发明的第一DVF更新确定器的一个最佳实施方式图。该第一更新电路包括一个运动补偿单元(402)和一个增益计算器单元(404)。运动补偿单元(402)所执行的运动补偿运算是一个如下式所描述的非线性运算其中的
(422)为运动补偿先前帧。通过取先前帧fk-1(408)中空间上位于
的象元的亮度值得到
(422)。从当前帧fk(r)(412)中位于(r)的象元的值中减去运动补偿值
(422)得到位移帧差即DFD信号(424)ek(i,j)。该DFD(424)信号是一个涉及预测位移矢量
精度的误差信号。该DFD信号ek(i,j)(424)乘以一个增益项(426),并被加到DVF预测(406)上,产生第一DVF估值(414)。
将增益计算器单元(404)所确定的增益用来在更新DVF预测(406)
之前定标DFD信号ek(r)(424)。通过空间位置
附近线性化运动补偿帧(406)并求解u(r)的最佳线性估计来获得计算增益所用的表达式,以上u(r)为预测
(406)中的误差。所获增益K(i,j)(426)的表达式为
K(i,j)=[GT(i,j)G(i,j)+w(i,j)]-1G(i,j)其中G(i,j)为空间梯度的一个n×2矩阵,其中空间梯度是在运动补偿先前帧(422)中对应局部邻域R中的每一个象元求出的。具体地,对于上述局部邻域R,G(i,j)为
其中为在运动补偿先前帧(422)
中象元位置(i,j)上求出的两维空间梯度。
正如以上所提及的,增益计算器所确定的增益K(i,j)(426)被用以定标DFD信号(424)。将该定标DFD信号加到预测位移矢量(406)
上,得到DVF的第一估值(414)
。更新
所使用的运算在以下方程中得到更详细的描述其中E(i,j)为对局部邻域R中每一个象元求出的DFD。
图5,参考数500,是根据本发明的运动边界估计器的一个最佳实施方式图。该运动边界估计单元(106)包括一个非因果查阅表(510),一个运动物体边界估计器(506),一个DVF估计器(508),DVF(502)的一个非因果局部邻域,以及一个运动物体边界估计器(506)。该运动边界估计器的输入是物体边界估值Sk(526),第一DVF估值
(524),先前亮度帧fk-1(528),以及当前亮度帧fk(530)。运动物体边界单元(504)存储运动物体边界的当前估值,以备在迭代求解中使用。具体地,运动物体边界估计器(506)所提供的解可被用作获得一个改善解的初始条件。以下讨论实现这一迭代的一种方法。用物体边界估值(526)初始化运动物体边界估计器(506)。
基于物体边界Sk(526)和相应的DVF的第一估值(524),运动物体边界估计器(506)提供运动物体边界的一个估值
(546)。运动物体边界估计器(506)由一个运动边缘确定器单元(514),边缘连续性单元(516),以及一个运动物体更新单元(518)构成。运动物体边界的估值
(546)通过调节第一估值Sk来确定。这些调整——它们是以那些边界的已知统计特性作为基础并通过置信测度[confidrnce measure]的使用而体现特征的——导致不属于运动物体的诸边界之去除。这种特别的置信测度将在以下详细说明。如上所提及的,用物体边界估值(526)初始化运动物体边界估计器(506)。
运动边缘确定器单元(514)求出象元(i,j)是否是一个运动物体边界的一部分,并给当前估值
指定一个置信测度。通过比较相邻的诸位移矢量执行这一求值。更为具体地,该求值和相应的置信测度(540)由下式给出
D(i,j)=(dk(i,j)-dk(i,j-l))2+(dk(i,j)-dk(i-l,j))2,如果置信测度D(i,j)(540)较大,则可能存在一个运动物体边界。相反地,如果D(i,j)(540)较小,则存在运动物体边界的可能性较小。
与运动边缘确定器单元(514)相似,边缘连续性单元(516)亦在象元(i,j)处给运动物体边界的当前估值指定一个置信测度(542)。然而,这个置信测度(542)是诸邻域边界元素值的一个函数。视频景物内的诸物体拥有存在于闭合连续曲线上的边界,基于这一假定,当且仅当象元(i,j)位于这样的一条曲线上时,该象元是一个边界元素。换句话说,如果象元(i,j)被确定为一个运动边界元素,则特定方向上的诸相邻象元极可能也是边界元素。以上描述可由以下表达式获得
C(i,j)=0.5(l(i,j)+l(i-l,j)+l(i,j-l)).
运动物体更新确定器在象元(i,j)调节运动物体边界估值
,该调节基于运动物体边界的当前估值以及置信测度D(i,j)(54)和C(i,j)(542),其中运动物体边界的当前最初为物体边界估值(526)Sk(i,j)。赋予上述物体边界更新确定器特色的表达式被给出为其中
L(i,j)=β(α[(l-ε·C(i,j))+(l-Sh(i,j))]-λ2D(i,j)),系数α和λ为预先设定的参数,用以控制每个置信测度能够对估值
影响的程度。参数β(556)用以控制该更新确定器的响应。如果β较小,则置信测度对所调节的
的影响也小。另一方面,如果β较大,则所调节的
受置信测度支配。典型地,对
和
的估计是在将β初始化为一个较小的值并当每个新的迭代开始时缓慢增加之条件下迭代完成的。增加β和改进
和
的估值的判决是在估计终止器(516)中作出的。估计终止器(514)将在以下详细描述。
DVF估计确定器(508)由一个超前预测确定器(520)和一个第二DVF更新确定器(522)构成。与以上所述的DVF预测器(318)相似,超前预测器(520)基于运动物体边界估值(536)提供DVF的一个预测。利用这个运动物体边界估值(546)
,从非因果查阅表(510)中选取预先设定的非因果AR预测系数的一个子集b(m,n|Sk)(548),以及一个相应的不定度项
(552),以便在超前预测器(520)和第二DVF更新确定器(522)中使用。超前预测器(520)基于AR预测系数的一个子集(548)和位移矢量的一个局部邻域R确定DVF的一个预测。须指出的是,该局部邻域R不同于在DVF预测器(318)中所使用的R。此不同来自已存在DVF的一完整估值这样一个事实。因此,对超前预测器来说,DVF预测器存在的对扫描[scan]的依赖性并不是问题。换句话说,使用一个仅含有先前已估计出的位移矢量之邻域的限制不再必须。局部邻域R包含包围(i,j)的诸最近相邻象元。具体地,R包含以下象元,(i,j-1),(i,j+1),(i-1,j),(i+1,j)。除公式(5)所描述的模型之外,该超前预测器还利用一个刚体假定以进一步限制预测。该刚体假定指定一个物体内的所有象元经历相似的运动。
将这个附加假定与公式(5)描述的AR模型相结合的优点在于,可以以APosteriori概率密度函数形式导出一个DVF的一个概率特性。该超前预测单元确定位移矢量
的一个使A Posteriori函数最大的预测。典型地,使用以下迭代算法实行该最大化过程其中
Δ=-μ[D(i,j)(1-l(i,j))+D(i+1,j)(1-l(i+l,j))],θ为修正步长,即它等价于最速下降最小化步长,n是迭代次数。起动该迭代所使用的初始条件为。因为第一DVF估值
具有高质量,迭代所获的改善不大。一般地,所执行的迭代次数固定为1。然而,也可使用一个监视诸迭代之间变化百分比的判据以终止迭代。更为具体地,如果
终止迭代。典型地,将阈值T设为10-3。还是因为第一DVF估值质量之故,修正步长固定为0.1。
该超前预测单元(520)所提供的预测(i,j)被第二DVF更新确定器(522)更新,以产生第二DVF估值
(534)。第二DVF更新确定器(522)使用与所描述的第一更新电路(320)相同的更新方法。
如以上所讨论的,使用迭代过程典型地解决对
(534)和
(532)的联合求解。这即是,用以获得
和
两者的逐步骤被重复,使用前次结果作为初始条件。另外,每次迭代之后增加β以提供置信测度更大的份量。通过迭代,
和
两者的整体精度得到改善。是否执行下一次迭代的判决在迭代终止器(516)中确定。该迭代终止器利用一个类似于第二DVF估计器(510)所使用的终止判据。这就是说,将迭代次数设为固定值,或者该次数可基于迭代之间变化的百分比加以确定。典型地,可设一个最大迭代数为3。然而,如果变化的百分比低于一个阈值则迭代终止。具体地,如果下式为真和则终止迭代。
图6,参考数600,是根据本发明的运动分析器的一个最佳实施方式图。该运动分析器使用
和
作为输入,提供DVF的一种参数化表示。该运动分析器包括一个存储器装置(614),平动估计器(604),缩放估计器(606),旋转估计器(608),以及一个物体标号器及中心确定器(612)。DVF的第二估值
和线性过程
为该运动分析器单元的输入,基于这些输入和一个四参数运动模型,确定一个第三亦即最终一组DVF的估值和线性过程。
上述四参数运动模型利用线性过程所定义的诸物体比如刚体表征DVF特征。具体地,包含在一个特定物体之内的每个象元之位移被以下表达式表征其特征
dk(i,j)=tk(i,j|Obj(i,j))+Z(Obj(i,j)·cp(i,j|Obj(i,j))+θ(Obj(i,j))·cp(i,j|Obj(i,j))其中tk(i,j|Obj(i,j))=[tx,k(i,j|Obj(i,j),ty,k(i,j|Obj(i,j))]T为代表d(i,j)的平动分量的矢量,而Z(Obj(i,j))和θ(Obj(i,j))代表缩放和旋转分量。必须指出,这四个参数的每个均有赖于被指定一个特定象元(i,j)的物体Obj(i,j)。另外,cp(i,j|Obj(i,j))项代表从Obj(i,j)的中心到象元(i,j)的距离。每个物体的中心的位置由物体中心确定器(612)定位。基于估值
,每个物体的中心被确定为包含Obj(i,j)中的最大和最小水平和垂直象元位置的两条直线之交点。
平动估计器对每个物体确定平动分量。这是通过对每个物体取水平和垂直位移分量取平均值而完成的。具体地,平移分量tx,k和ty,k用以下表达式计算和其中,N是Obj(i,j)之内包含的象元总数。
缩放估计器(606)估计缩放参数Z(Obj(i,j))。该参数被用以表征可发生于一个物体之焦距上的任何变化。这些变化可以是摄像机或物体对摄像机位置的远近变化所引起的。利用紧凑DVFdk(i,j),使用以下表达式对物体Obj(i,j)估计缩放参数Z(Obj(i,j))+(j-cy(i,j))·(dy,k(i,j)-ty,k(i,j|Obi(i,j)))} 其中cx(i,j)和cy(i,j)代表对应该物体中心的水平和垂直指针,该物体包含象元(i,j)且Г(i,j)=(i-cx(i,j))2+(j-cy(i,j))2。
旋转估计器(608)对每个物体估计旋转参数θ(Obj(i,j))。该旋转参数被用以表征可发生于一个物体的任何旋转。这些旋转一般是物体运动的结果,并可用与确定Z(Obj(i,j))所用的相似方法给予估计。具体地,旋转参数θ(Obj(i,j))可使用以下表达式估计+(i-cx(i,j))·(dy,k(i,j)-ty,k(i,j|Obj(i,j)))}
如以上所提及的,需要进行物体处理的诸应用中,DVF的这种四参数表示是极为有用的。
作为最终步骤,使用上述DVF的参数化表示来改进线性过程的估值
基于上述四个运动参数,将每个物体与其相邻的诸物体比较。如果一个物体被确定为与一相邻的区域相似,则它们被合并而形成一单一的区域。如果以下四个条件被满足则将两个区域确定为相似
条件1
(tx,k(i,j|Region(i,j))-tx,k(i+n,j+m|Regton(i+n,j+m)))2≤P1,
条件2
(ty,k(i,j|Region(i,j))-ty,k(i+n,j+m|Re gion(i+n,j+m)))2≤P2,
条件3
(Z(i,j|Re gion(i,j))-Z(i+n,j+m|Re gion(i+n,j+m)))≤P3
条件4
(θ(i,j|Re gion(i,j))-θ(i+n,j+m|Re gion(i+n,j+m)))≤P4
这里(i+n,j+m)表示相邻区域Obj(i+n,j+m)的位置。
图7,参考数700,是根据本发明的用于估计运动之方法的一个最佳实施方式的实施步骤流程图。使用一个预处理器分割(702)当前亮度帧以确定包含在视频序列所获取的景物中诸物体边界。空间自适应运动估计器(704)使用这些边界,以调适于视频序列中以不同方式运动着的诸物体。该空间自适应运动估计器(704)提供DVF的一个第一估值。基于物体边界的估计器和DVF的第一估值,得到运动物体边界的一个第一估值和DVF的一个第二估值(706)。对运动物体边界的第一估值和DVF的第二估值的分析和建模,提供DVF的一个第三估值和运动物体边界的一个第二估值。
图8,参考数800,是根据本发明的用于分割之方法的一个最佳实施方式的实施步骤流程图。第一步是用一个顺序统计量滤波器滤波,从图象帧中去除噪声(802)。其次使用一个区域生长器,将象元组合成若干物体(804)。最后一步包含使用一个区域合并器和一个预先设定的比较测试将若干小物体合并成大物体(806)。
图9,参考数900,是根据本发明的用于自适应估计运动之方法的一个最佳实施方式的实施步骤流程图。首先,基于物体边界估值,接入一个因果查阅表以提供至少一个因果预测系数和一个因果不定度参数(902)。其次,从一个含有先前估计的诸位移矢量的存储器装置,将一个因果局部邻域设为一个预先设定的初始化值(904)。再次,基于上述先前估计的诸位移矢量和至少一个因果预测系数,确定当前位移矢量的一个估值(906)。更新上述预测的位移矢量使之成为第一位移估值并将其存入因果局部邻域(908)。对整个当前亮度帧重复该过程(910),产生DVF的第一估值。
图10,参考数1000,是根据本发明的用于估计运动边界之方法的一个最佳实施方式的实施步骤流程图。将上述DVF的第一估值和DVF第二估值的先前估计的诸位移矢量存入非因果局部邻域存储器(1002)。将先前估计的诸物体边界存入运动物体边界确定器(1004)。利用上述诸物体边界和先前估计的诸位移矢量,确定一个运动物体边界的一个第一估值(1006)。基于该运动物体边界的第一估值,接入一个非因果查阅表以提供至少一个非因果预测系数和一个非因果不定度参数(1008)。其次,基于先前估计的诸位移矢量,至少一个非因果预测系数,以及DVF更新确定器,确定当前位移矢量的一个第二估值(1010)。重复该估计过程,直至当前亮度帧中所有象元拥有一个与之相联系的位移矢量(1012)。当DVF的第二估值和运动边界估值中总变化的百分比低于一组阈值时,终止该过程(1014)。
图11,参考数1100,是根据本发明的用于分析运动之方法的一个最佳实施方式的实施步骤流程图。首先,对每个物体确定一个中心(1102)。其次,对每个物体确定一个平动估值。接下来,对每个物体进行缩放参数估计(1106)。还对每个物体确定一个旋转参数估值(1008)。最后,在用一种模型拟合该估计的DVF中使用上述平动、旋转和缩放参数。
可以用多种实施方式实现图1至6所描述的系统,比如专用集成电路ASIC,数字信号处理器DSP,门阵列GA,以及属于/用于计算机的任何有形的媒体。
权利要求
1.一种用于估计运动的系统,包括
A)一个预处理器,有效地连接以接收一个当前亮度帧,用于分割当前亮度帧以提供一个第一物体边界估值;
B)一个空间自适应运动估计器,有效地连接至上述预处理器,并有效地连接以接收当前亮度帧和一个先前亮度帧,用于提供一个第一位移矢量场估值,即一个第一DVF估值;以及
C)一个运动边界估计器,有效地连接至上述空间自适应运动估计器和预处理器,并有效地连接以接收当前亮度帧和上述先前亮度帧,用于提供一个第二位移矢量场估值,即一个第二DVF估值,以及一个第一运动物体边界估值。
2.根据权利要求1的用于估计运动的系统,其特征在于
上述预处理器包含
一个顺序统计量滤波器,连接以接收当前亮度帧,用于从当前亮度帧去除噪声和诸小物体;以及
一个物体边界估计器,连接至上述顺序统计量滤波器,用于提供物体边界估值;
上述空间自适应运动估计器包含
一个因果查阅表,连接以接收物体边界估值,用于基于物体边界估计,提供至少一个因果预测系数和一个因果不定度参数;
一个因果局部邻域,用于存储先前估计的诸DVF,该因果局部邻域在DVF估计之前被设为一个预先设定的初始化值;
一个DVF预测器,连接至上述因果查阅表和因果局部邻域,用于基于先前估计的诸DVF和至少一个因果预测系数提供一个DVF预测;以及
一个第一DVF更新确定器,连接以接收上述DVF预测,因果不定度参数,当前亮度帧,以及先前亮度帧,用于提供第一DVF估值,该第一DVF估值是上述因果局部邻域的一个输入,在该邻域中它被作为先前估计的DVF加以存储;
上述运动边界估计器包含
一个非因果局部邻域,用于存储先前估计的诸DVF,该非因果局部邻域被第一DVF估值初始化;
一个运动物体边界单元,用于存储先前估计的诸运动物体边界,该运动物体边界单元被物体边界估值初始化;
一个运动物体估计器,连接至上述非因果局部邻域和运动物体边界单元,用于提供一个第一运动物体边界估值;
一个非因果查阅表,连接至上述运动物体估计器,用于基于第一运动物体边界估值提供至少一个非因果预测系数和一个非因果不定度参数;
一个DVF估计器,连接至上述运动物体估计器和非因果查阅表,用于存储第二DVF估值;以及
一个估计终止器,连接至上述运动物体估计器和DVF估计器,用于在终止时传递第一运动物体边界估值和第二DVF估值。
其中第一运动物体边界估值是运动物体边界单元的一个输入,以及第二DVF估值是非因果局部邻域的一个输入;以及经进一步选择,其中
预处理器中的物体边界估计器包含一个区域生长器和一个区域合并器,上述区域生长器基于一个可调窗将诸象元组合成为若干区域,上述区域合并器基于一个预先设定的比较测试将诸小区域合并。
3.根据权利要求1的用于估计运动的系统,进一步包括
D)一个运动分析器,有效地连接至上述运动边界估计器,用于基于第二DVF估值和第一运动物体边界估值提供一个第三DVF估值和一个第二运动物体边界估值。以及经进一步选择,其中
该运动分析器包含
一个中心确定器,连接以接收第一运动物体边界值,用于提供一个区域位置和一个中心点;
一个平动估计器,连接以接收第二DVF估值和上述中心点,用于提供一个平动估值;
一个缩放估计器,连接以接收上述中心点,区域位置,以及平动估值,用于提供一个缩放估值;
一个旋转估计器,连接以接收上述中心点,区域位置,以及平动估值,用于提供一个旋转估值;以及
一个模型拟合单元,连接之上述平动估计器,缩放估计器,以及旋转估计器,用于基于平动估值、缩放估值以及旋转估值提供第三DVF估值和第二运动物体边界估值。
4.权利要求1的系统,其特征在于该系统被具体实施于一种属于/用于计算机的有形的媒体中,经选择,4A-4B之一
4A)其中上述有形媒体为计算机的一种磁盘;以及
4B)其中上述有形媒体为计算机的一种存储器单元。
5.权利要求1的系统,其特征在于5A-5C之一
5A)该系统被具体实施于一种数字信号处理器DSP中;
5B)该系统被具体实施于一种专用集成电路ASIC中;以及
5C)该系统被具体实施于一种门阵列中。
6.用于估计运动的一种方法,包括
使用一个预处理器分割一个当前亮度帧,以提供一个物体边界估值;
自适应地估计从一个先前亮度帧到当前亮度帧的运动,以提供一个第一位移矢量场估值,即一个第一DVF估值;以及
基于物体边界估值和第一DVF估值估计诸运动边界,以提供一个第二位移矢量场估值,即一个第二DVF估值,以及一个第一运动物体边界估值。
7.根据权利要求6的用于估计运动的方法,其特征在于
分割包含
使用一个顺序统计量滤波器,对当前亮度帧滤波,以从当前亮度帧去除噪声和诸小物体;
区域生长,以基于一个可调窗将诸象元组合成若干区域;
区域合并,以基于一个预先设定的比较测试合并诸小区域;
自适应地估计运动包含
接入一个因果查阅表,以基于物体边界估计,提供至少一个因果预测系数和一个因果不定度参数;
将先前估计的诸DVF存入一个因果局部邻域,该因果局部邻域在DVF估计之前被设为一个预先设定的初始化;
基于先前估计的诸DVF和至少一个因果预测系数预测一个DVF;以及
更新上述DVF预测,以提供第一DVF估值,该第一DVF估值是上述因果局部邻域的一个输入,在该邻域中它被作为先前估计的DVF加以存储;
估计诸运动边界包含
将先前估计的诸DVF存入一个非因果局部邻域,该非因果局部邻域被第一DVF估值初始化;
将先前估计的诸运动物体边界存入一个运动物体边界单元,该运动物体边界单元被物体边界估值初始化;
估计诸运动物体,以提供一个第一运动物体边界估值;
接入一个非因果查阅表,以基于第一运动物体边界估值提供至少一个非因果预测系数和一个非因果不定度参数;以及
估计一个DVF以提供第二DVF估值;
当估计出一个完整帧后终止估计,在终止时传递第一运动物体边界估值和第二DVF估值。
8.根据权利要求6的用于估计运动的方法,进一步包括
分析运动,以基于第二DVF估值和第一运动物体边界估值提供一个第三DVF估值和一个第二运动物体边界估值。以及经进一步选择,其中
分析运动包含
确定一个中心,以提供一个区域位置和一个中心点;
估计平动,以提供一个平动估值;
估计缩放,以提供一个缩放估值;
估计旋转,以提供一个旋转估值;以及
将平动估值,缩放估值,以及旋转估值拟合于预先设定的一种模型。
9.权利要求6的方法,其特征在于该系统被具体实施于一种属于/用于计算机的有形的媒体中;经进一步选择,9A-9B之一
9A)其中上述有形媒体为计算机的一种磁盘;以及
9B)其中上述有形媒体为计算机的一种存储器单元。
10.权利要求6的方法,其特征在于10A-10C之一
10A)该方法的诸步骤被具体实施于一种数字信号处理器DSP的有形媒体中;
10B)该方法的诸步骤被具体实施于一种专用集成电路ASIC的有形媒体中;以及
10C)该方法的诸步骤被具体实施于一种门阵列的有形媒体中。
全文摘要
本发明提供一种用于估计视频序列中的运动的方法和系统。本发明既提供位移矢量场的极精确估值,又提供诸运动物体之边界的极精确估值。该系统包含该系统包含预处理器(102),空间自适应象元运动估计器(104),运动边界估计器(106),及运动分析器(108)。预处理器(102)提供位移矢量场的第一估值(116),而空间自适应象元运动估计器(104)提供诸物体边界的第一估值。运动边界估计器(106)和运动分析器(108)改善上述第一估计的精度。
文档编号H04N7/26GK1159276SQ96190799
公开日1997年9月10日 申请日期1996年6月12日 优先权日1995年7月24日
发明者詹姆斯·C·布莱林, 塔纳尔·奥兹塞里克, 阿格罗斯·K·卡特萨格罗斯 申请人:摩托罗拉公司