专利名称:基于匹配寻求算法的视频编码方法
技术领域:
本发明涉及视频编码器领域,更具体地,涉及一种基于适配所谓的匹配寻求方法(MP)的、和能在信号噪声比(SNR)可缩放的视频编码器中实施的编码方法。
背景技术:
在多媒体领域中,新的交互应用(诸如互联网视频流、视频数据库浏览或多质量视频业务)正在广泛开展。这导致在网络(互联网、移动网和国内数字网)上视频业务的扩展,这在各种传输条件(带宽、误码率)以及各种消费者要求和终端译码能力(CPU、显示器尺寸、应用)方面提出新的问题。因此,需要新的灵活的和内在地增强的视频压缩系统,该系统可以处理这些新的约束条件,特别是在以非常低的比特率的情况下。可缩放性的想法是解决这些问题的预期的功能。例如,只有一部分嵌入的比特流可被发送到特定的用户以避免网络拥塞,或整个比特流可以按照所瞄准的质量水平而被部分地译码。当前的标准,诸如MPEG-4,正朝向提供这种功能的视频编码方案而努力。
MPEG-4依赖于传统的基于块的预测混合方案,其中运动补偿后的预测错误编码是借助于离散余弦变换(DCT)而实现的。然而,DCT看来易于受到低比特率的、非常讨厌的视觉人工产物的危害(特别是块边缘的人工产物),这是因为编码系数的数目变得非常低,以及量化度很粗糙。较好地适合于低比特率的和在MPEG-4中测试的一种较好的DCT的替换方案,是基于所谓的匹配寻求(MP)算法,例如,在S.Mallat和Z.Zhang的“Matching pursuits with time-frequencydictionaries(带有时间-频率字典的匹配寻求)”,IEEETransactions on Signal Processing,vol.41,No.12,December1993,pp.3397-3415中所描述的。
正如在所述的文章中描述的,MP是时间-频率变换,它通过使用被称为atom(微小单元)的二维(2D)函数的过完整的字典,以迭代的方式扩展运动剩余信号。这个算法迭代地计算微小单元,使得要被编码的信号的均方误差最小。多级算法按照以下的步骤进行
计算在矩形搜索窗上的最高能量图象块;在这个块周围,计算使得在基函数与在当前迭代时的剩余图象之间的内积最大的投影;高的内积数值表示对应的微小单元适合于信号结构;这个加权的微小单元然后从当前的错误图象中被减去,从而产生用于下一级的、新的剩余图象。
该方法的复杂性在于,算法在每次迭代时在字典中的所有的微小单元中间选择最好的微小单元。表1显示传统上在经典的基于块的匹配寻求实施方案中使用的、微小单元字典(参量Si,Fi和Pi分别表示微小单元的尺度、频率和相位)。
字典的冗余度允许在选择信号分解上更大的自由度。在低的比特率编码的情形下,这是更感兴趣的,因为MP只利用需要的函数来精确地代表信号,因此导致更好的压缩效率。而且,MP是迭代的,所以,剩余能量在每次迭代时降低。程序过程被迭代,直至这个剩余能量降低到低于给定的门限值或可供使用的比特量用完为止。该表示法在最重要系数首先被提取的意义上是自适应的。所以,MP按降低的重要性的次序编码剩余误差,这对于质量(SNR)可缩放度是有吸引力的。对应于信号结构中更细的细节的、附加系数可以在算法的下一个步骤期间被产生。
字典通常由二维(2D)的、可分开的Gabor函数组成,该函数由用于控制已被调制的高斯函数的尺度以及一个调制函数的频率与相位的参量来代表。字典的选择是重要的,因为它与分解的收敛速度密切相关,并因此与算法的效率密切相关。Gabor函数针对可限制视觉人工产物的、处在它们边缘的平滑的衰减来进行选择。而且,微小单元可被放置在整个错误图象的任意象素位置处,以便于匹配信号结构。微小单元重叠是能够实现的,这提高扩展平滑度。
虽然这个MP方法比起DCT的优越性通过一些研究是显而易见的,但DCT仍旧是在MPEG-4中唯一使用的纹理结构编码方法(其理由是,DCT是非常成熟的方法,对于它具有许多软件和硬件最佳方案)。而且,MP是一种迭代算法,它不存在并行技术,以及在编码一侧是复杂的。然而,MP似乎能很好地适合于在任意形状物体内的纹理结构描述,以及它提供在嵌入的比特流中的信息的逐步表示,因此允许可缩放性。
由于当前的视频标准原先没有被设计来提供可缩放性(它们已被加以更新,以便包括这个新的功能,而同时保留它们的现有的结构),这个可缩放性通常是通过能传递两个或多个分开的比特流的一个层结构而达到的。这个方法具有缺乏灵活性和增强层的编码效率低的缺点。而且,基本类型的可缩放性(空间、时间、SNR)不能同时达到。因此,ITU和MPEG委员会专家在非常低的比特率的领域中正在寻找允许更大的互动性的完全可缩放的编码方案。一种许可的方法涉及基于三角形的网格的表示法的使用(即,把图象区域再划分成基本补片,最流行是三角形,因为这种配置是非常灵活的),以便用于基于对象的压缩和合成。这种操作的目的是按照所瞄准的情景描述的精度用有限数目的单元来规定均匀的区域,因而这种操作甚至可以是分级结构的。分级结构然后被初始化到任意粗的网格,它接着按照特定的准则逐步被细化,因此,允许描述的精度逐级地提高。
然后提出了利用通过网格而提供的主要优点对于有效的对象轮廓编码的空间自适应能力、对于对象跟踪的形变能力、在没有通常对于其它表示法遇到的视觉人工产物的情况下即使是在低比特速率下的紧凑和增强的运动估计。三角形网格对于诸如纹理结构动画制作和形变、视频对象的基于内容的恢复、增大的现实性、美化等等的功能是有吸引力的。而且,它们对分层结构网格的扩展是对可缩放性的可能的响应。然而,只有几个已知的著作涉及到网格内纹理结构编码的课题,这些现有的论文都是基于适配于原先只是为矩形分解而设计的DCT的。
发明概要所以,本发明的目的是提出一种视频编码方法,它使用MP算法并使该算法与三角形网格内的纹理结构错误编码相适配,以便从MP特性得到好处,即,按重要性递减的次序顺序地进行信息发送,以及甚至在低比特率时也能提供平滑的信号表示。
为此,本发明涉及基于适配所谓的匹配寻求方法(MP),其中在所述MP方法的每次迭代时,在三角形网格内的所述错误纹理结构编码处理过程被限制于按照预定的准则选择的特定的三角形,以及根据这个准则,在考虑到错误信号的快速能量减小的情况下,在这个三角形内用于微小单元的最佳策略包含任意选择所选择的三角形的几何重心来作为微小单元的中心,有关微小单元位置的任何附加信息都不被发送到译码器。
所提出的解决方案给所瞄准的视频编码方案配备以一种很适合于基于网格的编码的预测错误编码工具。根据MP算法,这个方法在特别被设计来匹配三角形支持时,可从网格特性得到好处。在给定任何选择的三角形后,问题是找到用于在所述三角形内的微小单元定位的最佳策略,导致快速地减小错误信号能量,以及精确而平滑的信号分解。这个几何定位方法与那种必须对每个微小单元位置编码的基于块的方法相比较,可以导致获得比特预算增益(budget gain)。
在另一个实施例中,本发明涉及基于适配所谓的匹配寻求方法(MP)的编码方法,其中在所述MP方法的每次迭代时,在三角形网格内的所述错误纹理结构处理过程被限制于按照预定的准则选择的特定的三角形,以及根据这个准则,在考虑到错误信号的快速能量减小的情况下,在这个三角形内用于微小单元的最佳策略包含将错误能量信息重复使用于微小单元中心定位,于是在具有最高能量的、所选择的三角形内位移帧差值(DFD)能量重心被任意地选择为微小单元的中心,并且,三角形内的这个位置是被发送到译码器的附加信息。
如果几何选择(对应于第一实施例)确保微小单元处在三角形的中间,无论如何,这导致在定位自由度方面释放MP的特性。通过将错误能量信息重复使用于微小单元定位,可得到更类似于基于块的方法的微小单元编码效率。
这个实施方案还可以通过添加这样一种可能性即沿着最重要的能量的方向去定向一个微小单元轴从而被改进。这样就能得到更好的微小单元定位,使微小单元轴对准必须被逼近的错误信号。
附图简述现在参照附图更详细地说明本发明的具体例子,其中
图1显示在寻找用于在所选择的三角形内的微小单元定位的最佳策略时的几何微小单元定位方法;图2显示这个几何方法的第一变例,它允许通过使用对于微小单元中心定位的错误能量信息,从而重新引入一些定位自由度(与图1所示的方法相比较);图3显示在几何与能量定位方法之间的比较;图4显示惯性微小单元定位,它是能量微小单元定位方法的变例,它借助于对准沿着DFD能量的主方向的一个微小单元轴,从而允许达到微小单元轴对准它们必须逼近的错误信号。
发明详细描述当使用原先施加到图象块的MF算法时,为了适配它以及满足只允许在三角形网格支持上的纹理结构增强的严格的约束条件,在微小单元定位和微小单元重叠方面,不可能允许与基于块的方法的相同的自由度。在MP程序的每个迭次迭代时,错误纹理结构编码不得不被限制于特定的三角形,例如,按照能量准则所选择的三角形。所以,微小单元编码必须以另一种方式执行,以避免位于三角形边缘的微小单元,否则这会引起视觉人工产物。在给定已选择的三角形后,问题是找到用于在这个三角形内的微小单元的最佳策略,也就是导致错误信号的快速能量减小和精确的与平滑的信号分解的策略。现在参照图1到3描述这样的微小单元定位方法,在每种情形下,在三角形尺度中执行预测错误编码(以虚线显示包围每个三角形的边界的方块)。对于被使用来编码运动剩余图象的函数,没有引入特别的的修正来使用网格结构它们仍旧是实二维(2D)Gabor函数。
最简单的方法包含任意选择要被编码的已选择的三角形的几何重心来作为编码的微小单元中心,即作为2D微小单元的中心,如图1所示,其中微小单元轴与图象栅格(X,Y)一致。这种选择确保微小单元处在三角形的中间。因为这个信息是在译码器一侧可从网格恢复的,所以没有关于微小单元位置的附加信息必须被发送到译码器。这在与那种必须对每个微小单元位置编码的、基于块的方法相比较时,将会导致比特预算增益。微小单元定位自由度的减小通过以下事实可被部分地补偿对于这个定位策略,微小单元位置不需要被编码和被发送(因为它们在译码一侧可以以它们在编码器一侧被执行的相同的方式被恢复),因此导致对于纹理结构增强的所述增加的比特预算。
然而,如果几何选择确保微小单元处在三角形的“中间”,则它导致相对于定位自由度释放MP的性质,这减小微小单元编码效率。为了更类似于基于块的方法(其中微小单元被放置在错误很高的图象区域),错误能量信息可被复用于微小单元中心定位。为此,在选择的三角形(具有最高的能量的三角形)内的位移帧差值(DFD)能量重心被任意地选择作为2D微小单元的中心(图2)。在三角形内的这个位置必须在译码器中被发送,因为所述的译码器没有关于DFD的信息。由于MP程序过程是迭代的,所以常常发生特定的三角形几次被选择用于纹理结构编码。这种能量定位在它的接连的处理过程期间重新引入在特定的三角形内的一定的自由度。而且,这种方法更好地适应于网格精选处理,该处理可按照能量准则逐次地剖分三角形。由于剖分的三角形是在具有最高的剩余能量的三角形中间被选择的,它们多半被用于增强纹理结构的MP算法所选择。借助于这种方法被重新构建的图象可呈现更好地定位的纹理结构,它比起第一种方法具有较少的视觉人工产物,以及用于相同数目的微小单元的这个方法可被使用来编码预测错误。
为了说明在几何定位与能量定位之间的差别,可以考虑特定的一维(1D)的例子,如图3所示,图的右面显示微小单元的几何定位以及左面显示它的能量定位(G和E在每种情形下分别表示几何重心和能量重心的位置)。能量定位产生更有效的编码,因为它接连地把微小单元放置在最佳点。事实上,在给定特定的编码方案后,无论如何,就会存在着在较佳定位的好处与编码这个位置的代价这两者之间的折衷,因为能量定位方法预先假设微小单元位置已被传输到译码器一侧。而且,在三角形越来越小时,在几何重心与能量重心之间的差别越来越不太重要。
也可提出另一个变例。在以前的方法(图3)中,微小单元轴常常平行于图象栅格,以及这无论如何是微小单元中心位置所在地方。如图4所示,惯性定位可以把沿着DFD能量的主方向(也就是沿其能量是最重要的方向(用角度α表示))去定向一个微小单元轴的可能性添加到能量定位上。实际上,被DFD能量加权的三角形惯性矩在每个三角形内被加以计算以便得出能量主方向,这由它与图象栅格x轴之间的夹角来给出。第二轴(y轴)然后简单地垂直于这个第一方向。
在惯性微小单元定位方法的情形下,DFD能量主方向角的计算是如现在指出的方法完成的。惯性矩阵被给出为 ,其中a=1NΣK=1Nxk2-xG′2]]>b=1NΣK=1NyK2-yG2]]>和c=1NΣK=1Nxkyk-xGyG]]>xk和yk分别是所研究的数据的x坐标和y坐标,以及 和 是数据重心。在本例中,可以具有x=x(i,j)*DFD2(i,j),y=y(i,j)*DFD2(i,j),和 其中(i,j)是选择的三角形内的点。主方向角度α由 给出。
更好的微小单元定位由这个方法通过把微小单元轴对准它们必须近似的错误信号而得到。无论如何,微小单元轴没有对准图象栅格,以及分离的微小单元表不再被使用。在MP处理过程期间动态计算的实际微小单元数值应该被引入。而且,由惯性定位带来的改进也具有附加的花费需要编码和发送规定微小单元轴的角度。因此,必须在以下两种情形中间实现速率失真折衷,这两种情况是一,微小单元轴对准DFD能量主方向,以及可供微小单元编码之用的一部分比特预算被消耗掉,而不发送这个方向的角度;二,微小单元轴对准图象栅格以及相同部分的比特预算实际上被使用来为每个三角形发送更多的微小单元,因此,导致产生网格内纹理结构的改进的重新构建。所以,必须平衡较好的微小单元位置的好处与对它的参量(中心位置,轴的角度)进行编码的代价。
微小单元字典的选择构成在MP方法的效率和收敛速度方面的关键因素,所以,它对于按照三角形特性使函数组最佳化是有用的。如上所述,这种包含只允许在三角形尺度上的增强纹理结构的很强的限制将会减小微小单元重叠的性质。为了补偿这一点,要特别注意选择基本函数。增加函数的冗余度和过完整的基础性质,无论如何不是一个可接受的解决方案,因为它增加了算法负担。
因为方法的主要修改与这种支持的特定的几何性质相联系,因而选择了首先按照三角形尺寸来使几个字典最佳化。视频序列的训练基础借助于这样一种基于网格的编码系统来处理,在该系统中,网格或多或少是密集的。最粗的网格被应用在QCIF(四分之一公共的中间格式)图象上,以及包含被排列成梅花形的32个三角形。这些三角形相对于一个分开的准则通过以下的各层面而被进一步改进。对于每个网格配置,微小单元参量在训练期间最经常被选择的那些参量中间进行选择。除了最经常的参量以外,可以把代表平滑微小单元的三元组慎重地添加到保留的字典中。这样做的理由是字典必须尽可能地完整,而同时应合理地保持为较小,以便适合于不同的配置,这些配置也可能是在训练期间未出现的配置。这样做以后,可以得到几个字典,每个字典对于特定的种类的三角形被最佳化。表2显示对于三步骤分割程序过程而最佳化的、最终的微小单元字典的例子字典1
字典2
字典3
由按照QCIF格式的一个序列的1525个图象组成的训练图象基础是被产物“自然”(跟随在草地上行走的动物的自然序列),“新闻”(典型的标题和肩部序列)、“橄榄球”(带有各种运动、饱和的色彩和摄像机摇摄的非常需要的运动的序列)、和“戏剧”(相当静止的序列)的不同种类的几个序列的级联。训练函数字典中的每个由一百个以上的参量三元组组成,具有12个其范围从1.0到23.0的奇数换算值、5个从0.0到4.0的频率值、以及三个相位值(0,π/4和π/2)。三个字典是与分级结构编码方案的三个层任意相关的。
对于这样描述的编码方法,可以提出修改方案或改进,而不背离本发明的范围。例如,基于三角形网格的视频编码方案可以通过分层结构表示法而被改进。分层结构解决寻找最佳补片尺寸的问题和提出用于提供逐层改进的说明的工具。因此,向分层结构网格扩展是对于可缩放性的一个回答。分层结构可以被初始化为任意粗略的网格,它按照特定的准则(例如,能量)被接连地改进。在本例中使用的分层结构包含在每种分辨率下把网格栅格与图象组合,以达到最粗的网格被耦合到最低分辨率的图象的效果。这里,术语分辨率是指对源图象执行的低通滤波,不作任何下采样,以及不是十中取一。因此,图象和网格联系包含能提供随着层而增加的信息精度的单元。
对于应用到三角形的MP方法,基函数的选择是不容易的,因为它影响编码速度和效率。所以提出三个字典,以便给每个层提供适配的函数组。关键因素显然是用于确定函数支持的换算参量。一个解决方案是任意地把每个分层结构层与一个对于这个层已最佳化的特定的字典相联系。然而,考虑在两个层之间的、只更新全部三角形中的一部分的网格细化处理过程,如果第一层网格包含“大的”三角形,则不能假设下一个层网格只由“中等的”或“小的”三角形组成。为了防止发生这个问题,把字典的动态预选择步骤附加到基于三角形的MP方法。这个字典选择既不增加算法负担,也不减慢它的收敛速度。其理由是,这种选择是在每次迭代时在计算最佳微小单元之前在线地进行的。
无论是哪个选择的字典,MP处理过程以后在这个唯一的字典内搜索最佳微小单元。以及对于每个所选择的三角形搜索最佳微小单元。因此,它并不是考虑所有的N字典,这等价于一个有N倍那样大的字典。所以,这种字典的预选择提供了具有几个潜在的字典优点,然而,实际计算量就好像只是一个字典那样。这个方法是更感兴趣的,因为它不需要附加第四个微小单元参量。会影响字典选择的微小单元尺寸实际上可从在网格中早已存在的信息中得出,以及该信息不需要被发送。它是在译码器一侧以与在编码器一侧获得的相同的方式可恢复的。无论如何,字典仍旧是要被发送的,或至少需要被译码器得知。
因此在以前的说明中,匹配寻求算法直接被应用到基于网格的支持,而无需使用经典的基于块的图象划分法。所建议的三种微小单元划分方法涉及把基本匹配寻求程序过程与三角形支持进行适配。而且,动态字典预选择的引入允许具有潜在的更大量的最佳化的字典,而同时在MP阶段期间保持相同数量的有效计算,以及对于每个编码的微小单元都这样做。所选择的字典的索引不需要被发送到译码器,并因此规定固有的补充的微小单元参量。所描述的基于三角形网格的使用的方法可以在信号噪声比(SNR)可缩放的视频编码器中被实施,这属于本发明的范围。
权利要求
1.在信号噪声比(SNR)可缩放的视频编码器中,基于使所谓的匹配寻求方法(MP)适配于三角形网格内的错误纹理结构编码处理过程的编码方法,在所述MP方法的每次迭代时,所述错误纹理结构编码处理过程被限制于按照预定的准则选择的特定的三角形,以及根据这个准则,在考虑到错误信号的快速能量减小的情况下,在这个三角形内用于微小单元的最佳策略包含把所选定的三角形的几何重心任意选择作为微小单元的中心,有关微小单元位置的任何附加信息都不被发送到译码器。
2.在信号噪声比(SNR)可缩放的视频编码器中,基于使所谓的匹配寻求方法(MP)适配于三角形网格内的错误纹理结构编码处理过程的编码方法,在所述MP方法的每次迭代时,所述错误纹理结构编码处理过程被限制于按照预定的准则选择的特定的三角形,以及根据这个准则,在考虑到错误信号的快速能量减小的情况下,在这个三角形内用于微小单元的最佳策略把错误能量信息重复地使用于微小单元中心定位,在具有最高能量的所选择的三角形内的位移帧的差值(DFD)能量重心然后被任意地选择作为微小单元的中心,并且在三角形内的这个位置是被发送到译码器的附加信息。
3.按照权利要求2的编码方法,其中用于微小单元定位的最佳策略是惯性微小单元定位方法,它把一个取向步骤附加到能量定位方法,该取向步骤被提供用来沿着DFD能量的主方向、也就是沿能量是最重要的方向定向一个微小单元轴,第二轴垂直于这个第一方向,以及所述惯性定位方法的实施涉及到把用于规定微小单元轴的角度作为附加信息来进行编码和发送。
4.按照权利要求1到3的任一项的编码方法,所述方法通过使用分层结构网格而被改进,该分层结构以任意的粗的网格被初始化,该网络按照所述预定的准则被顺序地细化。
5.按照权利要求4的编码方法,其中所述分层结构包含在每个分辨率下把网格栅格与图象组合起来,以达到最粗的网格与最低分辨率的图象相联系的效果,从而使得图象和网格的联系包含能提供随着层而增加的信息精度的单元。
6.按照权利要求5的编码方法,其中所述预定的准则是能量准则。
7.用于实施按照权利要求1到6中的任一项的基于三角形网格的编码方法的一种信号噪声比(SNR)可缩放的视频编码器。
全文摘要
本发明涉及视频编码器领域,更具体地,涉及基于使匹配寻求方法适配于三角形网格内的错误纹理结构编码处理过程的编码方法。所述处理过程在该方法的每次迭代时被限制于按照预定的准则选择的特定的三角形。用于在这个三角形内的微小单元定位的最佳策略,包含任意选择所选定的三角形的几何重心作为微小单元的中心,或包含重复使用错误能量信息来进行微小单元中心定位,在具有最高能量的选定的三角形内位移帧差值(DFD)能量重心,在第二种情形下被任意地选择作为微小单元的中心。
文档编号H03M7/42GK1349717SQ00806828
公开日2002年5月15日 申请日期2000年12月20日 优先权日1999年12月28日
发明者V·博特雷奥, M·贝内蒂尔雷, B·佩斯奎特-珀佩斯库 申请人:皇家菲利浦电子有限公司