基于空间分辨率变换的视频转换编码方法

文档序号：7627591阅读：237来源：国知局

专利名称：基于空间分辨率变换的视频转换编码方法
技术领域：
本发明属于数据压缩及通信领域，涉及视频压缩及传输领域技术，具体讲涉及基于空间分辨率变换的视频转换编码方法。
背景技术：
视频转换编码可以理解为从一种视频压缩格式到另一种视频压缩格式的转换，这里所说的格式包括码流的句法和码流中的相关参数，如编码码率、视频图像空间分辨率、时间分辨率、对网络带宽的适应能力等，其实质就是为适应传输网络的不同带宽情况或根据客户端的解码能力，把一种压缩格式的视频流转换为同种或另一种压缩格式的视频流。
可扩展视频编码是另一种以多层的方式压缩视频并根据网络带宽的变化情况传输其中合适的几层的编码方法。它将原始视频数据压缩成一个基本层和若干个增强层，基本层必须保证全部传输，带宽越宽，能传输的增强层数就越多，重建视频图像质量越好，增强层依赖于基本层，没有基本层有再多的增强层也没有用。可扩展视频编码方法主要有空域分层、时域分层、SNR(信噪比)分层、FGS(精细可分层)等方法，它通过进行一次编码，就可以生成一路适合多种信道环境的码流，因而其灵活性高于视频转换编码方法，但是可扩展视频要求解码器支持多层解码，这种复杂的解码功能在未来几年的手持终端上是不容易被支持的，另外其码率控制方式远远复杂于视频转换编码，导致流媒体服务器端的运算复杂度提高，而且由于分层导致头信息增加，这种编码方式得到的重建视频图像质量与在相同的带宽条件下视频转换编码获得的重建视频图像质量相比要差。多描述编码是一种将原始视频编码成多路视频流，其中任何一路视频流都可单独解码播放，通过多路解码视频流的合并来获得更好的重建图像质量并增强视频流对网络的适应性，但是其实现复杂度很高，而且重建视频图像质量的波动通常较大。因此，可扩展视频编码方法与视频转换编码方法相比，运算复杂度高，应用范围有限。
随着移动通信的不断发展，无线接入带宽越来越高，通过屏幕较小的手持终端观看视频越来越引人注目，同时多媒体检索的不断发展也要求能够用较窄的带宽、较小的版面浏览部分视频信息，因此需要对编码视频流的空间分辨率转换技术做深入的研究。
传统的编码视频流的空间分辨率下变换方法是对待转换的视频流先解码，然后在像素域实行向下采样，最后进行编码，然而由于运动估计的计算量极大，使得这种转换编码计算量很大，因此出现许多获得空域下变换后宏块运动矢量的快速重估方法。在待转换视频流的帧间编码帧中，假如每个宏块通过四分之一空域降采样后变为一个8*8大小的块，同时原来宏块的运动矢量除以2就变成了该8*8块的运动矢量，则获得转换后视频流帧间编码帧中宏块运动矢量最简单的方法就是对构成该宏块的四个8*8块的运动矢量求平均(MEAN)，见公式(1-1)。如果构成该宏块的四个8*8块的运动矢量的水平分量和垂直分量的值完全相同，那么采用这种方法是完全合适的，但是当构成该宏块的四个8*8块的运动矢量不完全相同时，这种方法会产生很大的误差。基于此，文献[1]采用自适应运动矢量重采样方法(AMVR)，即用加权平均的方法来获得空域降采样后宏块的运动矢量每个运动矢量的权重等于其对应的转换前视频流中宏块中的4个8*8块经过DCT变换后的非零交流系数的个数Ai(归一化后的值)，见公式(1-2)。文献[2]提出了另一种获取空域下采样后宏块运动矢量的方法，称为中值法(MEDIAN)，从四个空域降采样前宏块的运动矢量中选取与其它三个运动矢量距离最小的那个运动矢量除以2作为降采样后所得宏块的运动矢量见公式(1-3)。文献[3]提出用四个空域降采样前宏块的运动矢量及其均值进行运动估计，如果通过某个运动矢量获得的SAD值为零，则将该运动矢量作为最终的运动矢量否则通过公式(1-4)获得一个新的运动矢量然后将该矢量获得的SAD值与之前获得的五个SAD值比较，选择SAD值最小的那个运动矢量作为最终的运动矢量 v&RightArrow;s=(Σi=14v&RightArrow;i)/8---(1-1)]]>v&RightArrow;s=(Σi=14Ai×v&RightArrow;i/2)---(1-2)]]>di=Σj=1j&NotEqual;i4|v&RightArrow;i-v&RightArrow;j|---(1-3)]]>v&RightArrow;ni=(Σi=141SADiv&RightArrow;i)/(Σi=141SADi)---(1-4)]]>文献[1]~[3]研究了有关空间视频分辨率转换编码过程中快速运动矢量的重估方法以及运动矢量的更新准则，但它们获得的重建视频图像质量并不尽如人意。

发明内容
为克服现有技术的不足，本发明的目的在于提供一种基于空间分辨率变换的视频转换编码方法，该方法可极大地减少视频转换编码过程中的计算量，提高编码速度，而且获得接近于全搜索块匹配方法的重建视频图像质量，并可以有效地降低网络带宽变化对重建视频图像质量的影响，提高网络带宽的利用率，同时保证视频流的可扩展性和交互性，提供极佳的视觉体验。
本发明采用的技术方案是一种基于空间分辨率变换的视频转换编码方法，通过利用已编码视频流中的运动信息和DCT变换得到的直流系数重新估计转换编码后视频流的运动矢量，其特征在于，所述方法在像素域进行，空域降采样滤波器选用四点像素值取平均的方式，选择大的DC系数作为宏块活动性的判断标志，空间分辨率转换编码后得到的编码视频流的每一个宏块对应于转换前编码视频流的四个宏块，利用这四个宏块及其相邻八个宏块的运动矢量来计算转换编码后编码视频流中相应宏块的运动矢量，如果转换编码后宏块对应的转换编码前的四个宏块中任何一个宏块采用帧内编码方式，则转换编码后的宏块也采用帧内编码方式，否则采用帧间编码方式，转换编码后采用帧间编码方式编码的宏块的运动矢量可由公式(1-5)计算获得
v&RightArrow;s=(r×v&RightArrow;i+(1-r)Σj=18wnj×v&RightArrow;nj)/2---(1-5)]]>公式(1-5)中，wnj＝0.125，r、的取值方式如下(1)如果四个都相等，所以选取四个宏块中任一作为上式中的取值，r＝1；(2)如果四个都不相等，选取四个宏块中残差DCT直流系数最大的那个作为上式中的取值，r＝0.75；(3)如果上述情况都不成立，选取四个宏块中残差DCT直流系数最小的那个作为上式中的取值，使其逼近于物体的总体运动趋势，r＝1。
为了使更加精确化，需要根据转换编码后宏块对应的原编码视频流中四个宏块的运动矢量的情况选择合适的搜索窗口对进行更新(初始搜索中心为通过得到的参考帧中的位置)，具体步骤如下(1)如果四个都相等，表明转换后编码宏块包含的四个8*8块具有相同的运动趋势，不需要对进行更新；(2)如果四个都不相等，搜索窗口大小为±2；(3)如果上述情况都不成立，选取相对较小的搜索窗口对其进行更新，搜索窗口大小为±1。
本发明具备以下效果由于通过利用已编码视频流中的运动信息和DCT变换得到的直流系数重新估计转换编码后视频流的运动矢量，转换编码后采用帧间编码方式编码的宏块的运动矢量公式及对更新，因而可极大地减少视频转换编码过程中的计算量，提高编码速度，而且获得接近于全搜索块匹配方法的重建视频图像质量，并可以有效地降低网络带宽变化对重建视频图像质量的影响，提高网络带宽的利用率，同时保证视频流的可扩展性和交互性，提供极佳的视觉体验。。

图1是空间分辨率视频转换编码中的运动矢量估计示意2是DCT直流系数对应位置示意3是视频序列使用不同空域转换编码方法PSNR变化示意图(相对于FS)图4是视频序列Tennis使用不同空域转换编码方法所得重建视频图像具体实施方式
下面结合附图和实施例进一步说明本发明。
本发明提出一种基于空间分辨率变换的视频转换编码方法(SFMVRE)，该方法通过利用已编码视频流中的运动信息和DCT变换得到的直流系数重新估计转换编码后视频流的运动矢量，可减少视频转换编码过程中的计算量，提高编码速度，而且获得接近于全搜索块匹配方法的重建视频图像质量。需要指出，方法处理均是在像素域进行的，不在频域进行的主要原因在于频域视频转换编码建立在运动补偿过程的线性化、不考虑帧缓存前的截断函数、DCT/IDCT变换在编解码过程中具有一致的算术精度以及转换编码后每个宏块的编码模式和转换前的编码模式相一致的四个假设条件下，但是通常情况下这四种假设很难成立，因此会产生漂移错误而降低重建视频图像的质量。
假定转换后编码视频流的空间分辨率是转换前编码视频流的四分之一，考虑到转换编码器实现的复杂性和速度等因素，空域降采样滤波器选用最简单的四点像素值取平均的方式或其它方法实现。
视频编码国际标准中，帧间预测编码可采用帧预测和场预测两种方式，因此前向预测帧的每一宏块运动矢量的个数可能是一个或两个。如果空间分辨率转换编码前输入编码视频流中使用帧间编码方式编码的宏块采用帧预测方式，那么所得的运动矢量就是该宏块的运动矢量。如果采用场预测，每一宏块被分成16*8奇偶两个块，则该宏块的运动矢量为DCT变换后拥有大的直流系数之和的16*8块对应的运动矢量，这样做的原因在于块匹配方法建立宏块内所有像素都处于平动状态下且拥有相同的运动趋势这一假设条件下，但通常在物体边缘处，这一条件很难满足，所以块匹配方法在物体边缘处存在产生大的预测误差这一趋势，同时经过运动补偿得到的残差宏块的像素值服从拉普拉斯分布，这意味着量化后直流系数不为零的可能性大于交流系数，且实验证明宏块的活动性与DCT系数的能量有关，所以选择大的DC系数作为宏块活动性的判断标志。
空间分辨率转换编码后得到的编码视频流的每一个宏块对应于转换前编码视频流的四个宏块，为了加快运动矢量重估过程，可利用这四个宏块及其相邻八个宏块的运动矢量来计算转换编码后编码视频流中相应宏块的运动矢量。如图1所示，是转换编码后编码视频流中采用帧间编码方式编码的宏块的运动矢量， (i＝1...4)是构成该宏块对应的四个转换编码前对应宏块的运动矢量，为降低块间效应对重建视频质量的影响，方法也利用与它们相邻的八个宏块的运动矢量 (i＝1...8)参与部分宏块的运动矢量重估过程来平滑运动场，从而提高重建视频图像质量。
如果转换编码后宏块对应的转换编码前的四个宏块中任何一个宏块采用帧内编码方式，则转换编码后的宏块也采用帧内编码方式，否则采用帧间编码方式，原因在于通过适量的引入帧内编码宏块，能提高重建视频图像的质量，转换编码后采用帧间编码方式编码的宏块的运动矢量可由公式(1-5)计算获得。
v&RightArrow;s=(r×v&RightArrow;i+(1-r)Σj=18wnj×v&RightArrow;nj)/2---(1-5)]]>公式(1-5)中，wnj＝0.125，r、的取值方式如下(4)如果四个都相等，表明这些宏块运动相对平坦，所以选取四个宏块中任一作为上式中的取值，r＝1；(5)如果四个都不相等，表明这些宏块运动比较剧烈，转换编码后产生块效应的可能性较大，需要利用相邻宏块的运动矢量来对局部运动矢量场进行平滑，同时考虑到块匹配运动估计在这样的区域产生大的预测残差的可能性较大，所以选取四个宏块中残差DCT直流系数(如图2所示，构成其四个块残差DCT直流系数之和)最大的那个作为上式中的取值，r＝0.75；(6)如果上述情况都不成立，表明四个宏块中部分宏块位于物体内部，部分宏块位于物体边缘的可能性很大，由于块匹配运动估计固有的缺点使其在物体边缘处产生的运动矢量与物体运动的总体趋势可能不一致，从而导致转换编码后在物体边缘处产生块效应的可能性增加，所以选取四个宏块中残差DCT直流系数最小的那个作为上式中的取值，使其逼近于物体的总体运动趋势，r＝1。
完成上述过程后，为了使更加精确化，需要根据转换编码后宏块对应的原编码视频流中四个宏块的运动矢量的情况选择合适的搜索窗口对进行更新(初始搜索中心为通过得到的参考帧中的位置)，具体步骤如下(4)如果四个都相等，表明转换后编码宏块包含的四个8*8块具有相同的运动趋势，所以不需要对进行更新；(5)如果四个都不相等，表明转换后编码宏块包含的四个8*8块具有不同的运动趋势，所以应选取较大的搜索窗口对其进行更新，搜索窗口大小为±2；(6)如果上述情况都不成立，表明该区域运动相对平缓，所以选取相对较小的搜索窗口对其进行更新，搜索窗口大小为±1。
空间分辨率转换编码实验中，对七个不同运动复杂度、编码速率为384kbit/s的CIF格式视频序列做了测试，每个序列均编码100帧，缺省搜索窗口大小为±7，GOP(group of picture)采用IPPPPPPPPP这样的结构，空域降采样后编码速率为96kbit/s。
表1-1不同序列使用各种空域转换编码方法所得PSNR(单位dB)(相对于FS) 表1-1中比较了MEAN、AMVR、MEDIAN、PME、SFMVRE、SFMVRE+R方法相对于FS方法的PSNR变化情况。可以看出，MEAN方法的重建视频图像质量最差，原因在于该方法只是简单地对四个宏块的运动矢量做平均而不考虑任何纹理信息；AMVR方法次之，原因在于其通过非零交流系数的个数作为四个运动矢量的权重，所以在视频序列运动相对平缓时运动矢量通过该权重可获得一定程度的区分，从而得到略优于AMVR方法的重建视频质量，如视频序列Akiyo、Garden，但当视频序列运动剧烈时，每个宏块都可能包含较多的非零交流系数，那么通过非零交流系数得到的权重就失去了意义，此时AMVR方法类似于MEAN方法，甚至在运动剧烈的视频序列Football、Mobile中AMVR方法的重建视频质量低于MEAN方法；MEDIAN方法通过选取四个运动矢量中与其它三个距离最小的运动矢量作为当前宏块的运动矢量，当视频运动相对平缓时，该方法倾向于选取预测残差小的运动矢量，所以重建视频图像质量较好，但当运动剧烈时，由于各宏块的运动变化很大，通过该方法选择的运动矢量缺乏代表性，所以重建视频质量较差；PME方法通过对四个运动矢量及其均值进行块匹配运算等一系列步骤获得运动矢量，当视频运动平缓时，该方法获得的运动矢量比较准确，而且当视频运动剧烈时，该方法以块匹配运算后SAD值的倒数作为每个运动矢量的权重，由于利用了当前编码宏块在参考帧中的实际SAD值，所以最终获得的运动矢量略优于上述其它方法；SFMVRE方法通过对视频序列中运动剧烈的区域进行平滑，同时对运动相对平缓的区域选择使其更接近于局部区域总体运动趋势的方法，很好地改善了重建视频图像质量，特别是当视频序列运动剧烈时，如Football、Mobile；SFMVRE+R(refinement)方法通过对SFMVRE方法得到的运动矢量进行更新，可获得接近于FS方法的重建视频图像质量，特别对Football视频序列而言，该方法获得的重建视频图像质量略高于FS算的重建视频图像质量，原因在于该序列运动非常剧烈，所以某些图像获得的运动矢量接近或位于搜索窗的边缘，此时再通过进一步的更新，可能找到更符合物体运动趋势的运动矢量，导致重建视频图像质量会略高于FS方法。
如图3所示，通过比较运动平缓的视频序列Akiyo和运动剧烈的视频序列Football采用不同空域转换编码方法时PSNR相对于FS方法的变化情况，可以看出，本发明提出的SFMVRE方法对运动平缓的视频序列的重建视频质量改善不大，但运动剧烈的视频序列相比其它方法重建视频图像质量有较明显的改善。
如图4所示，视频序列Tennis通过MEAN、AMVR、MEDIAN方法获得的重建视频图像中乒乓球轮廓比较模糊，同时在乒乓球运动的轨迹上有明显的块效应，PME方法获得的乒乓球轮廓好于MEAN、AMVR、MEDIAN方法，同SFMVRE方法获得的轮廓接近，但乒乓球运动的轨迹上的块效应比SFMVRE方法明显，可以看出，本章提出的SFMVRE方法可获得更接近于FS方法的重建视频质量。
以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。
参考文献[1]Bo Shen，et al，Adaptive motion-vector resampling for compressed videodownscaling，IEEE Transactions on Circuits and Systems for Video Technology，1999，Vol.9929-936[2]Juniehi NAKAJIMA，et al，Motion vector re-estimation for fast video transcodingfrom MPEG-2 to MPEG-4，NIT Cyber Space Laboratories Justy.W.C.Wong，Oscar.C.AU，Modified predictive motion estimation forreduced-resolution video from high-resolution compressed video，ISCAS.99，1999，4524-52权利要求
1.一种基于空间分辨率变换的视频转换编码方法，通过利用已编码视频流中的运动信息和DCT变换得到的直流系数重新估计转换编码后视频流的运动矢量，其特征在于，所述方法在像素域进行，空域降采样滤波器选用四点像素值取平均的方式，选择大的DC系数作为宏块活动性的判断标志，空间分辨率转换编码后得到的编码视频流的每一个宏块对应于转换前编码视频流的四个宏块，利用这四个宏块及其相邻八个宏块的运动矢量来计算转换编码后编码视频流中相应宏块的运动矢量，如果转换编码后宏块对应的转换编码前的四个宏块中任何一个宏块采用帧内编码方式，则转换编码后的宏块也采用帧内编码方式，否则采用帧间编码方式，转换编码后采用帧间编码方式编码的宏块的运动矢量可由公式(1-5)计算获得v&RightArrow;s=(r×v&RightArrow;i+(1-r)Σj=18wnj×v&RightArrow;nj)/2---(1-5)]]>公式(1-5)中，wnj＝0.125，r、的取值方式如下(1)如果四个都相等，所以选取四个宏块中任一作为上式中的取值，r＝1；(2)如果四个都不相等，选取四个宏块中残差DCT直流系数最大的那个作为上式中的取值，r＝0.75；(3)如果上述情况都不成立，选取四个宏块中残差DCT直流系数最小的那个作为上式中的取值，使其逼近于物体的总体运动趋势，r＝1；为了使更加精确化，需要根据转换编码后宏块对应的原编码视频流中四个宏块的运动矢量的情况选择合适的搜索窗口对进行更新(初始搜索中心为通过得到的参考帧中的位置)，具体步骤如下(1)如果四个都相等，表明转换后编码宏块包含的四个8*8块具有相同的运动趋势，不需要对进行更新；(2)如果四个都不相等，搜索窗口大小为±2；(3)如果上述情况都不成立，选取相对较小的搜索窗口对其进行更新，搜索窗口大小为±1。
全文摘要
本发明属于数据压缩及通信领域，涉及视频压缩及传输领域技术。为提供一种基于空间分辨率变换的视频转换编码方法，可极大地减少视频转换编码过程中的计算量，提高编码速度，并可以有效地降低网络带宽变化对重建视频图像质量的影响，同时保证视频流的可扩展性和交互性，提供极佳的视觉体验。本发明采用的技术方案是，在像素域通过利用已编码视频流中的运动信息和DCT变换得到的直流系数重新估计转换编码后视频流的运动矢量，空域降采样滤波器选用四点像素值取平均的方式，选择大的DC系数作为宏块活动性的判断标志，利用四个宏块及其相邻八个宏块的运动矢量来计算转换编码后编码视频流中相应宏块的运动矢量。本发明主要用于数据压缩及通信。
文档编号H04N7/30GK1801939SQ200510122589
公开日2006年7月12日申请日期2005年12月22日优先权日2005年12月22日
发明者李华, 鲁照华, 侯玲申请人:天津大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李华;鲁照华;候玲
技术所有人：天津大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。