一种自适应运动估计方法

文档序号：7919359阅读：345来源：国知局

专利名称：一种自适应运动估计方法
技术领域：
本发明涉及一种自适应运动估计方法，属于视频编解码技术领域，应用于视频编码过程中的运动估计。
背景技术：
视频序列图像在时间上存在很强的相关性，采用运动估计和运动补偿技术可以消除时间冗余以提高编码效率，这种技术广泛用于视频压縮的一些国际标准中，如H. 261、H. 263、H. 264、 MPEG-1、 MPEG-2、 MPEG-4。运动估计方法根据作用对象的不同可以分为基于象素点的运动估计，基于块匹配的运动估计，基于区域的运动估计和基于网格的运动估计，其中块匹配运动估计因方法简单、便于硬件实现得到广泛应用。
块匹配运动估计的基本思想是将图像序列的每一帧分成许多互不重叠的宏块，并认为宏块内所有象素的位移量都相同，然后对每个宏块到参考帧某一给定搜索范围内根据一定的匹配准则找出与当前块最相似的块，即匹配块，匹配块与当前块的相对位移即为运动矢量。视频压縮的时候，只需保存运动矢量和残差数据就可以完全恢复出当前块。
块匹配运动估计有众多的运动搜索方法，其中最简单的是全搜索法。全搜索法对搜索窗内的所有点进行穷尽搜索，这种方法精度最高，但技术复杂度大；许多快速方法能够有效降低技术复杂度，如三步法[l]，菱形法[2]， PMVFAST[3]以及非对称六角形法[4]。
在一个视频编码器中，宏块编码过程依次为帧内预测，运动估计，模式决策，DCT变换和量化和熵编码，如图2(a)所示。在视频压縮过程中，运动估计模块需要最多的技术资源。视频编码器的ASIC设计出于技术资源、存储空间和访问带宽的考虑，对运动估计方法在搜索点数、方法规则性、以及搜索窗大小有着严格的要求。上述的传统快速运动估计方法多采用分级搜索、早期截止以及不规则的搜索窗，尽管搜索点数大幅度减少，但不利于硬件实现。全搜索运动估计采用规则的搜索窗口，但需要穷尽搜索导致搜索点数过多，增加了运动估计的技术复杂度。

发明内容
所要解决的问题
本发明针对现有方法在处理包含剧烈运动高清晰度图像时压縮性能偏低，技术复杂度高
或不适合硬件实现的不足而提供了一种基于全局运动的自适应运动估计方法。
技术方案1、本发明包括运动矢量信息、宏块编码模式信息采集，全局运动信息分析和自适应运动估计。
运动矢量信息、宏块编码模式信息采集通过直方图记录一帧中不同大小运动矢量的频率，并记录一帧中各宏块编码模式的频率；对于每个运动矢量还需统计水平分量与垂直分量之间比率的频率。
对于不同尺寸的块帧间编码模式，需要记录的运动矢量个数分别为l个帧间16x16模式，2个帧间16x8和帧间8x16， 4个帧间8x8, 8个帧间8x4, 8个帧间4x8， 16个帧间4x4。
全局运动信息统计分析使用运动矢量直方图确定全局运动矢量，并通过统计方法分析当前帧中景物在水平、垂直方向的运动特征。
运动矢量直方图中频率最大的运动矢量表示为gmvMax， gmvMaxFrq表示gmvMax归一后的频率；运动矢量直方图中频率最大的3个运动矢量的中值表示为gmvMedian。当gmvMax与 gmvMedian之间整象素距离大于4且gmvMaxFrq小于0. 6，此时GMV等于gmvMedian,否则GMV 等于gmvMax 。
如果所有宏块运动矢量的水平分量大于2倍垂直分量的概率达到80%，将标识符 horizontalMotionFlag置为1;如果所有宏块运动矢量的垂直分量大于2倍水平分量的概率达到80%，将标识符verticalMotionFlag置为1;否则horizontalMotionFlag和 verticalMotionFlag者卩被置为0。
自适应运动估计包括的步骤为
第一步骤当GMV与MVP之间的整象素距离超过W1宽度的一半时，将使用2个搜索窗 W1和W2，其中Wl以MVP为搜索窗中心，W2以GMV为搜索窗中心；
第二步骤如果不满足上述条件，检査当前宏块相邻左边和上边宏块的编码模式是否均满足以下条件为帧内4x4模式，或为帧内16x16模式且宏块SAD大于5000;如果当前宏块相邻左边和上边宏块均满足条件，则检査全局运动优势方向标识符horizontalMotionFlag和 verticalMotionFlag,若horizontalMotionFlag为TRUE,则选择W3作为搜索窗，若 verticalMotionFlag为TRUE,则选择W4作为搜索窗；如果上述条件仍不满足，则选择搜索窗W5。
基于全局运动的自适应运动估计方法在视频编码器中的应用(l)视频序列的第一帧按照 I帧编码，对每个宏块进行帧内预测，然后当前块的预测值与原始值之间的差值进行DCT变换和量化，最后对量化后的DCT系数和宏块头等信息进行熵编码；所有宏块编码结束后，进
入第二帧的编码；
(2) 第二帧的编码首先对每个宏块分别进行帧内预测和运动估计，由于此时前一帧的全局运动信息无效，这里的运动估计未使用自适应运动估计方法；之后，编码器根据率失真成本进行模式决策，得到宏块编码模式；此时，需要采集全局运动信息分析步骤需要的运动矢量和宏块编码模式信息；然后对当前块和参考块之间的残差进行DCT变换和量化，最后对量化后的DCT系数和运动矢量、宏块头等信息进行熵编码；当第二帧所有宏块全部编码结束后，本发明需要根据之前采集的所有宏块的运动矢量和宏块编码模式信息，进行全局运动信息分析；
(3) 第三帧及之后若干帧的编码首先对每个宏块分别进行帧内预测和运动估计，此时，运动估计使用自适应运动估计方法；之后，编码器根据率失真成本进行模式决策，得到宏块编码模式；此时，需要采集全局运动信息分析步骤需要的运动矢量和宏块编码模式信息；然后对当前块和参考块之间的残差进行DCT变换和量化，最后对量化后的DCT系数和运动矢量、宏块头等信息进行熵编码；当前帧所有宏块全部编码结束后，需要根据之前采集的所有宏块的运动矢量和宏块编码模式信息，进行全局运动信息分析，用于下一帧的自适应运动估计。
有益效果-
本发明提出的自适应运动估计方法能够有效克服现有方法在处理包含剧烈运动的高清晰度图像时压縮性能偏低的不足，该方法由于自适应地选择搜索窗的中心、搜索窗的大小和形状，能够在不增加搜索点数的前提下，增大搜索范围，提高运动搜索的精度。此外，本发明提出的方法采用规则的搜索窗，非分级、非提前截止的搜索策略，适合硬件实现。最后，本发明描述的方法在全局运动剧烈的特定环境下发生作用，不会影响处理运动相对平缓视频序列的性能。

图1为搜索窗尺寸对编码性能的影响示图；图2 (a)为现有技术中视频编码流程图；图2 (b)为本发明应用于视频编码器的流程图；图3为自适应运动估计搜索窗形状选择。
具体实施方式
原理
运动相对平缓的序列对于搜索窗的大小并不十分敏感。此外，H.264中的帧内模式在编码纹理简单的宏块比编码纹理相对复杂的宏块效率高的多[5]。因此编码纹理简单的宏块时，编码器选择帧内模式或跳过模式(Skip)的概率较大。这种情况下，即使该宏块编码为帧内块，所消耗的比特也不会很多。对于纹理比较复杂的区域，通常情况下，如没有全局运动或全局运动较小时，编码模式为帧间预测的宏块消耗的比特要远小于编码模式为帧内的宏块，因此该区域的宏块倾向于编码为帧间模式。但当全局运动较大并超出搜索窗的搜索范围时，采用帧间模式编码的率失真成本(R-D Cost)很可能大于采用帧内模式编码，使得编码器最终以帧内模式编码该宏块，由于采用帧内预测处理这类宏块的效率很低，导致编码比特显著增加。这种情况下，如果能够找到当前序列的全局运动矢量，并令该宏块的起始搜索点沿全局运动矢量方向移动，将有利于找到真实的最优运动矢量，提高编码效率。
本发明提出的自适应运动估计方法，应用于通用标准的视频编码器(如MPEG-4， H.264 等)，能够有效提高编码器压縮效率。该方法通过统计信息判断视频序列的运动剧烈程度，找到全局运动矢量，并以该全局运动矢量所指向的参考宏块为中心，根据图像分辨率、全局运动和编码模式的统计信息自适应地决定搜索窗口的大小和形状。该搜索窗口与以相邻块预测运动矢量为中心的搜索窗口配合，能够在不增加搜索点数的条件下，有效地处理剧烈全局运动的情况。
下面结合附图和具体实施方式
对本发明作进一步详细地说明。图2 (b)，设编码帧序列结构为IPPP:
1、视频序列的第一帧按照I帧编码，对每个宏块进行帧内预测，然后当前块的预测值与原始值之间的差值进行DCT变换和量化，最后对量化后的DCT系数和宏块头等信息进行熵编码；所有宏块编码结束后，进入第二帧的编码；
2、第二帧的编码首先对每个宏块分别进行帧内预测和运动估计，由于此时前一帧的全局运动信息无效，这里的运动估计未使用本发明提出的自适应运动估计方法；之后，编码器根据率失真成本进行模式决策，得到宏块编码模式；此时，本发明需要采集全局运动信息分析步骤需要的运动矢量和宏块编码模式信息；然后对当前块和参考块之间的残差进行DCT变换和量化，最后对量化后的DCT系数和运动矢量、宏块头等信息进行熵编码；当第二帧所有宏块全部编码结束后，本发明需要根据之前采集的所有宏块的运动矢量和宏块编码模式信息，进行全局运动信息分析；
3、第三帧及之后若干帧的编码首先对每个宏块分别进行帧内预测和运动估计，此时，运动估计使用本发明提出的自适应运动估计方法；之后，编码器根据率失真成本进行模式决策，
得到宏块编码模式；此时，本发明需要采集全局运动信息分析步骤需要的运动矢量和宏块编码模式信息；然后对当前块和参考块之间的残差进行DCT变换和量化，最后对量化后的DCT 系数和运动矢量、宏块头等信息进行熵编码；当前帧所有宏块全部编码结束后，本发明需要根据之前采集的所有宏块的运动矢量和宏块编码模式信息，进行全局运动信息分析，用于下一帧的自适应运动估计。
本发明提出的自适应运动估计方法分为三部分运动矢量信息、宏块编码模式信息采集，全局运动信息分析和自适应运动估计。
1、运动矢量信息、宏块编码模式信息采集。本发明提出的运动矢量、宏块编码模式信息采集通过直方图记录一帧中不同大小运动矢量的频率，并记录一帧中各宏块编码模式的频率。对于不同尺寸的块帧间编码模式，需要记录的运动矢量个数分别为帧间16x16模式(l个)，帧间16x8和帧间8x16 (2个)，帧间8x8 (4个)，帧间8x4 (8个)，帧间4x8 (8个)，帧间 4x4 (16个)。对于每个运动矢量还需统计水平分量与垂直分量之间比率的频率。
2、全局运动信息统计分析。本发明提出的全局运动信息统计分析使用运动矢量直方图确定全局运动矢量，并通过统计方法分析当前帧中景物在水平、垂直方向的运动特征。
运动矢量直方图中频率最大的运动矢量表示为gmvMax， gmvMaxFrq表示gmvMax归一后的频率；运动矢量直方图中频率最大的3个运动矢量的中值表示为gmvMedian。当gmvMax与 gmvMedian之间整象素距离大于4且gmvMaxFrq小于0. 6，表明当前帧中运动相对散乱，全局运动并不明显，此时GMV等于gmvMedian，否则GMV等于gmvMax。
如果所有宏块运动矢量的水平分量大于2倍垂直分量的概率达到80%，表明前一帧中水平运动占优，将标识符horizontalMotionFlag置为1;如果所有宏块运动矢量的垂直分量大于2倍水平分量的概率达到80% ，表明前一帧中垂直运动占优，将标识符verticalMotionFlag 置为1;否则horizontalMotionFlag和verticalMotionFlag都被置为0。
3、自适应运动估计。本发明提出的自适应运动估计根据全局运动矢量(GMV)与预测运动矢量(MVP)之间的关系，以及相邻宏块的编码模式来选择搜索模式。搜索窗大小的选择与图像分辨率有关，本发明提出的自适应运动估计方法需要用到五个大小不同的搜索窗，分别命名为Wl、 W2、 W3、 W4、 W5。上述五个搜索窗的大小与所处理的图像尺寸有关，对于1920x1080 的图像，上述五个搜索窗尺寸分别为16x16、 16x8、 48x8、 16x32、 32x16。自适应运动估计的方法流程如下所示
1)、首先，当GMV与MVP之间的整象素距离超过W1宽度的一半时，本发明使用2个搜索窗W1和W2，其中Wl以MVP为搜索窗中心，W2以GMV为搜索窗中心。2)、如果不满足上述条件，检查当前宏块相邻左边和上边宏块的编码模式是否均满足以下条件为帧内4x4模式，或为帧内16x16模式且宏块SAD大于5000。如果当前宏块相邻左边和上边宏块均满足条件，则检查全局运动优势方向标识符horizontalMotionFlag和 verticalMotionFlag,若horizontalMotionFlag为TRUE,则选择W3作为搜索窗，若 verticalMotionFlag为TRUE,则选择W4作为搜索窗；如果上述条件仍不满足，则选择搜索窗W5。
图3(a广(c)表示使用两个搜索窗时Wl和W2不同相对位置的三种典型情况，(d广(f)分别表示W3、 W4、 W5。图中VI表示预测运动矢量MVP， V2表示全局运动矢量GMV， 0表示当前块位置。当W1与W2有重叠区域时，重叠区域的搜索点不会参与重复技术。为了说明运动估计方法特别是搜索窗大小对编码性能的影响，我们进行了相关试验，针对包含剧烈运动的高清晰度图像测试了运动估计的性能。出于对比目的，试验选用了 Mobile (720x480)， Suzie (720x480)， Vcref (1280x720), RushHour (1920x1088)共4个运动相对平缓的序列，以及Cheerleader (720x480)， Football (720x480)， Race一seg0 (1920x1088)， Race_segl(1920x1088)共4个运动相对剧烈的序列。上述序列中，Race—seg0和Race—segl 是从游戏画面截取的视频序列，内容包括高速运动的赛车和剧烈的摄像机运动，其他序列均为标准测试序列，可以从[6]、 [7]下载。运动估计方法采用全搜索。针对上述八个序列，测试了搜索窗大小对编码性能的影响。测试数据如图Ua) (h)所示，其中图1 (a)为Mobile (720x480)序列；图1 (b)为Suzie (720x480)序列；图1 (c)为RushHour (1920x1088)序列; 图1 (d)为Vcref (1280x720)序列;图1 (e)为Cheerleader (720x480)序列;图1 (f)为Football (720x480)序列；图1 (g)为Race—segO (1920x1088)序列；图1 (h)为Race—segl (1920x1088) 序列。测试中搜索窗高度为搜索窗宽度的1/2。图1中的码率增加值是指不同搜索窗尺寸相对于512x256的码率增加值。搜索窗尺寸对编码性能的影响
通过对试验数据分析可以发现，运动相对平缓的序列，如序列Mobile (720x480), Suzie (720x480)， Vcref (1280x720)， RushHour (1920x1088), 搜索窗尺寸的减小对R-D性能的影响很小，上述序列当搜索窗宽度为64以上时，码率变化范围在-1 1%;当搜索窗尺寸降到32x16时，上述序列码率大约有1 2%的增加。
运动相对剧烈的序列，如序列Cheerleader (720x480)， Football (720x480)， Race_seg0 (1920x1088), Race一segl (1920x1088)搜索窗尺寸的减小对R-D性能的影响较大。当搜索窗大小为64x32时，码率增加分别为2. 6%, 2. 58%， 4. 06%和5. 11%;当搜索窗口大小进一步减小到32xl6时，码率增加增大为5.85%， 7.53%， 14.02%, 11.05%。由上述分析可以知道，搜索窗的大小对运动估计方法处理运动相对剧烈的视频序列时的性能有很大影响。搜索窗尺寸越大，运动估计在处理上述序列时性能就越好。但是对于硬件实现，技术资源有限，如何在有限搜索点数下提高运动估计方法的性能，同时保持方法的易实现性，是本发明解决的主要问题。
以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包括在本发明的保护范围之内。 Li R.， Liu M. L.， Liu M. L.， "A New Three-step Search Algorithm for Block Motion Estimation", P438-442， IEEE Transactions on Circuits and Systems for Video Technology, Apr. 1994 Zhu S.,"A New Diamond Search Algorithm for Fast Block-matching Motion Estimation",P287-290，IEEE Transactions on Image Processing, Sep.2000 Zhibo Chen, Yun He， "Fast Integer and Fractional Pel Motion estimation", JVT-E045.doc A. M. Tourapis， O. C. Au， and M. L. Liou， "Fast Motion Estimation using Circular Zonal Search", ISO/IEC JTC1/SC29/WG11 MPEG9/m4038， Atlantic City, NJ， USA， Oct. 1998. ISO publication page: ISO/IEC 14496-10:2005 - Information technology — Coding of audio-visual objects — Part 10: Advanced Video Coding". Retrieved on 2007-09-13. ftp:〃ftp.imte-files.org/ivt-experts/members/sequences/ ftp:〃59.226.42.5权利要求
1、一种自适应运动估计方法，其特征在于包括运动矢量信息、宏块编码模式信息采集，全局运动信息分析和自适应运动估计。
2、根据权利要求l所述的一种自适应运动估计方法，其特征在于运动矢量信息、宏块编码模式信息采集通过直方图记录一帧中不同大小运动矢量的频率，并记录一帧中各宏块编码模式的频率；对于每个运动矢量还需统计水平分量与垂直分量之间比率的频率。
3、根据权利要求2所述的一种自适应运动估计方法，其特征在于对于不同尺寸的块帧间编码模式，需要记录的运动矢量个数分别为l个帧间16x16模式，2个帧间16x8和帧间 8x16， 4个帧间8x8， 8个帧间8x4， 8个帧间4x8， 16个帧间4x4。
4、根据权利要求l所述的一种自适应运动估计方法，其特征在于全局运动信息统计分析使用运动矢量直方图确定全局运动矢量，并通过统计方法分析当前帧中景物在水平、垂直方向的运动特征。
5、根据权利要求4所述的一种自适应运动估计方法，其特征在于运动矢量直方图中频率最大的运动矢量表示为gmvMax， gnwMaxFrq表示gmvMax归一后的频率；运动矢量直方图中频率最大的3个运动矢量的中值表示为gmvMedian。当gmvMax与gravMedian之间整象素距离大于4且gmvMaxFrq小于0.6，此时GMV等于gmvMedian，否则GMV等于gmvMax。
6、根据权利要求4所述的一种自适应运动估计方法，其特征在于如果所有宏块运动矢量的水平分量大于2倍垂直分量的概率达到80%，将标识符horizontalMotionFlag置为1; 如果所有宏块运动矢量的垂直分量大于2倍水平分量的概率达到80%，将标识符 verticalMotionFlag置为1;否则horizontalMotionFlag和verticalMotionFlag都被置为 0。
7、根据权利要求l所述的一种自适应运动估计方法，其特征在于自适应运动估计包括的步骤为第一步骤当GMV与MVP之间的整象素距离超过Wl宽度的一半时，将使用2个搜索窗 Wl和W2，其中Wl以MVP为搜索窗中心，W2以GMV为搜索窗中心；第二步骤如果不满足上述条件，检査当前宏块相邻左边和上边宏块的编码模式是否均满足以下条件为帧内4x4模式，或为帧内16x16模式且宏块SAD大于5000;如果当前宏块相邻左边和上边宏块均满足条件，则检查全局运动优势方向标识符horizontalMotionFlag和 verticalMotionFlag，若horizontalMotionFlag为TRUE,则选择W3作为搜索窗，若 verticalMotionFlag为TRUE,则选择W4作为搜索窗；如果上述条件仍不满足，则选择搜索窗W5。
8、根据权利要求1所述的一种自适应运动估计方法在视频编码器中的应用，其特征在于 (l)视频序列的第一帧按照I帧编码，对每个宏块进行帧内预测，然后当前块的预测值与原始值之间的差值进行DCT变换和量化，最后对量化后的DCT系数和宏块头等信息进行熵编码；所有宏块编码结束后，进入第二帧的编码；(2) 第二帧的编码首先对每个宏块分别进行帧内预测和运动估计，由于此时前一帧的全局运动信息无效，这里的运动估计未使用自适应运动估计方法；之后，编码器根据率失真成本进行模式决策，得到宏块编码模式；此时，需要采集全局运动信息分析步骤需要的运动矢量和宏块编码模式信息；然后对当前块和参考块之间的残差进行DCT变换和量化，最后对量化后的DCT系数和运动矢量、宏块头等信息进行熵编码；当第二帧所有宏块全部编码结束后，本发明需要根据之前采集的所有宏块的运动矢量和宏块编码模式信息，进行全局运动信息分析；(3) 第三帧及之后若干帧的编码首先对每个宏块分别进行帧内预测和运动估计，此时，运动估计使用自适应运动估计方法；之后，编码器根据率失真成本进行模式决策，得到宏块编码模式；此时，需要采集全局运动信息分析步骤需要的运动矢量和宏块编码模式信息；然后对当前块和参考块之间的残差进行DCT变换和量化，最后对量化后的DCT系数和运动矢量、宏块头等信息进行熵编码；当前帧所有宏块全部编码结束后，需要根据之前采集的所有宏块的运动矢量和宏块编码模式信息，进行全局运动信息分析，用于下一帧的自适应运动估计。
全文摘要
本发明涉及一种自适应运动估计方法，包括运动矢量信息、宏块编码模式信息采集，全局运动信息分析和自适应运动估计。运动矢量信息、宏块编码模式信息采集通过直方图记录一帧中不同大小运动矢量的频率，并记录一帧中各宏块编码模式的频率；对于每个运动矢量还需统计水平分量与垂直分量之间比率的频率。全局运动信息统计分析使用运动矢量直方图确定全局运动矢量，并通过统计方法分析当前帧中景物在水平、垂直方向的运动特征。本发明提出的自适应运动估计根据全局运动矢量与预测运动矢量之间的关系，以及相邻宏块的编码模式来选择搜索模式。
文档编号H04N7/26GK101389023SQ20081015535
公开日2009年3月18日申请日期2008年10月21日优先权日2008年10月21日
发明者翼孙, 李维衡, 伟高申请人:镇江唐桥微电子有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：高伟;孙翼;李维衡
技术所有人：镇江唐桥微电子有限公司
我是此专利的发明人

上一篇：一种应用于有源噪声控制的组合次级声源设计方法
上一篇：对称分组密码的生成方法及其装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。