一种自适应运动估计方法

文档序号:7919359阅读:308来源:国知局
专利名称:一种自适应运动估计方法
技术领域
本发明涉及一种自适应运动估计方法,属于视频编解码技术领域,应用于视频编码过程 中的运动估计。
背景技术
视频序列图像在时间上存在很强的相关性,采用运动估计和运动补偿技术可以消除时间 冗余以提高编码效率,这种技术广泛用于视频压縮的一些国际标准中,如H. 261、H. 263、H. 264、 MPEG-1、 MPEG-2、 MPEG-4。运动估计方法根据作用对象的不同可以分为基于象素点的运动估 计,基于块匹配的运动估计,基于区域的运动估计和基于网格的运动估计,其中块匹配运动 估计因方法简单、便于硬件实现得到广泛应用。
块匹配运动估计的基本思想是将图像序列的每一帧分成许多互不重叠的宏块,并认为宏 块内所有象素的位移量都相同,然后对每个宏块到参考帧某一给定搜索范围内根据一定的匹 配准则找出与当前块最相似的块,即匹配块,匹配块与当前块的相对位移即为运动矢量。视 频压縮的时候,只需保存运动矢量和残差数据就可以完全恢复出当前块。
块匹配运动估计有众多的运动搜索方法,其中最简单的是全搜索法。全搜索法对搜索窗 内的所有点进行穷尽搜索,这种方法精度最高,但技术复杂度大;许多快速方法能够有效降 低技术复杂度,如三步法[l],菱形法[2], PMVFAST[3]以及非对称六角形法[4]。
在一个视频编码器中,宏块编码过程依次为帧内预测,运动估计,模式决策,DCT变换 和量化和熵编码,如图2(a)所示。在视频压縮过程中,运动估计模块需要最多的技术资源。 视频编码器的ASIC设计出于技术资源、存储空间和访问带宽的考虑,对运动估计方法在搜索 点数、方法规则性、以及搜索窗大小有着严格的要求。上述的传统快速运动估计方法多采用 分级搜索、早期截止以及不规则的搜索窗,尽管搜索点数大幅度减少,但不利于硬件实现。 全搜索运动估计采用规则的搜索窗口,但需要穷尽搜索导致搜索点数过多,增加了运动估计 的技术复杂度。

发明内容
所要解决的问题
本发明针对现有方法在处理包含剧烈运动高清晰度图像时压縮性能偏低,技术复杂度高
或不适合硬件实现的不足而提供了一种基于全局运动的自适应运动估计方法。
技术方案1、本发明包括运动矢量信息、宏块编码模式信息采集,全局运动信息分析和 自适应运动估计。
运动矢量信息、宏块编码模式信息采集通过直方图记录一帧中不同大小运动矢量的频率, 并记录一帧中各宏块编码模式的频率;对于每个运动矢量还需统计水平分量与垂直分量之间 比率的频率。
对于不同尺寸的块帧间编码模式,需要记录的运动矢量个数分别为l个帧间16x16模 式,2个帧间16x8和帧间8x16, 4个帧间8x8, 8个帧间8x4, 8个帧间4x8, 16个帧间4x4。
全局运动信息统计分析使用运动矢量直方图确定全局运动矢量,并通过统计方法分析当 前帧中景物在水平、垂直方向的运动特征。
运动矢量直方图中频率最大的运动矢量表示为gmvMax, gmvMaxFrq表示gmvMax归一后的 频率;运动矢量直方图中频率最大的3个运动矢量的中值表示为gmvMedian。当gmvMax与 gmvMedian之间整象素距离大于4且gmvMaxFrq小于0. 6,此时GMV等于gmvMedian,否则GMV 等于gmvMax 。
如果所有宏块运动矢量的水平分量大于2倍垂直分量的概率达到80%,将标识符 horizontalMotionFlag置为1;如果所有宏块运动矢量的垂直分量大于2倍水平分量的概率 达到80%,将标识符verticalMotionFlag置为1;否则horizontalMotionFlag和 verticalMotionFlag者卩被置为0。
自适应运动估计包括的步骤为
第一步骤当GMV与MVP之间的整象素距离超过W1宽度的一半时,将使用2个搜索窗 W1和W2,其中Wl以MVP为搜索窗中心,W2以GMV为搜索窗中心;
第二步骤如果不满足上述条件,检査当前宏块相邻左边和上边宏块的编码模式是否均 满足以下条件为帧内4x4模式,或为帧内16x16模式且宏块SAD大于5000;如果当前宏块 相邻左边和上边宏块均满足条件,则检査全局运动优势方向标识符horizontalMotionFlag和 verticalMotionFlag,若horizontalMotionFlag为TRUE,则选择W3作为搜索窗,若 verticalMotionFlag为TRUE,则选择W4作为搜索窗;如果上述条件仍不满足,则选择搜索 窗W5。
基于全局运动的自适应运动估计方法在视频编码器中的应用(l)视频序列的第一帧按照 I帧编码,对每个宏块进行帧内预测,然后当前块的预测值与原始值之间的差值进行DCT变 换和量化,最后对量化后的DCT系数和宏块头等信息进行熵编码;所有宏块编码结束后,进
入第二帧的编码;
(2) 第二帧的编码首先对每个宏块分别进行帧内预测和运动估计,由于此时前一帧的全局 运动信息无效,这里的运动估计未使用自适应运动估计方法;之后,编码器根据率失真成本 进行模式决策,得到宏块编码模式;此时,需要采集全局运动信息分析步骤需要的运动矢量 和宏块编码模式信息;然后对当前块和参考块之间的残差进行DCT变换和量化,最后对量化 后的DCT系数和运动矢量、宏块头等信息进行熵编码;当第二帧所有宏块全部编码结束后, 本发明需要根据之前采集的所有宏块的运动矢量和宏块编码模式信息,进行全局运动信息分 析;
(3) 第三帧及之后若干帧的编码首先对每个宏块分别进行帧内预测和运动估计,此时,运 动估计使用自适应运动估计方法;之后,编码器根据率失真成本进行模式决策,得到宏块编 码模式;此时,需要采集全局运动信息分析步骤需要的运动矢量和宏块编码模式信息;然后 对当前块和参考块之间的残差进行DCT变换和量化,最后对量化后的DCT系数和运动矢量、 宏块头等信息进行熵编码;当前帧所有宏块全部编码结束后,需要根据之前采集的所有宏块 的运动矢量和宏块编码模式信息,进行全局运动信息分析,用于下一帧的自适应运动估计。
有益效果-
本发明提出的自适应运动估计方法能够有效克服现有方法在处理包含剧烈运动的高清晰 度图像时压縮性能偏低的不足,该方法由于自适应地选择搜索窗的中心、搜索窗的大小和形 状,能够在不增加搜索点数的前提下,增大搜索范围,提高运动搜索的精度。此外,本发明 提出的方法采用规则的搜索窗,非分级、非提前截止的搜索策略,适合硬件实现。最后,本 发明描述的方法在全局运动剧烈的特定环境下发生作用,不会影响处理运动相对平缓视频序 列的性能。


图1为搜索窗尺寸对编码性能的影响示图; 图2 (a)为现有技术中视频编码流程图; 图2 (b)为本发明应用于视频编码器的流程图; 图3为自适应运动估计搜索窗形状选择。
具体实施方式
原理
运动相对平缓的序列对于搜索窗的大小并不十分敏感。此外,H.264中的帧内模式在编 码纹理简单的宏块比编码纹理相对复杂的宏块效率高的多[5]。因此编码纹理简单的宏块时, 编码器选择帧内模式或跳过模式(Skip)的概率较大。这种情况下,即使该宏块编码为帧内 块,所消耗的比特也不会很多。对于纹理比较复杂的区域,通常情况下,如没有全局运动或 全局运动较小时,编码模式为帧间预测的宏块消耗的比特要远小于编码模式为帧内的宏块, 因此该区域的宏块倾向于编码为帧间模式。但当全局运动较大并超出搜索窗的搜索范围时, 采用帧间模式编码的率失真成本(R-D Cost)很可能大于采用帧内模式编码,使得编码器最终 以帧内模式编码该宏块,由于采用帧内预测处理这类宏块的效率很低,导致编码比特显著增 加。这种情况下,如果能够找到当前序列的全局运动矢量,并令该宏块的起始搜索点沿全局 运动矢量方向移动,将有利于找到真实的最优运动矢量,提高编码效率。
本发明提出的自适应运动估计方法,应用于通用标准的视频编码器(如MPEG-4, H.264 等),能够有效提高编码器压縮效率。该方法通过统计信息判断视频序列的运动剧烈程度,找 到全局运动矢量,并以该全局运动矢量所指向的参考宏块为中心,根据图像分辨率、全局运 动和编码模式的统计信息自适应地决定搜索窗口的大小和形状。该搜索窗口与以相邻块预测 运动矢量为中心的搜索窗口配合,能够在不增加搜索点数的条件下,有效地处理剧烈全局运 动的情况。
下面结合附图和具体实施方式
对本发明作进一步详细地说明。 图2 (b),设编码帧序列结构为IPPP:
1、 视频序列的第一帧按照I帧编码,对每个宏块进行帧内预测,然后当前块的预测值与 原始值之间的差值进行DCT变换和量化,最后对量化后的DCT系数和宏块头等信息进行熵编 码;所有宏块编码结束后,进入第二帧的编码;
2、 第二帧的编码首先对每个宏块分别进行帧内预测和运动估计,由于此时前一帧的全局 运动信息无效,这里的运动估计未使用本发明提出的自适应运动估计方法;之后,编码器根 据率失真成本进行模式决策,得到宏块编码模式;此时,本发明需要采集全局运动信息分析 步骤需要的运动矢量和宏块编码模式信息;然后对当前块和参考块之间的残差进行DCT变换 和量化,最后对量化后的DCT系数和运动矢量、宏块头等信息进行熵编码;当第二帧所有宏 块全部编码结束后,本发明需要根据之前采集的所有宏块的运动矢量和宏块编码模式信息, 进行全局运动信息分析;
3、 第三帧及之后若干帧的编码首先对每个宏块分别进行帧内预测和运动估计,此时,运 动估计使用本发明提出的自适应运动估计方法;之后,编码器根据率失真成本进行模式决策,
得到宏块编码模式;此时,本发明需要采集全局运动信息分析步骤需要的运动矢量和宏块编 码模式信息;然后对当前块和参考块之间的残差进行DCT变换和量化,最后对量化后的DCT 系数和运动矢量、宏块头等信息进行熵编码;当前帧所有宏块全部编码结束后,本发明需要 根据之前采集的所有宏块的运动矢量和宏块编码模式信息,进行全局运动信息分析,用于下 一帧的自适应运动估计。
本发明提出的自适应运动估计方法分为三部分运动矢量信息、宏块编码模式信息采集, 全局运动信息分析和自适应运动估计。
1、 运动矢量信息、宏块编码模式信息采集。本发明提出的运动矢量、宏块编码模式信息 采集通过直方图记录一帧中不同大小运动矢量的频率,并记录一帧中各宏块编码模式的频率。 对于不同尺寸的块帧间编码模式,需要记录的运动矢量个数分别为帧间16x16模式(l个), 帧间16x8和帧间8x16 (2个),帧间8x8 (4个),帧间8x4 (8个),帧间4x8 (8个),帧间 4x4 (16个)。对于每个运动矢量还需统计水平分量与垂直分量之间比率的频率。
2、 全局运动信息统计分析。本发明提出的全局运动信息统计分析使用运动矢量直方图确 定全局运动矢量,并通过统计方法分析当前帧中景物在水平、垂直方向的运动特征。
运动矢量直方图中频率最大的运动矢量表示为gmvMax, gmvMaxFrq表示gmvMax归一后的 频率;运动矢量直方图中频率最大的3个运动矢量的中值表示为gmvMedian。当gmvMax与 gmvMedian之间整象素距离大于4且gmvMaxFrq小于0. 6,表明当前帧中运动相对散乱,全局 运动并不明显,此时GMV等于gmvMedian,否则GMV等于gmvMax。
如果所有宏块运动矢量的水平分量大于2倍垂直分量的概率达到80%,表明前一帧中水 平运动占优,将标识符horizontalMotionFlag置为1;如果所有宏块运动矢量的垂直分量大 于2倍水平分量的概率达到80% ,表明前一帧中垂直运动占优,将标识符verticalMotionFlag 置为1;否则horizontalMotionFlag和verticalMotionFlag都被置为0。
3、 自适应运动估计。本发明提出的自适应运动估计根据全局运动矢量(GMV)与预测运 动矢量(MVP)之间的关系,以及相邻宏块的编码模式来选择搜索模式。搜索窗大小的选择与 图像分辨率有关,本发明提出的自适应运动估计方法需要用到五个大小不同的搜索窗,分别 命名为Wl、 W2、 W3、 W4、 W5。上述五个搜索窗的大小与所处理的图像尺寸有关,对于1920x1080 的图像,上述五个搜索窗尺寸分别为16x16、 16x8、 48x8、 16x32、 32x16。自适应运动估计 的方法流程如下所示
1)、首先,当GMV与MVP之间的整象素距离超过W1宽度的一半时,本发明使用2个搜索 窗W1和W2,其中Wl以MVP为搜索窗中心,W2以GMV为搜索窗中心。2)、如果不满足上述条件,检查当前宏块相邻左边和上边宏块的编码模式是否均满足以 下条件为帧内4x4模式,或为帧内16x16模式且宏块SAD大于5000。如果当前宏块相邻左 边和上边宏块均满足条件,则检查全局运动优势方向标识符horizontalMotionFlag和 verticalMotionFlag,若horizontalMotionFlag为TRUE,则选择W3作为搜索窗,若 verticalMotionFlag为TRUE,则选择W4作为搜索窗;如果上述条件仍不满足,则选择搜索 窗W5。
图3(a广(c)表示使用两个搜索窗时Wl和W2不同相对位置的三种典型情况,(d广(f)分 别表示W3、 W4、 W5。图中VI表示预测运动矢量MVP, V2表示全局运动矢量GMV, 0表示当前 块位置。当W1与W2有重叠区域时,重叠区域的搜索点不会参与重复技术。 为了说明运动估计方法特别是搜索窗大小对编码性能的影响,我们进行了相关试验,针对包 含剧烈运动的高清晰度图像测试了运动估计的性能。出于对比目的,试验选用了 Mobile (720x480), Suzie (720x480), Vcref (1280x720), RushHour (1920x1088)共4个运动相对 平缓的序列,以及Cheerleader (720x480), Football (720x480), Race一seg0 (1920x1088), Race_segl(1920x1088)共4个运动相对剧烈的序列。上述序列中,Race—seg0和Race—segl 是从游戏画面截取的视频序列,内容包括高速运动的赛车和剧烈的摄像机运动,其他序列均 为标准测试序列,可以从[6]、 [7]下载。运动估计方法采用全搜索。针对上述八个序列,测 试了搜索窗大小对编码性能的影响。测试数据如图Ua) (h)所示,其中图1 (a)为Mobile (720x480)序列;图1 (b)为Suzie (720x480)序列;图1 (c)为RushHour (1920x1088)序列; 图1 (d)为Vcref (1280x720)序列;图1 (e)为Cheerleader (720x480)序列;图1 (f)为Football (720x480)序列;图1 (g)为Race—segO (1920x1088)序列;图1 (h)为Race—segl (1920x1088) 序列。测试中搜索窗高度为搜索窗宽度的1/2。图1中的码率增加值是指不同搜索窗尺寸相 对于512x256的码率增加值。搜索窗尺寸对编码性能的影响
通过对试验数据分析可以发现,运动相对平缓的序列,如序列Mobile (720x480), Suzie (720x480), Vcref (1280x720), RushHour (1920x1088), 搜索窗尺寸的减小对R-D性能的 影响很小,上述序列当搜索窗宽度为64以上时,码率变化范围在-1 1%;当搜索窗尺寸降 到32x16时,上述序列码率大约有1 2%的增加。
运动相对剧烈的序列,如序列Cheerleader (720x480), Football (720x480), Race_seg0 (1920x1088), Race一segl (1920x1088)搜索窗尺寸的减小对R-D性能的影响较大。当搜索窗大 小为64x32时,码率增加分别为2. 6%, 2. 58%, 4. 06%和5. 11%;当搜索窗口大小进一步减 小到32xl6时,码率增加增大为5.85%, 7.53%, 14.02%, 11.05%。由上述分析可以知道,搜索窗的大小对运动估计方法处理运动相对剧烈的视频序列时的 性能有很大影响。搜索窗尺寸越大,运动估计在处理上述序列时性能就越好。但是对于硬件 实现,技术资源有限,如何在有限搜索点数下提高运动估计方法的性能,同时保持方法的易 实现性,是本发明解决的主要问题。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原 则之内所作的任何修改、等同替换和改进等,均应包括在本发明的保护范围之内。 Li R., Liu M. L., Liu M. L., "A New Three-step Search Algorithm for Block Motion Estimation", P438-442, IEEE Transactions on Circuits and Systems for Video Technology, Apr. 1994 Zhu S.,"A New Diamond Search Algorithm for Fast Block-matching Motion Estimation",P287-290,IEEE Transactions on Image Processing, Sep.2000 Zhibo Chen, Yun He, "Fast Integer and Fractional Pel Motion estimation", JVT-E045.doc A. M. Tourapis, O. C. Au, and M. L. Liou, "Fast Motion Estimation using Circular Zonal Search", ISO/IEC JTC1/SC29/WG11 MPEG9/m4038, Atlantic City, NJ, USA, Oct. 1998. ISO publication page: ISO/IEC 14496-10:2005 - Information technology — Coding of audio-visual objects — Part 10: Advanced Video Coding". Retrieved on 2007-09-13. ftp:〃ftp.imte-files.org/ivt-experts/members/sequences/ ftp:〃59.226.42.5权利要求
1、一种自适应运动估计方法,其特征在于包括运动矢量信息、宏块编码模式信息采集,全局运动信息分析和自适应运动估计。
2、 根据权利要求l所述的一种自适应运动估计方法,其特征在于运动矢量信息、宏块 编码模式信息采集通过直方图记录一帧中不同大小运动矢量的频率,并记录一帧中各宏块编 码模式的频率;对于每个运动矢量还需统计水平分量与垂直分量之间比率的频率。
3、 根据权利要求2所述的一种自适应运动估计方法,其特征在于对于不同尺寸的块帧 间编码模式,需要记录的运动矢量个数分别为l个帧间16x16模式,2个帧间16x8和帧间 8x16, 4个帧间8x8, 8个帧间8x4, 8个帧间4x8, 16个帧间4x4。
4、 根据权利要求l所述的一种自适应运动估计方法,其特征在于全局运动信息统计分 析使用运动矢量直方图确定全局运动矢量,并通过统计方法分析当前帧中景物在水平、垂直 方向的运动特征。
5、 根据权利要求4所述的一种自适应运动估计方法,其特征在于运动矢量直方图中频 率最大的运动矢量表示为gmvMax, gnwMaxFrq表示gmvMax归一后的频率;运动矢量直方图中 频率最大的3个运动矢量的中值表示为gmvMedian。当gmvMax与gravMedian之间整象素距离 大于4且gmvMaxFrq小于0.6,此时GMV等于gmvMedian,否则GMV等于gmvMax。
6、 根据权利要求4所述的一种自适应运动估计方法,其特征在于如果所有宏块运动矢 量的水平分量大于2倍垂直分量的概率达到80%,将标识符horizontalMotionFlag置为1; 如果所有宏块运动矢量的垂直分量大于2倍水平分量的概率达到80%,将标识符 verticalMotionFlag置为1;否则horizontalMotionFlag和verticalMotionFlag都被置为 0。
7、 根据权利要求l所述的一种自适应运动估计方法,其特征在于自适应运动估计包括 的步骤为第一步骤当GMV与MVP之间的整象素距离超过Wl宽度的一半时,将使用2个搜索窗 Wl和W2,其中Wl以MVP为搜索窗中心,W2以GMV为搜索窗中心; 第二步骤如果不满足上述条件,检査当前宏块相邻左边和上边宏块的编码模式是否均 满足以下条件为帧内4x4模式,或为帧内16x16模式且宏块SAD大于5000;如果当前宏块 相邻左边和上边宏块均满足条件,则检查全局运动优势方向标识符horizontalMotionFlag和 verticalMotionFlag,若horizontalMotionFlag为TRUE,则选择W3作为搜索窗,若 verticalMotionFlag为TRUE,则选择W4作为搜索窗;如果上述条件仍不满足,则选择搜索 窗W5。
8、根据权利要求1所述的一种自适应运动估计方法在视频编码器中的应用,其特征在于 (l)视频序列的第一帧按照I帧编码,对每个宏块进行帧内预测,然后当前块的预测值与原始 值之间的差值进行DCT变换和量化,最后对量化后的DCT系数和宏块头等信息进行熵编码; 所有宏块编码结束后,进入第二帧的编码;(2) 第二帧的编码首先对每个宏块分别进行帧内预测和运动估计,由于此时前一帧的全局 运动信息无效,这里的运动估计未使用自适应运动估计方法;之后,编码器根据率失真成本 进行模式决策,得到宏块编码模式;此时,需要采集全局运动信息分析步骤需要的运动矢量 和宏块编码模式信息;然后对当前块和参考块之间的残差进行DCT变换和量化,最后对量化 后的DCT系数和运动矢量、宏块头等信息进行熵编码;当第二帧所有宏块全部编码结束后, 本发明需要根据之前采集的所有宏块的运动矢量和宏块编码模式信息,进行全局运动信息分 析;(3) 第三帧及之后若干帧的编码首先对每个宏块分别进行帧内预测和运动估计,此时,运 动估计使用自适应运动估计方法;之后,编码器根据率失真成本进行模式决策,得到宏块编 码模式;此时,需要采集全局运动信息分析步骤需要的运动矢量和宏块编码模式信息;然后 对当前块和参考块之间的残差进行DCT变换和量化,最后对量化后的DCT系数和运动矢量、 宏块头等信息进行熵编码;当前帧所有宏块全部编码结束后,需要根据之前采集的所有宏块 的运动矢量和宏块编码模式信息,进行全局运动信息分析,用于下一帧的自适应运动估计。
全文摘要
本发明涉及一种自适应运动估计方法,包括运动矢量信息、宏块编码模式信息采集,全局运动信息分析和自适应运动估计。运动矢量信息、宏块编码模式信息采集通过直方图记录一帧中不同大小运动矢量的频率,并记录一帧中各宏块编码模式的频率;对于每个运动矢量还需统计水平分量与垂直分量之间比率的频率。全局运动信息统计分析使用运动矢量直方图确定全局运动矢量,并通过统计方法分析当前帧中景物在水平、垂直方向的运动特征。本发明提出的自适应运动估计根据全局运动矢量与预测运动矢量之间的关系,以及相邻宏块的编码模式来选择搜索模式。
文档编号H04N7/26GK101389023SQ20081015535
公开日2009年3月18日 申请日期2008年10月21日 优先权日2008年10月21日
发明者翼 孙, 李维衡, 伟 高 申请人:镇江唐桥微电子有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1