专利名称:面向交互式应用的多视点视频编码方法
技术领域:
本发明涉及到多视点视频信号的编码压缩方法,尤其是涉及基于运动信息跳过编 码的面向交互式应用的视频信号压缩方法。
背景技术:
多视点视频是当前多媒体领域的研究热点。作为FTV (自由视点电视)、3DTV (三维 电视)等三维音视频应用中的核心技术,多视点视频技术旨在解决3D交互式视频的压缩、 交互、存储和传输等问题。多视点视频信号是由相机阵列对实际场景进行拍摄得到的一组 视频信号,它能提供拍摄场景不同角度的视频图像信息,利用其中的一个或多个视频信息 可以合成任意视点的信息,使用户在观看时可以任意改变视点或者视角,以实现对同一场 景进行的多方位体验。因此,多视点视频将广泛应用于面向带宽与高密度存储介质的交互 式多媒体应用领域,如数字娱乐、远程监控、远程教育等。多视点视频系统可以进行多视点视频信号的采集、编码压缩、传输、接收、解码、显 示等,而其中多视点视频信号的编码压缩是整个系统的核心部分。一方面,多视点视频信号 存在着数据量巨大,不利于网络传输和存储,如何高效地压缩多视点视频数据是其应用面 临的一个重要挑战。另一方面,多视点视频是一种具有立体感和交互操作功能的视频序列, 在保证视频高压缩率同时,也要关注其交互式性能,使系统具有灵活的随机访问、部分解码 和绘制等性能。利用多视点视频信号的时间相关性、视点间相关性,采用运动补偿预测、视差补偿 预测是进行多视点视频信号编码压缩的基本思路。目前大量的研究集中于寻找一种能最大 限度地去除多视点视频序列时间上和视点间冗余的编码方案,如图2所示的基于空间_时 间分层B帧的多视点视频编码方案。但是对于大多数多视点视频序列而言,虽然存在时间 相关性和视点间相关性,但时间相关性却占了主导地位,所以对于基于空间_时间的分层B 帧预测结构,在关键帧图像利用视点间预测关系的情况下,再对非关键帧进行视点间预测 对压缩效率改善不明显,并且反过来会大大增加编码复杂度以及在解码端由于视点间的密 切耦合会大大降低了视点的随机访问性能。另外,多视点视频序列除了具有相似的视频内容外,还具有相似的运动特性,即其 运动信息同样具有高度的空间相关性,特别对运动剧烈的区域,其运动信息的空间相关性 要大于时间相关性。运动信息跳过模式利用了这个原理,即通过全局视差矢量找到相邻视 点中当前宏块的对应宏块,并导出对应宏块的运动信息作为当前宏块的运动信息。运动信 息跳过模式对传统的运动补偿预测进行优化。当运动信息跳过模式为当前编码宏块的最佳 编码模式时,只需要用一个模式标志位表明,而不需要对残差进行编码,从而能减少需要传 输的比特数,提高压缩效率。然而通过全局视差有时不能得到当前编码宏块的最佳运动匹 Kfn 息。针对以上问题,本发明采用一种面向交互式应用的多视点视频编码方法,在保证 高压缩效率的条件下获得了低复杂度利低时延随机访问性能。
发明内容
技术问题本发明所要解决的技术是提供一种面向交互式应用的多视点视频编码方法,在保证高压缩率的同时,改善多视点视频的交互式性能。技术方案本发明面向交互式应用的多视点视频编码方法,包括以下步骤步骤1 多视点视频序列分为基本视点和增强视点,每个视点序列都分为关键帧 和非关键帧,选择中间视点为基本视点,并确定各视频序列关键帧的视点间参考关系,步骤2 基本视点不参考其它视点,关键帧采用帧内预测编码方法;非关键帧选择 本视点内的时间方向帧为参考帧,进行运动补偿预测编码,步骤3 增强视点的关键帧参考其它视点的关键帧,采用帧内预测编码方法或视 差补偿预测法进行编码,同时计算出与参考视点的关键帧之间的全局视差,步骤4:对增强视点的非关键帧,利用前后相邻两个关键帧图像的全局视差进行 插值计算得到每个非关键帧图像与参考视点同一时刻非关键帧之间的全局视差,步骤5 增强视点的非关键帧不进行视差补偿预测,只进行运动补偿预测,在传统 的H. 264的宏块编码模式的基础上,根据运动信息的视点间高度相关性原理,采用自适应 运动矢量精细化的运动信息跳过编码对图像进行编码,步骤6 增强视点非关键帧编码后设置每个宏块的运动信息跳过模式标志位,并 写入码流发送到解码端。步骤7 在解码端进行图像重建,首先根据判断当前帧图像类型,对参考视点进行 部分解码,然后再解码当前帧图像。对多视点视频序列分为基本视点和增强视点,基本视点不参考其它视点,增强视 点可参考其它视点,包括基本视点或其它增强视点。所述步骤4中对增强视点的非关键帧,利用前后相邻两个关键帧图像的全局视差 进行插值计算得到每个非关键帧图像与参考视点同一时刻非关键帧之间的全局视差前后 相邻两个关键帧图像,即为当前图像组的第一帧以及下一个图像组的第一帧,全局视差的 插值计算是以当前非关键帧在图像组中的序列号为依据的。所述步骤5中增强视点的非关键帧根据运动信息的视点间高度相关性原理,采用 自适应运动矢量精细化的运动信息跳过模式对图像进行编码首先通过全局视差找到当前 编码宏块在参考视点中的对应宏块,并导出对应宏块的运动信息,包括宏块分割模式、运动 矢量等,作为当前宏块的候选编码模式和运动矢量;然后对当前宏块和对应宏块进行图像 区域判断,决定是否扩大搜索范围,即是否要把参考视点中对应宏块的8个相邻宏块的编 码模式和运动矢量,作为当前宏块的候选编码模式和运动矢量;最后利用所有候选编码模 式和运动矢量,在本视点内进行运动补偿预测。自适应运动矢量精细化的运动信息跳过模式对当前宏块和对应宏块进行图像区 域判断,决定是否扩大搜索范围如果当前宏块通过传统运动补偿预测后得到的最佳编码 模式以及参考视点的对应宏块的编码模式都属于背景静态模式,则不扩大搜索范围,即将 对应宏块的运动信息作为当前编码宏块的运动信息;否则则扩大搜索范围。在解码端进行图像重建,首先根据判断帧图像类型,对参考视点进行部分解码,然 后再解码当前图像要解码关键帧图像,要先对其参考视点的关键帧进行完全解码;要解码非关键帧图像,只需先对其参考视点的对应帧进行解析得到参考帧的运动信息,不需要 对参考视点的对应帧进行完全解码。有益效果本发明针对多视点视频的交互式应用,提出了一种面对交互式应用的 多视点视频编码方法,修改了帧图像视点间的预测关系,并采用一种自适应运动矢量精细 化的运动信息跳过模式,优化非关键帧图像的运动补偿预测的性能。与现有技术相比,本发明的优点在于在保证高压缩效率的前提下,优化多视点视 频随机访问性能,支持快速的视点切换,从而提高多视点视频的交互式性能。
图1为多视点视频系统示意图;图2为空间_时间分层B帧多视点视频预测结构示意图;图3为本发明的面向交互视应用的多视点视频预测结构示意图;图4为运动信息跳过模式预测编码示意图;图5为H. 264/AVC标准中可变宏块分割图;图6为运动信息跳过模式的自适应运动矢量精细化算法的流程图;图7为自适应运动矢量精细化算法示意图;图8为增强视点的解码流程图;图9为测试用例Ballroom在不同多视点视频编码方法下的率失真曲线;图10为测试用例Racel在不同多视点视频编码方法下的率失真曲线。方法一为基于空间_时间分层B帧的多视点视频编码方案,方法二为图3中对非关键帧不进行视点间预测的多视点视频编码方案。方法三为图3中对非关键帧应用原始运动信息跳过模式。方法四为图3中对非关键帧应用基于自适应运动矢量精细化的运动信息跳过模 式。
具体实施例方式以下结合附图实施例对本发明作进一步详细描述,这里以8X8多视点图像组结 构为例(如图3所示,每个图像组共有8个视点、8个时刻,共64帧)。参照图1,多视点视频编码中,由具有N个摄像机的多视点采集系统从不同角度拍 摄同一场景得到的一组视频,即N路原始视点;N路原始视点视频经过多视点视频编解码系 统后得到N路恢复视点。多视点视频编解码系统中,发送端通过多视点视频编码器,在保 证信息质量和传输安全的情况下,编码压缩数据,传输到接收端后,由多视点视频解码器解 码。参照图3,给出了本发明的一种面向交互式应用的图像组G0P长度为8的多视点视 频预测结构示意图。首先选择中间视点为基本视点;其次,确定关键帧图像视点间的参考关 系为P-P-B-I-B-P-B-P,则此多视点视频序列的编码顺序为S4-S2-S3-S1-S6-S5-S8-S7 ;而 对非关键帧只进行运动补偿预测法,在本视点内的参考关系采用分层B帧预测结构单视点 内的预测关系,在视点间根据对应的关键帧图像的视点间参考关系,利用视点间参考图像 的运动信息依赖性原理,运用运动信息跳过模式编码视点图像(如图3中虚线所示),模式
6标志位为m0ti0n_Skip_flag。编码后获得的当前图像的运动信息都存储在运动信息缓存区 中作为后续图像编码的信息参考。 参照图4,给出了运动信息跳过模式的预测编码示意图。运动信息跳过模式主要分 成两个步骤 (1)通过⑶V找到相邻视点的对应宏块。(2)从这个对应宏块中拷贝其运动信息为当前宏块的运动信息,包括宏块分割模 式、运动矢量以及图像参考索引号。非关键帧处的全局视差则是对前后相邻的两个关键帧的全局视差加权平均得到 的,如式(1)所示。 其中,⑶Vatead和⑶Vbdlind为当前非关键帧前后相邻两个关键帧的全局视差矢量, POCcur, POCahead和POCbdlind分别表示当前非关键帧、前关键帧和后关键帧在时间轴上的图像 序列号。图5为H. 264/AVC标准中可变宏块分割技术。一般来说,大尺寸的宏块编码模式 通常用于背景静态区域,如P_Skip、B_skip、Direct、Inter 16X16编码模式。而小尺寸的 宏块编码模式通常用于前景运动区域,如Inter 16X8、Inter 8X16、Inter 8X8等编码 模式。则我们Direct以及Inter 16 X 16编码模式为背景静态模式,其 他编码模式则为前景运动模式。图6为运动信息跳过模式的自适应运动矢量精细化算法的流程图,该算法的主要 步骤为1)对非关键帧图像进行传统的运动补偿预测,其中当前宏块的运动矢量预测值 MVp为其相邻宏块的运动矢量的中值,通过率失真最优化技术得到最佳的编码宏块模式 MODEcur opt 和运动矢量 MV。m—。pt。通过全局视差得到的参考视点的对应宏块,提取该对应宏块的运动信息,即宏块 编码模式MODEm以及运动矢量MV。。。从参考视点中得到当前宏块的候选编码模式和运动矢 量。若MODEcm。pt和MODE。。相同且都属于背景静态模式,则可判断通过全局视差所导出的运 动信息是准确的,则对应宏块导出的编码模式MODE。。和MVm直接作为当前宏块的候选编码 模式和运动矢量;否则认为通过全局视差所得到的运动信息是不精确的,此时则扩大搜索 窗口,提取对应宏块的MODE。。和MV。。,同时将该对应宏块的8个相邻宏块的编码模式和MV 提取出来,作为当前宏块的候选编码模式和运动矢量。对于一些编码模式,每个宏块被分割 成多个子块,则每个子块拥有各自的运动矢量,假如所得到的对应宏块的宏块分割模式为 16X8模式,则当前宏块也被分割成两个16 X 8,并分别提取各自对应的运动矢量,其他模 式也是依此类推。2)对得到的每个候选编码模式以及其对应的运动矢量,分别在时间参考帧中进行 运动估计找到一个匹配块,最后根据率失真最优化技术确定运动信息跳过模式的最佳编码 模式 M0DEms—。pt 和 MVms—。pt。 通过以上方法得到运动信息跳过模式的最佳编码模式MODEms。pt和MVms。pt后,再根据率失真最优化技术,与传统的运动补偿预测所得的MODEcot。pt和MVcot。pt进行比较得到当前宏块所用的最终的最优编码模式和运动矢量。图7为自适应运动矢量精细化算法示意图。Is,τ中为视点S在T时刻的非关键帧, IS,T在其参考视点Sm中同一时刻的参考帧。Is, τ中当前编码宏块(Xi,yi),通过
全局视差矢量⑶V(xG,yG)找到Isref, τ中的对应宏块(Xi+XG,yi+yG)后,经过自适应运动矢量 精细化算法得到当前编码宏块的最佳运动信息匹配宏块为宏块(Xi+Xe+AXi,yi+yG+Ayi), 则视差偏移量为ADi(Axi,Δ yi),若当前编码宏块的最佳运动信息匹配块为其对应宏块 (Χ +Χ(;,Υ +Υ(;),则视差偏移量ADi设为0。把每个宏块的视差偏移量传输到解码端,用于图 像的重建。图8为增强视点的解码流程图。解码当前图像,首先要判断帧图像类型,当当前 帧为关键帧时,要对其参考帧进行解码;当当前帧为非关键帧时,不需要对其参考帧进行解 码,只需要对其进行解析,通过全局视差矢量GDV以及视差偏移量AD找到对应宏块,并从 存放运动信息缓存区中得到对应宏块的运动信息。解码后得到的当前图像的运动信息存储 在运动信息缓存区中作为后续图像解码的信息参考。以下就本实施例进行多视点视频编码的性能进行说明1)面向交互式应用的多视点视频编码方法的率失真性能图9和图10分别为测试用例Ballroom和Racel在不同多视点视频编码方法下的 率失真曲线,其横坐标和纵坐标分别表示8个视频序列的平均比特率和平均信噪比。其中 JMVM为基于空间-时间分层B帧的多视点编码方案(如图2所示),JMVM_AP为图3中只 对关键帧进行视点间预测的编码方案,JMVM_MS为图3中对非关键帧应用原始的运动信息 跳过模式,JMVM_AFMS则是应用了采用自适应运动矢量精细化的运动信息跳过模式。JMVM_ AP中所有视点都不对非关键帧图像进行视点间预测,JMVM中只有对B视点中的非关键帧图 像进行视点间预测,而JMVM_MS和JMVM_AFMA中的运动信息跳过模式应用于所有增强视点 的非关键帧图像。由图9可知,由于Ballroom视频序列运动较平缓、时域相关性大,视点间的参考关 系对非关键帧图像的编码性能影响不大,所以这4种编码方案的压缩性能相差不大。而对 于Racel视频序列,由于镜头移动、运动剧烈且存在时间全局运动,导致时间预测的有效性 差。因此,视点间的参考关系以及它的准确性对压缩性能是至关重要的。从图10可知,不 采用非关键帧视点间参考关系的JMVM_AP的压缩性能最差,而本发明所提的JMVM_AFMS能 得到当前编码宏块更为匹配的运动矢量,与JMVM_MS相比编码性能改善明显,在相同的比 特率条件下其平均PSNR最大增加了 0. 2dB,与JMVM相比最大增加了 0. 35dB。因此,本发明 所提算法对于Ballroom等运动缓慢的视频序列,其压缩性能接近基于空间_时间分层B帧 的多视点编码方案,而对于racel等运动剧烈的视频序列其压缩性能优于基于空间-时间 分层B帧的多视点视频编码方案。2)面向交互式应用的多视点视频编码方法的随机访问性能为了评价多视点视频的随机访问性能,我们使用Fav和Fmax来分别表示随机访问一 帧所需要解码的平均和最大帧数。假设现要访问(i,j)处的帧,其随机访问代价Fav和Fmax 可分别用式(2)和式(3)定义。 其中,η为一个GOP包含的帧数,m为总的视点数。Xi,」表示访问该帧之前所必须 要解码的帧数,Pu为用户选择观看该帧的概率,通常Pu = l/(nXm)。由于运动信息跳过模式不影响随机访问性能,所以本发明所提的编码方案JMVM_ AFMS与JMVM_AP具有相同的随机访问性能。表1给出了本发明所提编码方案和基于空 间_时间分层B帧的多视点编码方案在随机访问性能方面的比较。从表1可知本发明所提 的编码方法的随机访问性能明显优于JMVM,平均提高了 36. 6% /44. 4%。表1随机访问性能比较 综上所述,与现有技术相比,本发明的优点在于在保证高压缩效率的前提下,优化 多视点视频随机访问性能,支持快速的视点切换,从而提高多视点视频的交互式性能。
权利要求
一种面向交互式应用的多视点视频编码方法,其特征在于该方法包括以下步骤步骤1多视点视频序列分为基本视点和增强视点,每个视点序列都分为关键帧和非关键帧,选择中间视点为基本视点,并确定各视频序列关键帧的视点间参考关系,步骤2基本视点不参考其它视点,关键帧采用帧内预测编码方法;非关键帧选择本视点内的时间方向帧为参考帧,进行运动补偿预测编码,步骤3增强视点的关键帧参考其它视点的关键帧,采用帧内预测编码方法或视差补偿预测法进行编码,同时计算出与参考视点的关键帧之间的全局视差,步骤4对增强视点的非关键帧,利用前后相邻两个关键帧图像的全局视差进行插值计算得到每个非关键帧图像与参考视点同一时刻非关键帧之间的全局视差,步骤5增强视点的非关键帧不进行视差补偿预测,只进行运动补偿预测,在传统的H.264的宏块编码模式的基础上,根据运动信息的视点间高度依赖性原理,采用自适应运动矢量精细化的运动信息跳过模式对图像进行编码,步骤6增强视点非关键帧编码后设置每个宏块的运动信息跳过模式标志位,并写入码流发送到解码端,步骤7在解码端进行图像重建,首先根据判断当前帧图像类型,对参考视点进行部分解码,然后再解码当前帧图像。
2.如权利要求1所述的一种面向交互式应用的多视点视频编码方法,其特征在于对多 视点视频序列分为基本视点和增强视点,基本视点不参考其它视点,增强视点可参考其它 视点,包括基本视点或其它增强视点。
3.如权利要求1所述的一种面向交互式应用的多视点视频编码方法,其特征在于,所 述步骤4中对增强视点的非关键帧,利用前后相邻两个关键帧图像的全局视差进行插值计 算得到每个非关键帧图像与参考视点同一时刻非关键帧之间的全局视差前后相邻两个关 键帧图像,即为当前图像组的第一帧以及下一个图像组的第一帧,全局视差的插值计算是 以当前非关键帧在图像组中的序列号为依据的。
4.如权利要求1所述的一种面向交互式应用的多视点视频编码方法,其特征在于,所 述步骤5中增强视点的非关键帧根据运动信息的视点间高度依赖性原理,采用自适应运动 矢量精细化的运动信息跳过模式对图像进行编码首先通过全局视差找到当前编码宏块在 参考视点中的对应宏块,并导出对应宏块的运动信息,包括宏块分割模式、运动矢量,作为 当前宏块的候选编码模式和运动矢量;然后对当前宏块和对应宏块进行图像区域判断,决 定是否扩大搜索范围,即是否要把参考视点中对应宏块的8个相邻宏块的编码模式和运动 矢量,作为当前宏块的候选编码模式和运动矢量;最后利用所有候选编码模式和运动矢量, 在本视点内进行运动补偿预测。
5.如权利要求4所述的面向交互式应用的多视点视频编码方法,其特征在于自适应运 动矢量精细化的运动信息跳过模式对当前宏块和对应宏块进行图像区域判断,决定是否扩 大搜索范围如果当前宏块通过传统运动补偿预测后得到的最佳编码模式以及参考视点的 对应宏块的编码模式都属于背景静态模式,则不扩大搜索范围,即将对应宏块的运动信息 作为当前编码宏块的运动信息;否则则扩大搜索范围。
6.如权利要求1所述的一种面向交互式应用的多视点视频编码方法,其特征在于在解 码端进行图像重建的方法是,首先根据判断帧图像类型,对参考视点进行部分解码,然后再解码当前图像要解码关键帧图像,要先对其参考视点的关键帧进行完全解码;要解码非 关键帧图像,只需先对其参考视点的对应帧进行解析得到运动信息,不需要 对参考视点的 对应帧进行完全解码。
全文摘要
本发明涉及多视点视频编码技术领域,公开了一种面向交互式应用的多视点视频编码方法。为提高多视点视频的交互式性能,本发明首先修改了关键帧图像视点间的预测关系,并将视差补偿预测只应用于关键帧图像,而对非关键帧图像只进行运动补偿预测。其次,多视点视频除了视频内容具有高度相关性外,视点间参考图像的运动信息同样具有高度依赖性。根据这个原理,本发明又提出一种运动信息跳过模式的自适应运动矢量精细化算法,用于优化非关键帧图像的运动补偿预测的性能。本发明在保证高压缩效率的前提下,优化多视点视频随机访问性能,支持快速的视点切换,从而提高多视点视频的交互式性能。
文档编号H04N7/26GK101867813SQ20101015591
公开日2010年10月20日 申请日期2010年4月23日 优先权日2010年4月23日
发明者刘峰, 郑海棠 申请人:南京邮电大学