面向交互式应用的多视点视频编码方法

文档序号：7747143阅读：210来源：国知局

专利名称：面向交互式应用的多视点视频编码方法
技术领域：
本发明涉及到多视点视频信号的编码压缩方法，尤其是涉及基于运动信息跳过编码的面向交互式应用的视频信号压缩方法。
背景技术：
多视点视频是当前多媒体领域的研究热点。作为FTV (自由视点电视)、3DTV (三维电视)等三维音视频应用中的核心技术，多视点视频技术旨在解决3D交互式视频的压缩、交互、存储和传输等问题。多视点视频信号是由相机阵列对实际场景进行拍摄得到的一组视频信号，它能提供拍摄场景不同角度的视频图像信息，利用其中的一个或多个视频信息可以合成任意视点的信息，使用户在观看时可以任意改变视点或者视角，以实现对同一场景进行的多方位体验。因此，多视点视频将广泛应用于面向带宽与高密度存储介质的交互式多媒体应用领域，如数字娱乐、远程监控、远程教育等。多视点视频系统可以进行多视点视频信号的采集、编码压缩、传输、接收、解码、显示等，而其中多视点视频信号的编码压缩是整个系统的核心部分。一方面，多视点视频信号存在着数据量巨大，不利于网络传输和存储，如何高效地压缩多视点视频数据是其应用面临的一个重要挑战。另一方面，多视点视频是一种具有立体感和交互操作功能的视频序列，在保证视频高压缩率同时，也要关注其交互式性能，使系统具有灵活的随机访问、部分解码和绘制等性能。利用多视点视频信号的时间相关性、视点间相关性，采用运动补偿预测、视差补偿预测是进行多视点视频信号编码压缩的基本思路。目前大量的研究集中于寻找一种能最大限度地去除多视点视频序列时间上和视点间冗余的编码方案，如图2所示的基于空间_时间分层B帧的多视点视频编码方案。但是对于大多数多视点视频序列而言，虽然存在时间相关性和视点间相关性，但时间相关性却占了主导地位，所以对于基于空间_时间的分层B 帧预测结构，在关键帧图像利用视点间预测关系的情况下，再对非关键帧进行视点间预测对压缩效率改善不明显，并且反过来会大大增加编码复杂度以及在解码端由于视点间的密切耦合会大大降低了视点的随机访问性能。另外，多视点视频序列除了具有相似的视频内容外，还具有相似的运动特性，即其运动信息同样具有高度的空间相关性，特别对运动剧烈的区域，其运动信息的空间相关性要大于时间相关性。运动信息跳过模式利用了这个原理，即通过全局视差矢量找到相邻视点中当前宏块的对应宏块，并导出对应宏块的运动信息作为当前宏块的运动信息。运动信息跳过模式对传统的运动补偿预测进行优化。当运动信息跳过模式为当前编码宏块的最佳编码模式时，只需要用一个模式标志位表明，而不需要对残差进行编码，从而能减少需要传输的比特数，提高压缩效率。然而通过全局视差有时不能得到当前编码宏块的最佳运动匹 Kfn 息。针对以上问题，本发明采用一种面向交互式应用的多视点视频编码方法，在保证高压缩效率的条件下获得了低复杂度利低时延随机访问性能。

发明内容
技术问题本发明所要解决的技术是提供一种面向交互式应用的多视点视频编码方法，在保证高压缩率的同时，改善多视点视频的交互式性能。技术方案本发明面向交互式应用的多视点视频编码方法，包括以下步骤步骤1 多视点视频序列分为基本视点和增强视点，每个视点序列都分为关键帧和非关键帧，选择中间视点为基本视点，并确定各视频序列关键帧的视点间参考关系，步骤2 基本视点不参考其它视点，关键帧采用帧内预测编码方法；非关键帧选择本视点内的时间方向帧为参考帧，进行运动补偿预测编码，步骤3 增强视点的关键帧参考其它视点的关键帧，采用帧内预测编码方法或视差补偿预测法进行编码，同时计算出与参考视点的关键帧之间的全局视差，步骤4:对增强视点的非关键帧，利用前后相邻两个关键帧图像的全局视差进行插值计算得到每个非关键帧图像与参考视点同一时刻非关键帧之间的全局视差，步骤5 增强视点的非关键帧不进行视差补偿预测，只进行运动补偿预测，在传统的H. 264的宏块编码模式的基础上，根据运动信息的视点间高度相关性原理，采用自适应运动矢量精细化的运动信息跳过编码对图像进行编码，步骤6 增强视点非关键帧编码后设置每个宏块的运动信息跳过模式标志位，并写入码流发送到解码端。步骤7 在解码端进行图像重建，首先根据判断当前帧图像类型，对参考视点进行部分解码，然后再解码当前帧图像。对多视点视频序列分为基本视点和增强视点，基本视点不参考其它视点，增强视点可参考其它视点，包括基本视点或其它增强视点。所述步骤4中对增强视点的非关键帧，利用前后相邻两个关键帧图像的全局视差进行插值计算得到每个非关键帧图像与参考视点同一时刻非关键帧之间的全局视差前后相邻两个关键帧图像，即为当前图像组的第一帧以及下一个图像组的第一帧，全局视差的插值计算是以当前非关键帧在图像组中的序列号为依据的。所述步骤5中增强视点的非关键帧根据运动信息的视点间高度相关性原理，采用自适应运动矢量精细化的运动信息跳过模式对图像进行编码首先通过全局视差找到当前编码宏块在参考视点中的对应宏块，并导出对应宏块的运动信息，包括宏块分割模式、运动矢量等，作为当前宏块的候选编码模式和运动矢量；然后对当前宏块和对应宏块进行图像区域判断，决定是否扩大搜索范围，即是否要把参考视点中对应宏块的8个相邻宏块的编码模式和运动矢量，作为当前宏块的候选编码模式和运动矢量；最后利用所有候选编码模式和运动矢量，在本视点内进行运动补偿预测。自适应运动矢量精细化的运动信息跳过模式对当前宏块和对应宏块进行图像区域判断，决定是否扩大搜索范围如果当前宏块通过传统运动补偿预测后得到的最佳编码模式以及参考视点的对应宏块的编码模式都属于背景静态模式，则不扩大搜索范围，即将对应宏块的运动信息作为当前编码宏块的运动信息；否则则扩大搜索范围。在解码端进行图像重建，首先根据判断帧图像类型，对参考视点进行部分解码，然后再解码当前图像要解码关键帧图像，要先对其参考视点的关键帧进行完全解码；要解码非关键帧图像，只需先对其参考视点的对应帧进行解析得到参考帧的运动信息，不需要对参考视点的对应帧进行完全解码。有益效果本发明针对多视点视频的交互式应用，提出了一种面对交互式应用的多视点视频编码方法，修改了帧图像视点间的预测关系，并采用一种自适应运动矢量精细化的运动信息跳过模式，优化非关键帧图像的运动补偿预测的性能。与现有技术相比，本发明的优点在于在保证高压缩效率的前提下，优化多视点视频随机访问性能，支持快速的视点切换，从而提高多视点视频的交互式性能。

图1为多视点视频系统示意图；图2为空间_时间分层B帧多视点视频预测结构示意图；图3为本发明的面向交互视应用的多视点视频预测结构示意图；图4为运动信息跳过模式预测编码示意图；图5为H. 264/AVC标准中可变宏块分割图；图6为运动信息跳过模式的自适应运动矢量精细化算法的流程图；图7为自适应运动矢量精细化算法示意图；图8为增强视点的解码流程图；图9为测试用例Ballroom在不同多视点视频编码方法下的率失真曲线；图10为测试用例Racel在不同多视点视频编码方法下的率失真曲线。方法一为基于空间_时间分层B帧的多视点视频编码方案，方法二为图3中对非关键帧不进行视点间预测的多视点视频编码方案。方法三为图3中对非关键帧应用原始运动信息跳过模式。方法四为图3中对非关键帧应用基于自适应运动矢量精细化的运动信息跳过模式。
具体实施例方式以下结合附图实施例对本发明作进一步详细描述，这里以8X8多视点图像组结构为例(如图3所示，每个图像组共有8个视点、8个时刻，共64帧)。参照图1，多视点视频编码中，由具有N个摄像机的多视点采集系统从不同角度拍摄同一场景得到的一组视频，即N路原始视点；N路原始视点视频经过多视点视频编解码系统后得到N路恢复视点。多视点视频编解码系统中，发送端通过多视点视频编码器，在保证信息质量和传输安全的情况下，编码压缩数据，传输到接收端后，由多视点视频解码器解码。参照图3，给出了本发明的一种面向交互式应用的图像组G0P长度为8的多视点视频预测结构示意图。首先选择中间视点为基本视点；其次，确定关键帧图像视点间的参考关系为P-P-B-I-B-P-B-P，则此多视点视频序列的编码顺序为S4-S2-S3-S1-S6-S5-S8-S7 ；而对非关键帧只进行运动补偿预测法，在本视点内的参考关系采用分层B帧预测结构单视点内的预测关系，在视点间根据对应的关键帧图像的视点间参考关系，利用视点间参考图像的运动信息依赖性原理，运用运动信息跳过模式编码视点图像(如图3中虚线所示)，模式
6标志位为m0ti0n_Skip_flag。编码后获得的当前图像的运动信息都存储在运动信息缓存区中作为后续图像编码的信息参考。参照图4，给出了运动信息跳过模式的预测编码示意图。运动信息跳过模式主要分成两个步骤 (1)通过⑶V找到相邻视点的对应宏块。(2)从这个对应宏块中拷贝其运动信息为当前宏块的运动信息，包括宏块分割模式、运动矢量以及图像参考索引号。非关键帧处的全局视差则是对前后相邻的两个关键帧的全局视差加权平均得到的，如式(1)所示。其中，⑶Vatead和⑶Vbdlind为当前非关键帧前后相邻两个关键帧的全局视差矢量， POCcur, POCahead和POCbdlind分别表示当前非关键帧、前关键帧和后关键帧在时间轴上的图像序列号。图5为H. 264/AVC标准中可变宏块分割技术。一般来说，大尺寸的宏块编码模式通常用于背景静态区域，如P_Skip、B_skip、Direct、Inter 16X16编码模式。而小尺寸的宏块编码模式通常用于前景运动区域，如Inter 16X8、Inter 8X16、Inter 8X8等编码模式。则我们Direct以及Inter 16 X 16编码模式为背景静态模式，其他编码模式则为前景运动模式。图6为运动信息跳过模式的自适应运动矢量精细化算法的流程图，该算法的主要步骤为1)对非关键帧图像进行传统的运动补偿预测，其中当前宏块的运动矢量预测值 MVp为其相邻宏块的运动矢量的中值，通过率失真最优化技术得到最佳的编码宏块模式 MODEcur opt 和运动矢量 MV。m—。pt。通过全局视差得到的参考视点的对应宏块，提取该对应宏块的运动信息，即宏块编码模式MODEm以及运动矢量MV。。。从参考视点中得到当前宏块的候选编码模式和运动矢量。若MODEcm。pt和MODE。。相同且都属于背景静态模式，则可判断通过全局视差所导出的运动信息是准确的，则对应宏块导出的编码模式MODE。。和MVm直接作为当前宏块的候选编码模式和运动矢量；否则认为通过全局视差所得到的运动信息是不精确的，此时则扩大搜索窗口，提取对应宏块的MODE。。和MV。。，同时将该对应宏块的8个相邻宏块的编码模式和MV 提取出来，作为当前宏块的候选编码模式和运动矢量。对于一些编码模式，每个宏块被分割成多个子块，则每个子块拥有各自的运动矢量，假如所得到的对应宏块的宏块分割模式为 16X8模式，则当前宏块也被分割成两个16 X 8，并分别提取各自对应的运动矢量，其他模式也是依此类推。2)对得到的每个候选编码模式以及其对应的运动矢量，分别在时间参考帧中进行运动估计找到一个匹配块，最后根据率失真最优化技术确定运动信息跳过模式的最佳编码模式 M0DEms—。pt 和 MVms—。pt。通过以上方法得到运动信息跳过模式的最佳编码模式MODEms。pt和MVms。pt后，再根据率失真最优化技术，与传统的运动补偿预测所得的MODEcot。pt和MVcot。pt进行比较得到当前宏块所用的最终的最优编码模式和运动矢量。图7为自适应运动矢量精细化算法示意图。Is,τ中为视点S在T时刻的非关键帧， IS,T在其参考视点Sm中同一时刻的参考帧。Is, τ中当前编码宏块(Xi，yi)，通过
全局视差矢量⑶V(xG，yG)找到Isref, τ中的对应宏块(Xi+XG，yi+yG)后，经过自适应运动矢量精细化算法得到当前编码宏块的最佳运动信息匹配宏块为宏块(Xi+Xe+AXi，yi+yG+Ayi), 则视差偏移量为ADi(Axi，Δ yi)，若当前编码宏块的最佳运动信息匹配块为其对应宏块 (Χ +Χ(;，Υ +Υ(;)，则视差偏移量ADi设为0。把每个宏块的视差偏移量传输到解码端，用于图像的重建。图8为增强视点的解码流程图。解码当前图像，首先要判断帧图像类型，当当前帧为关键帧时，要对其参考帧进行解码；当当前帧为非关键帧时，不需要对其参考帧进行解码，只需要对其进行解析，通过全局视差矢量GDV以及视差偏移量AD找到对应宏块，并从存放运动信息缓存区中得到对应宏块的运动信息。解码后得到的当前图像的运动信息存储在运动信息缓存区中作为后续图像解码的信息参考。以下就本实施例进行多视点视频编码的性能进行说明1)面向交互式应用的多视点视频编码方法的率失真性能图9和图10分别为测试用例Ballroom和Racel在不同多视点视频编码方法下的率失真曲线，其横坐标和纵坐标分别表示8个视频序列的平均比特率和平均信噪比。其中 JMVM为基于空间-时间分层B帧的多视点编码方案(如图2所示)，JMVM_AP为图3中只对关键帧进行视点间预测的编码方案，JMVM_MS为图3中对非关键帧应用原始的运动信息跳过模式，JMVM_AFMS则是应用了采用自适应运动矢量精细化的运动信息跳过模式。JMVM_ AP中所有视点都不对非关键帧图像进行视点间预测，JMVM中只有对B视点中的非关键帧图像进行视点间预测，而JMVM_MS和JMVM_AFMA中的运动信息跳过模式应用于所有增强视点的非关键帧图像。由图9可知，由于Ballroom视频序列运动较平缓、时域相关性大，视点间的参考关系对非关键帧图像的编码性能影响不大，所以这4种编码方案的压缩性能相差不大。而对于Racel视频序列，由于镜头移动、运动剧烈且存在时间全局运动，导致时间预测的有效性差。因此，视点间的参考关系以及它的准确性对压缩性能是至关重要的。从图10可知，不采用非关键帧视点间参考关系的JMVM_AP的压缩性能最差，而本发明所提的JMVM_AFMS能得到当前编码宏块更为匹配的运动矢量，与JMVM_MS相比编码性能改善明显，在相同的比特率条件下其平均PSNR最大增加了 0. 2dB，与JMVM相比最大增加了 0. 35dB。因此，本发明所提算法对于Ballroom等运动缓慢的视频序列，其压缩性能接近基于空间_时间分层B帧的多视点编码方案，而对于racel等运动剧烈的视频序列其压缩性能优于基于空间-时间分层B帧的多视点视频编码方案。2)面向交互式应用的多视点视频编码方法的随机访问性能为了评价多视点视频的随机访问性能，我们使用Fav和Fmax来分别表示随机访问一帧所需要解码的平均和最大帧数。假设现要访问(i，j)处的帧，其随机访问代价Fav和Fmax 可分别用式(2)和式(3)定义。其中，η为一个GOP包含的帧数，m为总的视点数。Xi,」表示访问该帧之前所必须要解码的帧数，Pu为用户选择观看该帧的概率，通常Pu = l/(nXm)。由于运动信息跳过模式不影响随机访问性能，所以本发明所提的编码方案JMVM_ AFMS与JMVM_AP具有相同的随机访问性能。表1给出了本发明所提编码方案和基于空间_时间分层B帧的多视点编码方案在随机访问性能方面的比较。从表1可知本发明所提的编码方法的随机访问性能明显优于JMVM，平均提高了 36. 6% /44. 4%。表1随机访问性能比较综上所述，与现有技术相比，本发明的优点在于在保证高压缩效率的前提下，优化多视点视频随机访问性能，支持快速的视点切换，从而提高多视点视频的交互式性能。
权利要求
一种面向交互式应用的多视点视频编码方法，其特征在于该方法包括以下步骤步骤1多视点视频序列分为基本视点和增强视点，每个视点序列都分为关键帧和非关键帧，选择中间视点为基本视点，并确定各视频序列关键帧的视点间参考关系，步骤2基本视点不参考其它视点，关键帧采用帧内预测编码方法；非关键帧选择本视点内的时间方向帧为参考帧，进行运动补偿预测编码，步骤3增强视点的关键帧参考其它视点的关键帧，采用帧内预测编码方法或视差补偿预测法进行编码，同时计算出与参考视点的关键帧之间的全局视差，步骤4对增强视点的非关键帧，利用前后相邻两个关键帧图像的全局视差进行插值计算得到每个非关键帧图像与参考视点同一时刻非关键帧之间的全局视差，步骤5增强视点的非关键帧不进行视差补偿预测，只进行运动补偿预测，在传统的H.264的宏块编码模式的基础上，根据运动信息的视点间高度依赖性原理，采用自适应运动矢量精细化的运动信息跳过模式对图像进行编码，步骤6增强视点非关键帧编码后设置每个宏块的运动信息跳过模式标志位，并写入码流发送到解码端，步骤7在解码端进行图像重建，首先根据判断当前帧图像类型，对参考视点进行部分解码，然后再解码当前帧图像。
2.如权利要求1所述的一种面向交互式应用的多视点视频编码方法，其特征在于对多视点视频序列分为基本视点和增强视点，基本视点不参考其它视点，增强视点可参考其它视点，包括基本视点或其它增强视点。
3.如权利要求1所述的一种面向交互式应用的多视点视频编码方法，其特征在于，所述步骤4中对增强视点的非关键帧，利用前后相邻两个关键帧图像的全局视差进行插值计算得到每个非关键帧图像与参考视点同一时刻非关键帧之间的全局视差前后相邻两个关键帧图像，即为当前图像组的第一帧以及下一个图像组的第一帧，全局视差的插值计算是以当前非关键帧在图像组中的序列号为依据的。
4.如权利要求1所述的一种面向交互式应用的多视点视频编码方法，其特征在于，所述步骤5中增强视点的非关键帧根据运动信息的视点间高度依赖性原理，采用自适应运动矢量精细化的运动信息跳过模式对图像进行编码首先通过全局视差找到当前编码宏块在参考视点中的对应宏块，并导出对应宏块的运动信息，包括宏块分割模式、运动矢量，作为当前宏块的候选编码模式和运动矢量；然后对当前宏块和对应宏块进行图像区域判断，决定是否扩大搜索范围，即是否要把参考视点中对应宏块的8个相邻宏块的编码模式和运动矢量，作为当前宏块的候选编码模式和运动矢量；最后利用所有候选编码模式和运动矢量，在本视点内进行运动补偿预测。
5.如权利要求4所述的面向交互式应用的多视点视频编码方法，其特征在于自适应运动矢量精细化的运动信息跳过模式对当前宏块和对应宏块进行图像区域判断，决定是否扩大搜索范围如果当前宏块通过传统运动补偿预测后得到的最佳编码模式以及参考视点的对应宏块的编码模式都属于背景静态模式，则不扩大搜索范围，即将对应宏块的运动信息作为当前编码宏块的运动信息；否则则扩大搜索范围。
6.如权利要求1所述的一种面向交互式应用的多视点视频编码方法，其特征在于在解码端进行图像重建的方法是，首先根据判断帧图像类型，对参考视点进行部分解码，然后再解码当前图像要解码关键帧图像，要先对其参考视点的关键帧进行完全解码；要解码非关键帧图像，只需先对其参考视点的对应帧进行解析得到运动信息，不需要对参考视点的对应帧进行完全解码。
全文摘要
本发明涉及多视点视频编码技术领域，公开了一种面向交互式应用的多视点视频编码方法。为提高多视点视频的交互式性能，本发明首先修改了关键帧图像视点间的预测关系，并将视差补偿预测只应用于关键帧图像，而对非关键帧图像只进行运动补偿预测。其次，多视点视频除了视频内容具有高度相关性外，视点间参考图像的运动信息同样具有高度依赖性。根据这个原理，本发明又提出一种运动信息跳过模式的自适应运动矢量精细化算法，用于优化非关键帧图像的运动补偿预测的性能。本发明在保证高压缩效率的前提下，优化多视点视频随机访问性能，支持快速的视点切换，从而提高多视点视频的交互式性能。
文档编号H04N7/26GK101867813SQ20101015591
公开日2010年10月20日申请日期2010年4月23日优先权日2010年4月23日
发明者刘峰, 郑海棠申请人:南京邮电大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘峰;郑海棠
技术所有人：南京邮电大学
我是此专利的发明人

上一篇：一种频率域分布式视频编码中的分类组合方法
上一篇：双向转发检测的实现方法及装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。