基于网格的立体视频空间可分级编码器及其编码方法

文档序号：7945604阅读：196来源：国知局

专利名称：基于网格的立体视频空间可分级编码器及其编码方法
技术领域：
本发明属于通信技术领域，涉及视频处理，特别是涉及立体视频的空间可分级压縮编码器，可用于使解码端根据不同的需求显示不同分辨率大小的单目和双目视频。
背景技术：
随着多媒体的发展，视频业务将是未来通信的主要业务。视频分为单目视频和双目视频。单目视频只能提供平面信息，而不能提供具有深
度的图像；双目视频通过提供立体信息，给用户一种身临其境的感觉，用户能获得更好的视觉效果，但双目信息量大，通信带宽资源十分有限，如何有效地压縮立体视频成为立体视频广泛应用的一个前提。随着网络和多媒体的发展，两者已密不可分。由于网络传输条件不稳定，要求视频编码码流能在网络上渐进式传输，编码能够适应网络的变化，接收端可以接收到基本质量的视频。目前用户通过移动设备访问多媒体资源的需求在逐渐增加，由于通信环境的影响、用户的需求不同、定购的业务不同和用户的终端设备能力不同，每个用户所需的视频码流就不同，解决这类问题的最好办法是可分级视频编码。可分级视频编码，是指通过单一编码器提供不同层次的码流。该码流采用分层格式，第一层提供最基本的解码质量，称为基本层，其他层提供不同质量层次的码流，这些层称为增强层。可分级编码分为时间可分级、质量可分级、空间可分级。其中空间可分级使码流适应不同分辨率大小的终端设备。具有低分辨率的终端只需解码基本层的码流，显示低分辨率的视频；具有高分辨率的终端可解码基本层和增强层，显示高分辨率的视频。
目前，空间可分级编码都是应用基于块方法的运动估计，块中的每一个像素具有相同的运动矢量，具有简单、易于硬件实现的优点。由于
每个块只是考虑简单的平移，没有考虑旋转、縮放等运动，因此并不能反映实际的运动。这使得块之间的运动不连续，在低比特编码情况下，解码图像常常出现明显的块效应。

发明内容
本发明的目的在于克服上述基于块方法进行空间可分级编码的不足，提出了一种基于网格的立体视频空间可分级编码器及其编码方法，以避免解码图像出现的块效应，提高在低比特率下解码视频的显示效果。
为实现上述目的，本发明的立体视频可分级编码器包括左基本层、左增强层、右基本层和右增强层，其中
左基本层中设有I帧网格描述单元、第一网格运动估计单元和第一网格运动补偿单元，用于通过Ddaimay三角形网格的运动估计完成时域预测； '
左增强层中设有第二网格运动估计单元和第二网格补偿单元，用于完成网格时域预测；
右基本层中设有第三网格运动估计单元和网格视差估计单元，用于完成网格时域预测和网格视差估计；
右增强层中设有纹理向上采样单元，用于完成层间纹理预测；
所述的编码器左基本层输出网格节点运动矢量、本地恢复的纹理信息和基本层的残差信息到左增强层中，输出网格节点的视差矢量到右基本层中；右基本层输出本地恢复的纹理信息到右增强层中。
为实现上述目的，本发明的立体视频可分级编码方法，包括如下步
骤
(1) 下采样输入的高分辨率立体视频，得到低分辨率的左右图像，并对I帧左图像采用DCT编码，得到I帧低分辨率左恢复图像；
(2) 对I帧低分辨率左恢复图像进行Delaunay三角形网格剖分；
(3) 左基本层其他帧利用已得到的网格进行网格节点运动补偿，得到低分辨率左图像的预测图像；
(4) 左增强层将低分辨率图像中的网格扩展到高分辨率图像中，得到高分辨层的网格，利用高分辨层的网格进行网格运动补偿和层间纹理预测，得到高分辨率左图像的预测图像；(5) 右基本层利用左低分辨图像中的网格进行网格运动补偿和视差补偿，得到低分辨率右图像的预测图像；
(6) 右增强层向上采样右基本层本地恢复的图像，得到高分辨率右图像的预测图像；
(7) 由原图像分别减去所述的低分辨率左图像的预测图像、低分辨率右图像的预测图像和高分辨率右图像的预测图像，得到相对应的残差图像；由高分辨率左原图像减去所述的高分辨率左图像的预测图像，得到高分辨率左图像的残差图像，并向上采样低分辨率左图像的残差图像，得到高分辨率左图像的预测残差图像，用该高分辨率左图像的残差图像减去高分辨率左图像的预测残差图像，得到高分辨率左图像的最终残差图像；
(8) 对上述每个残差图像依次编码，并将这些编码数据进行复用形成最终码流。
本发明具有如下优点
本发明由于对左低分辨率恢复图像进行Delaimay三角形网格剖分，因而使编码端不需要编码网格节点的位置，并且使网格节点能够分布在图像的边缘处，有利于运动补偿；同时由于本发明采用网格运动估计/ 补偿和视差估计/补偿，不仅适用旋转、縮放等复杂运动，而且更能反映实际的运动，有利于预测当前编码图像，得到的运动矢量光滑，在低比特下编码情况下，块效应不明显，解码视频显示效果好；此外由于本发明生成的码流包含了对应左右高低分辨率的码流，用户可以根据设备能力解码不同的码流，即平面需求解码不同分辨率的单目视频，立体显示需求解码不同分辨率的双目视频，以观看立体视频。

图1为本发明左通道空间可分级编码器结构框图；图2为本发明右通道空间可分级编码器结构框图；图3为本发明编码器不同帧的帧模式分布示意图；图4为本发明编码方法流程图；图5为本发明编码方法中的运动估计示意图；图6为本发明编码方法中低分辨率的网格扩展示意图。
具体实施例方式
参照图1和图2，本发明的编码器包括左通道空间可分级和右通道空间可分级编码，共分为四个层次，即左通道空间可分级设有左基本层和左增强层；右通道空间可分级设有右基本层和右增强层。本发明编码器的帧模式分布如图3所示。其中I帧采用DCT的方法直接编码；P帧选择时域预测、层间纹理预测、视差预测中的一种；B帧联合考虑这三种预测中的两种预测。
所述的左基本层由向下采样单元1、第一减法单元2、第一模式选择开关3、第二模式选择开关7、第一变换与量化单元4、第一反量化与反变换单元5、第一变长编码单元6、第一加法单元8、第一帧存单元9、 I帧网格描述单元10、第一网格运动估计单元11和第一网格运动补偿单元12连接构成。输入的左通道视频首先经过向下采样单元1得到基本层的图像。左基本层输入帧采用I帧编码模式时，第一模式选择开关3 选择I帧模式，该帧通过第一变换和量化单元4得到量化系数，经过第一变长编码单元6得到可变长的码流。同时量化系数经过第一反量化和反变换单元5得到本地解码的纹理信息。在I帧模式下，该纹理信息是图像的像素值信息，所以第二模式选择开关开关7选择I帧模式方向，得到的本地解码图像。该本地解码图像存储到第一帧存储器单元9中，供下一 P帧进行运动估计，并且由I帧网格描述单元单元IO对该I帧进行Ddaunay三角形网格剖分，得到网格节点的分布。当左基本层输入帧采用P帧编码模式时，第一模式选择开关3选择P帧模式。首先把本地解码中的前一帧作为参考帧，由第一网格运动估单元11进行前向网格运动估计，得到每一个节点的运动矢量，由仿射变换得到每个像素的运动矢量，这些节点的运动矢量由第一变长编码单元6进行编码。第一运动补偿单元12根据第一网格运动估计单元11的运动得到当前帧的预测图像。原基本层经过第一减法单元2减去预测图像得到基本层的残差图像，经过变换、量化、变长编码得到对应的码流。量化之后的系数经过第一反量化与反变换单元5并在第一加法单元8与预测图像相加得到本地解码图像，存储于第一帧存储器单元9中。
所述的左增强层由第二网格运动估计13、第二网格运动补偿单元14、第一向上采样单元15和第二向上采样单元20、第一加权平均单元16、第一预测选择单元17、第二减法单元18和第三减法单元19、第二变换与量^:单元21、第二反量化和反变换单元22、第二加法单元23、第二帧存单元24和第二变长编码单元25连接构成。当对应的左基本层帧采用I帧编码模式时，增强层帧选择开关采用P帧编码模式。基本层中存储的第一帧存储单元9经过第一向上采样单元15得到增强层的预测图像，第一预测选择单元17中只选择输入的向上采样信息。原视频图像在第二减法单元18中减去预测图像得到残差图像。残差图像通过第二变化与量化单元21得到量化系数，经第二变长编码单元25得到对应的码流。量化系数通过第二反量化与反变换单元22得到解码纹理，并在第二加法单元23与预测图像相加，得到本地解码图像，存储在第二帧存单元24中。当对应的左基本层帧采用P帧编码模式时，增强层采用B帧编码模式。该帧采用联合时域预测和层间纹理预测的方法。由基本层中的网格按照图4中的方法扩展到高分辨率图像中，对基本层中的运动矢量乘2作为增强层中节点的初始运动，在第二运动估计单元13再进行一个小范围之内的运动提升。每个节点的运动提升矢量进行变长编码。第二运动补偿单元14由节点的运动矢量得到时域预测图像。同时在第一向上采样单元15中由基本层中的第一帧存单元9的向上采样作为层间纹理预测。第一预测选择单元17通过在时域预测图像、层间纹理预测和第一加权平均单元16中的两者之平均中以宏块为单位选择最好的预测。然后经过第二减法单元18得到残差图像，该残差图像与基本层中第一反量化与反变换单元5的第二向上采样单元20与第三减法单元19相减得到最终残差图像，对此残差图像进行相应的编码。对该编码码流进行相反的过程得到本地恢复图像，存储于第二帧存单元24中。
所述的右基本层由向下采样单元、网格视差估计和补偿单元26、网格运动估计和补偿单元27、第二加权单元28、第二预测选择单元29、第三模式选择开关单元30和第四模式选择开关单元31、第四减法单元32、第三变换与量化单元33、第三反量化与反变换单元34、第三加法单元35、第三帧存单元36、第三变长编码单元37连接构成。首先由右图像经下采样得到右基本层的图像。当对应的左基本层帧采用I帧编码模式时，右基本层第三模式选择开关单元30采用P帧编码模式。在网格视差估计和补偿单元26中由对应左基本层中的网格和左基本层中的第一帧存单元9得到右图像的基本层预测图像。第三变长编码单元37对量化系数进行编码得到编码码流。原始基本层在第四减法单元32中减去预测图像得到残差图像，经第三变换与量化单元33得到量化系数，该量化系数经反量化、反变换单元34得到恢复残差图像。恢复残差图像再经过第三加法单元35与预测图像相加，得到本地恢复图像，存储于第三帧存单元36中。当对应的左基本层帧采用P帧编码模式时，右基本层第三模式选择开关单元30选择采用B帧编码模式。网格运动估计和补偿单元27由上一帧的网格进行本帧的时域预测。网格视差估计和补偿单元26由左基本层得到视差预测图像。第二预测选择单元29在时域预测、视差预测和第二加权单元28中的两者之平均中以宏块为单位选择最终的预测图像，并得到最终的残差图像。该残差图像经第三变换与量化单元33得到最终码流。该码流经相反的过程得到右基本层本地恢复图像，存储于第三帧存储单元36中。
所述的右增强层由第三向上采样单元38、第五减法单元39和第四变换与量化单元40连接构成。右通道的增强层统一采用P帧模式。对应的基本层解码图像经向上采样单元38得到增强层的层间预测图像。右增强层在第五减法单元39减去这个预测图像得到残差，在第四变换与量化单元40变换、量化得到量化系数。该量化系数通过第三变长编码单元37中编码。
参照图4，本发明编码方法包括如下步骤
步骤l，向下采样输入的高分辨率立体视频，获取I帧左恢复图像。通过隔点采样的方法向下采样输入的高分辨率立体视频，分别得到低分辨率的左图像和低分辨率的右图像，并对I帧左图像进行DCT编码得到I帧低分辨率的左恢复图像。
步骤2，对I帧低分辨率的左恢复图像进行Delaunay三角形网格剖分。
2. 1)将I帧低分辨率左恢复图像的四个角点形成两个三角形。由I帧低分辨率左恢复图像首先找到该图像的四个角点；再将左上角点、左下角点和右下角点三个节点构成第一个三角形；最后将左上角点、右上角点和右下角点三个节点构成第二个三角形。 2.2)找到其他网格节点并构成三角形网格。
在已有三角形中找到方差最大的那个三角形作为需要插入新节点的候选三角形。在这个三角形中利用Laplace算子检测灰度变化最大的点，并计算该点与己有的节点的距离，如果该距离大于一个常数D，则将该点作为新插入点，重新生成Delaunay三角形网格；如果该距离小于 D，则该点为无效点，在己有三角形中找方差其次的三角形，在该三角形中用Laplace算子检领!l，得到新插入点，重新生成Delaunay三角形网格。重复以上过程，直到插入点的数目达到最大数iV要求为止。
步骤3，利用网格节点运动估计和补偿得到左基本层中其他帧的预测图像。
对于编码左基本层中的P帧，以左低分辨率恢复图像为参考图像，采用己得到的网格进行网格节点运动估计和补偿，得到低分辨率左图像的预测图像，其具体过程采用如图5所述的伞形匹配搜索。
3.1) 对每个节点用块匹配的方法得到每个节点的初始运动，如图 5(a) 图5 (b);
3.2) 固定每个节点的周边节点，在伞形区域之内移动节点F，对变形后的每一个三角形用六参数仿射公式进行变换
Ay = a21x + a22_y + a23 (工)
式中，以AABF为例，(x,y)表示AABF内部原像素的坐标，(Ax, Ay) 表示AABF中三节点分别至UAA，B，F"对应三节点的位移，由三个顶点A、 B、 F的运动矢量得到六个参数，从而得到三角形内部每个像素的运动根据这些运动矢量由参考图像预测当前帧图像得到预测图像，选择
使F'所在的伞形中，预测图像与当前图像的误差最小的位置F"作为节点F，的新位置，如图5(b) 图5(c)。
所述的3.2)可进行多次迭代，直到节点位置不变为止。在进行运动估计时，节点F的位置必须限制在伞形ABCDE的区域之内，以保证整个Delaunay三角形网格的拓扑结构不变。
3. 3)利用网格运动估计得到的所有节点的运动矢量和仿射变换公式，由参考图像进行网格运动补偿得到当前低分辨率帧左图像的预测图
步骤4，左增强层利用网格运动补偿和层间纹理预测，得到左增强层的预测图像。
左增强层采用图6所示的扩展方法，将低分辨的网格中四个角点外的节点位置乘以2，作为高分辨率的网格节点位置，并将网格中的四个角点直接搬移到高分辨率对应的四个角点处，得到高分辨层的网格。
对于左增强层中的P帧，编码器中的左增强层将左低分辨率的图像向上采样作为左高分辨率图像的预测图像；对于左增强层中的B帧编码方式，编码器中的左增强层以同一层中前一帧图像为参考，利用高分辨层的网格进行网格运动补偿得到时域预测图像，同时利用低分辨率的已恢复的图像向上采样得到层间纹理预测，取两种预测和它们的平均三者中预测误差最小的作为最终高分辨率左图像的预测图像。
步骤5，右基本层利用网格运动补偿和网格视差补偿得到右基本层的预测图像。
对于右基本层的P帧，以左低分辨率恢复图像为参考和左低分辨率图像中的网格采用伞形匹配搜索得到每个网格节点的视差信息，然后由节点视差和仿射变换得到视差预测图像；
对于右基本层的B帧，除了采用以上得到的视差预测图像，同时采用前一帧的网格进行网格运动补偿得到时域预测图像；取两种预测图像和它们的平均图像中与原图像误差最小的图像，作为最终低分辨率右图像的预测图像。
步骤6，右增强层利用右基本层的信息编码得到右增强层的预测图像。
右增强层统一采用B帧方式，通过向上采样右基本层本地恢复的图像，得到高分辨率右图像的预测图像。步骤7,获得所有残差图像。
7.1) 由低分辨率左原图像减去低分辨率左图像的预测图像，得到低分辨率左图像的残差图像；
7.2) 由高分辨率左原图像减去高分辨率左图像的预测图像，得到高分辨率左图像的残差图像，同时向上采样以上所述的低分辨率左图像的残差图像，作为高分辨率左图像的预测残差图像。用高分辨率左图像的残差图像减去高分辨率左图像的预测残差图像得到高分辨率左图像最终残差图像；
7.3) 由低分辨率右原图像减去低分辨率右图像的预测图像，得到低分辨率右图像的残差图像；
7.4) 由高分辨率右原图像减去高分辨率右图像的预测图像，得到高分辨率左图像的残差图像；
步骤8，对上述所有的残差图像进行编码，复合成一个码流。编码低分辨率左图像的残差图像、高分辨率左图像最终残差图像、低分辨率右图像的残差图像和高分辨率左图像的残差图像得到低分辨率左图像所对应的码流、高分辨率左图像所对应的码流、低分辨率右图像所对应的码流和高分辨率右图像所对应的码流；将这些码流组成一个复合码流，形成最终码流。
权利要求
1. 一种基于网格的立体视频空间可分级编码器，包括左基本层、左增强层、右基本层和右增强层，其特征在于左基本层中设有I帧网格描述单元(10)、第一网格运动估计单元(11)和第一网格运动补偿单元(12)，用于通过Delaunay三角形网格的运动补偿完成时域预测；左增强层中设有第二网格运动估计单元(13)和第二网格补偿单元(14)，用于完成网格时域预测；右基本层中设有第三网格运动估计单元(27)和网格视差估计单元(26)，用于完成网格时域预测和网格视差补偿；右增强层中设有纹理向上采样单元(28)，用于完成层间纹理预测；所述的编码器左基本层输出网格节点运动矢量、本地恢复的纹理信息和基本层的残差信息到左增强层中，输出网格节点的视差矢量到右基本层中；右基本层输出本地恢复的纹理信息到右增强层中。
2. —种基于网格的立体视频空间可分级编码方法，包括如下步骤(1) 下采样输入的高分辨率立体视频，得到低分辨率的左右图像，并对I帧左图像采用DCT编码，得到I帧低分辨率左恢复图像；(2) 对I帧低分辨率左恢复图像进行Delaunay三角形网格剖分；(3) 左基本层其他帧利用己得到的网格进行网格节点运动补偿，得到低分辨率左图像的预测图像；(4) 左增强层将低分辨率图像中的网格扩展到高分辨率图像中，得到高分辨层的网格，利用高分辨层的网格进行网格运动补偿和层间纹理预测，得到高分辨率左图像的预测图像；(5) 右基本层利用左低分辨图像中的网格进行网格运动补偿和视差补偿，得到低分辨率右图像的预测图像；(6) 右增强层向上采样右基本层本地恢复的图像，得到高分辨率右图像的预测图像；(7) 由原图像分别减去所述的低分辨率左图像的预测图像、低分辨率右图像的预测图像和高分辨率右图像的预测图像，得到相对应的残差图像；由高分辨率左原图像减去所述的高分辨率左图像的预测图像，得到高分辨率左图像的残差图像，并向上采样低分辨率左图像的残差图像，得到高分辨率左图像的预测残差图像,用该高分辨率左图像的残差图像减去高分辨率左图像的预测残差图像，得到高分辨率左图像的最终残差图像；(8)对上述每个残差图像依次编码，并将这些编码数据进行复用形成最终码流。
3. 根据权利要求2所述的立体视频空间可分级编码方法，其中步骤(2) 所述的对第一帧低分辨率左图像进行Delaunay三角形网格剖分，按如下步骤进行(3a)将低分辨率左图像的四个角点形成两个三角形；(3b)在己有的三角形中找到灰度方差最大的那个三角形，用Laplace算子检测出该三角形中灰度变化最大的像素点作为新插入点，对所有节点形成Delaunay三角形网格；(3c)重复步骤(3b),直到节点的个数达到最大数N为止。
4. 根据权利要求2所述的立体视频空间可分级编码方法，其中步骤(3) 所述的左基本层利用已得到的网格进行网格节点运动补偿，按如下伞形匹配搜索的步骤进行(4a)对参考帧中所有的网格节点在其邻域找当前帧对应的节点，将这些节点的位置变化作为节点的初始运动矢量；(4b)依次处理所有的节点，固定该节点的相连节点的位置，移动该节点的位置，利用仿射变换找到使该节点和它相连的节点所形成的区域误差最小的位置，作为节点的新位置；(4c)重复步骤(4b)，直到网格节点位置不变为止，得到节点的最终运动矢量；(4d)由网格节点的运动矢量和仿射变换得到当前帧的预测图像。
5. 根据权利要求2所述的立体视频空间可分级编码方法，其中步骤(4) 所述的将低分辨率图像中的网格扩展到高分辨率图像，是将低分辨的网格四个角点外的节点位置乘以2，作为高分辨率的网格节点位置，并将网格中的四个角点直接搬移到高分辨率对应的四个角点处。
6.根据权利要求2所述的立体视频空间可分级编码方法，其中步骤(5)所述的右基本层利用左低分辨图像中的网格进行网格运动补偿和视差补偿按如下步骤进行(6a)网格运动补偿采用本层中的前一帧作为参考图像，进行所述的伞形匹配搜索，得到时域预测图像；(6b)网格视差补偿以对应的左低分辨率图像作为参考图像，进行所述的伞形匹配搜索，得到视差预测图像；(6c)选择以上两种预测图像中预测误差最小的作为右基本层的最终预测图像。
全文摘要
本发明公开了一种基于网格的立体视频空间可分级编码器及其编码方法。它属于图像压缩技术领域，主要解决现有可分级编码器基于块方法产生的块效应问题。该编码器首先对左低分辨率恢复图像进行Delaunay三角形剖分，得到三角形网格；再应用基于网格的运动补偿和视差补偿预测当前编码图像，以左通道低分辨率恢复图像为参考图像；通过网格节点的运动信息和视差信息得到左通道不同分辨率和右通道不同分辨率的预测图像；由原图像分别减去这些预测图像得到对应的残差图像；再对这些残差图像分别编码，形成一个复合码流。本发明不仅能实现可分级的功能，而且能减少基于块方法产生的块效应，可用于使解码端根据不同的需求显示不同分辨率大小的单目和双目视频。
文档编号H04N7/26GK101511017SQ20091002161
公开日2009年8月19日申请日期2009年3月20日优先权日2009年3月20日
发明者卢朝阳, 静李, 焦卫东, 胡星星, 郭大波, 韩军功, 高全学申请人:西安电子科技大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：卢朝阳;胡星星;郭大波;焦卫东;韩军功;高全学;李静
技术所有人：西安电子科技大学
我是此专利的发明人

上一篇：基于mimo的自组织网络路由选择方法
上一篇：一种实现wapi系统终端零干预计费的方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。