用于多层译码的多分辨率经解码图片缓冲器管理的制作方法

文档序号：8909508阅读：429来源：国知局

用于多层译码的多分辨率经解码图片缓冲器管理的制作方法
【专利说明】
[0001] 本申请案要求2013年1月4日申请的第61/749, 105号美国临时专利申请案的权益。
技术领域
[0002] 本发明涉及用于视频译码的技术，且更特定来说涉及用于多层视频译码的技术。
【背景技术】
[0003] 数字视频能力可并入到广泛范围的装置中，包含数字电视、数字直播系统、无线广播系统、个人数字助理（PDA)、膝上型或桌上型计算机、数码摄影机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、视频电话会议装置和其类似者。数字视频装置实施视频压缩技术，例如由MPEG-2、MPEG-4、ITU-T H. 263、ITU-T H. 264/MPEG-4第10部分、高级视频译码（AVC)、目前正在开发的高效率视频译码（HEVC)标准和此类标准的扩展定义的标准中所描述的技术，以更有效地发射、接收和存储数字视频信息。
[0004] 前述标准中的一些的扩展（包含H. 264/AVC)提供用于多层视频译码的技术。多层视频译码技术可包含可缩放视频译码技术、多视图视频译码技术和多视图加上深度视频译码技术。为了产生立体或三维（"3D"）视频，举例来说，已提出用于AVC的多视图译码技术以及可缩放视频译码（SVC)标准（其为H.264/AVC的可缩放扩展）和多视图视频译码 (MVC)标准（其已变成H. 264/AVC的多视图扩展）。
[0005] 通常，使用两个视图（例如，左视图和右视图）达成立体视频。左视图的图片实质上可与右视图的图片同时显示以达成三维视频效果。举例来说，用户可佩戴偏光被动式眼镜，其将左视图从右视图滤波掉。替代性地，可快速连续展示两个视图的图片，且用户可佩戴主动式眼镜，其以相同频率但具有90度的相位移位快速遮光左眼和右眼。

【发明内容】

[0006] -般来说，本发明描述用于多层视频译码的技术。具体来说，本发明是关于用于多层视频译码的经解码图片缓冲器OPB)管理。
[0007] 在本发明的一或多个实例中，视频译码器（例如，视频编码器或视频解码器）可经配置以执行以下方法。
[0008] 在本发明的一个实例中，一种译码视频数据的方法包括解码视频数据以产生多个经解码层分量、将所述经解码层分量存储于DPB的一或多个子单元中，和对所述一或多个子单元执行DPB管理过程，其中针对所述一或多个子单元中的每一者单独地管理所述DPB 管理过程。
[0009] 在本发明的另一实例中，一种经配置以译码视频数据的设备包括视频译码器，其经配置以解码视频数据以产生多个经解码层分量、将所述经解码层分量存储于DPB的一或多个子单元中和对所述一或多个子单元执行DPB管理过程，其中针对所述一或多个子单元中的每一者单独地管理所述DPB管理过程。
[0010] 在本发明的另一实例中，一种经配置以译码视频数据的设备包括用于解码视频数据以产生多个经解码层分量的装置、用于将所述经解码层分量存储于DPB的一或多个子单元中的装置和用于对所述一或多个子单元执行DPB管理过程的装置，其中针对所述一或多个子单元中的每一者单独地管理所述DPB管理过程。
[0011] 在另一个实例中，本发明描述一种存储指令的计算机可读存储媒体，所述指令在执行时致使经配置以译码视频数据的装置的一或多个处理器进行如下操作：解码视频数据以产生多个经解码层分量、将所述经解码层分量存储于DPB的一或多个子单元中和对所述一或多个子单元执行DPB管理过程，其中针对所述一或多个子单元中的每一者单独地管理所述DPB管理过程。
[0012] 一或多个实例的细节阐述于随附图式和下文描述中。其它特征、目标和优势将从描述和图式并从权利要求书中显而易见。
【附图说明】
[0013] 图1为说明可利用本发明中描述的技术的实例视频编码和解码系统的框图。
[0014] 图2为说明实例多视图解码顺序的概念图。
[0015] 图3为说明用于多视图译码的实例预测结构的概念图。
[0016] 图4为说明实例可缩放视频译码层的概念图。
[0017] 图5为说明可实施本发明中描述的技术的实例视频编码器的框图。
[0018] 图6为说明可实施本发明中描述的技术的实例视频解码器的框图。
[0019] 图7为展示根据本发明的第一实例的实例DPB的概念图。
[0020] 图8为展示根据本发明的第二实例的实例DPB的概念图。
[0021] 图9为展示根据本发明的第三实例的实例DPB的概念图。
[0022] 图10为展示根据本发明的第四实例的实例DPB的概念图。
[0023] 图11为展示根据本发明的技术的实例方法的流程图。
【具体实施方式】
[0024] 一般来说，本发明描述用于管理多层视频译码中的经解码图片的技术，其中不同层可具有不同空间分辨率。在本发明的上下文中，层可为可缩放视频译码过程（例如， H. 264/SVC或新出现的高效率视频译码（HEVC)标准的可缩放扩展）中的层、多视图或3D视频译码中的纹理视图或3D视频译码中的深度视图。作为另一实例，层可对应于包含纹理视图分量和深度视图分量两者的单一视图。因此，术语"层"可在本发明中总体上用于在SVC 意义上指层或在MVC意义上指视图。本发明的技术可适用于任何此类视频译码情境，包含 HEVC和H. 264/AVC的多视图扩展、3D视频扩展和可缩放扩展。
[0025] 下文所描述的技术可应用于基于高级编解码器的可缩放、多视图和3D视频译码，包含译码具有深度图的图片的两个或两个以上视图。视频译码标准包含ITU-T H. 261、 ISO/IEC MPEG-1 Visual、ITU-T H.262 或 ISO/IEC MPEG-2 Visual、ITU-T H.263、ISO/IEC MPEG-4 Visual和ITU-T H. 264 (也被称为ISO/IEC MPEG-4 AVC)，包含其可缩放视频译码 (SVC)和多视图视频译码（MVC)扩展。另外，当前正由ITU-T视频译码专家组（VCEG)和ISO/ IEC动画专家组（MPEG)的视频译码联合合作小组（JCT-VC)开发新视频译码标准（即，高效率视频译码OlEVC))。HEVC的新近WD描述于JCTVC-K1003"高效率视频译码（HEVC)文本规范草案9"中（第11次会议：中国上海，2012年10月10日到19日），且到2012年12月17 曰为止可在http://Dhenix.int-evry.fr/ict/doc end user/documents/11 Shanghai/ wgll/TCTVC-K1003-V12. zip处下裁所述草案，其全部内容以引用的方式并入本文中。
[0026] HEVC的更为新近草案描述于ITU-T H. 265,系列H中：视听和多媒体系统（AUDIOVISUAL AND MULTIMEDIA SYSTEMS)，移动视频视听服务译码基础结构 (Infrastructure of Audiovisual Services-Coding of Moving Video)，"高效率视频译码"，2013年4月（下文中称为"HEVC"）。HEVC以全文引用的方式并入本文中。已提出对 HEVC的各种扩展。一个此类扩展为描述于"高效率视频译码（HEVC)范围扩展文本规范：草案 4"（JCTVC-N1005_vl，2013 年 4 月（下文中称为"JCTVC-N1005"））中的 HEVC 范围扩展。标题为"高效率视频译码（HEVC)可缩放扩展草案3"的可缩放HEVC (SHEVC)的新近工作草案（WD) (ITU-T SG 16 WP 3和IS0/IEC JTC 1/SC 29/WG 11的视频译码联合合作小组 (JCT-VC)，第14次会议：奥地利维也纳，2013年7月25日到8月2日，且在下文中被称为 SHEVC WD3)可得自 http://phenix. it-sudparis. eu/jct/doc_end_user/documents/14_ Vienna/wgll/JCTVC-N1008-v3. zip，其以全文引用的方式并入本文中。
[0027] 用于经解码图片缓冲器（DPB)管理的当前解决方案仅涉及存储具有相同分辨率的不同层的情况。即，用于DPB管理的当前技术假定每一层包含相同数目个像素（即，分辨率），从而当层具有不同数目个像素时带来低效率。鉴于此缺点，本发明描述用于当需要存储具有不同分辨率的多个经解码层分量时的DPB管理的各种方法和技术。
[0028] 图1为说明可利用本发明中描述的用于多层视频译码中的经解码图片缓冲器管理的技术的实例视频编码和解码系统10的框图。如图1中所展示，系统10包含源装置12，其产生稍后由目的地装置14解码的经编码视频数据。源装置12和目的地装置14可包括广泛范围装置中的任一者，包含桌上型计算机、笔记型（即，膝上型）计算机、平板计算机、机顶盒、电话手持机（例如，所谓的"智能"电话）、所谓的"智能"平板计算机、电视机、摄像机、显示装置、数字媒体播放器、视频游戏控制台、视频串流装置或其类似者。在一些情况下，源装置12和目的地装置14可经装备以用于无线通信。
[0029] 目的地装置14可经由链路16接收待解码的经编码视频数据。链路16可包括能够将经编码视频数据从源装置12移动到目的地装置14的任何类型媒体或装置。在一个实例中，链路16可包括使得源装置12能够实时地将经编码视频数据直接发射到目的地装置 14的通信媒体。经编码视频数据可根据通信标准（例如，无线通信协议）加以调制，并发射到目的地装置14。通信媒体可包括任何无线或有线通信媒体，例如射频（RF)频谱或一或多个物理发射线。通信媒体可形成分组网络（例如，局域网、广域网或全球网络，例如因特网）的部分。通信媒体可包含路由器、交换器、基站或任何其它可用于促进从源装置12到目的地装置14的通信的设备。
[0030] 替代性地，可将经编码数据从输出接口 22输出到存储装置34。类似地，可由输入接口从存储装置34存取经编码数据。存储装置34可包含多种分布式或本地存取的数据存储媒体中的任一者，例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器或用于存储经编码视频数据的任何其它合适数字存储媒体。在另一实例中，存储装置34可对应于文件服务器或可保存由源装置12产生的经编码视频的另一中间存储装置。目的地装置14可经由串流或下载从存储装置34存取所存储视频数据。文件服务器可为能够存储经编码视频数据并将经编码视频数据发射到目的地装置14的任何类型服务器。实例文件服务器包含网络服务器（例如，用于网站）、FTP服务器、网络附接存储（NAS) 装置或本地磁盘驱动器。目的地装置14可经由任何标准数据连接（包含因特网连接）来存取经编码视频数据。此连接可包含适于存取存储于文件服务器上的经编码视频数据的无线信道（例如，Wi-Fi连接）、有线连接（例如，DSL、电缆调制解调器等）或两者的组合。经编码视频数据从存储装置34的发射可为串流发射、下载发射或两者的组合。
[0031] 用于多层视频解码中的经解码图片缓冲器管理的本发明技术未必限于无线应用或设定。所述技术可应用于视频译码以支持多种多媒体应用中的任一者，例如空中电视广播、有线电视发射、卫星电视发射、串流视频发射（例如，经由因特网）、编码数字视频以存储于数据存储媒体上、解码存储于数据存储媒体上的数字视频，或其它应用。在一些实例中，系统10可经配置以支持单向或双向视频发射，以支持例如视频串流、视频重放、视频广播和/或视频电话的应用。
[0032] 在图1的实例中，源装置12包含视频源18、视频编码器20和输出接口 22。在一些状况下，输出接口 22可包含调制器/解调器（调制解调器）和/或发射器。在源装置12 中，视频源18可包含例如视频俘获装置（例如，摄像机）、含有先前俘获视频的视频存档、用以从视频内容提供者接收视频的视频馈入接口和/或用于产生计算机图形数据作为源视频的计算机图形系统或此类源的组合的源。作为一个实例，如果视频源18是摄像机，那么源装置12和目的地装置14可形成所谓的摄像机电话或视频电话。然而，本发明中描述的技术一般可适用于视频译码，且可应用于无线和/或有线应用。
[0033] 可由视频编码器20编码所俘获视频、预俘获视频或计算机产生的视频。可经由源装置12的输出接口 22将经编码视频数据直接发射到目的地装置14。还可（或替代性地）将经编码视频数据存储到存储装置34上以供稍后由目的地装置14或其它装置存取以用于解码和/或重放。
[0034] 目的地装置14包含输入接口 28、视频解码器30和显示装置32。在一些状况下，输入接口 28可包含接收器和/或调制解调器。目的地装置14的输入接口 28经由链路16 接收经编码视频数据。经由链路16传达或在存储装置34上提供的经编码视频数据可包含由视频编码器20所产生的多种语法元素以供由例如视频解码器30的视频解码器用于解码视频数据。此类语法元素可与在通信媒体上发射、存储于存储媒体上或存储文件服务器的经编码视频数据包含在一起。
[0035] 显示装置32可与目的地装置14 一起集成或在目的地装置外部。在一些实例中，目的地装置14可包含集成式显示装置，且还经配置以与外部显示装置介接。在其它实例中，目的地装置14可为显示装置。一般来说，显示装置32将经解码视频数据显示给用户，且可包括多种显示装置中的任一者，例如液晶显示器（LCD)、等离子显示器、有机发光二极管（OLED)显示器或另一类型的显示装置。
[0036] 视频编码器20和视频解码器30可根据视频压缩标准（例如，目前正在开发的高效率视频译码（HEVC)标准）来操作，且可符合HEVC测试模型（HM)。具体来说，在一些实例中，视频编码器20和视频解码器可根据支持多视图或多视图加上深度视频译码的HEVC扩展来操作。在其它实例中，视频编码器20和视频解码器30可根据其它专有或行业标准来操作，例如ITU-T H. 264标准（替代性地被称为MPEG-4第10部分）、高级视频译码（AVC)，或此类标准的扩展（包含H.264/SVC)。然而，本发明的技术不限于任何特定译码标准。视频压缩标准的其它实例包含MPEG-2和ITU-T H. 263。具体来说，根据本发明的技术，视频编码器20和视频解码器30可根据能够3DV和/或多视图编码（例如，3D-HEVC、H. 264/MVC 等）的视频译码标准来操作。
[0037] 尽管图1中未展示，但在一些方面中，视频编码器20和视频解码器30可各自与音频编码器和解码器一起集成，且可包含适当多路复用器-多路分用器（MUX-DEMUX)单元或其它硬件和软件，以处理对共同数据流或单独数据流中的音频与视频两者的编码。在一些实例中，如果适用，那么多路复用器-多路分用器单元可符合ITU H. 223多路复用器协议，或例如用户数据报协议（UDP)的其它协议。
[0038] 视频编码器20和视频解码器30各自可经实施为例如一或多个微处理器、数字信号处理器（DSP)、专用集成电路（ASIC)、现场可编程门阵列（FPGA)、离散逻辑、软件、硬件、固件或其任何组合的多种合适编码器电路中的任一者。当部分以软件实施所述技术时，装置可将用于软件的指令存储于合适非暂时性计算机可读媒体中并使用一或多个处理器以硬件执行所述指令来执行本发明的技术。视频编码器20和视频解码器30中的每一者可包含在一或多个编码器或解码器中，所述编码器或解码器中的任一者可集成为相应装置中的组合编码器/解码器（编解码器）的部分。
[0039] 本发明的以下章节将提供HEVC标准的背景。HEVC标准化努力是基于被称作HEVC 测试模型（HM)的视频译码装置的演进模型。HM根据（例如）ITU-T H.264/AVC假设视频译码装置相对于现存装置的若干额外能力。举例来说，虽然H. 264提供九种帧内预测编码模式，但HM可提供多达三十三种帧内预测编码模式。
[0040] 一般来说，HM的工作模型描述视频帧或图片可划分成包含明度和色度样本两者的一序列树块或最大译码单元（LCU)。树块具有与H. 264标准的宏块类似的目的。切片包含按译码顺序的多个连续树块。视频帧或图片可分割成一或多个切片。每一树块可根据四叉树而分裂成译码单元（CU)。举例来说，作为四叉树的根节点的树块可分裂成四个子节点，且每一子节点又可为父节点并分裂成另外四个子节点。最后未经分裂子节点（作为四叉树的叶节点）包括译码节点（即，经译码视频块）。与经译码位流相关联的语法数据可定义树块可分裂的最大次数，且还可定义译码节点的最小大小。
[0041] CU包含译码节点和与所述译码节点相关联的预测单元（PU)和变换单元（TU)。CU 的大小总体上对应于译码节点的大小，且通常必须为正方形形状。⑶的大小可介于8X8像素至多具有最大64X64像素或更大的树块大小的范围内。每一 CU可含有一或多个PU和一或多个TU。举例来说，与CU相关联的语法数据可描述将CU分割成一或多个PU。分割模式可在CU被跳过或经直接模式编码、帧内预测模式编码或帧间预测模式编码之间有所不同。 PU可分割成非正方形形状。举例来说，与CU相关联的语法数据还可描述根据四叉树将CU 分割成一或多个TU。TU可为正方形或非正方形形状。
[0042] HEVC标准允许根据TU进行变换，TU可针对不同⑶而有所不同。TU的大小通常是基于针对经分割LCU定义的给定CU内的PU的大小而设定，但状况可并不总是如此。TU通常与PU大小相同或小于PU。在一些实例中，可使用被称为"残余四叉树"（RQT)的四叉树结构将对应于CU的残余样本再分成较小单元。RQT的叶节点可被称为变换单元（TU)。可变换与TU相关联的像素差值以产生可经量化的变换系数。
[0043] -般来说，PU包含与预测过程有关的数据。举例来说，当PU经帧内模式编码时， PU可包含描述PU的帧内预测模式的数据。作为另一实例，当PU经帧间模式编码时，PU可包含定义PU的运动向量的数据。定义PU的运动向量的数据可描述（例如）运动向量的水平分量、运动向量的垂直分量、运动向量的分辨率（例如，四分之一像素精度或八分之一像素精度）、运动向量指向的参考图片和/或可由预测方向指示的运动向量的参考图片列表 (例如，列表0、列表1或列表C)。
[0044] -般来说，TU用于变换和量化过程。具有一或多个PU的给定⑶还可包含一或多个变换单元（TU)。在预测后，视频编码器20可根据PU从由译码节点所识别的视频块计算残余值。接着更新译码节点以参考残余值

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈颖;王益魁;
技术所有人：高通股份有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。