对用于视频译码的参数集和nal单元标头进行译码的制作方法
【专利摘要】在一实例中,例如视频编码器或视频解码器等视频译码器经配置以:对用于视频数据的一或多个层的视频参数集VPS进行译码,其中视频数据的所述一或多个层中的每一者参考所述VPS;且至少部分地基于所述VPS对视频数据的所述一或多个层进行译码。所述视频译码器可遵照高效率视频译码、多视图视频译码、可缩放视频译码或其它视频译码标准或视频译码标准的扩展对用于视频数据的所述VPS进行译码。所述VPS可包括指定用于视频数据在各种不同层(例如,视图、质量层或其类似者)内的相应序列的参数的数据。所述VPS的所述参数可提供相应视频数据如何进行译码的指示。
【专利说明】对用于视频译码的参数集和NAL单元标头进行译码
[0001] 本申请案主张以下各者的权益:
[0002] 2012年1月14日申请的第61/586,777号美国临时申请案;
[0003] 2012年1月16日申请的第61/587,070号美国临时申请案;
[0004] 2012年1月19日申请的第61/588,629号美国临时申请案;
[0005] 2012年4月23日申请的第61/637,195号美国临时申请案;以及
[0006] 2012年4月24日申请的第61/637,774号美国临时申请案,所述申请案中的每一 者全文以引用的方式并入本文中。
【技术领域】
[0007] 本发明涉及视频译码。
【背景技术】
[0008] 数字视频能力可并入到广泛范围的装置中,所述装置包括数字电视、数字直播系 统、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、平板计算机、电子书阅 读器、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式 或卫星无线电电话、所谓的"智能电话"、视频电传会议装置、视频串流发射装置及其类似 者。数字视频装置实施视频译码技术,例如由MPEG-2、MPEG-4、ITU-T Η. 263、ITU-T Η. 264/ MPEG-4第十部分(先进视频译码(AVC))界定的标准、目前在开发中的高效率视频译码 (HEVC)标准和这些标准的扩展中所描述的视频译码技术。即将到来的HEVC标准的近期 最新草案可于 http ://phenix. int-evry. fr/jet/doc_end_user/documents/7_Geneva/ wgll/JCTVC-G1103-v3. zip获得。视频装置可通过实施这些视频译码技术来更有效率地发 射、接收、编码、解码和/或存储数字视频信息。
[0009] 视频译码技术包括空间(图片内)预测和/或时间(图片间)预测以减少或移除 视频序列中固有的冗余。对于基于块的视频译码,视频片段(即,视频帧或视频帧的一部 分)可分被割成多个视频块,视频块也可被称为树型块、译码单元(CU)和/或译码节点。图 片的帧内译码(I)片段的视频块使用相对于同一图片中的相邻块中的参考样本的空间预 测来编码。图片的帧间译码(P或B)片段中的视频块可使用相对于同一图片中的相邻块中 的参考样本的空间预测或相对于其它图片中的参考样本的时间预测。图片可被称为帧,且 参考图片可被称为参考帧。
[0010] 空间或时间预测产生用于待译码块的预测性块。残余数据表示待译码的原始块与 预测性块之间的像素差。经帧间译码的块根据指向形成预测性块的参考样本的块的运动向 量和指示经译码块与预测性块之间的差异的残余数据来编码。经帧内译码的块根据帧内译 码模式和残余数据来编码。为了进一步压缩,残余数据可自像素域变换到变换域,从而产生 接着可被量化的残余变换系数。最初配置成二维阵列的经量化的变换系数可经扫描以便产 生变换系数的一维向量,且可应用熵译码以实现更大压缩。
【发明内容】
[0011] 大体来说,本发明描述用于对用于视频译码的参数集和网络抽象层(NAL)单元进 行译码的技术。这些技术可应用于单层经译码数据(例如,二维视频数据),以及可缩放视 频译码(SVC)视频数据和多视图视频译码(MVC)视频数据。因此,所述参数集和所述NAL单 元在各种类型的视频数据之间可相互兼容。举例来说,视频译码器(例如视频编码器或视 频解码器)可对定义用于视频数据的一或多个层的参数的视频参数集(VPS)进行译码。所 述层可对应于(例如)SVC层(具有各种帧速率、空间分辨率和/或质量水平)和/或MVC 数据的视图(例如,自关于水平轴线的各种相机视角俘获的场景的图像的序列)。
[0012] 在一个实例中,一种对视频数据进行译码的方法包括:对用于视频数据的一或多 个层的视频参数集(VPS)进行译码,其中视频数据的所述一或多个层中的每一者参考所述 VPS ;以及至少部分地基于所述VPS对视频数据的所述一或多个层进行译码。
[0013] 在另一实例中,一种用于对视频数据进行译码的装置包括视频译码器(例如视频 编码器或视频解码器),所述视频译码器经配置以:对用于视频数据的一或多个层的视频 参数集(VPS)进行译码,其中视频数据的所述一或多个层中的每一者参考所述VPS ;且至少 部分地基于所述VPS对视频数据的所述一或多个层进行译码。
[0014] 在另一实例中,一种用于对视频数据进行译码的装置包括:用于对用于视频数据 的一或多个层的视频参数集(VPS)进行译码的装置,其中视频数据的所述一或多个层中的 每一者参考所述VPS ;以及用于至少部分地基于所述VPS对视频数据的所述一或多个层进 行译码的装置。
[0015] 在另一实例中,一种计算机可读存储媒体具有存储于其上的指令,所述指令在执 行时使处理器进行以下操作:对用于视频数据的一或多个层的视频参数集(VPS)进行译 码,其中视频数据的所述一或多个层中的每一者参考所述VPS;以及至少部分地基于所述 VPS对视频数据的所述一或多个层进行译码。
[0016] 在附图和以下描述中陈述一或多个实例的细节。其它特征、目标和优势将自所述 描述和图式以及自权利要求书显而易见。
【专利附图】
【附图说明】
[0017] 图1为说明可利用用于对用于视频数据的一或多个层的参数集和网络抽象层 (NAL)单元进行译码的技术的实例视频编码和解码系统的框图。
[0018] 图2为说明可实施用于对用于视频数据的一或多个层的参数集和NAL单元进行译 码的技术的视频编码器20的实例的框图。
[0019] 图3为说明可实施用于对用于视频数据的一或多个层的参数集和NAL单元进行译 码的技术的视频解码器30的实例的框图。
[0020] 图4为说明实例MVC预测型样的概念图。
[0021] 图5为说明视频参数集(VPS)和各种层参数集(LPS)的概念图。
[0022] 图6为说明实例分组参数集(GPS)和GPS与其它参数集和片段标头的关系的概念 图。
[0023] 图7为说明根据本发明的技术用于编码视频数据的实例方法的流程图。
[0024] 图8为说明根据本发明的技术用于解码视频数据的实例方法的流程图。
[0025] 图9为说明至少部分地基于在VPS中用信号表示的时间层的数目对视频数据进行 译码的实例方法的流程图。
[0026] 图10为说明至少部分地基于在一或多个层中待重新排序的图片和待存储于经解 码图片缓冲器中的图片的数目对视频数据进行译码的实例方法的流程图。
[0027] 图11为说明至少部分地基于在VPS中用信号表示的假想参考解码器(HRD)参数 对视频数据进行译码的实例方法的流程图。
[0028] 图12为说明至少部分地基于在VPS中用信号表示的扩展数据对视频数据进行译 码的实例方法的流程图。
【具体实施方式】
[0029] 大体来说,本发明描述使用视频参数集(VPS)对视频数据进行译码。视频数据可 在阶层上分类为包括多个层、给定层内的图片的序列、序列内的图片、图片内的多个片段和 片段内的多个块(例如,宏块或译码树单元)。序列参数集(SPS)可用以用信号表示用于图 片的序列的很少变化的参数,且图片参数集(PPS)可用以用信号表示用于个别图片的很少 变化的参数。
[0030] 根据本发明的技术,VPS可用信号表示用于跨相应层的多个序列的很少变化的参 数。即,VPS可包括用于不同层的时间上共置的序列的集合的参数。不同层可包括(例如) 多视图视频数据的不同视图、不同质量层、不同空间分辨率层、时间上可缩放的层(即,允 许不同帧速率的层)及其类似者。以此方式,可为多个不同层提供一个VPS,以使得所述VPS 用信号表示为相应层中的每一者(例如,相应层内的相应序列)所共有的参数。位流可据 称包括所述多个层中的每一者,且所述相应层可形成相应子位流。此外,子位流可对应于两 个或两个以上层的组合。
[0031] 本发明描述可包括于VPS中的数据的各种实例。在一些实例中,此数据可包括相 应层内的子层的数目(例如,子层的最大数目)的指示。举例来说,VPS可包括用信号表示 时间层的数目和/或时间层的最大数目(例如,最高时间层指示符)的数据。
[0032] 作为另一实例,另外或替代地,VPS可包括实质上类似于先前在SPS中用信号表示 (即,在常规SPS中用信号表示)的任何数据的数据。以此方式,当位流的两个或两个以上 层的序列包括实质上类似或相同的参数时,视频译码器可对VPS进行译码以用信号表示用 于所述层的序列的参数,而非冗余地在不同层之间在各种序列的相应SPS中对此数据进行 译码。
[0033] 另外或替代地,VPS可包括定义视频可用性信息(VUI)的数据,例如视频表示信 息、假想参数解码器(HRD)参数和/或位流限制信息。位流限制信息可包括关于运动向量 范围、经解码图片缓冲器(DPB)大小(例如,关于待由DPB保存的图片的数目)、重新排序帧 的数目(即,待自解码次序到显示次序重新排序的帧的数目的指示)、块(例如,宏块(MB) 或译码树单元)的经译码大小和图片的经译码大小的限制。VPS可进一步提供用于一或多 个VPS扩展的数据,以使得VPS可通过未来标准或扩展而扩展到即将到来的HEVC标准。 [0034] 图1为说明可利用用于对用于视频数据的一或多个层的参数集和网络抽象层 (NAL)单元进行译码的技术的实例视频编码和解码系统10的框图。如图1所示,系统10包 括提供在稍后时间由目的地装置14解码的经编码视频数据的源装置12。特定来说,源装置 12经由计算机可读媒体16将视频数据提供到目的地装置14。源装置12和目的地装置14 可包含包括以下各者的广泛范围的装置中的任一者:桌上型计算机、笔记本(即,膝上型) 计算机、平板计算机、机顶盒、例如所谓"智能"电话、所谓"智能"板的电话手机、电视、摄影 机、显示装置、数字媒体播放器、视频游戏控制台、视频串流发射装置,或其类似者。在一些 情况下,源装置12和目的地装置14可经配备以用于无线通信。
[0035] 目的地装置14可经由计算机可读媒体16接收待解码的经编码视频数据。计算机 可读媒体16可包含能够将经编码视频数据自源装置12移动到目的地装置14的任何类型 的媒体或装置。在一个实例中,计算机可读媒体16可包含通信媒体以使源装置12能够实 时地将经编码视频数据直接发射到目的地装置14。经编码视频数据可根据例如无线通信 协议等通信标准来调制且发射到目的地装置14。通信媒体可包含任何无线或有线通信媒 体,例如射频(RF)频谱或一或多个实体发射线。通信媒体可形成基于包的网络(例如,局 域网、广域网,或例如因特网等全球网络)的一部分。通信媒体可包括路由器、交换器、基站 或可用于促进自源装置12到目的地装置14的通信的任何其它设备。
[0036] 在一些实例中,经编码数据可自输出接口 22输出到存储装置。类似地,经编码数 据可由输入接口自存储装置存取。存储装置可包括多种分散式或本地存取的数据存储媒体 (例如,硬盘、蓝光光盘、DVD XD-R0M、快闪存储器、易失性或非易失性存储器,或用于存储经 编码视频数据的任何其它合适的数字存储媒体)中的任一者。在另一实例中,存储装置可 对应于文件服务器或可存储由源装置12产生的经编码视频的另一中间存储装置。目的地 装置14可经由串流发射或下载而自存储装置存取所存储的视频数据。文件服务器可为能 够存储经编码视频数据且将所述经编码视频数据发射到目的地装置14的任何类型的服务 器。实例文件服务器包括网页服务器(例如,用于网站)、FTP服务器、网络附接存储(NAS) 装置或本地硬盘。目的地装置14可经由任何标准数据连接(包括因特网连接)存取经编 码视频数据。此可包括无线信道(例如,Wi-Fi连接)、有线连接(例如,DSL、缆线调制解调 器等)或两者的适合于存取存储于文件服务器上的经编码视频数据的组合。经编码视频数 据自存储装置的发射可为串流发射、下载发射或两者的组合。
[0037] 本发明的技术未必限于无线应用或设定。所述技术可应用于支持多种多媒体应 用中的任一者的视频译码,所述多媒体应用例如空中(over-the-air)电视广播、有线电 视发射、卫星电视发射、因特网串流视频发射(例如,经由HTTP的动态自适应性串流发射 (DASH))、编码到数据存储媒体上的数字视频、存储于数据存储媒体上的数字视频的解码或 其它应用。在一些实例中,系统10可经配置以支持单向或双向视频发射以支持例如视频串 流发射、视频播放、视频广播和/或视频电话等应用。
[0038] 在图1的实例中,源装置12包括视频源18、视频编码器20和输出接口 22。目的 地装置14包括输入接口 28、视频解码器30和显示装置32。根据本发明,源装置12的视频 编码器20可经配置以应用用于对用于视频数据的一或多个层的参数集和NAL单元进行译 码的所述技术。在其它实例中,源装置和目的地装置可包括其它组件和配置。举例来说,源 装置12可自外部视频源18 (例如外部摄影机)接收视频数据。同样,目的地装置14可与 外部显示装置介接,而非包括集成式显示装置。
[0039] 图1的所说明系统10仅为一个实例。用于对用于视频数据的一或多个层的参数 集和NAL单元进行译码的技术可由任何数字视频编码和/或解码装置来执行。虽然通常 通过视频编码装置来执行本发明的所述技术,但也可通过视频编码器/解码器(通常被称 为"编解码器(CODEC)")来执行所述技术。此外,还可通过视频预处理器来执行本发明的 所述技术。源装置12和目的地装置14仅为这些译码装置的实例,在所述编码装置中,源装 置12产生用于发射到目的地装置14的经译码视频数据。在一些实例中,装置12、14可以 实质上对称的方式操作,以使得装置12、14中的每一者包括视频编码和解码组件。因此,系 统1 〇可支持视频装置12、14之间的单向或双向视频发射,例如,用于视频串流发射、视频播 放、视频广播或视频电话。
[0040] 源装置12的视频源18可包括视频俘获装置(例如,视频摄影机)、含有先前俘获 的视频的视频档案和/或用以自视频内容提供者接收视频的视频馈送接口。作为另一替 代,视频源18可产生基于计算机图形的数据作为源视频,或直播视频、存档视频和计算机 产生的视频的组合。在一些情况下,如果视频源18为视频摄影机,那么源装置12和目的地 装置14可形成所谓的摄影机电话或视频电话。然而,如上文所提及,本发明中所描述的所 述技术通常可适用于视频译码,且可应用于无线和/或有线应用。在每一情况下,可通过视 频编码器20来编码经俘获、经预俘获或经计算机产生的视频。经编码视频信息可接着通过 输出接口 22输出到计算机可读媒体16上。
[0041] 计算机可读媒体16可包括暂态媒体(例如无线广播或有线网络发射),或存储媒 体(即,非暂时性存储媒体),例如硬盘、快闪驱动器、紧密光盘、数字视频光盘、蓝光光盘或 其它计算机可读媒体。在一些实例中,网络服务器(未图示)可自源装置12接收经编码视 频数据,且(例如)经由网络发射将所述经编码视频数据提供到目的地装置14。类似地,媒 体制造设施(例如光盘烫印设施)的计算装置可自源装置12接收经编码视频数据,且产生 含有所述经编码视频数据的光盘。因此,在各种实例中,可将计算机可读媒体16理解为包 括各种形式的一或多个计算机可读媒体。
[0042] 目的地装置14的输入接口 28自计算机可读媒体16接收信息。计算机可读媒体 16的信息可包括通过视频编码器20定义的语法信息(其还通过视频解码器30定义),语 法信息包括描述块和其它经译码单元(例如,G0P)的特性和/或处理的语法元素。显示装 置32向用户显示经解码视频数据,且可包含多种显示装置中的任一者,例如,阴极射线管 (CRT)、液晶显示器(LCD)、等离子体显示器、有机发光二极管(0LED)显示器或另一类型的 显示装置。
[0043] 视频编码器20和视频解码器30可根据视频译码标准(例如,目前在开发中的高 效率视频译码(HEVC)标准)来操作,且可遵照HEVC测试模型(腿)。或者,视频编码器20 和视频解码器30可根据其它专属或工业标准(例如,替代地称为MPEG-4第十部分(先进 视频译码(AVC))的ITU-TH. 264标准)或这些标准的扩展而操作。然而,本发明的技术不 限于任何特定译码标准。视频译码标准的其它实例包括MPEG-2和ITU-TH. 263。虽然图1 中未展示,但在一些方面中,视频编码器20和视频解码器30可各自与音频编码器和解码器 集成,且可包括适当MUX-DEMUX单元或其它硬件和软件以处置共同数据串流或不同数据串 流中的音频和视频两者的编码。如果适用,则MUX-DEMUX单元可遵照ITU H. 223多路复用器 协议或例如用户数据报协议(UDP)等其它协议。
[0044] ITU-T H. 264/MPEG-4 (AVC)标准由 ITU-T 视频译码专家组(VCEG)连同 IS0/IEC 动 画专家组(MPEG) -起阐明为被称为联合视频小组(JVT)的集体合作伙伴的产品。在一些 方面中,本发明中所描述的技术可应用于通常遵照Η. 264标准的装置。Η. 264标准被描述于 由ITU-T研究组提出且日期为2005年3月的ITU-T建议案Η. 264 (用于通用视听服务的先 进视频译码(Advanced Video Coding for generic audiovisual services))中,所述标准在 本文中可被称为Η. 264标准或Η. 264规范,或H. 264/AVC标准或规范。联合视频小组(JVT) 继续致力于对Η· 264/MPEG-4AVC的扩展。
[0045] 视频编码器器20和视频解码器30可各自实施为多种合适编码器电路中的任一 者,例如,一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门 阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。当所述技术部分地以软件实施时, 装置可将用于软件的指令存储于合适的非暂时性计算机可读媒体中,且在使用一或多个处 理器的硬件中执行所述指令以执行本发明的技术。视频编码器20和视频解码器30中的每 一者可包括于一或多个编码器或解码器中,其任一者可集成为相应装置中的组合式编码器 /解码器(编解码器)的部分。
[0046] JCT-VC正致力于HEVC标准的开发。HEVC标准化努力基于视频译码装置的被称为 HEVC测试模型(HM)的演进模型。HM根据(例如)ITU-TH. 264/AVC假定视频译码装置相对 于现有装置的若干额外能力。举例来说,尽管H. 264提供九个帧内预测编码模式,但HM可 提供多达三十三个帧内预测编码模式。
[0047] -般来说,HM的工作模型描述:视频帧或图片可划分成包括明度样本和色度样本 两者的树型块或最大译码单元(LCU)的序列。位流内的语法数据可定义LCU的大小,在像 素的数目方面,LCU为最大译码单元。片段以译码次序包括数个连续树型块。视频帧或图 片分割成一或多个片段。每一树型块可根据四叉树分裂成多个译码单元(CU)。一般来说, 四叉树数据结构包括每个CU -个节点,其中根节点对应于树型块。如果CU分裂成四个子 CU,那么对应于CU的节点包括四个叶节点,所述四个叶节点中的每一者对应于所述子CU中 的一者。
[0048] 四叉树数据结构的每一节点可提供相应CU的语法数据。举例来说,四叉树中的节 点可包括分裂旗标,其指示对应于所述节点的CU是否分裂成子CU。CU的语法元素可递归地 定义,且可视⑶是否分裂成子⑶而定。如果⑶未进一步分裂,那么将所述⑶称为叶⑶。 在本发明中,即使不存在原始叶CU的明显分裂,也将叶CU的四个子CU称为叶CU。举例来 说,如果16X16大小的⑶未进一步分裂,那么虽然16X16⑶从未分裂,但也将四个8X8 子⑶称为叶⑶。
[0049] 除了 CU不具有大小区别外,CU具有与H. 264标准的宏块类似的用途。举例来说, 树型块可分裂成四个子节点(也称为子CU),且每一子节点又可为父节点且可分裂成另外 四个子节点。最后的未分裂子节点(被称为四叉树的叶节点)包含也称为叶CU的译码节 点。与经译码位流相关联的语法数据可定义树型块可分裂的最大次数(被称为最大CU深 度),且还可定义译码节点的最小大小。因此,位流还可定义最小译码单元(SCU)。本发明 使用术语"块"来在HEVC的内容脉络下指代CU、PU或TU中的任一者,或在其它标准的内容 脉络下指代类似数据结构(例如,H. 264/AVC中的宏块及其子块)。
[0050] CU包括译码节点和与译码节点相关联的预测单元(PU)和变换单元(TU)。CU的大 小对应于译码节点的大小,且其形状必须为正方形。⑶的大小可在8X8个像素到高达最大 为64X64个像素或更多像素的树型块的大小的范围内。每一⑶可含有一或多个PU和一 或多个TU。与CU相关联的语法数据可描述(例如)CU到一或多个PU的分割。分割模式在 CU以跳跃或直接模式编码、以帧内预测模式编码或是以帧间预测模式编码之间可能不同。 PU在形状上可被分割为非正方形。与CU相关联的语法数据还可描述(例如)cu根据四叉 树到一或多个TU的分割。TU在形状上可为正方形或非正方形(例如,矩形)。
[0051] HEVC标准允许根据TU的变换,所述变换对于不同⑶可能不同。TU通常基于针 对经分割LCU界定的给定CU内的PU的大小来设定大小,但情况可能并非始终如此。TU通 常与PU大小相同或小于PU。在一些实例中,对应于CU的残余样本可使用称为"残余四叉 树"(RQT)的四叉树结构而再分为较小单元。RQT的叶节点可称为变换单元(TU)。与TU相 关联的像素差值可经变换以产生可量化的变换系数。
[0052] 叶⑶可包括一或多个预测单元(PU)。一般来说,PU表示对应于相应⑶的全部或 一部分的空间区域,且可包括用于检索PU的参考样本的数据。此外,PU包括与预测有关的 数据。举例来说,当PU以帧内模式编码时,用于TO的数据可包括于残余四叉树(RQT)内, 所述数据可包括描述用于对应于PU的TU的帧内预测模式的数据。作为另一实例,当PU以 帧间模式编码时,PU可包括定义用于ro的一或多个运动向量的数据。定义用于PU的运动 向量的数据可描述(例如)运动向量的水平分量、运动向量的垂直分量、运动向量的分辨率 (例如,四分之一像素精度或八分之一像素精度)、运动向量所指向的参考图片和/或运动 向量的参考图片列表(例如,列表0、列表1或列表C)。
[0053] 具有一或多个TO的叶⑶还可包括一或多个变换单元(TU)。如上文所论述,可使 用RQT (也称为TU四叉树结构)来指定变换单元。举例来说,分裂旗标可指示叶CU是否分 裂成四个变换单元。因而,每一变换单元可进一步分裂成子TU。当TU未进一步分裂时,所 述TU也可称为叶TU。一般来说,对于帧内译码,属于叶CU的所有叶TU共用同一帧内预测 模式。即,通常应用同一帧内预测模式以计算叶CU的所有TU的预测值。对于帧内译码,视 频编码器可使用帧内预测模式来计算每一叶TU的残余值,以作为对应于TU的CU部分与原 始块之间的差异。TU未必限于PU的大小。因此,TU可大于或小于PU。对于帧内译码,PU 可与同一⑶的相应叶TU共置。在一些实例中,叶TU的最大大小可对应于相应叶⑶的大 小。
[0054] 此外,叶⑶的TU还可与称为残余四叉树(RQT)的相应四叉树数据结构相关联。 艮P,叶⑶可包括指示叶⑶如何分割成TU的四叉树。TU四叉树的根节点通常对应于叶⑶, 而⑶四叉树的根节点通常对应于树型块(或LCU)。RQT的未分裂的TU也称为叶TU。一般 来说,本发明分别使用术语CU和TU来指代叶CU和叶TU,除非另有说明。
[0055] 视频序列通常包括一系列视频帧或图片。图片群组(G0P) -般包含一系列一或多 个视频图片。G0P可包括在G0P的标头中、图片中的一或多者的标头中或别处的描述包括于 G0P中的图片的数目的语法数据。图片的每一片段可包括描述用于相应片段的编码模式的 片段语法数据。视频编码器20通常对个别视频片段内的视频块进行操作以便编码视频数 据。视频块可对应于CU内的译码节点。视频块可具有固定或变化的大小,且可根据指定的 译码标准而在大小上不同。
[0056] 作为实例,HM支持各种TO大小的预测。假设特定⑶的大小为2NX2N,HM支持 2NX2N或NXN的PU大小的帧内预测,和2NX2N、2NXN、NX2N或NXN的对称PU大小的 帧间预测。HM还支持用于2NXnU、2NXnD、nLX2N和nRX2N的PU大小的帧间预测的不对 称分割。在不对称分割中,⑶的一个方向未被分割,而另一方向经分割成25%和75%。⑶ 的对应于25%分割的部分由"η"继之以"上⑶"、"下(D)"、"左(L)"或"右(R)"的指示 来指示。因此,举例来说,"2NXnU"指代经水平分割而在顶部具2ΝΧ0. 5Ν PU且在底部具 2NX1. 5NPU 的 2NX2NCU。
[0057] 在本发明中,"NXN"和"N乘N"可互换地使用以指代视频块在垂直维度和水平维 度上的像素尺寸,例如,16X16像素或16乘16像素。一般来说,16X16块在垂直方向上将 具有16个像素 (y = 16),且在水平方向上将具有16个像素 (X = 16)。同样,NXN块通常 在垂直方向上具有N个像素,且在水平方向上具有N个像素,其中N表示非负整数值。可按 行和列来配置块中的像素。此外,块未必需要在水平方向上与在垂直方向上具有相同数目 个像素。举例来说,块可包含NX Μ个像素,其中Μ不必等于N。
[0058] 在使用CU的PU的帧内预测性译码或帧间预测性译码之后,视频编码器20可计算 ⑶的TU的残余数据。PU可包含描述在空间域(也称为像素域)中产生预测性像素数据的 方法或模式的语法数据,且TU可在对残余视频数据应用变换(例如,离散余弦变换(DCT)、 整数变换、小波变换或概念上类似的变换)之后包含变换域中的系数。残余数据可对应于 未经编码的图片的像素与对应于PU的预测值之间的像素差。视频编码器20可形成包括CU 的残余数据的TU,且接着变换TU以产生CU的变换系数。
[0059] 在用以产生变换系数的任何变换之后,视频编码器20可执行变换系数的量化。量 化通常指代量化变换系数以可能减少用以表示所述系数的数据的量,从而提供进一步压缩 的过程。量化过程可减少与所述系数中的一些或所有系数相关联的位深度。举例来说,可 在量化期间将η位值舍去到m位值,其中η大于m。
[0060] 在量化之后,视频编码器可扫描变换系数,从而自包括经量化的变换系数的二维 矩阵产生一维向量。扫描可经设计以使较高能量(且因此较低频率)系数处于阵列的前部 且使较低能量(且因此较高频率)系数处于阵列的后部。在一些实例中,视频编码器20可 利用预定义扫描次序来扫描经量化的变换系数以产生可进行熵编码的串行化向量。在其它 实例中,视频编码器20可执行自适应性扫描。在扫描所述经量化的变换系数以形成一维向 量之后,视频编码器20可(例如)根据上下文自适应性可变长度译码(CAVLC)、上下文自适 应性二进制算术译码(CABAC)、基于语法的上下文自适应性二进制算术译码(SBAC)、机率 区间分割熵(PIPE)译码或另一熵编码方法来对所述一维向量进行熵编码。视频编码器20 还可对与经编码视频数据相关联的语法元素进行熵编码以供视频解码器30在解码视频数 据时使用。
[0061] 为了执行CABAC,视频编码器20可将上下文模型内的上下文指派给待发射的符 号。所述上下文可与(例如)符号的相邻值是否为非零有关。为了执行CAVLC,视频编码器 20可选择用于待发射符号的可变长度码。可构造 VLC中的码字,以使得相对较短的码对应 于机率较大的符号,而较长码对应于机率较低的符号。以此方式,较之于(例如)将相等长 度码字用于待发射的每一符号,使用VLC可实现位节省。机率确定可基于指派给符号的上 下文。
[0062] 根据本发明的技术,视频译码器(例如视频编码器20或视频解码器30)可经配置 以:对用于视频数据的一或多个层的视频参数集(VPS)进行译码,且至少部分地基于所述 VPS对视频数据的所述一或多个层进行译码。将在下文更详细描述的表2和表5包括VPS 的语法元素的实例集合。视频数据的所述一或多个层中的每一者可参考VPS,即,相同VPS。 换句话说,VPS可应用于视频数据的共用集合的所有层,例如,所有SVC层和/或MVC视频 数据的所有视图。
[0063] VPS可包括各种类别的信息。举例来说,VPS可包括样本维度计数描述(SD⑶)。 艮P,对于每一维度,视频译码器可用信号表示索引的集合。可能维度包括:cnt_p :经译码视 频序列中所含的优先层的数目;cnt_d :位流中有多少不同相依层,具有相同空间分辨率和 位深度的多个层可属于不同相依层;cnt_t :位流中有多少时间层;cnt_q :位流中的任何相 依层的质量的最大数目;和cnt_v:视图的最大数目。位深度设定可包括8位或12位,且对 于不同色彩分量可不同。色度取样格式可包括4 : 0 : 0、4 : 2 : 0和4 : 4 : 4。
[0064] VPS还可包括特性映射的样本索引。如果对于每一维度,特性指示符不等于0到 (样本维度计数-1)的范围的索引,那么可引入回路以为每一特性索引指定特性指示符。 针对每一相依索引,所述映射可包括具特定位深度值和特定色度样本格式的特定空间分 辨率。注意,如果解码器处始终存在固定查找表,例如,0可对应于4 : 2 : 0,1可对应于 4 : 4 : 4,且2可对应于4 : 0 : 0,那么可省略此回路。另外或替代地,映射可包括:对 于每一时间index/id,特定帧速率或平均帧速率;对于每一视图索引,特定视图识别符;对 于每一位深度索引,明度和色度的一对特定位深度值;和对于每一色度取样格式,特定色度 取样格式指示符。
[0065] VPS还可包括例如以下各者的控制参数和工具启用/停用旗标:pcm_bit_cbpth_ luma_minusl、pcm_bit_depth_chroma_minusl、loop_filter_across_slice_flag、pcm_ loop_filter_disable_f lag、temporal_id_nesting_f lag、一 或多个图像块相关语法兀 素,chroma_pred_from_luma_enabled_flag、 sample_adaptive_ofTset_enabled_flag、 adaptive_loop_filter_enabled_flag,和 inter_4X 4_enabled_flag〇
[0066] VPS还可包括一或多个操作点描述。操作点通常描述包括于位流中的视频数据的 视图的总数的子集。操作点可包括作为输出目标的特定数目个视图,以及在解码、输出或进 行两者时可用作参考的其它视图。位流可包括操作点描述所描述的一或多个操作点。所述 操作点描述可包括定义最大操作点的数目、不同层或视图之间的相依性、每一操作点的简 档和层级、每一操作点的位速率、操作点之间的相依性、每一操作点的其它限制、每一操作 点的视频可用性信息(VUI)或VUI的部分和/或关于每一层或视图的VUI或VUI的部分的 信息。另外或在替代方案中,所述操作点描述可包括每一操作点的操作点视频译码层(VCL) 网络抽象层(NAL)单元表示。在一些实例中,操作点VCLNAL单元表示可包括(例如)三 个可能选择:(1)(例如)用于空间分辨率、用于位深度、用于色度取样格式的特定索引值; ⑵所述索引值的范围:例如,对于时间层,〇到最高时间层识别符,对于质量层,〇到最高质 量层识别符;或(3)索引值的列表,例如,对于视图,视图索引值的列表。
[0067] 在一些实例中,VPS可包括指示位流的层中的时间层的最大数目的数据。S卩,视频 编码器20和/或视频解码器30可经配置以对包括指示相应位流的时间层的最大数目的数 据的VPS进行译码。举例来说,视频编码器20可确定时间层的最大数目,且编码VPS以包 括表示时间层的经确定最大数目的数据,而视频解码器30可解码VPS以确定时间层的最大 数目。视频编码器20和视频解码器30还可基于时间层的经确定最大数目而对位流的视频 数据进行译码。举例来说,时间层的最大数目可影响表示各种时间层所需的时间识别符的 数目。作为另一实例,时间层的最大数目可影响视频编码器20和视频解码器30借以对参 考图片识别符(例如,使用图片次序计数(POC)值)进行译码的方式。
[0068] 作为又一实例,视频编码器20和视频解码器30可经配置以仅使用直到(且包括) 相同时间层的参考数据来对特定时间层的数据进行译码。换句话说,视频编码器20和视频 解码器30可经配置以避免使用较高时间层的参考数据来对特定时间层的数据进行译码。 以此方式,可确保视频解码器30准确地解码时间层的给定集合的视频数据,甚至在子位流 提取之后也如此。因此,如果执行子位流提取,那么在经提取子位流的最高层以上的特定时 间层将不可用于参考。通过仅参考当前层处或当前层以下的层的数据来对每一时间层的数 据进行译码,可避免使特定层处的数据依赖于来自较高层的数据(其可由于子位流提取而 丢失)而原本可能产生的错误。
[0069] 在一些实例中,另外或替代地,VPS可包括指示将在位流的一或多个层中重新排序 的图片的数目和/或待存储于经解码图片缓冲器(DPB)中的图片的数目中的任一者或两者 的数据。如上文所说明,此数据可被称为位流限制信息。因此,目的地装置14可确定视频 解码器30的能力,且使用所述位流限制信息确定相应位流对于由视频解码器30进行解码 是否适当,或目的地装置14是否应(例如,自基于网络的内容提供者,假定可得到内容的多 个版本)选择替代内容。
[0070] 此外,视频编码器20和视频解码器30可在视频数据的译码期间使用所述位流限 制信息。举例来说,视频编码器20可确保所述位流限制信息不被违反。即,假定所述位流 限制信息指示至多N个图片将存储于DPB中,视频编码器20可确保在任何给定时间,不多 于N个的图片将包括于一或多个参考图片列表的任何组合中。作为另一实例,假定图片重 新排序信息指示图片将移位至多Μ个图片,视频编码器20可确保无图片移位Μ个图片以 上。以此方式,图片的移位通常对应于图片的解码次序与显示次序之间的差异。同样,视频 解码器30可在译码期间使用此信息(例如)以执行DPB管理,例如DPB清除。当对参考图 片识别符值进行译码时,视频编码器20和视频解码器30还可使用位流限制信息,例如待存 储于DPB中的图片的最大数目和/或待重新排序的图片的数目。
[0071] 在一些实例中,另外或替代地,VPS包括指示假想参考解码器(HRD)参数的数据。 HRD参数包括(例如)描述将自经译码图片缓冲器(CPB)移除数据的时间的数据。在解码 器(例如视频解码器30)中,CPB表示在经译码视频数据准备好解码之前存储所述数据的 缓冲器。解码器(例如视频解码器30)还可包括经解码图片缓冲器(DPB),经解码视频数据 存储于DPB中(例如)以用作经帧间预测的数据的参考数据且用于图片自解码次序到显示 次序的重新排序。
[0072] 所述HRD参数可包括指示特定图片何时将自CPB移除且加以解码的数据。因此, 视频编码器20可编码VPS的HRD参数以指示图片何时可自CPB移除且加以解码,而视频解 码器30可解码VPS的HRD参数以确定何时自CPB移除图片。同样,视频编码器20和视频 解码器30可(例如)以通过所述HRD参数指示的译码次序来根据所述HRD参数对图片进 行译码。以此方式,视频编码器20和/或视频解码器30可经配置以对包括HRD参数的VPS 进行译码,且至少部分地基于所述HRD参数对对应于所述VPS的视频数据进行译码。
[0073] VPS还可包括指示VPS是否已扩展的扩展数据(例如)以为一或多个额外译码工 具提供数据。这些译码工具可为不同于相应视频译码标准(例如,ITU-TH.264/AVC或即将 到来的HEVC标准)的那些译码工具的工具。此外,这些译码工具可能需要配置数据。此配 置数据可在VPS的扩展数据中提供。以此方式,当使用这些译码工具对视频数据进行译码 时,视频编码器20和/或视频解码器30可对指示扩展数据是否存在的VPS进行译码,且如 果扩展数据存在,那么对所述VPS的扩展数据进行译码。此外,当此扩展数据存在时,视频 编码器20和/或视频解码器30可执行相应译码工具以使用所述扩展数据来对视频数据进 行译码。
[0074] 各种视频译码标准定义无错误位流的相应语法、语义和解码程序,其中的任一者 符合特定简档或层级。视频译码标准通常不指定编码器,但编码器有保证所产生的位流对 于解码器为标准兼容的任务。在视频译码标准的内容脉络下,"简档"对应于算法、特征或 应用于算法、特征的工具和约束的子集。如H. 264标准所定义,例如,"简档"为由H. 264标 准指定的完整位流语法的子集。"层级"对应于解码器资源消耗的限制,例如,与图片的分辨 率、位速率和块处理速率有关的解码器存储器和计算。简档可用pr 〇file_idc (简档指示符) 值用信号表示,而层级可用level_idC (层级指示符)值用信号表示。根据本发明的技术, 简档和层级信息可在操作点描述中指定,如上文所论述。
[0075] 在一些实例中,位流的每一层或视图参考视频参数集(VPS),且分层序列参数集 (LPS)对每一层来说可为作用中的。可通过参考所述设计中的VPS而将LPS保持为尽可能 无足轻重的。LPS可包括下文所论述的信息的任一者或全部。LPS可包括针对每一维度指 示到每一维度的索引的样本维度指示。举例来说,如果在VPS中,空间分辨率0的索引经指 派到320X240的空间特性,且空间分辨率1的索引经指派到640X480,且当前层将经指派 具有640X480的分辨率,那么视频编码器20和/或视频解码器30可针对当前层对具有 值1的语法元素进行译码。即,视频编码器20可用信号表示用于语法元素的值1以指定 640 X 480的分辨率,而视频解码器30可基于用于语法元素的值1来确定具有值1的语法元 素的当前层具有640X480的分辨率。
[0076] LPS还可包括控制参数和工具启用/停用旗标。举例来说,所述控制参数和所述工 具启用 / 停用方萁标可包括 pcm_bit_depth_luma_minusl、pcm_bit_depth_chroma_minusl、 loop_filter_across_slice_flag> pcm_loop_filter_disable_flag> 一或多个图像块相关 语法兀素、chroma_pred_from_luma_enabled_flag、sample_adaptive_offset_enabled_ flag、adaptive_loop_filter_enabled_flag 和译码单兀(CU)阶层。
[0077] LPS可进一步包括应用于片段、片段的群组、图片或若干图片的其它类型的参数集 的信息。这些参数集中的每一者可参考特定图片参数集(PPS)。
[0078] 例如视频编码器20和视频解码器30等视频译码器可经配置以确保和/或确定 PPS不参考LPS或VPS。因此,视频译码器可确保位流中的每一 PPS不参考LPS或VPS。PPS 的剖析可为独立的。当PPS包括与VPS或LPS的语法元素相同的语法元素中的一或多者时, PPS的语法元素可覆写VPS或LPS的语法元素。
[0079] 视频译码器可经进一步配置以对将所有参数集分组在一起的分组参数集(GPS) 进行译码。视频译码器可对GPS内的多个不同群组进行译码,每一群组具有个别GPS识别 符(id)。GPS中的群组中的每一者可包括参数集的不同组合。以此方式,片段标头仅需包 括对相应GPS识别符的参考,且不必包括参数集的类型的指示。2012年1月25日申请的第 61/590, 702号美国临时专利申请案也描述多个技术,其中不同类型的参数集被分组在一起 且仅参数集分组RBSP的ID将在片段标头中较详细地用信号表示。
[0080] 如上文所论述,例如视频编码器20或视频解码器30等视频译码器可经配置以对 视频参数集和/或分组参数集进行译码。视频参数集的实例将关于图5进行更详细地论述, 而分组参数集的实例将关于图6进行更详细地论述。
[0081] 视频编码器20可(例如)在帧标头、块标头、片段标头或G0P标头中进一步将语 法数据(例如基于块的语法数据、基于帧的语法数据和基于G0P的语法数据)发送到视频 解码器30。G0P语法数据可描述相应G0P中的帧的数目,且帧语法数据可指示用以编码相 应帧的编码/预测模式。
[0082] 视频编码器20和视频解码器30可各自实施为可适用的多种合适编码器或解码器 电路中的任一者,例如,一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、 现场可编程门阵列(FPGA)、离散逻辑电路、软件、硬件、固件或其任何组合。视频编码器20 和视频解码器30中的每一者可包括于一或多个编码器或解码器中,其任一者可集成为组 合式视频编码器/解码器(编解码器)的一部分。包括视频编码器20和/或视频解码器 30的装置可包含集成电路、微处理器和/或无线通信装置,例如蜂窝式电话。
[0083] 图2为说明可实施用于对用于视频数据的一或多个层的参数集和NAL单元进行译 码的技术的视频编码器20的实例的框图。视频编码器20可执行视频片段内的视频块的帧 内和帧间译码。帧内译码依靠空间预测以减少或移除给定视频帧或图片内的视频中的空间 冗余。帧间译码依靠时间预测以减少或移除视频序列的邻近帧或图片内的视频中的时间冗 余。帧内模式(I模式)可指代若干基于空间的译码模式中的任一者。帧间模式(例如,单 一方向预测(P模式)或双向预测(B模式))可指代若干基于时间的译码模式中的任一者。
[0084] 如图2中所示,视频编码器20接收待编码的视频帧内的当前视频块。在图2的实 例中,视频编码器20包括模式选择单元40、参考图片存储器64、求和器50、变换处理单元 52、量化单元54和熵编码单元56。模式选择单元40又包括运动补偿单元44、运动估计单 元42、帧内预测单元46和分割单元48。为进行视频块重建,视频编码器20还包括反量化 单元58、反变换单元60和求和器62。还可包括解块滤波器(图2中未图示)以对块边界 进行滤波以自重建的视频移除方块效应假影。如果需要,解块滤波器通常可对求和器62的 输出进行滤波。除解块滤波器外,还可使用额外滤波器(回路内或回路后)。为简单起见, 未展示这些滤波器,但如果需要,这些滤波器可对求和器50 (作为回路内滤波器)的输出进 行滤波。
[0085] 在编码过程期间,视频编码器20接收待译码的视频帧或片段。帧或片段可被分成 多个视频块。运动估计单元42和运动补偿单元44相对于一或多个参考帧中的一或多个块 执行当前所接收视频块的帧间预测性译码以提供时间预测。帧内预测模块46可替代地相 对于与待译码的块相同的帧或片段中一或多个相邻块执行所接收视频块的帧内预测性译 码以提供空间预测。视频编码器20可执行多个译码遍次,例如,以为视频数据的每一块选 择适当译码模式。
[0086] 此外,分割单元48可基于对先前译码遍次中的先前分割方案的评估而将视频数 据的块分割成子块。举例来说,分割单元48最初可将帧或片段分割成多个LCU,且基于速率 失真分析(例如,速率失真优化)而将所述LCU中的每一者分割成多个子CU。模式选择单 元40可进一步产生指示IXU到子⑶的分割的四叉树数据结构。四叉树的叶节点⑶可包 括一或多个ro和一或多个τυ。
[0087] 模式选择单元40可(例如)基于错误结果而选择译码模式中的一者(帧内或帧 间),且将所得的经帧内或帧间译码的块提供到求和器50以产生残余块数据且提供到求和 器62以重建经编码块以用作为参考帧。模式选择单元40还将例如运动向量、帧内模式指 示符、分割信息及其它此种语法信息的语法元素提供到熵编码单元56。
[0088] 运动估计单元42和运动补偿单元44可高度集成,但为概念目的而单独说明。由 运动估计单元42执行的运动估计为产生运动向量的过程,所述运动向量估计视频块的运 动。举例来说,运动向量可指示相对于在当前巾贞(或其它经译码单元)内译码的当前块, 当前视频帧或图片内的视频块的PU相对于参考图片(或其它经译码单元)内的预测性块 的移位。预测性块为经发现在像素差方面紧密匹配待译码的视频块的块,其可通过绝对差 之和(SAD)、平方差之和(SSD)或其它差量度来确定。在一些实例中,视频编码器20可计 算存储于参考图片存储器64中的参考图片的次整数像素位置的值。举例来说,视频编码器 20可内插参考图片的四分之一像素位置、八分之一像素位置或其它分率像素位置的值。因 此,运动估计单元42可对于完整像素位置和分率像素位置执行运动搜寻,且输出具有分率 像素精度的运动向量。
[0089] 运动估计单元42通过比较PU的位置与参考图片的预测性块的位置来计算用于经 帧间译码的片段中的视频块的PU的运动向量。参考图片可选自第一参考图片列表(列表 0)或第二参考图片列表(列表1),所述列表中的每一者识别存储于参考图片存储器64中 的一或多个参考图片。运动估计单元42将所计算出的运动向量发送到熵编码单元56和运 动补偿单元44。
[0090] 由运动补偿单元44执行的运动补偿可涉及基于通过运动估计单元42确定的运动 向量来提取或产生预测性块。此外,在一些实例中,运动估计单元42和运动补偿单元44在 功能上可集成。在接收到用于当前视频块的PU的运动向量时,运动补偿单元44可在参考 图片列表中的一者中找出运动向量所指向的预测性块的位置。如下文所论述,求和器50通 过自正译码的当前视频块的像素值减去预测性块的像素值来形成残余视频块,从而形成像 素差值。一般来说,运动估计单元42相对于明度分量执行运动估计,且运动补偿单元44将 基于明度分量计算的运动向量用于色度分量和明度分量两者。模式选择单元40还可产生 与视频块和视频片段相关联的语法元素以供视频解码器30在解码视频片段的视频块时使 用。
[0091] 帧内预测单元46可对当前块进行帧内预测,以作为如上所述的由运动估计单元 42和运动补偿单元44执行的帧间预测的替代。特定来说,帧内预测单元46可确定用以编 码当前块的帧内预测模式。在一些实例中,帧内预测单元46可(例如)在单独编码遍次期 间使用各种帧内预测模式编码当前块,且帧内预测单元46 (或在一些实例中,模式选择单 元40)可自经测试模式选择适当帧内预测模式来使用。
[0092] 举例来说,帧内预测单元46可使用各种经测试帧内预测模式的速率失真分析计 算速率失真值,且在经测试模式中选择具有最佳速率失真特性的帧内预测模式。速率失真 分析通常确定经编码块与经编码以产生经编码块的原始未经编码块之间的失真(或错误) 的量,以及用以产生经编码块的位速率(即,位的数目)。帧内预测模块46可根据各种经编 码块的失真和速率计算比率以确定哪一帧内预测模式展现块的最佳速率失真值。
[0093] 在选择用于块的帧内预测模式之后,帧内预测单元46可将指示用于块的选定帧 内预测模式的信息提供到熵编码单元56。熵编码单元56可对指示选定帧内预测模式的信 息进行编码。视频编码器20可在所发射的位流中包括配置数据,所述配置数据可包括多个 帧内预测模式索引表和多个经修改帧内预测模式索引表(也称为码字映射表)、各种块的 编码上下文的定义和最大机率帧内预测模式的指示、帧内预测模式索引表和经修改帧内预 测模式索引表以用于所述上下文中的每一者。
[0094] 视频编码器20通过自正在译码的原始视频块减去来自模式选择单元40的预测数 据而形成残余视频块。求和器50表示执行此减法运算的一或多个组件。变换处理单元52 将变换(例如,离散余弦变换(DCT)或概念上类似的变换)应用于残余视频,从而产生包含 残余变换系数值的视频块。变换处理单元52可执行概念上类似于DCT的其它变换。还可 使用小波变换、整数变换、子频带变换或其它类型的变换。
[0095] 在任何情况下,变换处理单元52将所述变换应用于所述残余块,从而产生残余变 换系数的块。所述变换可将残余信息自像素值域转换到变换域(例如频域)。变换处理单 元52可将所得变换系数发送到量化单元54。量化单元54量化所述变换系数以进一步减小 位速率。量化过程可减少与所述系数中的一些或所有系数相关联的位深度。可通过调整量 化参数来修改量化程度。在一些实例中,量化单元54可接着执行包括经量化的变换系数的 矩阵的扫描。或者,熵编码单元56可执行所述扫描。
[0096] 在量化之后,熵编码单元56对经量化的变换系数进行熵译码。举例来说,熵编码 单元56可执行上下文自适应性可变长度译码(CAVLC)、上下文自适应性二进制算术译码 (CABAC)、基于语法的上下文自适应性二进制算术译码(SBAG)、机率区间分割熵(PIPE)译 码或另一熵译码技术。在基于上下文的熵译码的情况下,上下文可基于相邻小区。在通过 熵编码单元56进行的熵译码之后,经编码位流可发射到另一装置(例如,视频解码器30) 或经存档以供稍后发射或检索。
[0097] 反量化单元58和反变换单元60分别应用反量化和反变换,以重建像素域中的残 余块(例如)以供稍后用作为参考块。运动补偿单元44可通过将残余块加到参考图片存 储器64的帧中的一者的预测性块来计算参考块。运动补偿单元44还可将一或多个内插滤 波器应用于重建的残余块以计算次整数像素值以供在运动估计中使用。求和器62将重建 的残余块加到由运动补偿单元44产生的运动经补偿的预测块以产生重建的视频块以存储 于参考图片存储器64中。重建的视频块可由运动估计单元42和运动补偿单元44用作参 考块来对后续视频帧中的块进行帧间译码。
[0098] 视频编码器20可经进一步配置以对根据本发明的技术的视频参数集(VPS)、层 参数集(LPS)和/或分组参数集,以及序列参数集(SPS)、图片参数集(PPS)、适应参数集 (APS)或其它这些信令数据结构进行译码。更特定来说,熵编码单元56可经配置以对这些 数据结构中的任一者或全部进行译码。就这些各种数据结构的参数可能影响译码性能来 说,模式选择单元40可选择适当参数且将所述参数传递到熵编码单元56以便包括于(例 如)VPS内。其它参数(例如,时间层的数目、待重新排序的图片的数目和待存储于经解码 图片缓冲器中的图片的数目)可由用户(例如,管理员)来选择。在其它实例中,特定参数 (例如HRD参数)可经由编码过程而出现。
[0099] 熵编码单元56可对VPS进行译码以包括本发明所描述的各种类型的数据的任一 者或全部。视频编码器20还可根据VPS的参数来对数据进行编码。更特定来说,视频编码 器20可根据VPS的参数来对VPS所对应的视频数据的一或多个层之间的图片的序列进行 译码。
[0100] 以此方式,图2的视频编码器20表示视频编码器的实例,所述视频编码器经配置 以:对用于视频数据的一或多个层的视频参数集(VPS)进行译码,其中视频数据的所述一 或多个层中的每一者参考所述VPS;且至少部分地基于所述VPS对视频数据的所述一或多 个层进行译码。
[0101] 虽然大体关于视频编码器进行描述,但VPS的编码可通过其它装置(例如,媒体感 知网络元件(MANE))执行。MANE可对应于源装置(例如图1的源装置12)与目的地装置 (例如目的地装置14)之间的网络元件。MANE可经配置以根据本发明的技术对VPS进行编 码。MANE可使用通过MANE接收的其它数据结构(例如,序列参数集)的数据产生VPS。
[0102] 图3为说明可实施用于对用于视频数据的一或多个层的参数集和NAL单元进行译 码的技术的视频解码器30的实例的框图。在图3的实例中,视频解码器30包括熵解码单 元70、运动补偿单元72、巾贞内预测单元74、反量化单元76、反变换单元78、参考图片存储器 82和求和器80。参考图片存储器82也可称为"经解码图片缓冲器"或DPB。视频解码器 30在一些实例中可执行与关于视频编码器20 (图2)描述的编码遍次大体上互反的解码遍 次。运动补偿单元72可基于自熵解码单元70接收的运动向量产生预测数据,而帧内预测 单元74可基于自熵解码单元70接收的帧内预测模式指示符产生预测数据。
[0103] 在解码过程期间,视频解码器30自视频编码器20接收表示经编码视频片段的视 频块和相关联语法元素的经编码视频位流。视频解码器30的熵解码单元70对所述位流进 行熵解码以产生经量化的系数、运动向量或帧内预测模式指示符及其它语法元素。熵解码 单元70将运动向量及其它语法元素转发到运动补偿单元72。视频解码器30可在视频片段 层级和/或视频块层级接收语法元素。
[0104] 当视频片段经译码为帧内译码(I)片段时,帧内预测单元74可基于信令的帧内预 测模式和来自当前帧或图片的先前经解码块的数据来产生用于当前视频片段的视频块的 预测数据。当视频帧经译码为帧间译码(即,B、P或GPB)片段时,运动补偿单元72基于自 熵解码单元70接收的运动向量及其它语法元素来产生用于当前视频片段的视频块的预测 性块。所述预测性块可根据参考图片列表中的一者内的参考图片中的一者产生。视频解码 器30可基于存储于参考图片存储器82中的参考图片使用预设建构技术来建构参考巾贞列表 (列表0和列表1)。
[0105] 运动补偿单元72通过剖析运动向量及其它语法元素来确定用于当前视频片段的 视频块的预测信息,且使用所述预测信息产生用于正解码的当前视频块的预测性块。举例 来说,运动补偿单元72使用所接收的语法元素中的一些确定用以对视频片段的视频块进 行译码的预测模式(例如,帧内或帧间预测)、帧间预测片段类型(例如,B片段、P片段或 GPB片段)、用于片段的参考图片列表中的一或多者的构造信息、用于片段的每一经帧间编 码视频块的运动向量、用于片段的每一经帧间译码视频块的帧间预测状态和用以解码当前 视频片段中的视频块的其它信息。
[0106] 运动补偿单元72还可基于内插滤波器执行内插。运动补偿单元72可使用由视频 编码器20在视频块的编码期间使用的内插滤波器来计算用于参考块的次整数像素的内插 值。在此情况下,运动补偿单元72可根据所接收的语法元素确定由视频编码器20使用的 内插滤波器,且使用所述内插滤波器来产生预测性块。
[0107] 反量化单元76反量化(即,去量化)提供于位流中且由熵解码单元80解码的经 量化的变换系数。反量化过程可包括将由视频编码器30计算的量化参数QPY用于视频片 段中的每一视频块以确定量化的程度和(同样地)应应用的反量化的程度。反变换单元78 将反变换(例如,反DCT、反整数变换或概念上类似的反变换过程)应用于变换系数以便产 生像素域中的残余块。
[0108] 在运动补偿单元72基于运动向量及其它语法元素产生用于当前视频块的预测性 块之后,视频解码器30通过将来自反变换单元78的残余块与由运动补偿单元72产生的相 应预测性块相加而形成经解码视频块。求和器90表示执行此求和运算的一或多个组件。 如果需要,还可应用解块滤波器来对经解码块进行滤波以便移除方块效应假影。其它回路 滤波器(在译码回路中或在译码回路之后)还可用以使像素转变平滑或以其它方式改进视 频质量。给定帧或图片中的经解码视频块接着被存储于存储用于后续运动补偿的参考图片 的参考图片存储器82中。参考图片存储器82还存储经解码视频以供稍后呈现于显示装置 (例如图1的显示装置32)上。
[0109] 根据本发明的技术,视频解码器30可解码根据本发明的技术的视频参数集 (VPS)、层参数集(LPS)和/或分组参数集,以及序列参数集(SPS)、图片参数集(PPS)、适应 参数集(APS)或其它这些信令数据结构。更特定来说,熵解码单元70可经配置以解码这些 数据结构中的任一者或全部。通过解码这些各种数据结构,熵解码单元70可确定将用于解 码相应视频数据的参数。举例来说,视频解码器30可使用经解码VPS的参数来解码一或多 个层的视频数据的相应序列。
[0110] 尽管图3中未展示,但视频解码器30可另外包括经译码图片缓冲器(CPB)。CPB 通常可设置于熵解码单元70之前。或者,CPB可耦合到熵解码单元70以用于临时存储,或 处于熵解码单元70的输出端处以用于存储经熵解码的数据,直到此数据将被解码。一般 来说,CPB存储经译码视频数据,直到经译码视频数据将被解码(例如,如视频解码器30可 自经解码VPS提取的HRD参数所指示)。同样,视频解码器30的其它元件可经配置以使用 (例如)VPS来解码视频数据。举例来说,视频解码器30可解码用于各种时间层的图片的时 间识别符,指示待重新排序和/或待存储于参考图片存储器82 (表示DPB)中的图片的数目 的数据。
[0111] 此外,视频解码器30可包括用于根据通过视频译码标准的扩展提供的各种译码 工具来处理视频数据的额外处理单元。或者,图3中所展示的视频解码器30的现有元件可 经配置以执行这些扩展的译码工具。熵解码单元70可经配置以解码VPS扩展数据,且将此 扩展数据提供到经配置以执行通过所述扩展提供的译码工具的单元。
[0112] 以此方式,图3的视频解码器30表示视频解码器的实例,所述视频解码器经配置 以:对用于视频数据的一或多个层的视频参数集(VPS)进行译码,其中视频数据的所述一 或多个层中的每一者参考所述VPS;且至少部分地基于所述VPS对视频数据的所述一或多 个层进行译码。
[0113] 虽然大体关于视频解码器进行描述,但VPS的解码可通过其它装置(例如,媒体感 知网络元件(MANE))执行。MANE可经配置以根据本发明的技术解码VPS。MANE可使用VPS 的数据进一步产生其它参数集数据,例如一或多个序列参数集。以此方式,MANE可提供与 先前标准(例如ITU-T H. 264/AVC)的向后兼容性。
[0114] 图4为说明实例MVC预测型样的概念图。多视图视频译码(MVC)为ITU-T H. 264/ AVC的扩展。类似技术可应用于HEVC。在图4的实例中,说明八个视图(具有视图ID"S0" 到"S7"),且针对每一视图说明十二个时间位置("TO"到"Til")。即,图4中的每一行对 应于视图,而每一列指示时间位置。
[0115] 图4中展示用于多视图视频译码的典型MVC预测(包括每一视图内的图片间预 测和视图间预测两者)结构,其中预测由箭头来指示,箭头指向的物件使用箭头出发的 (point-from)物件用于预测参考。在MVC中,视图间预测由不均等运动补偿(disparity motion compensation)支持,不均等运动补偿可使用H. 264/AVC运动补偿的语法,但允许将 不同视图中的图片用作参考图片。
[0116] 两个视图的译码还可通过MVC来支持,且MVC的优点中的一者为MVC编码器可选 取两个以上视图作为3D视频输入且MVC解码器可解码此多视图表示。因此,具有MVC解码 器的任何呈现器可经配置以接收具有两个以上视图的3D视频内容。
[0117] 虽然MVC具有由H. 264/AVC解码器可解码的所谓基本视图且立体视图对也可通过 MVC支持,但MVC的一个优点在于MVC可支持使用两个以上视图作为三维视频输入且解码由 所述多个视图表示的此三维视频的实例。用户端的具有MVC解码器的呈现器可期待具有多 个视图的三维视频内容。
[0118] 典型MVC解码次序被称为时间优先译码(time-first coding)。存取单元可包括一 个输出时间例项的所有视图的经译码图片。举例来说,时间T0的图片中的每一者可包括于 共同存取单元中,且时间T1的图片中的每一者可包括于第二共同存取单元中,等等。解码 次序不必等于输出或显示次序。
[0119] 图4中的帧使用包括字母的阴影块展示于图4中的每一列与每一行的相交处,字 母指示相应帧为经帧内译码的(即,I帧)或在一个方向上经帧间译码(即,P帧)或在多 个方向上经帧间译码(即,作为B帧)。一般来说,通过箭头来指示预测,其中箭头指向的帧 将箭头出发的物件用于预测参考。举例来说,视图S2的时间位置T0处的P帧根据视图S0 的时间位置TO处的I帧来预测。
[0120] 如同单视图视频编码,可对多视图视频译码视频序列的帧相对于不同时间位置处 的帧进行预测性编码。举例来说,视图SO的时间位置T1处的b帧具有自视图so的时间位 置T0处的I帧指向所述b帧的箭头,此指示所述b帧根据所述I帧预测。然而,另外,在多 视图视频编码的内容脉络下,可以视图间方式预测帧。即,视图分量可使用其它视图中的视 图分量作为参考。在MVC中,例如,实现视图间预测,好像另一视图中的视图分量为帧间预 测参考。可能的视图间参考是在序列参数集(SPS)MVC扩展中用信号表示且可通过参考图 片列表建构过程加以修改,所述过程能够实现帧内预测或视图间预测参考的灵活排序。
[0121] 在H. 264/AVC的MVC扩展中,作为一实例,视图间预测由不均等运动补偿支持,不 均等运动补偿使用H. 264/AVC运动补偿的语法,但允许将不同视图中的图片用作为参考图 片。两个视图的译码可由MVC来支持,此通常被称为立体视图。MVC的优点之一在于,MVC 编码器可选取两个以上视图作为三维视频输入且MVC解码器可解码此多视图表示。因此, 具有MVC解码器的呈现装置可期待具有两个以上视图的三维视频内容。
[0122] 在MVC中,在同一存取单元(S卩,具有相同时间例项)中的图片之间允许视图间预 测(IVP)。存取单元通常为包括用于共同时间例项的所有视图分量(例如,所有NAL单元) 的数据单元。因此,在MVC中,在同一存取单元中的图片之间准许视图间预测。当对非基本 视图中的一者中的图片进行译码时,如果所述图片在不同视图中但具有相同时间例项(例 如,相同P0C值,且因此在同一存取单元中),那么可将所述图片添加到参考图片列表中。 正如任何帧间预测参考图片一样,可将视图间预测参考图片置于参考图片列表的任何位置 中。
[0123] 在多视图视频译码的内容脉络下,存在两种运动向量。一种运动向量为指向时间 参考图片的普通运动向量,且将相应帧间预测模式称为经运动补偿预测(MCP)。另一种运动 向量为指向不同视图中的图片的不均等运动向量,且将相应视图间预测模式称为经不均等 补偿预测(DCP)。
[0124] 在常规HEVC中,存在用于预测运动参数的两个模式:一个模式为合并模式,且另 一模式为先进运动向量预测(AMVP)。在合并模式中,构造运动参数(参考图片和运动向量) 的候选列表,其中候选者可来自空间或时间相邻的块。空间上和时间上相邻的块可形成候 选列表,即,运动预测信息可选自的候选者的集合。因此,视频编码器20可通过将索引译码 到候选列表中来对经选择作为运动预测信息的运动参数进行译码。在视频解码器30已解 码索引之后,可以合并模式继承索引指向的相应块的所有运动参数。
[0125] 在AMVP中,根据常规HEVC,基于经译码参考索引来导出用于每一运动假设的运动 向量预测子的候选列表。此列表包括与相同参考索引相关联的相邻块的运动向量,以及基 于时间参考图片中的共置块的相邻块的运动向量导出的时间运动向量预测子。通过将索引 发射到候选列表中来用信号表示所选运动向量。另外,还用信号表示参考索引值和运动向 量差。
[0126] 图4提供视图间预测的各种实例。在图4的实例中,将视图S1的帧说明为根据视 图S1的处于不同时间位置处的帧预测,且根据视图S0和S2的处于相同时间位置处的帧的 帧以视图间方式预测。举例来说,视图S1在时间位置T1处的b帧根据视图S1在时间位置 T0和T2处的B帧以及视图S0和S2在时间位置T1处的b帧中的每一者预测。
[0127] 在图4的实例中,大写字母"B"和小写字母"b"希望指示帧之间的不同阶层关系, 而非不同编码技术。一般来说,大写字母"B"巾贞在预测阶层上相对高于小写字母"b"巾贞。图 4还说明使用不同阴影水平的预测阶层的变化,其中较大量阴影(即,相对较暗)帧在预测 阶层上高于具有较少阴影的(即,相对较亮)帧。举例来说,用全阴影说明图4中所有I帧, 而P帧具有稍微较亮的阴影,且B帧(和小写字母b帧)相对于彼此具有各种阴影水平,但 始终比P帧和I帧的阴影亮。
[0128] 一般来说,预测阶层与视图次序索引相关,相关之处在于预测阶层相对较高的帧 应在解码阶层相对较低的帧之前进行解码,以使得阶层相对较高的那些帧可在阶层相对较 低的帧的解码期间用作参考帧。视图次序索引为指示存取单元中的视图分量的解码次序 的索引。如H. 264/AVC的附录H(MVC修正)中所指定,视图次序索引暗示于SPSMVC扩展 中。在SPS中,对于每一索引i,用信号表不相应view_id。在一些实例中,视图分量的解码 应遵循视图次序索引的递升次序。如果呈现所有视图,那么视图次序索引将为自〇到num_ views_minus_l的连续次序。
[0129] 以此方式,用作为参考帧的帧可在参考参考帧编码的帧之前予以解码。视图次序 索引为指示存取单元中的视图分量的解码次序的索引。对于视图次序索引i,用信号表示相 应 View_id。视图分量的解码遵循视图次序索引的递升次序。如果呈现所有视图,那么视图 次序索引的集合可包含自零到比视图的全部数目小1的连续排序集合。
[0130] 对于处于阶层的相同层级的特定帧,解码次序相对于彼此来说并不重要。举例来 说,使用视图S0在时间位置T0处的I帧作为视图S2在时间位置T0处的P帧的参考巾贞,视 图S2在时间位置T0处的P帧又被用作视图S4在时间位置T0处的P帧的参考帧。因此, 应在视图S2在时间位置T0处的P帧之前解码视图S0在时间位置T0处的I帧,应在视图 S4在时间位置T0处的P帧之前解码视图S2在时间位置T0处的P帧。然而,在视图S1与 视图S3之间,解码次序并不重要,这是因为视图S1和视图S3并不依赖于彼此来预测,而是 仅根据预测阶层较高的视图来预测。此外,可在视图S4之前解码视图S1,只要视图S1在视 图S0和视图S2之后解码即可。
[0131] 以此方式,阶层排序可用以描述视图S0到视图S7。令记法SA > SB意味着视图 SA应在视图SB之前进行解码。使用此记法,在图4的实例中,SO > S2 > S4 > S6 > S7。 并且,相对于图 4 的实例,SO > S1、S2 > S1、S2 > S3、S4 > S3、S4 > S5 且 S6 > S5。不违 反这些要求的用于视图的任何解码次序是可能的。因此,许多不同解码次序是可能的,但仅 具有特定限制。
[0132] 根据本发明的技术,可将视图S0到S7中的每一者视为相应位流的相应层。因此, VPS可描述位流的可应用于视图S0到S7中的任一者或全部的参数,同时可针对视图S0到 S7中的任一者或全部提供个别层参数集。另外,可针对参数集的群组提供分组参数集,以使 得视图S0到S7的个别图片内的片段仅参考分组参数集的识别符。
[0133] 如图4中所示,视图分量可使用其它视图中的视图分量作为参考。此被称为视图 间预测。在MVC中,实现视图间预测,好像另一视图中的视图分量为帧间预测参考。视频编 码器20和视频解码器30可对序列参数集(SPS)MVC扩展中的可能视图间参考(如表1的 实例中所展示)进行译码。视频编码器20和视频解码器30可通过执行参考图片列表建构 过程来进一步修改所述可能视图间参考,所述过程可能能够实现帧间预测或视图间预测参 考的灵活排序。
[0134] 表 1
[0135]
【权利要求】
1. 一种对视频数据进行译码的方法,所述方法包含: 对用于视频数据的一或多个层的视频参数集VPS进行译码,其中视频数据的所述一或 多个层中的每一者参考所述VPS ;以及 至少部分地基于所述VPS对视频数据的所述一或多个层进行译码。
2. 根据权利要求1所述的方法,其中对所述VPS进行译码包含对所述VPS的指示所述 一或多个层中的时间层的最大数目的数据进行译码。
3. 根据权利要求所述1的方法,其中对所述VPS进行译码包含对所述VPS的指示所述 一或多个层中的至少一者中待重新排序的帧的数目的数据进行译码。
4. 根据权利要求1所述的方法,其中对所述VPS进行译码包含对所述VPS的指示在所 述一或多个层的解码期间待存储于经解码图片缓冲器DPB中的图片的数目的数据进行译 码。
5. 根据权利要求1所述的方法,其中对所述VPS进行译码包含对所述VPS的指示假想 参考解码器HRD参数的一或多个集合的数据进行译码。
6. 根据权利要求1所述的方法,其中对所述VPS进行译码包含对所述VPS的指示所述 VPS是否包括超出相应标准的扩展的数据进行译码,且在所述VPS包括所述扩展时,对用于 所述扩展的数据进行译码。
7. 根据权利要求1所述的方法,其中对所述一或多个层进行译码包含根据高效率视频 译码HEVC对所述一或多个层进行译码。
8. 根据权利要求1所述的方法,其中对所述一或多个层进行译码包含根据多视图视频 译码MVC和可缩放视频译码SVC中的至少一者对所述一或多个层进行译码。
9. 根据权利要求1所述的方法,其中对所述VPS进行译码包含对针对视频数据的所述 一或多个层的一或多个维度指定以下各者中的一或多者的信息进行译码:视频数据的所述 一或多个层中的优先层的数目,视频数据的所述一或多个层中的相依层的数目,视频数据 的所述一或多个层中的时间层的数目,用于视频数据的所述一或多个层中的所述相依层中 的任一者的质量层的最大数目,和视频数据的所述一或多个层中的视图的最大数目。
10. 根据权利要求2所述的方法,其中当所述视频数据的所述一或多个层的子集具有 相同空间分辨率和相同位深度时,所述子集的所述层中的每一者对应于所述相依层中的不 同层。
11. 根据权利要求10所述的方法,其中对所述VPS进行译码包含对定义特性映射的样 本索引的信息进行译码,且其中对定义特性映射的所述样本索引的所述信息进行译码包含 当视频数据的所述一或多个层的维度的特性指示符不在零到样本维度计数减1的索引范 围内时对指定用于多个特性索引中的每一者的相应特性指示符的信息进行译码。
12. 根据权利要求10所述的方法,其中对所述VPS进行译码包含对定义特性映射的样 本索引的信息进行译码,且其中对定义特性映射的所述样本索引的所述信息进行译码包含 对以下各者中的一或多者进行译码:多个相依索引中的每一者的相应空间分辨率、多个时 间索引中的每一者的帧速率、多个视图索引中的每一者的视图识别符、多个位深度索引中 的每一者的明度和色度的一对特定深度值,和多个色度取样格式中的每一者的特定色度取 样格式指示符。
13. 根据权利要求1所述的方法,其中对所述VPS进行译码包含对定义控制参数和一或 多个工具启用/停用旗标的信息进行译码。
14. 根据权利要求13所述的方法,其中所述控制参数和所述一或多个工具启用/停用 旗标包含以下各者中的一或多者:pcm_bit_depth_luma_minusl、pcm_bit_depth_chroma_ minusl> loop_filter_across_slice_flag> pcm_loop_filter_disable_flag> temporal_ id_nesting_f lag、一或多个图像块相关的语法兀素、chroma_pred_from_luma_enabled_ flag、sample_adaptive_ofTset_enabled_flag、adaptive_loop_filter_enabled_flag 和 i nt er_4 X 4_enab1e d_f1ag 〇
15. 根据权利要求1所述的方法,其中对所述VPS进行译码包含对定义一或多个操作点 描述符的信息进行译码。
16. 根据权利要求15所述的方法,其中对定义所述一或多个操作点描述符的所述信 息进行译码包含对定义以下各者中的一或多者的信息进行译码:最大操作点的数目;不同 层或视图之间的相依性;所述操作点中的每一者的简档和层级;对于每一操作点,操作点 视频译码层VCL网络抽象层NAL单元表示;对于每一维度,特定索引值、所述维度的可能索 引值的范围和索引值的列表中的一或多者;所述操作点中的每一者的位速率;所述操作点 之间的相依性;所述操作点中的每一者的限制;所述操作点中的每一者的视频可用性信息 VUI ;和用于所述一或多个层中的每一者的VUI。
17. 根据权利要求1所述的方法,其进一步包含对用于视频数据的所述一或多个层中 的每一者的相应分层序列参数集LPS进行译码,其中至少部分地基于所述VPS对视频数据 的所述一或多个层进行译码包含至少部分地基于所述VPS和所述相应LPS对视频数据的所 述一或多个层进行译码。
18. 根据权利要求17所述的方法,其中对用于所述一或多个层中的每一者的所述相应 LPS进行译码包含对定义针对每一维度指示每一维度的索引的样本维度指示的信息进行译 码。
19. 根据权利要求17所述的方法,其中对用于所述一或多个层中的每一者的所述相应 LPS进行译码包含对定义控制参数和工具启用/停用旗标的信息进行译码。
20. 根据权利要求19所述的方法,其中所述控制参数和所述一或多个工具启用/停用 旗标包含以下各者中的一或多者:pcm_bit_depth_luma_minusl、pcm_bit_depth_chroma_ minus 1、loop_filter_across_slice_flag、pcm_loop_filter_disable_flag、一或多个图像 块相关的语法兀素、chroma_pred_from_luma_enabled_flag、sample_adaptive_offset_ enabled_flag、adaptive_loop_filter_enabled_flag 和译码单兀 CU 阶层。
21. 根据权利要求17所述的方法,其中对用于所述一或多个层中的每一者的所述相应 LPS进行译码包含对定义应用于片段、片段的群组、图片和参考共同图片参数集PPS的若干 图片中的至少一者的一或多个其它参数集的信息的信息进行译码。
22. 根据权利要求1所述的方法,其进一步包含对一或多个图片参数集PPS进行译 码,以使得所述PPS不参考所述VPS、不参考视频数据的所述一或多个层的分层序列参数集 LPS。
23. 根据权利要求22所述的方法,其中至少部分地基于所述VPS对视频数据的所述一 或多个层进行译码包含至少部分地基于所述VPS、所述PPS和所述LPS对视频数据的所述一 或多个层进行译码,以使得当所述PPS中的一者的语法元素与所述VPS或所述LPS中的相 应者冲突时,基于所述PPS中的所述一者的所述语法元素对视频数据的所述一或多个层中 的相应层进行译码。
24. 根据权利要求1所述的方法,其进一步包含对将用于视频数据的所述一或多个层 的包括所述VPS的所有参数集分组在一起的分组参数集GPS进行译码。
25. 根据权利要求24所述的方法,其中对所述GPS进行译码包含对定义所述GPS的识 别符的信息进行译码,所述方法进一步包含对对应于所述GPS的所述识别符的片段标头的 信息进行译码。
26. 根据权利要求1所述的方法,其中对视频数据的所述一或多个层进行译码包含解 码视频数据的所述一或多个层,且其中对所述VPS进行译码包含剖析所述VPS。
27. 根据权利要求1所述的方法,其中对视频数据的所述一或多个层进行译码包含编 码视频数据的所述一或多个层,且其中对所述VPS进行译码包含构造所述VPS。
28. -种用于对视频数据进行译码的装置,所述装置包含视频译码器,所述视频译码器 经配置以:对用于视频数据的一或多个层的视频参数集VPS进行译码,其中视频数据的所 述一或多个层中的每一者参考所述VPS;且至少部分地基于所述VPS对视频数据的所述一 或多个层进行译码。
29. 根据权利要求28所述的装置,其中所述视频译码器经配置以对所述VPS的指示所 述一或多个层中的时间层的最大数目的数据进行译码。
30. 根据权利要求28所述的装置,其中所述视频译码器经配置以对所述VPS的指示所 述一或多个层中的至少一者中待重新排序的帧的数目的数据进行译码。
31. 根据权利要求28所述的装置,其中所述视频译码器经配置以对所述VPS的指示在 所述一或多个层的解码期间待存储于经解码图片缓冲器DPB中的图片的数目的数据进行 译码。
32. 根据权利要求28所述的装置,其中所述视频译码器经配置以对所述VPS的指示假 想参考解码器HRD参数的一或多个集合的数据进行译码。
33. 根据权利要求28所述的装置,其中所述视频译码器经配置以对所述VPS的指示所 述VPS是否包括超出相应标准的扩展的数据进行译码,且在所述VPS包括所述扩展时,对用 于所述扩展的数据进行译码。
34. 根据权利要求28所述的装置,其中所述视频译码器经配置以根据高效率视频译码 HEVC、多视图视频译码MVC和可缩放视频译码SVC中的一者对所述一或多个层进行译码。
35. 根据权利要求28所述的装置,其中所述视频译码器包含视频解码器。
36. 根据权利要求28所述的装置,其中所述视频译码器包含视频编码器。
37. 根据权利要求28所述的装置,其中所述装置包含以下各者中的至少一者: 集成电路; 微处理器;以及 包括所述视频译码器的无线通信装置。
38. -种用于对视频数据进行译码的装置,所述装置包含: 用于对用于视频数据的一或多个层的视频参数集VPS进行译码的装置,其中视频数据 的所述一或多个层中的每一者参考所述VPS ;以及 用于至少部分地基于所述VPS对视频数据的所述一或多个层进行译码的装置。
39. 根据权利要求38所述的装置,其中所述视频译码器经配置以对所述VPS的指示所 述一或多个层中的时间层的最大数目的数据进行译码。
40. 根据权利要求38所述的装置,其中所述视频译码器经配置以对所述VPS的指示所 述一或多个层中的至少一者中待重新排序的帧的数目的数据进行译码。
41. 根据权利要求38所述的装置,其中所述视频译码器经配置以对所述VPS的指示在 所述一或多个层的解码期间待存储于经解码图片缓冲器DPB中的图片的数目的数据进行 译码。
42. 根据权利要求38所述的装置,其中所述视频译码器经配置以对所述VPS的指示假 想参考解码器HRD参数的一或多个集合的数据进行译码。
43. 根据权利要求38所述的装置,其中所述视频译码器经配置以对所述VPS的指示所 述VPS是否包括超出相应标准的扩展的数据进行译码,且在所述VPS包括所述扩展时,对用 于所述扩展的数据进行译码。
44. 根据权利要求38所述的装置,其中所述视频译码器经配置以根据高效率视频译码 HEVC、多视图视频译码MVC和可缩放视频译码SVC中的一者对所述一或多个层进行译码。
45. -种计算机可读存储媒体,其上存储有在执行时使处理器进行以下操作的指令: 对用于视频数据的一或多个层的视频参数集VPS进行译码,其中视频数据的所述一或 多个层中的每一者参考所述VPS ;以及 至少部分地基于所述VPS对视频数据的所述一或多个层进行译码。
46. 根据权利要求45所述的计算机可读存储媒体,其中使所述处理器对所述VPS进行 译码的所述指令包含使所述处理器对所述VPS的指示所述一或多个层中的时间层的最大 数目的数据进行译码的指令。
47. 根据权利要求45所述的计算机可读存储媒体,其中使所述处理器对所述VPS进行 译码的所述指令包含使所述处理器对所述VPS的指示所述一或多个层中的至少一者中待 重新排序的帧的数目的数据进行译码的指令。
48. 根据权利要求45所述的计算机可读存储媒体,其中使所述处理器对所述VPS进行 译码的所述指令包含使所述处理器对所述VPS的指示在所述一或多个层的解码期间待存 储于经解码图片缓冲器DPB中的图片的数目的数据进行译码的指令。
49. 根据权利要求45所述的计算机可读存储媒体,其中使所述处理器对所述VPS进行 译码的所述指令包含使所述处理器对所述VPS的指示假想参考解码器HRD参数的一或多个 集合的数据进行译码的指令。
50. 根据权利要求45所述的计算机可读存储媒体,其中使所述处理器对所述VPS进行 译码的所述指令包含使所述处理器对所述VPS的指示所述VPS是否包括超出相应标准的扩 展的数据进行译码且在所述VPS包括所述扩展时对用于所述扩展的数据进行译码的指令。
51. 根据权利要求45所述的装置,其中使所述处理器对所述一或多个层进行译码的所 述指令包含使所述处理器根据高效率视频译码HEVC、多视图视频译码MVC和可缩放视频译 码SVC中的一者对所述一或多个层进行译码的指令。
【文档编号】H04N19/31GK104054345SQ201380005237
【公开日】2014年9月17日 申请日期:2013年1月11日 优先权日:2012年1月14日
【发明者】陈颖, 王益魁 申请人:高通股份有限公司