次级变换系数的扫描顺序的制作方法

文档序号:35210824发布日期:2023-08-24 05:38阅读:655来源:国知局
次级变换系数的扫描顺序的制作方法

本公开描述了一组先进的视频编码技术。更具体地,所公开的技术涉及在视频编码和解码中数据块的不可分离变换的实施。


背景技术:

1、本文所提供的背景描述旨在整体呈现本技术的背景。在背景技术部分以及本说明书的各个方面中所描述的目前已署名的发明人的工作所进行的程度,并不表明其在本技术提交时作为现有技术,且从未明示或暗示其被承认为本技术的现有技术。

2、可以使用具有运动补偿的帧间图片预测来进行视频编码和解码。未压缩的数字视频可包括一系列图片,每个图片具有例如1920×1080亮度样本及相关的全采样或子采样色度样本的空间维度。所述系列图片具有固定的或可变的图片速率(或者称为帧率),例如每秒60个图片或每秒60帧。未压缩的视频具有特定的比特率要求。例如,具有像素分辨率为1920×1080,帧速率为60帧/秒,以及色度子采样为4:2:0,以每个像素每个颜色通道8比特的视频需要接近1.5gbit/s的带宽。一小时的此类视频需要超过600gb的存储空间。

3、视频编码和解码的一个目的,是通过压缩减少未压缩输入视频信号的冗余信息。视频压缩可以帮助降低对上述带宽和/或存储空间的要求,在某些情况下可降低两个或更多数量级。无损压缩和有损压缩,以及两者的组合均可采用。无损压缩是指经由解码过程,从压缩的原始信号中重建原始信号精确副本的技术。有损压缩是指原始视频信息在编码期间未被完全保留并且在解码期间不可完全恢复的编码/解码过程。当使用有损压缩时,重建信号可能与原始信号不同,但是原始信号与重建信号之间的失真小到足以使重建信号可用于预期应用,尽管一些信息损失。就视频而言,有损压缩广泛用于许多应用中。可容许失真量取决于应用。例如,某些消费视频流应用的用户可以容许比电影或电视广播应用的用户更高的失真。可以选择或调整通过特定编码算法可实现的压缩比以反映各种失真容限:较高的可容许失真通常允许产生较高损失和较高压缩比的编码算法。

4、视频编码器和解码器可以利用来自若干广泛类别和步骤的技术,包括例如运动补偿、傅立叶变换、量化以及熵编码。

5、视频编解码器技术可包括已知的帧内编码技术。在帧内编码中,在不参考先前重建的参考图片的样本或其它数据的情况下表示样本值。在一些视频编解码器中,图片在空间上被细分为样本块。当所有的样本块都以帧内模式编码时,该图片可以被称为帧内图片。帧内图片及其衍生(例如独立解码器刷新图片)可用于复位解码器状态,并且因此可用作编码视频比特流和视频会话中的第一图片,或用作静止图像。然后,可以将帧内预测后的块的样本变换到频域,并且可以在熵编码之前对如此生成的变换系数进行量化。帧内预测表示使预变换域中的样本值最小化的技术。在一些情况下,变换后的dc值越小,并且ac系数越小,则在给定的量化步长尺寸下需要越少的比特来表示熵编码之后的块。

6、如同从诸如mpeg-2代编码技术中所获知的,传统帧内编码不使用帧内预测。然而,一些较新的视频压缩技术包括:尝试基于例如周围样本数据和/或元数据对块进行编码/解码,该周围样本数据和/或元数据是在空间相邻的编码和/或解码期间获得的,并且在解码顺序上先于正在帧内编码或解码的数据块。此类技术此后被称为“帧内预测”技术。注意,在至少一些情况下,帧内预测仅使用来自重建中的当前图片的参考数据,而不使用来自其它参考图片的参考数据。

7、可以有许多不同形式的帧内预测。当在给定视频编码技术中可获得多于一种此类技术时,所使用的技术可以被称为帧内预测模式。可以在特定编解码器中提供一个或多个帧内预测模式。在某些情况下,模式可以具有子模式和/或可以与各种参数相关联,并且用于视频块的模式/子模式信息和帧内编码参数可以包含在模式码字中,可以单独或共同编码。对于给定模式、子模式和/或参数组合,使用哪个码字可以通过帧内预测对编码效率增益产生影响,并且用于将码字转换为码流的熵编码技术也同样如此。

8、帧内预测的某种模式与h.264一起被引入,在h.265中被修正,并且在诸如联合探测模式(jem)、通用视频编码(vvc)和基准集(bms)的较新的编码技术中被进一步修正。通常,对于帧内预测,可以使用已变得可用的相邻样本值来形成预测器块。例如,可以将沿着特定方向和/或行的特定相邻样本集的可用值,复制到预测器块中。对使用方向的参考可以在码流中编码,或者本身可以被预测。

9、参考图1a,在右下方描绘的是在h.265的33个可能的帧内预测器方向(对应于在h.265中指定的35个帧内模式的33个角度模式)中指定的9个预测器方向的子集。箭头会聚的点(101)表示正在被预测的样本。箭头表示使用相邻样本预测101处的样本所根据的方向。例如,箭头(102)指示根据与水平方向成45度角的右上方的一个或多个相邻样本,预测样本(101)。类似地,箭头(103)指示根据与水平方向成22.5度角的样本(101)左下方的一个或多个相邻样本,预测样本(101)。

10、仍然参考图1a,在左上方示出了一个包括4×4个样本的正方形块(104)(由粗虚线表示)。正方形块(104)由16个样本组成,每个样本用“s”、以及其在y维度(例如,行索引)上的位置和在x维度(例如,列索引)上的位置来标记。例如,样本s21是y维度上的第二个样本(从顶部开始)和x维度上的第一个(从左侧开始)样本。类似地,样本s44在y维度和x维度上都是块(104)中的第四个样本。由于该块为4×4尺寸的样本,因此s44位于右下角。还示出了遵循类似编号方案的示例参考样本。参考样本用"r"、以及其相对于块(104)的y位置(例如,行索引)和x位置(例如,列索引)来标记。在h.264和h.265中,使用与重建中的块邻近地相邻预测样本。

11、块104的图片内预测可以通过根据用信号通知的预测方向,从相邻样本复制参考样本值来开始。例如,假设已编码视频码流包括信令,对于该块104,该信令指示箭头(102)的预测方向——也就是说,根据与水平方向成45度角的右上方的一个或多个预测样本来预测样本。在此类情况下,根据相同的参考样本r05来预测样本s41、s32、s23和s14。然后根据参考样本r08预测样本s44。

12、在某些情况下,例如通过插值,可以合并多个参考样本的值,以便计算参考样本,尤其是当方向不能被45度整除时。

13、随着视频编码技术不断发展,可能方向的数量增加。例如,在h.264(2003年)中,9个不同的方向可用于帧内预测。这在h.265(2013年)中增加到33个,并且jem/vvc/bms在本公开时可以支持多达65个方向。已经进行了实验研究来帮助识别最适合的帧内预测方向,并且可以使用熵编码中的某些技术来以少量比特对那些最适合的方向进行编码,接受用于方向的某些比特代价。此外,方向本身有时可以根据用于已经解码的相邻块的帧内预测的相邻方向来进行预测。

14、图1b示出了根据jem描绘65个帧内预测方向的示意图(180),以说明随着时间的推移各种编码技术中预测方向的数量增加。

15、用于将表示帧内预测方向的比特映射到已编码视频码流中的预测方向的方式可以随不同的视频编码技术而变化;并且可以例如从预测方向到帧内预测模式、到码字、到涉及最可能模式的复杂自适应方案和类似技术的简单直接映射。然而,在所有情况下,在视频内容中可能存在比某些其它方向在统计上更不可能出现的用于帧内预测的某些方向。由于视频压缩的目标是减少冗余,在精心设计的视频编码技术中,那些更不可能的方向将可以由比更可能的方向更大的比特数来表示。

16、图片间预测或帧间预测可以基于运动补偿。在运动补偿中,来自先前重建的图片或其部分(参考图片)的样本数据在由运动矢量(以下为mv)指示的方向上空间移位之后可以用于新重建的图片或图片部分(例如,块)的预测。在一些情况下,参考图片可以与当前重建中的图片相同。mv可以具有二维x和y,或三维,其中第三维是使用中的参考图片的指示(近似时间维)。

17、在一些视频压缩技术中,可应用于样本数据的某一区域的当前mv可以从其它mv中预测,例如从与空间上邻近重建中区域的样本数据的其它区域相关的并且在解码顺序上先于当前mv的那些其它mv中预测。这样做可以通过依赖于去除相关mv中的冗余来显著减少编码mv所需的总数据量,从而增加压缩效率。mv预测可以有效地执行,例如,因为当对从照相机导出的输入视频信号(称为自然视频)进行编码时,存在比单个mv适用的区域大的区域在视频序列中沿类似方向移动的统计可能性。因此,在一些情况下可以使用从相邻区域的mv导出的类似运动矢量来预测。这导致给定区域的实际mv与从周围mv预测的mv类似或相同。在熵编码之后,此类mv又可以用比如果直接编码mv而不是从一个或多个相邻mv预测所使用的比特数更少的比特数来表示。在一些情况下,mv预测可以是从原始信号(即:样本流)导出的信号(即:mv)的无损压缩的示例。在其它情况下,mv预测本身可能是有损的,例如由于当从若干周围mv计算预测值时的舍入误差。

18、h.265/hevc(itu-t h.265建议书,“高效视频编解码(high efficiency videocoding)”,2016年12月)中描述了各种mv预测机制。在h.265指定的多种mv预测机制中,本技术描述的是下文称作“空间合并”的技术。

19、请参考图2,当前块(201)包括在运动搜索过程期间已由编码器发现的样本,根据已产生空间偏移的相同尺寸的先前块,可预测所述样本。另外,可从一个或多个参考图片相关联的元数据中导出所述mv,而非对mv直接编码。例如,使用关联于a0、a1和b0、b1、b2(分别对应202到206)五个周围样本中的任一样本的mv,(按解码次序)从最近的参考图片的元数据中导出所述mv。在h.265中,mv预测可使用相邻块也使用的相同参考图片的预测值。


技术实现思路

1、本公开的各方面提供了用于视频编码和解码的方法和装置。

2、本公开的各方面还提供了存储指令的非暂时性计算机可读介质,这些指令在由计算机执行以进行视频解码和/或编码时,使计算机执行用于视频解码和(或)编码的方法。

3、根据一个方面,本公开的实施例提供了一种处理视频数据的方法。该方法从所述视频数据中提取数据块;遵循第一扫描顺序扫描所述数据块中的第一数量的数据项,以生成第一数据序列;对所述第一数据序列执行不可分离变换,以获得具有第二数量的数据项的第二数据序列;以及利用遵循第二扫描顺序的所述第二数据序列的一部分或全部来替换所述数据块中的所述第一数量的数据项的至少一部分。

4、根据另一个方面,本公开的一个实施例提供了一种对与视频数据相关联的变换系数进行熵编码的方法。该方法包括响应于与所述变换系数相关联的变换是不可分离的,当执行对所述变换系数的熵编码时使用第一扫描顺序扫描所述变换系数,所述第一扫描顺序是以下各项中的一项:水平扫描顺序;或垂直扫描顺序;以及响应于与所述变换系数相关联的所述变换是可分离的,当执行对所述变换系数的熵编码时,以不同于所述第一扫描顺序的第二扫描顺序扫描所述变换系数。

5、根据另一个方面,本公开的实施例提供了一种处理视频数据的方法。该方法包括接收所述视频数据;确定是否将不可分离变换作为次级变换应用于所述视频数据;响应于将所述不可分离变换作为所述次级变换应用于所述视频数据:扫描第一数量的初级变换系数,其中所述初级变换系数遵循第一扫描顺序;使用作为输入的所述第一数量的初级变换系数来执行不可分离变换,以获得作为输出的第二数量的次级变换系数,其中所述次级变换系数遵循第二扫描顺序;利用遵循所述第二扫描顺序的所述次级变换系数来替换至少所述第二数量的初级变换系数;使用作为输入的所述第二数量的次级变换系数来执行与所述不可分离变换相对应的逆次级变换,以获得作为输出的所述第一数量的初级变换系数;以及利用遵循所述第一扫描顺序的所述初级变换系数来替换至少所述第一数量的次级变换系数。

6、根据另一方面,本公开的实施例提供一种用于视频编码和/或解码的装置。该装置包括存储指令的存储器;以及与该存储器通信的处理器。当处理器执行指令时,该处理器被配置为使该装置执行用于视频解码和/或编码的以上方法。

7、根据另一方面中,本公开的实施例提供存储指令的非易失性计算机可读介质,这些指令在由计算机执行以用于视频解码和/或编码时使计算机执行以上用于视频解码和/或编码的方法。

8、在附图、说明书和权利要求中更详细地描述了以上方面和其它方面及其实施方案。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1