根据内预测方向的预测单元的过滤的制作方法

文档序号：7792772阅读：261来源：国知局

根据内预测方向的预测单元的过滤的制作方法
【专利摘要】一种视频编码或解码方法，其中，根据与要预测的取样的区块相关的预测方向，从其他各个取样中预测以4∶4∶4格式或4∶2∶2格式的亮度取样和色彩取样；包括相对于要预测的当前区块，检测预测方向；根据由预测方向限定的其他色彩取样，生成色彩取样的预测区块；如果所检测的预测方向基本上垂直，那么过滤在色彩取样的预测区块中的左列取样，或者如果所检测的预测方向基本上水平，那么过滤在色彩取样的预测区块中的顶行取样；并且将在所过滤的预测色度区块与实际色度区块之间的差异编码，或者将解码的差异应用于所过滤的预测色度区块中，以便分别将区块编码或解码。
【专利说明】根据内预测方向的预测单元的过滤
[0001] 相关申请的交叉引用
[0002] 本申请要求分别于更早提交日期2012年11月19日、2012年6月22日以及2012 年4月26日在英国知识产权局提交的GB1220836. 9、GB1211067. 2以及GB 1207459. 7的权益，上述申请的全部内容通过引用被结合在本文中。

【技术领域】
[0003] 本公开有关数据编码及解码。

【背景技术】
[0004] 文中所提出的「【背景技术】」描述为了一般性地呈现本公开的背景的目的。目前具名的发明人的工作（达其在此先前技术段落中所描述的程度、以及其无法另合格为申请时的习知技术的描述的形态）不被明确地或暗示性地承认为对抗本公开的习知技术。
[0005] 有数种视频数据编码及解码系统，其涉及将视频数据变换为频域表示、将频域系数量化及接着将某形式的熵（entropy)编码应用至已量化的系数。如此可获得视频数据的压缩。相应的解码或解压缩技术被应用以恢复原始视频数据的已重建版本。
[0006] 诸如那些于H. 264/MPEG-4高阶视频编码（AVC)中所使用的当前的视频编解码器 (编码器-解码器）主要藉由仅将介于连续视频帧之间的差异编码来获得数据压缩。这些编解码器使用所谓宏区块的规律数组，其每个被使用为与先前视频帧中的相应宏区块的比较区，且宏区块内的图像区接着依据介于视频序列中的相应的当前与先前宏区块间、或者介于视频序列的单一帧内的相邻宏区块间所发现的移动等级（level)而被编码。
[0007] 高效率视频编码（HEVC)，亦已知为 H. 265 或 MPEG-H Part 2,是 H. 264/MPEG-4AVC 的一种已提议的后继者。期望HEVC得以增进质量及加倍数据压缩比（相较于H. 264)，并期望其可缩放从128X96至7680X4320像素分辨率，约略等于从128kbit/s至800Mbit/s的比特率。
[0008] 于HEVC中，一种所谓的4 :2 :0区块结构被提议给消费者设备，其中各色度 (chroma)频道中所使用的数据的量为亮度（luma)频道中所使用的四分之一。这是因为主观地人类对于亮度变化较颜色变化更为敏感，而因此得以使用较大的压缩及/或较少的数据于颜色频道中而不会有主观的质量丧失。
[0009] HEVC以一种基于编码单元（CU，其为可变尺寸结构）的更有弹性技术来取代现存 H. 264及MPEG标准中所发现的宏区块。
[0010] 因此，当编码视频帧中的图像数据时，⑶尺寸可响应于明显的图像复杂度或检测的移动等级而被选择，以取代使用均匀分布的宏区块。结果，可获得明显较大的压缩于具有少量移动于帧之间的区中以及具有少量变化于帧之内的区中，而同时可保留较佳的图像质量于高帧间移动或图像复杂度的区域中。
[0011] 各⑶含有：图像内或图像间预测类型的任一者的一个以上可变区块尺寸的预测单元（PU)、及其含有针对空间区块变换及量化的系数的一个以上变换单元（TU)。
[0012] 再者，PU和TU区块被提供给三个频道的每一个：亮度（Y)，其为亮度或亮度频道、且其可被视为灰阶频道；及两颜色差异或色彩（色度）频道Cb和Cr。这些频道提供亮度频道的灰阶图像的颜色。术语Y、亮度（luminance)及亮度被交替地使用于本说明书中，而类似的术语Cb和Cr、色彩（chrominance)及色度被适当地交替使用，注意其色彩或色度通常可被用于Cr和Cb的一者或两者；而当讨论特定色彩频道时其将由术语Cb或Cr来识别。
[0013] 一般而言，PU被视为频道独立的，除了其PU具有亮度部分及色度部分。一般而言，此表示形成各频道的PU的部分的样本代表图像的相同区，以致有固定的关系介于三个频道间的ro之间。例如，针对4 :2 :0视频，亮度之8X8PU永远具有色度的相应的4X4PU，其TO的色度部分代表如亮度部分的相同区域，但由于4 :2 :0视频中相较于亮度数据的4 : 2 :0色度数据之次取样本质而含有较少数的像素。（在4:4:4中，取样速率相同，因此，相同的PU结构可用于亮度取样和色彩取样）。两色度频道共享预测内信息；而三个频道共享预测间信息。类似地，TU结构亦具有固定关系于三个频道之间。
[0014] 然而，针对专业的广播及数字剧院设备，希望具有较少的压缩（或较多的信息）于色度频道中，且此可影响当前及已提议的HEVC处理将如何运作。

【发明内容】

[0015] 本公开应对或减缓由此处理所发生的问题。
[0016] 本公开的形态及特征限定于后附申请专利范围中。
[0017] 应理解之前的一般性描述及之后的详细描述为本技术的范例性的，而非限制性的。

【专利附图】

【附图说明】
[0018] 本公开的更完整的理解以及许多其伴随的优点将随着其藉由参考以下的详细描述（当配合后附图形而考虑时）变得更为了解而被轻易地获得，其中：
[0019] 图1概略地阐明一种使用视频数据压缩及解压缩的音频/视频（A/V)数据传输及接收系统；
[0020] 图2概略地阐明一种使用视频数据解压缩的视频显示系统；
[0021] 图3概略地阐明一种使用视频数据压缩及解压缩的音频/视频储存系统；
[0022] 图4概略地阐明一种使用视频数据解压缩的视频相机；
[0023] 图5提供视频数据压缩及解压缩设备的概略概视图；
[0024] 图6概略地阐明预测图像的产生；
[0025] 图7概略地阐明最大编码单元（IXU);
[0026] 图8概略地阐明一组四个编码单元（CU);
[0027] 图9和10概略地阐明将图8的编码单元次分割为较小的编码单元；
[0028] 图11概略地阐明预测单元（PU)的数组；
[0029] 图12概略地阐明变换单元（TU)的数组；
[0030] 图13概略地阐明部分编码图像；
[0031] 图14概略地阐明一组可能的预测内方向；
[0032] 图15概略地阐明一组预测模式；
[0033] 图16概略地阐明笔直对角扫描；
[0034] 图17概略地阐明视频压缩设备；
[0035] 图18a和18b概略地阐明可能的区块尺寸；
[0036] 图19概略地阐明来自色度及亮度区块的共置信息的使用；
[0037] 图20概略地阐明一种情况，其中来自一色度频道的共置信息被用于另一色度频道；
[0038] 图21概略地阐明用于LM-CHR0MA模式的像素；
[0039] 图22概略地阐明一组亮度预测方向；
[0040] 图23概略地阐明图22的方向，如应用于水平上稀疏的色度频道；
[0041] 图24概略地阐明映射至矩形色度像素数组的图22的方向；
[0042] 图25-28概略地阐明亮度及色度像素内插；
[0043] 图29a和2b各自的概略地阐明4 :2 :0及4 :2 :2的量化参数表；以及
[0044] 图30和31概略地阐明量化变异表。

【具体实施方式】
[0045] 现在参考图形，图1-4被提供以给出利用压缩及/或解压缩设备的设备或系统的概略图标，以供配合本技术的实施例而描述于下。
[0046] 所有将描述于下的数据压缩及/或解压缩可被实施以硬件、以运作在诸如通用计算机等通用数据处理设备上的软件，当成诸如特定应用集成电路（ASIC)或场可编程门阵列（FPGA)等可编程硬件或当成这些的组合。于其中实施例藉由软件及/或固件来实施的情况下，应理解此类软件及/或固件、及藉以储存或提供此类软件及/或固件的非瞬时数据储存媒体被视为本技术的实施例。
[0047] 图1概略地阐明一种使用视频数据压缩及解压缩的音频/视频数据传输及接收系统。
[0048] 输入音频/视频信号10被供应至视频数据压缩设备20,其压缩音频/视频信号 10的至少视频成分以供传输沿着传输路由30,诸如缆线、光纤、无线链路等等。已压缩信号由解压缩设备40所处理以提供输出音频/视频信号50。针对返回路径，压缩设备60压缩音频/视频以供传输沿着传输路由30而至解压缩设备70。
[0049] 压缩设备20及解压缩设备70可因此形成传输链路的一节点。解压缩设备40及压缩设备60可形成传输链路的另一节点。当然，于其中传输链路为单向的例子中，仅有节点之一需要压缩设备而另一节点仅需要解压缩设备。
[0050] 图2概略地阐明一种使用视频数据解压缩的视频显示系统。特别地，已压缩音频/ 视频信号100由解压缩设备110所处理以提供其可被显示于显示器120上的解压缩信号。解压缩设备110可被实施为显示器120的部分，例如被提供于与显示设备相同的外壳内。另一方面，解压缩设备110可被提供为（例如）所谓得机顶盒（STB)，注意：用词「机上」并非暗示机盒需设置相对于显示器120之任何特定方位或位置；其仅为用以指示可连接至显示以当作周边装置之装置的本技术中所使用的术语。
[0051] 图3概略地阐明一种使用视频数据压缩及解压缩的音频/视频储存系统。输入音频/视频信号130被供应至压缩设备140,其产生已压缩信号以供由储存装置150所储存，诸如磁盘装置、光盘装置、磁带装置、固态储存装置（如半导体内存或其他储存装置）。为了播放，已压缩数据被读取自储存装置150并传递至解压缩设备160以供解压缩，以提供输出音频/视频信号170。
[0052] 应理解：已压缩或已编码信号、及储存该信号之储存媒体被视为本技术的实施例。
[0053] 图4概略地阐明一种使用视频数据解压缩的视频相机。于图4中，图像捕获设备 180,诸如电荷耦合装置（CCD)图像电感器及相关的控制和读出电子电路，产生视频信号，其被传递至压缩设备190。一麦克风（或复数麦克风）200产生一音频信号以供被传递至压缩设备190。压缩设备190产生已压缩音频/视频信号210以便被储存及/或传输（通常显示为储存及/或传输220)。
[0054] 将描述于下的技术主要有关于视频数据压缩及解压缩。应理解：许多现有的技术可配合将被描述的视频数据压缩技术而被用于音频数据压缩，以产生已压缩音频/视频信号。因此，将不提供音频数据压缩之各自的讨论。亦应理解：与视频数据（特别是广播质量视频数据）相关的数据率一般是极高于与音频数据相关的数据率（无论已压缩或未压缩）。因此应理解：未压缩音频数据可伴随已压缩视频数据以形成已压缩音频/视频信号。应进一步理解：虽然目前的范例（图1-4中所显示者）有关音频/视频数据，但以下将描述的技术可发现其应用于仅处理（亦即，压缩、解压缩、储存、显示及/或传输）视频数据的系统。换言之，实施例可应用于视频数据压缩而不一定具有任何相关的音频数据处置。
[0055] 图5提供视频数据压缩及解压缩设备的概略概视图。
[0056] 控制器343控制设备的整体操作及；特别当针对压缩模式时，通过用作选择器，控制试验编码程序（将描述于下）以选择诸如CU、PU和TU区块尺寸的操作的各种模式以及无损地还是以其他方式将视频数据编码。
[0057] 输入视频信号300的连续图像被供应至相加器310及图像预测器320。图像预测器320将参考图6而被更详细地描述于下。相加器310事实上执行相减（负相加）操作，其中其输入视频信号300于「+」输入上及图像预测器320的输出于「-」输入上，以致从输入图像减去预测图像。结果为产生代表介于实际与投影图像间的差异的所谓残留图像信号 330。
[0058] 残留图像信号为何被产生的一原因说明如下。将描述的数据编码方案（亦即将应用于残留图像信号的技术）倾向于更有效率地作用在当待编码的图像中有较少「能量」时。于此，术语「有效率地」指的是少量已编码数据的产生；针对特定图像质量等级，希望产生实际上尽可能少的数据。残留图像中所谓「能量」是有关残留图像中所含有的信息量。假如预测图像将全同于实际图像，则两者之间的差异（亦即，残留图像）将含有零信息（零能量）且将极易于编码成少量的已编码数据。通常，假如可使预测程序合理地作用良好，则预期残留图像数据将含有较输入图像更少的信息（较少能量）而因此将较易于编码成少量的已编码数据。
[0059] 现在描述用作编码器（用于将残留或差异图像进行编码）的设备的剩余部分。残留图像信号330被耦合至变换单元340,其产生残留图像数据的离散余弦变换（DCT)表示。 DCT技术本身是众所周知的且将不会详细地描述于此。然而，仍有将被更详细地描述于下的本设备中所使用的技术的形态，特别是有关于可应用DCT操作的不同区块的数据的选择。这些将参考图7-12而被描述于下。
[0060] 变换单元340的输出（亦即，针对图像数据的各变换区块的一组DCT系数）被供应至量化器350。各种量化技术为视频数据压缩之领域中所已知的，范围涵盖从藉由量化标度因子的简单相乘直至复杂查找表之应用，于量化参数的控制下。一般目标是两倍。首先，量化程序减少已变换数据之可能值的数目。其次，量化程序可增加其已变换数据为零的值的可能性。这两者可使得熵编码程序（将描述于下）更有效率地作用于产生少量的已压缩视频数据。
[0061] 由扫描单元360施加一数据扫描程序。扫描程序的目的为重新排列量化的已变换数据以将尽可能多的非零已量化已变换系数收集在一起，而当然因而将尽可能多的零值系数收集在一起收集。这些特征可容许有效率地施加所谓的运行长度编码或类似技术。因此，扫描程序涉及从已量化已变换数据选择系数，且特别是从相应于一已依据「扫描顺序」而被变换并量化的图像数据的区块的系数的区块，以致：(a)所有系数当作扫描的部分而被选择一次；及（b)扫描常提供所欲的重新排列。一种可常提供有用结果的范例扫描顺序是一种所谓的笔直对角扫描顺序。
[0062] 已扫描系数被接着传递至熵编码器（EE) 370。再次地，可使用各种类型的熵编码。两个范例是所谓的CABAC (背景适应二进制算术编码）系统的变异及所谓的CAVLC(背景适应可变长度编码）系统的变异。一般而言，CABAC被视为提供较佳的效率，且于某些研究中已显示出针对相当图像质量（相较于CAVLC)之已编码输出数据的量提供10-20%的减少。然而，CAVLC被视为代表相较于CABAC之复杂度更低甚多的等级（依照其实施方式）。注意：扫描程序及熵编码程序被显示为分离的程序，但事实上可被结合或一起处理。亦即，数据之读入熵编码器可发生以扫描顺序。相应的考虑适于以下将描述的各自的反向程序。注意：本案申请时于考虑下的当前的HEVC文件不再包括CAVLC系数编码器之可能性。
[0063] 熵编码器370的输出，连同额外数据（以上所提及/或以下所讨论），例如限定其中预测器320产生预测图像的方式，提供已压缩的输出视频信号380。
[0064] 然而，亦提供返回路径，因为预测器320本身的操作取决于已压缩输出数据的解压缩版本。
[0065] 此特征之原因如下。于适当阶段，在解压缩程序（以下将描述）中，产生残留数据的解压缩版本。此已解压缩的残留数据需被加至预测图像以产生输出图像（因为原始残留数据为介于输入图像与预测图像之间的差异）。为了使此程序是相当的，如介于压缩侧与解压缩侧之间，则由预测器320所产生的预测图像应是相同的于压缩程序期间及于解压缩程序期间。当然，在解压缩时，设备对于原始输入图像不具有存取权，而仅对于解压缩图像有。因此，于压缩时，预测器320以压缩图像的解压缩版本为其预测（至少，针对图像间编码）的基础。
[0066] 由熵编码器370所执行的熵编码程序被视为「无损」，也就是说其可被反转以达成与其被首先供应至熵编码器370的完全相同的数据。因此，返回路径可被实施在熵编码阶段之前。确实，由扫描单元360所执行的扫描程序亦被视为无损的，但于本实施例中，返回路径390是从量化器350的输出至一互补反向量化器420的输入。
[0067] -般而言，熵解码器410、反转扫描单元400、反向量化器420及反向变换单元430 提供熵编码器370、扫描单元360、量化器350及变换单元340之各自的反向功能。现在，将继续遍及压缩程序的讨论；用以解压缩输入已压缩视频信号的程序将被分离地讨论于下。
[0068] 于压缩程序中，扫描系数由返回路径390从量化器350传递至反向量化器420,其执行扫描单元360之反向操作。反向量化及反向变换程序由单元420、430所执行以产生压缩解压缩的残留图像信号440。
[0069] 图像信号440被加（于相加器450)至预测器320的输出以产生重建的输出图像 460。此形成图像预测器320的输入，如以下将描述者。
[0070] 现在回到用以解压缩一接收的已压缩视频信号470的程序，信号被供应至熵解码器410并从该处至反转扫描单元400、反向量化器420及反向变换单元430之链，在藉由相加器450而被加至图像预测器320的输出以前。因此，在解码器侧，解码器重构一个版本的残留图像，然后将其应用（通过相加器450)于预测版本的图像（逐块地）上，以便将每个块体解码。明确地，相加器450的输出460形成输出的解压缩视频信号480。实际上，可在信号被输出之前施加进一步过滤。
[0071] 因此，图5及6的设备可作用为压缩设备或解压缩设备。两种类型的设备的功能非常大量地重迭。扫描单元360及熵编码器370未被使用于解压缩模式，而预测器320 (其将被详细地描述于下）及其他单元的操作依循所接收的已压缩比特流中所含有的模式及参数，而非产生其本身的此类信息。
[0072] 图6概略地阐明预测图像的产生，及更明确地为图像预测器320的操作。
[0073] 有通过图像预测器320进行的两种预测的基本模式：所谓的图像内预测及所谓的图像间（或运动补偿（MC))预测。在编码器侧，每个预测包括检测要预测的当前区块的预测方向，并且根据其他取样（在相同（内）或另一个（间）图像中）生成取样的预测区块。鉴于单元310或450,编码或应用在预测区块与实际区块之间的差异，以便分别将该区块编码或解码。
[0074](在解码器中，或者在编码器的反向解码侧，通过编码器，可响应于与编码数据相关联的数据，检测预测方向，表示在编码器中使用哪个方向。或者，检测可响应于与在编码器中做出决定的那些因素相同的因素。）
[0075] 图像内预测基于来自相同图像内的数据以执行图像的一区块的内容的预测。这相应于其他视频压缩技术中的所谓的I帧编码。相对于I帧编码（其中整个图像均被内编码），于本实施例中，可以逐区块的方式来进行介于内-与间-编码之间的选择，虽然于其他实施例中仍以逐图像的方式进行选择。
[0076] 运动补偿预测为图像间预测的范例且利用其尝试限定将被编码于当前图像中的图像细节的来源（于另一邻接或附近图像中）的运动信息。因此，于一理想范例中，于预测图像中的图像的一区块的内容可极简单被编码为一参考（运动向量），其指向一相邻图像中位于相同或稍微不同位置上的相应区块。
[0077] 回到图6,显示两个图像预测配置（相应于图像内及图像间预测），其结果为于模式信号510的控制下由多任务器500所选择以提供预测图像的区块，以便供应至相加器310 及450。其选择的进行根据哪个选择提供最低「能量」（其，如上所讨论，可被视为需要编码的信息内容），且该选择被发送给编码器于已编码输出数据流之内。图像能量（于本文中）可被检测，例如，藉由从输入图像执行预测图像之两版本的区域的试验相减、将差异图像的各像素值平方、加总平方值、及识别两版本的哪个为导致相关于该图像区域的差异图像的较低均方根值。
[0078] 于内编码系统中，实际预测基于其被接收为信号460的部分的图像区块来进行，换言之，预测基于已编码-已解码图像区块，以致可于解压缩设备上进行完全相同的预测。然而，数据可由内模式选择器520获取自输入视频信号300,以控制图像内预测器530的操作。
[0079] 针对图像间预测，运动补偿（MC)预测器540使用运动信息，诸如由运动估计器550 从输入视频信号300所取得的运动向量。这些运动向量。那些运动向量藉由运动补偿预测器540而被施加至重建图像460之已处理版本，以产生图像间预测的区块。
[0080] 因此，根据由预测方向限定的其他取样，每个单元530和540 (使用估计器550进行操作）用作用于检测要预测的当前区块的预测方向的检测器，并且用作用于生成取样的预测区块的生成器（形成传递给单元310和450的一部分预测）。
[0081] 现在将描述施加至信号460的处理。首先，信号由过滤器单元560所过滤，其将被更详细地描述于下。此涉及应用「除区块」过滤器以移除或至少尝试减少由变换单元340 所执行的区块为基的处理及后续操作。亦可使用样本调适补偿（SA0)过滤器（进一步描述于下）。同时，应用一种使用藉由处理重建信号460及输入视频信号300所取得的系数的样本回路过滤器。调适回路过滤器是一种过滤器类型，其（使用已知的技术）将调适过滤器系数应用于待过滤的数据。亦即，过滤器系数可根据各种因子而改变。定义应使用哪些过滤器系数的数据被包括为已编码输出数据流的部分。
[0082] 调适过滤代表用于图像复原的回路内过滤。IXU可由高达16个过滤器过滤，其针对LCU内的各CU取得过滤器的选择及ALF开/关状态（自适应回路过滤器，见下文）。目前控制在于LCU等级，而非CU等级。
[0083] 来自过滤器单元560的已过滤输出实际上形成输出视频信号480,当设备操作为压缩设备时。其亦被缓冲于一个以上图像或帧储存570中；连续图像之储存为运动补偿预测处理的必要条件，且特别是运动向量的产生。为了节省储存需求，图像储存570中的储存图像可被保持以压缩形式并接着解压缩以用于产生运动向量。为了此特定目的，可使用任何已知的压缩/解压缩系统。储存图像被传递至内插过滤器580,其产生已储存图像之较高分辨率版本；于此范例中，中间样本（次样本）被产生以致：由内插过滤器580所输出的内插图像的分辨率为针对4 :2 :0的亮度频道而储存于图像储存570中的图像的分辨率的4倍 (于各维度）；以及为针对4 :2 :0之色彩频道而储存于图像储存570中的图像的分辨率的8 倍（于各维度）。内插图像被传递为送至运动估计器550及亦送至运动补偿预测器540的输入。
[0084] 于实施例中，提供进一步的可选择阶段，其使用乘法器600而将输入视频信号的数据值乘以四的因子（效果上仅将数据值向左移两位）；及使用除法器或右移器610而施加一相应的除法操作（右移两位）于设备的输出处。因此，左移及右移纯粹针对设备的内部操作而改变数据。此处置可提供较高的计算准确度于设备内，当作减少任何数据舍入误差的效果。
[0085] 现在将描述其中图像针对压缩处理而被分割的方式。于基本等级上，一待压缩图像被视为样本的区块的数组。针对本讨论的目的，考虑下的最大此类区块是所谓的最大编码单元（IXU) 700 (图7)，其代表通常为64 X 64样本的方形数组（IXU尺寸可由编码器配置，高达诸如由HEVC文件所定义的最大尺寸）。于此，讨论有关亮度样本。根据色彩模式，诸如 4 :4 :4、4 :2 :2、4 :2 :0或4 :4 :4 :4 (GBR+密钥数据），将有相应于亮度区块的不同数目的相应色彩样本。
[0086] 将描述三种基本的区块类型：编码单元、预测单元及变换单元。一般而言，IXU的递归次划分容许输入图像被分割成使得区块尺寸及区块编码参数（诸如预测或残留编码模式）可依据待编码图像的特定特性而被设定。
[0087] IXU可被次划分为所谓的编码单元（⑶）。编码单元总是方形的且具有介于8X8 样本与LCU 700的完整尺寸间的尺寸。编码单元可被配置为一种树状结构，以致第一次划分可发生如图8中所示者，给定32X32样本的编码单元710 ;后续次划分可接着依选择性方式而发生，以给定16X16样本之某些编码单元720 (图9)及8X8样本的潜在的某些编码单元730 (图10)。总之，此程序可提供CU区块的内容调适的编码树状结构，其每一者可如LCU-般大或者如8 X 8样本一般小。输出视频数据的编码基于编码单元结构而发生，也就是说一 IXU被编码、及接着该程序移至下一 IXU，依此类推。
[0088] 图11概略地阐明预测单元（PU)的数组。预测单元为一基础单元，用以携载关于图像预测程序的信息、或者（换言之）被加至熵编码残留图像数据以形成来自图5的设备的输出视频信号的额外数据。一般地，预测单元不限于形状为方形。其可具有其他形状，特别是形成方形编码单元之一的一半的矩形形状（例如，8X8⑶可具有8X4或4X8PU)。利用其匹配图像特征之PU并非HEVC系统之强制部分，但一般目标将是容许良好的编码器匹配相邻预测单元的边界以吻合（尽可能地）图像中的实际物体的边界，以致不同的预测参数可被应用于不同的实际物体。各编码单元可含有一个以上预测单元。
[0089] 图12概略地阐明变换单元（TU)的数组。变换单元为变换和量化程序的基础单元。变换可或不可为方形并得以具有4X4至32X32样本的尺寸。各编码单元可含有一个以上变换单元。图12中的缩写SDIP-P表示一种所谓的短距离内预测分割。于此配置中，仅使用一维变换，所以4XN区块被传递通过N变换，其中这些变换的输入数据基于当前SDIP-P 内之先前解码的相邻区块及先前解码的相邻线。在本案提出申请时SDIP-P尚未被包括于 HEVC 中。
[0090] 如上所述，编码以一 IXU、接着下一 IXU的方式进行，依此类推。于IXU内，编码以 ⑶接⑶地被执行。于⑶内，编码的针对一 TU、接着下一 TU地执行，依此类推。
[0091] 现在将讨论内预测程序。一般而言，内预测涉及从相同图像中之先前编码及解码的样本产生样本的当前区块的预测（预测单元）。图13概略地阐明部分编码图像800。于此，图像基于IXU而从左上至右下被编码。部分透过完整图像之处置而编码的范例IXU被显示为区块810。区块810的左上半的阴影区820已被编码。区块810的内容的图像内预测可利用阴影区820的任一个但无法利用其下方的无阴影区域。然而，注意其针对当前LCU 内之各自的TU，以上所讨论的编码的阶层顺序（CU接CU然后TU接TU)表示可能有于当前 LCU中并可用于的该TU的编码的先前已编码样本，其为（例如）该TU的右上或左下。
[0092] 区块810代表IXU ;如以上所讨论，针对内图像预测处理的目的，此可被次划分为一组较小的预测单元及变换单元。当前TU 830的一范例被显示于IXU 810内。
[0093] 内图像预测考虑在考虑当前TU之前被编码的样本，诸如那些当前TU的上方及/ 或左方的那些。来源样本（从这些样本预测所需样本）可被置于不同位置上或者相对于当前TU的方向。为了决定哪个方向适于当前预测单元，一样本编码器的模式选择器520可测试各候选方向的可用TU结构的所有组合并选择具有最佳压缩效率之PU方向及TU结构。
[0094] 图象也可被编码以「片（slice)」为基础。于一范例中，一片为一水平相邻族群的 IXU。但更一般而言，完整残留图像可形成一片，或者一片可为单一 IXU，或者一片可为一列 LCU，依此类推。片可提供对误差的韧性，因为其被编码为独立单元。编码器及解码器被完全地重设于片边界。例如，内预测不被执行跨越片边界；片边界被视为针对此目的的图像边界。
[0095] 图14概略地阐明一组可能的（候选）预测方向。整组34个候选方向可用于8X8、 16X 16、32X32样本的预测单元。4X4及64X64样本的预测单元尺寸的特殊情况具有其可用的一减少组的候选方向（各自的为17个候选方向及5个候选方向）。这些方向由相对于当前区块位置的水平及垂直位移所决定，但被编码为预测「模式」，其一组被显示于图15 中。注意：所谓的DC模式代表周围的上及左边样本之简单算术平均值。
[0096] 一般而言，在检测每个预测单元的预测方向之后，根据由预测方向限定的其他取样，这些系统可操作，以生成取样的预测区块。
[0097] 图16概略地阐明所谓的笔直对角扫描，其为可由扫描单元360所应用的范例扫描型态。于图16中，该型态被显示针对一范例区块的8X8DCT系数，以其DC系数被置于该区块的左上位置840上，且增加水平和垂直空间频率由在朝下及朝向左上位置840增加距离时的系数所表示。可取代地使用其他替代的扫描顺序。
[0098] 区块配置和⑶、TO及TU结构的变化将被讨论如下。这些将被讨论以图17的设备的背景，其在许多方面类似于如上讨论的图5及6中所阐明者。确实，已使用了许多相同的参考数字，且将不进一步地讨论这些部分。
[0099] 针对图5及6的主要显著差异关于过滤器560 (图6)，其在图17中被更详细地显示为包括除区块过滤器1000及相关的编码决定区块1030、样本调适补偿（SA0)过滤器1010 及相关的系数产生器1040、和调适回路过滤器（ALF) 1020及相关的系数产生器1050。
[0100] 除区块过滤器1000尝试减少失真并增进视觉质量和预测性能，藉由使其当使用区块编码方案时可形成于CU、PU与TU边界之间的尖锐边缘平顺化。
[0101] SA0过滤器1010将重建的像素分类为不同的范畴并接着尝试藉由仅为各范畴的像素增加补偿以减少失真。像素强度及边缘性质被用于像素分类。为了进一步增进编码效率，一图像可被划分为用于补偿参数之局部化的区。
[0102] ALF 1020尝试复原已压缩图像，以致介于重建的与来源帧之间的差异被减至最小。ALF的系数以帧为基础来计算及传输。ALF可被应用于整个帧或者局部区域。
[0103] 如上所述，已提议的HEVC文件使用已知为4 :2 :0技术的特定的色度取样技术。4 : 2 :0方案可被用于本地/消费者设备。然而，数种其他技术亦为可能的。
[0104] 特别地，一种所谓的4 :4 :4方案将适于专业广播、主控（mastering)及数字剧院，且理论上将具有最高的质量及数据率。
[0105] 类似地，一种所谓的4 :2 :2方案可被用于具有某些保真度丧失的专业广播、主控及数字剧院。
[0106] 这些技术及其相应可能的TO和TU区块结构被描述如下。
[0107] 此外，其他的技术包括4 :0:0单色技术。
[0108] 于4 :4 :4方案中，三个Y、Cb及Cr频道的每一个均具有相同的样本率。因此，原则上，于此技术中将有如亮度数据的两倍般多的色度数据。
[0109] 因此于HEVC中，于此技术中，三个Y、Cb及Cr频道的每一个将具有其为相同尺寸的相应的PU和TU区块；例如，8X8亮度区块将具有针对两个色度频道的每一个的相应的 8X8色度区块。
[0110] 因此，于此技术中，通常将有直接的1 :1关系于各频道中的区块尺寸之间。
[0111] 于4:2:2方案中，两个色度成分被取样以亮度的取样率的一半（例如，使用垂直或水平次取样，但为了本说明的目的，假设为水平次取样）。因此，原则上，于此技术中将有如亮度数据一般多的色度数据，虽然色度数据将被分开于两个色度频道之间。
[0112] 因此于HEVC中，于此技术中，Cb及Cr频道将具有针对亮度频道的不同尺寸的PU 和TU区块；例如，8X8亮度区块将具有针对各色度频道的相应的宽4X高8色度区块。
[0113] 因此，应注意：于次技术中，色度区块可为非方形的，即使其相应于方形亮度区块。
[0114] 于当前已提议的HEVC 4 :2 :0方案中，两个色度成分被取样以亮度的取样率的四分之一（例如，使用垂直及水平次取样）。因此，原则上，于此技术中将有如亮度数据的一半的色度数据，色度数据将被分裂于两个色度频道之间。
[0115] 因此于HEVC中，于此技术中，再次地Cb及Cr频道将具有针对亮度频道的不同尺寸的PU和TU区块。例如，8X8亮度区块将具有针对各色度频道的相应的4X4色度区块。
[0116] 上述技术于本技艺中口语地已知为「频道比」，如以「4:2:0频道比」;然而，从以上描述应理解：事实上此并非永远表示其Y、Cb及Cr频道以该比例被压缩或者被提供。因此虽称之为频道比，此不应被假设为照字面的。事实上，4 :2 :0技术的正确比例为4 :1 :1 (4 : 2 :2方案和4 :4 :4技术的比例是事实上正确的）。
[0117] 在参考图18A和18B以讨论特定的配置前，将概述或重述一些一般性术语。
[0118] 最大编码单元（IXU)是根图像标的。通常，其涵盖相当于64X64亮度像素的区域。其被递归地分裂以形成树状阶层的编码单元（⑶)。一般而言，三个频道（一亮度频道及二色度频道）具有相同的⑶树状阶层。然而，如此一来，根据频道比，一特定的亮度⑶可包括针对相应色度CU的不同数目的像素。
[0119] 于数状阶层的末端上的CU，亦即，得自递归分裂程序的最小CU被接着分裂为预测单元（PU)。三个频道（一亮度频道及二色度频道）具有相同的PU结构，除了当色度频道的相应PU将具有太少样本时，于此情况下该频道仅有一 ro可用。此为可配置的，但常见地一内ro的最小尺寸为4样本；一间PU的最小尺寸为4亮度样本（或针对4 :2 :0为2色度样本）。针对任何频道的至少一 PU最小⑶尺寸的限制总是够大的。
[0120] 叶⑶亦被分裂为变换单元（TU)。TU可以，及当其为太大时（例如，超过32X32 样本）时必须，被分裂为进一步的TU。加诸一限制以致TU可被向下分裂至最大的树状深度，目前配置为2层。亦即，针对各⑶不得有多于16个TU。一例示性的最小可容许TU尺寸为4 X 4样本及最大可容许TU尺寸为32 X 32样本。再次，只要有可能则三个频道具有相同的TU结构，但假如由于尺寸限制而使TU无法被分裂为针对既定频道的特定深度，则其保持于较大尺寸。所谓的非方形四倍树状变换配置（NSQT)是类似的，但分裂为四个TU的方法无需为2X2而可为4X 1或1X4。
[0121] 参考图18A及18B，针对⑶、PU及TU区块概述可能的不同区块尺寸，以「Y」指称亮度区块而「C」一般性地指称色度区块的一代表者，及数字指称像素。「间」指称帧间预测 PU(相对于帧内预测ro)。于许多情况下，仅显示亮度区块的区块尺寸。相关色度区块的相应尺寸关于依据频道比的亮度区块尺寸。
[0122] 因此，针对4 :4 :4,色度频道具有如图18A和18B中所示的亮度区块般的相同区块尺寸。因此，色度PU结构在所有分裂等级（其中，"分裂等级"表示选择CU尺寸选项，并且在CU尺寸选项内，选择CU尺寸和形状选项）镜像（或分别相同于）PU结构。虽然可能使用同一组可能的区块尺寸和形状，但是可能允许相对于CU的亮度和色度成分选择不同组的区块尺寸和形状，在本公开的一些实施方式中，与CU对应的色度和亮度成分选择相同的 PU区块尺寸和形状。因此，无论为亮度CU选择哪个或哪些PU尺寸和形状，都为该CU的色度成分选择相同尺寸和形状的PU。要注意的是，如下所述，在控制器343的控制下，PU的区块尺寸和形状的选择是基于编码器的决定。在这种设置中，亮度取样和色彩取样具有4:4:4 格式并且被设置为多个编码单元，每个单元均包括亮度取样和色彩取样的区块；并且检测当前预测单元的预测方向，该预测单元是至少表示各个编码单元的子集的亮度或色彩取样的区块。对于特定的编码单元，使一个或多个预测单元（每个单元包括来自该编码单元的亮度取样和色彩取样）具有一种尺寸和形状（例如，通过控制器343)，以便预测单元的尺寸和形状的选择与亮度取样和色彩取样相同。
[0123] 针对4 :2 :2及4 :2 :0,色度区块将各具有较相应亮度区块更少的像素，依据频道比。
[0124] 图18A和18B中所示的配置考虑四种可能的⑶尺寸：64X64、32X32、16X16及 8X8亮度像素，各自地。这些⑶的每一个均具有PU选项（显示于行1140中）及TU选项 (显示于行1150中）的一相应列。针对如上所限定的可能⑶尺寸，这些列选项各自被参照为 1100、1110、1120 及 1130。
[0125] 注意：64X64为当前的最大⑶尺寸，但此限制可能会改变。
[0126] 于各列1100…1130中，不同的PU选项被显示可应用于该⑶尺寸。可应用于那些 PU配置的TU选项被显示水平地与各自的PU选项对齐。
[0127] 注意：于数种情况下，提供多重TO选项。如以上所讨论，设备选择PU配置的目标在于匹配（尽可能地接近）图像中之真实对象的边界，以致不同的预测参数可被应用于不同的真实对象。
[0128] 区块尺寸和形状及TO是基于编码器的决定，于控制器343的控制下。当前方法涉及针对许多方向进行许多TU树状结构的试验、取得各等级上的最佳「成本」。于此，成本可被表示为得自各区块结构之失真、或噪声、或误差、或比特率的测量。因此，编码器可尝试在以上所讨论之树状结构和阶层下所容许者之内的区块尺寸和形状之两个以上（或及甚至所有可能的）排列，在选择其针对某所需的质量测量提供最低比特率、或针对所需的比特率提供最低失真（或误差、或噪声、或这些测量的组合）、或这些测量的组合的试验之一以 N / . 刖。
[0129] 给定特定TO配置的选择，则各种等级的分裂可被应用以产生相应的TU。参考列 1100,于64X64PU的情况下，此区块尺寸针对使用为TU是太大的，而因此第一等级的分裂 (从「等级〇」（未分裂）至「等级1」）是必要的，其导致四个32X32亮度TU的数组。这些的每一个可接受树状阶层中的进一步分裂（从「等级1」至「等级2」）如所需，以其分裂在变换或量化该TU被执行前被履行。TU树中之等级的最大数目由HEVC文件所限制（举例而言）。
[0130] 其他的选项被提供给PU尺寸及形状于64X64亮度像素⑶的情况。这些被限制仅使用以内编码图像，以及（于某些情况下）以所谓的AMP选项启用。AMP指的是非对称运动分割并容许PU被非对称地分割。
[0131] 类似地，于某些情况下，选项被提供给TU尺寸及形状。假如NQST(非方形四倍树状变换，基本上容许非方形TU)被启用，则分裂为等级1及/或等级2可被执行如所示，而假如NQST未被启用，则TU尺寸依循该CU尺寸的各自的最大TU的分裂形态。
[0132] 类似的，选项被提供给其他⑶尺寸。
[0133] 除了图18A和18B中所示的图形表示以外，相同信息的数字部分被提供于后续表中，虽然图18A和18B中的表示被视为限定性的。「n/a」指示其不容许的模式。水平像素尺寸被首先引述。假如第三数字被提供，则其有关该区块尺寸的例子的数目，如于（水平）X (垂直）X (例子数）区块。N为整数。
[0134]

【权利要求】
1. 一种视频解码方法，其中，亮度取样和色彩取样被设置为多个编码单元，每个编码单元包括亮度取样和色彩取样的区块；所述方法包括：对于特定的编码单元，选择一个或多个预测单元的尺寸和形状，每个预测单元包括来自至少该编码单元的子集的亮度或色彩取样，预测单元的尺寸和形状的选择对于亮度取样和色彩取样相同；相对于每个预测单元，检测预测方向；以及根据由所述预测方向限定的其他取样，生成取样的预测区块。
2. 根据权利要求1所述的方法，所述方法包括：如果所检测的预测方向基本上垂直，那么过滤在色彩取样的所述预测区块中的左列取样，或者如果所检测的预测方向基本上水平，那么过滤在色彩取样的所述预测区块中的顶行取样；以及将解码差异应用于所过滤的预测色度区块中，以便将区块编码。
3. 根据权利要求2所述的方法，其中，在所检测的所述预测方向基本上垂直时，所述过滤步骤包括使用水平定向的过滤器过滤左列取样。
4. 根据权利要求3所述的方法，其中，所述过滤步骤包括仅仅过滤左列取样。
5. 根据权利要求2所述的方法，其中，在所检测的所述预测方向基本上水平的情况下，所述过滤步骤包括使用垂直定向的过滤器过滤顶行取样。
6. 根据权利要求5所述的方法，其中，所述过滤步骤包括仅仅过滤顶行取样。
7. 根据权利要求1所述的方法，所述方法包括：过滤在取样的所述预测区块中的左列取样和/或在取样的所述预测区块中的顶行取样。
8. 根据权利要求7所述的方法，其中，在生成预测取样（作为周围取样的取样算术平均值）的DC模式中，过滤步骤包括过滤在取样的所述预测区块中的左列取样以及在取样的所述预测区块中的顶行取样。
9. 根据权利要求7所述的方法，其中：所述亮度取样表示一个亮度成分，并且各个色彩取样表示两个色度成分；以及将过滤步骤应用于这三个成分中，所述子集是这三个成分中的任一个或两个。
10. 根据权利要求9所述的方法，其中，所述子集可包括亮度成分。
11. 根据前述权利要求中任一项所述的方法，其中，每个视频图像进行编码，以便图像的色样取样的预测模式与适用于相应的亮度取样的预测模式相同。
12. 根据前述权利要求中任一项所述的方法，其中：所述亮度取样和色彩取样被设置为多个编码单元，每个编码单元包括亮度取样和色彩取样的区块；以及所述预测单元是至少表示各个编码单元的子集的亮度或色彩取样的区块。
13. 根据前述权利要求中任一项所述的方法，其中，所述取样具有视频格式，其中，所述色彩取样与所述亮度取样具有相同的取样速率。
14. 根据权利要求13所述的方法，其中，所述视频格式是4:4:4格式。
15. 根据权利要求1到12中任一项所述的方法，其中，所述视频格式是4:2:2或4:2:0 格式。
16. -种视频编码方法，其中，亮度取样和色彩取样被设置为多个编码单元，每个编码单元包括亮度取样和色彩取样的区块；所述方法包括：对于特定的编码单元，选择一个或多个预测单元的尺寸和形状，每个预测单元包括至少该编码单元的子集的亮度或色彩取样，预测单元的尺寸和形状的选择对于亮度取样和色彩取样相同；相对于每个预测单元，检测预测方向；以及根据由预测方向限定的其他取样，生成取样的预测区块。
17. 根据权利要求16所述的方法，所述方法包括：如果所检测的预测方向基本上垂直，那么过滤在色彩取样的所述预测区块中的左列取样，或者如果所检测的预测方向基本上水平，那么过滤在色彩取样的所述预测区块中的顶行取样；以及将在所过滤的预测色度区块与实际的色度区块之间的差异编码。
18. -种计算机软件，在由计算机执行时，使计算机执行根据前述权利要求中任一项所述的方法。
19. 一种机器可读非易失性储存介质，储存根据权利要求18所述的软件。
20. -种数据信号，包括根据权利要求1到17中任一项所述的方法生成的编码数据。
21. -种视频编码设备，其中，亮度取样和色彩取样被设置为多个编码单元，每个编码单元包括亮度取样和色彩取样的区块；所述方法包括：选择器，被配置为对于特定的编码单元，选择一个或多个预测单元的尺寸和形状，每个所述预测单元包括至少该编码单元的子集的亮度取样或色彩取样，预测单元的尺寸和形状的选择对于亮度取样和色彩取样相同；检测器，被配置为相对于每个预测单元，检测预测方向；以及生成器，被配置为根据由所述预测方向限定的其他取样，生成取样的预测区块。
22. -种视频解码设备，其中，亮度取样和色彩取样被设置为多个编码单元，每个编码单元包括亮度取样和色彩取样的区块；所述方法包括：选择器，被配置为对于特定的编码单元，选择一个或多个预测单元的尺寸和形状，每个所述预测单元包括至少该编码单元的子集的亮度取样或色彩取样，预测单元的尺寸和形状的选择与亮度取样和色彩取样相同；检测器，被配置为相对于每个预测单元，检测预测方向；以及生成器，被配置为根据由所述预测方向限定的其他取样，生成取样的预测区块。
23. -种视频储存、捕捉、传输或接收设备，其包括根据权利要求21或22所述的设备。
【文档编号】H04N19/177GK104247426SQ201380022424
【公开日】2014年12月24日申请日期:2013年4月26日优先权日:2012年4月26日
【发明者】詹姆斯·亚历山大·戈梅, 尼古拉斯·里安·桑德斯, 卡尔·詹姆斯·沙曼, 保罗·詹姆斯·西尔考克申请人:索尼公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：詹姆斯·亚历山大·戈梅;尼古拉斯·里安·桑德斯;卡尔·詹姆斯·沙曼;保罗·詹姆斯·西尔考克
技术所有人：索尼公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。