使用分层结构的数据单元的视频的编码方法和装置及其解码方法和装置制造方法

文档序号：7989150阅读：209来源：国知局

使用分层结构的数据单元的视频的编码方法和装置及其解码方法和装置制造方法
【专利摘要】公开了一种用于通过使用分层结构的数据单元来对视频进行编码的方法和装置，以及用于对所述视频进行解码的方法和装置。根据本发明的一个实施例，视频编码装置基于分层结构的数据单元对组成视频的画面进行编码，基于用于被编码的画面的符号所属的数据单元的分层信息来确定用于符号的熵编码的上下文模型；通过使用确定的上下文模型来对所述符号进行熵编码。
【专利说明】使用分层结构的数据单元的视频的编码方法和装置及其解码方法和装置
【技术领域】
[0001]本发明涉及对视频进行编码和解码，更具体地讲，涉及对视频编解码器的符号进行编码和解码。
【背景技术】
[0002]根据图像压缩方法(诸如MPEG-1、MPEG-2或MPEG-4H.264/MPEG-4先进视频编码(AVC))，图像被划分为具有预定尺寸的块，然后，通过帧间预测或帧内预测来获得块的残差数据。通过变换、量化、扫描、游程长度编码和熵编码来压缩残差数据。在熵编码中，语法元素(诸如离散余弦变换(DCT)系数或运动矢量)被熵编码以输出比特流。在解码器端，从比特流提取语法元素，并基于提取的语法元素执行解码。

【发明内容】

[0003]技术问题
[0004]本发明提供一种用于通过使用分层结构信息，基于分层构造的数据单元从图像编解码器选择上下文模型来对作为图像信息的符号进行有效熵编码和熵解码的方法和装置。
[0005]技术方案
[0006]根据本发明的一方面，通过基于分层结构信息和除分层结构信息以外与编码相关的附加信息的组合选择上下文模型来执行熵编码和熵解码。
[0007]有益效果
[0008]根据本发明，可提高基于分层构造的数据单元的视频的压缩效率。
【专利附图】

【附图说明】
[0009]图1是根据本发明的实施例的对视频进行编码的装置的框图；
[0010]图2是根据本发明的实施例的对视频进行解码的装置的框图；
[0011]图3是用于描述根据本发明的实施例的编码单元的概念的示图；
[0012]图4是根据本发明的实施例的基于具有分层结构的编码单元的视频编码器的框图；
[0013]图5是根据本发明的实施例的基于具有分层结构的编码单元的视频解码器的框图；
[0014]图6是示出根据本发明的实施例的根据深度的编码单元和分区的示图；
[0015]图7是用于描述根据本发明的实施例的编码单元与变换单元之间的关系的示图；
[0016]图8是用于描述根据本发明的实施例的根据深度的编码信息的示图；
[0017]图9是用于描述根据本发明的实施例的根据深度的编码单元的示图；
[0018]图10、图11和图12是用于描述根据本发明的实施例的编码单元、预测单元和频率变换单元之间的关系的示图；[0019]图13是用于根据表I的编码模式信息描述编码单元、预测单元和变换单元之间的关系的不图；
[0020]图14是示出根据本发明的实施例的熵编码装置的结构的框图；
[0021]图15示出根据本发明的实施例的分层构造的数据单元和分层构造的数据单元划分信息。
[0022]图16和图17是示出根据本发明的实施例的指示分层构造的数据单元的符号的参考不图；
[0023]图18是用于描述根据本发明的实施例的变换系数的熵编码的处理的参考示图；
[0024]图19示出根据本发明的实施例的用于基于数据单元的尺寸确定上下文模型的上下文索引；
[0025]图20是示出根据本发明的实施例的上下文模型的参考示图；
[0026]图21是根据本发明的实施例的MPS出现概率值的图表；
[0027]图22示出根据本发明的另一实施例的用于基于数据单元的尺寸确定上下文模型的上下文索引；
[0028]图23和图24是示出根据本发明的实施例的基于关于数据单元的位置的信息而设置的上下文索引映射表的参考示图；
[0029]图25是示出根据本发明的实施例的基于分层信息和除分层信息以外的附加信息的组合来确定上下文索引的参考示图；
[0030]图26是用于描述通过图14的常规编码器执行的二进制算术编码处理的示图；
[0031]图27是根据本发明的实施例的使用分层构造的数据单元的视频编码方法的流程图；
[0032]图28是示出根据本发明的实施例的熵解码装置的结构的框图；
[0033]图29是根据本发明的另一实施例的使用分层构造的数据单元的视频解码方法的流程图。
[0034]最佳模式
[0035]根据本发明的一方面，提供了一种视频编码方法，包括:基于分层构造的数据单元对形成视频的画面进行编码；基于编码的画面的符号所属的数据单元的分层信息来确定用于所述符号的熵编码的上下文模型；以及使用确定的上下文模型对所述符号进行熵编码。
[0036]根据本发明的另一方面，提供了一种视频编码装置，包括:分层编码器，用于基于分层构造的数据单元对形成视频的画面进行编码；以及熵编码器，用于基于编码的画面的符号所属的数据单元的分层信息来确定用于所述符号的熵编码的上下文模型，并使用确定的上下文模型对所述符号进行编码。
[0037]根据本发明的另一方面，提供了一种视频解码方法，包括:通过对编码的比特流进行解析，提取基于分层构造的数据单元而编码的画面的符号；基于所述符号所属的数据单元的分层信息来确定用于所述符号的熵解码的上下文模型；以及使用确定的上下文模型来对所述符号进行熵解码。
[0038]根据本发明的另一方面，提供了一种视频解码装置，包括:符号提取单元，用于通过对编码的比特流进行解析，提取基于分层构造的数据单元而编码的画面的符号；以及熵解码器，用于基于所述符号所属的数据单元的分层信息来确定用于所述符号的熵解码的上下文模型，并使用确定的上下文模型来对所述符号进行熵解码。
【具体实施方式】
[0039]在下文中，在本申请的各种实施例中描述的“图像”可以是包含性的概念，不仅指静止图像，还指视频图像。
[0040]当对与图像相关的数据执行各种操作时，与图像相关的数据被划分为数据组，并且可对包括在相同数据组中的数据执行相同的操作。在本说明书中，根据预定标准形成的数据组被称为“数据单元”。在下文中，对每个“数据单元”执行的操作被理解为使用包括在数据单元中的数据来执行。
[0041]在下文中，将参照图1至图13描述根据本发明的实施例的用于对视频进行编码和解码的方法和装置，其中，在所述方法和装置中，基于具有树结构的变换单元和编码单元对具有树结构的符号进行编码或解码。此外，将参照图14至图29详细描述在参照图1至图13描述的视频的编码和解码中使用的熵编码和熵解码的方法。
[0042]图1是根据本发明的实施例的视频编码装置100的框图。
[0043]视频编码装置100包括分层编码器110和熵编码器120。
[0044]分层编码器110可以以预定数据单元为单位对将被编码的当前画面进行划分，以对所述数据单元中的每一个执行编码。详细地讲，分层编码器110可基于作为最大尺寸的编码单元的最大编码单元来对当前画面进行划分。根据本发明的实施例的最大编码单元可以是具有32X32、64X64、128X128、256X256等尺寸的数据单元，其中，数据单元的形状是宽和高为2的平方并且大于8的方形。
[0045]根据本发明的实施例的编码单元可由最大尺寸和深度来表征。深度表示编码单元从最大编码单元被空间划分的次数，并且随着深度加深，根据深度的编码单元可从最大编码单元被划分为最小编码单元。最大编码单元的深度是最高深度，最小编码单元的深度是最低深度。由于与每个深度相应的编码单元的尺寸随着最大编码单元的深度加深而减小，因此，与更高深度相应的编码单元可包括多个与更低深度相应的编码单元。
[0046]如上所述，当前画面的图像数据根据编码单元的最大尺寸被划分为最大编码单元，所述最大编码单元中的每一个可包括根据深度被划分的编码单元。由于根据本发明的实施例的最大编码单元根据深度被划分，因此包括在最大编码单元中的空间域的图像数据可根据深度被分层分类。
[0047]可预先确定编码单元的最大深度和最大尺寸,所述最大深度和最大尺寸限定最大编码单元的高和宽被分层划分的总次数。
[0048]分层编码器120对通过根据深度划分最大编码单元的区域而获得的至少一个划分区域进行编码，并确定用于输出根据所述至少一个划分区域的最终编码的图像数据的深度。换句话说，分层编码器110通过根据当前画面的最大编码单元，按照根据深度的编码单元对图像数据进行编码，并选择具有最小编码误差的深度，来确定编码深度。根据最大编码单元的已编码的图像数据和确定的编码深度被输出到熵编码器120。
[0049]基于与等于或小于最大深度的至少一个深度相应的编码单元对最大编码单元中的图像数据进行编码，并基于根据深度的编码单元中的每一个来比较对图像数据进行编码的结果。在比较根据深度的编码单元的编码误差之后，可选择具有最小编码误差的深度。可为每个最大编码单元选择至少一个编码深度。
[0050]随着编码单元根据深度被分层划分，并随着编码单元的数量增加，最大编码单元的尺寸被划分。此外，即使在一个最大编码单元中多个编码单元相应于相同深度，也通过分别测量每个编码单元的图像数据的编码误差来确定是否将与相同深度相应的编码单元中的每一个划分至更低的深度。因此，即使当图像数据被包括在一个最大编码单元中时，图像数据也根据深度被划分到多个区域，并且在一个最大编码单元中编码误差可根据区域而不同，因此，编码深度可根据图像数据中的区域而不同。因此，在一个最大编码单元中可确定一个或多个编码深度，并可根据至少一个编码深度的编码单元来划分最大编码单元的图像数据。
[0051]因此，分层编码器110可确定包括在最大编码单元中的具有树结构的编码单元。根据本发明的实施例的“具有树结构的编码单元”包括最大编码单元中所包括的所有根据深度的编码单元之中的与被确定为编码深度的深度相应的编码单元。在最大编码单元的相同区域中，具有编码深度的编码单元可根据深度被分层地确定，并且在不同的区域中，具有编码深度的编码单元可被独立地确定。类似地，当前区域中的编码深度可独立于另一区域中的编码深度被确定。
[0052]根据本发明的实施例的最大深度是与从最大编码单元到最小编码单元执行划分的次数相关的索引。根据本发明的实施例的第一最大深度可表示从最大编码单元到最小编码单元执行划分的总次数。根据本发明的实施例的第二最大深度可表示从最大编码单元到最小编码单元的深度级的总数。例如，当最大编码单元的深度为O时，最大编码单元被划分一次的编码单元的深度可被设置为1，最大编码单元被划分两次的编码单元的深度可被设置为2。这里，如果最小编码单元是最大编码单元被划分四次的编码单元，则存在深度0、1、
2、3和4的5个深度级，因此,第一最大深度可被设置为4，第二最大深度可被设置为5。
[0053]可根据最大编码单元执行预测编码和变换。还可根据最大编码单元，基于根据等于最大深度的深度或小于最大深度的深度的编码单元来执行预测编码和变换。
[0054]由于每当最大编码单元根据深度被划分时根据深度的编码单元的数量增加，因此对随着深度加深而产生的所有根据深度的编码单元执行包括预测编码和变换的编码。为了便于描述，现在将基于最大编码单元中的当前深度的编码单元来描述预测编码和变换。
[0055]视频编码装置100可不同地选择用于对图像数据进行编码的数据单元的尺寸或形状。为了对图像数据进行编码，执行诸如预测编码、变换和熵编码的操作，此时，可针对所有操作使用相同的数据单元，或者可针对每个操作使用不同的数据单元。
[0056]例如，视频编码装置100不仅可选择用于对图像数据进行编码的编码单元，还可选择与编码单元不同的数据单元以对编码单元中的图像数据执行预测编码。
[0057]为了在最大编码单元中执行预测编码，可基于与编码深度相应的编码单元(S卩，基于不再被划分为与更低深度相应的编码单元的编码单元)执行预测编码。在下文中，不再被划分并且变成用于预测编码的基本单元的编码单元现在将被称为“预测单元”。通过对预测单元进行划分所获得的分区(partition)可包括通过对预测单元的高和宽中的至少一个进行划分而获得的预测单元或数据单元。
[0058]例如，当2NX2N (其中，N是正整数)的编码单元不再被划分，并且变成2NX2N的预测单元时，分区的尺寸可以是2NX 2N、2NX N、NX 2N或NX N。分区类型的示例包括通过对预测单元的高或宽进行对称划分所获得的对称分区、通过对预测单元的高或宽进行不对称划分(诸如l:n或η:1)所获得的分区、通过对预测单元进行几何划分所获得的分区以及具有任意形状的分区。
[0059]预测单元的预测模式可以是帧内模式、帧间模式和跳过模式中的至少一个。例如，可对2Ν X 2Ν、2Ν X N、N X 2Ν或N X N的分区执行帧内模式或帧间模式。此外，可仅对2Ν X 2Ν的分区执行跳过模式。对编码单元中的一个预测单元独立地执行编码，从而选择具有最小编码误差的预测模式。
[0060]视频编码装置100还可不仅基于用于对图像数据进行编码的编码单元，还基于不同于编码单元的数据单元，来对编码单元中的图像数据执行变换。
[0061]为了在编码单元中执行变换，可基于具有小于或等于编码单元的尺寸的数据单元来执行变换。例如，用于变换的数据单元可包括用于帧内模式的数据单元和用于帧间模式的数据单元。
[0062]用作变换的基础的数据单元现在将被称为“变换单元”。与编码单元类似，编码单元中的变换单元可被递归地划分为更小尺寸的区域，使得可以以区域为单位独立地确定变换单元。因此，可根据具有根据变换深度的树结构的变换单元来划分编码单元中的残差数据。
[0063]还可在变换单元中设置指示通过对编码单元的高和宽进行划分以达到变换单元而执行划分的次数的变换深度。例如，在2ΝΧ2Ν的当前编码单元中，当变换单元的尺寸为2ΝΧ2Ν时，变换深度可以是0，当变换单元的尺寸是NXN时，变换深度可以是1，当变换单元的尺寸是Ν/2 X Ν/2时，变换深度可以是2。也就是说，还可根据变换深度设置具有树结构的变换单元。
[0064]根据与编码深度相应的编码单元的编码信息不仅需要关于编码深度的信息，还需要与预测编码和变换有关的信息。因此，分层编码器110不仅确定具有最小编码误差的编码深度，还确定预测单元中的分区类型、根据预测单元的预测模式和用于变换的变换单元的尺寸。
[0065]稍后将参照图3至图12详细描述根据本发明的实施例的最大编码单元中的根据树结构的编码单元以及确定分区的方法。
[0066]分层编码器110可通过使用基于拉格朗日乘子的率失真优化来测量根据深度的编码单元的编码误差。
[0067]熵编码器120在比特流中输出最大编码单元的图像数据以及关于根据编码深度的编码模式的信息，其中，所述图像数据基于由分层编码器110确定的至少一个编码深度被编码。编码的图像数据可以是图像的残差数据的编码结果。关于根据编码深度的编码模式的信息可包括关于编码深度的信息、关于预测单元中的分区类型的信息、预测模式信息和关于变换单元的尺寸的信息。具体地讲，如稍后将描述的，当对最大编码单元的图像数据和与根据深度的编码模式相关的符号进行编码时，熵编码器120可通过基于上述分层构造的数据单元的分层结构信息和关于除分层结构以外的在视频编码方法中使用的颜色分量的信息来选择上下文模型，以执行熵编码。
[0068]可通过使用根据深度的划分信息来定义关于编码深度的信息，其中，根据深度的划分信息指示是否对更低深度而不是当前深度的编码单元执行编码。如果当前编码单元的当前深度是编码深度，则当前编码单元中的图像数据被编码并被输出，因此划分信息可被定义为不将当前编码单元划分至更低深度。可选择地，如果当前编码单元的当前深度不是编码深度，则对更低深度的编码单元执行编码，因此划分信息可被定义为划分当前编码单元以获得更低深度的编码单元。
[0069]如果当前深度不是编码深度，则对被划分为更低深度的编码单元的编码单元执行编码。由于在当前深度的一个编码单元中存在更低深度的至少一个编码单元，因此对更低深度的每个编码单元重复执行编码，因此，可针对具有相同深度的编码单元递归地执行编码。
[0070]由于针对一个最大编码单元确定具有树结构的编码单元，并且针对编码深度的编码单元确定关于至少一个编码模式的信息，因此，可针对一个最大编码单元确定关于至少一个编码模式的信息。此外，由于图像数据根据深度被分层划分，因此最大编码单元的图像数据的编码深度可根据位置而不同，因此，可针对图像数据设置关于编码深度和编码模式的信息。
[0071]因此，熵编码器120可将关于相应的编码深度和编码模式的编码信息分配给包括在最大编码单元中的编码单元、预测单元和最小单元中的至少一个。
[0072]根据本发明的实施例的最小单元是通过将组成最低深度的最小编码单元划分为4所获得的方形数据单元。可选择地，最小单元可以是最大方形数据单元，其中，所述最大方形数据单元可包括在最大编码单元中所包括的所有编码单元、预测单元、分区单元和变换单元中。
[0073]例如，通过熵编码器120输出的编码信息可被分类为根据编码单元的编码信息和根据预测单元的编码信息。根据编码单元的编码信息可包括关于预测模式的信息和关于分区的尺寸的信息。根据预测单元的编码信息可包括关于帧间模式的估计方向的信息、关于帧间模式的参考图像索引的信息、关于运动矢量的信息、关于帧内模式的色度分量的信息和关于帧内模式的插值方法的信息。此外，关于根据画面、条带或画面组(GOP)定义的编码单元的最大尺寸的信息以及关于最大深度的信息可被插入比特流的头部。
[0074]在视频编码装置100中，根据深度的编码单元可以是通过将作为上一层的更高深度的编码单元的高或宽划分为二所获得的编码单元。换句话说，在当前深度的编码单元的尺寸为2NX2N时，更低深度的编码单元的尺寸是NXN。此外，具有2NX 2N的尺寸的当前深度的编码单元可包括最多四个更低深度的编码单元。
[0075]因此，视频编码装置100可通过基于考虑当前画面的特征所确定的最大编码单元的尺寸和最大深度，针对每个最大编码单元确定具有最佳形状和最佳尺寸的编码单元，来形成具有树结构的编码单元。此外，由于可通过使用各种预测模式和变换中的任意一个来对每个最大编码单元执行编码，因此可考虑各种图像尺寸的编码单元的特征来确定最佳编码模式。
[0076]因此，如果以传统的宏块对具有高分辨率或大数据量的图像进行编码，则每个画面的宏块的数量过度增加。因此，针对每个宏块产生的压缩信息的条数增加，从而难以发送压缩信息并且数据压缩效率降低。然而，通过使用视频编码装置100，由于在考虑图像的特征的同时调整编码单元，并在考虑图像的尺寸的同时增加编码单元的最大尺寸，因此可提高图像压缩效率。[0077]图2是根据本发明的实施例的视频解码装置200的框图。
[0078]视频解码装置200包括符号提取单元210、熵解码器220和分层解码器230。用于视频解码装置200的各种操作的各种术语(诸如编码单元、深度、预测单元、变换单元和关于各种编码模式的信息)的定义与参照图1和视频编码装置100描述的那些相同。
[0079]符号提取单元210接收并解析已编码的视频的比特流。熵解码器220从解析的比特流提取每个编码单元的已编码的图像数据，并将提取的图像数据输出到分层解码器230，其中，所述编码单元具有根据每个最大编码单元的树结构。熵解码器220可从当前画面的头提取关于当前画面的编码单元的最大尺寸的信息。
[0080]此外，熵解码器220从解析的比特流提取根据每个最大编码单元的关于用于具有树结构的编码单元的编码深度和编码模式的信息。提取的关于编码深度和编码模式的信息被输出到分层解码器230。换句话说，比特流中的图像数据被划分为最大编码单元，使得分层解码器230可针对每个最大编码单元对图像数据进行解码。
[0081]可针对关于与编码深度相应的至少一个编码单元的信息，设置根据最大编码单元的关于编码深度和编码模式的信息，并且关于编码模式的信息可包括关于与编码深度相应的相应编码单元的分区类型的信息、关于预测模式的信息和变换单元的尺寸。此外，根据深度的划分信息可被提取作为关于编码深度的信息。
[0082]由熵解码器220提取的根据每个最大编码单元的关于编码深度和编码模式的信息是关于这样的编码深度和编码模式的信息:所述编码深度和编码模式被确定用于当编码器(诸如视频编码装置100)根据每个最大编码单元针对根据深度的每个编码单元重复执行编码时产生最小编码误差。因此，视频解码装置200可通过根据产生最小编码误差的编码深度和编码模式对图像数据进行解码来恢复图像。
[0083]由于关于编码深度和编码模式的编码信息可被分配给相应编码单元、预测单元和最小单元中的预定数据单元，因此熵解码器器220可提取根据预定数据单元的关于编码深度和编码模式的信息。被分配有关于编码深度和编码模式的相同信息的预定数据单元可被推断为是包括在相同最大编码单元中的数据单元。
[0084]此外，如稍后将描述的，当对最大编码单元的图像数据和与根据深度的编码模式相关的符号进行解码时，熵解码器220可基于上述分层构造的数据单元的分层结构信息和关于各种信息(诸如除分层结构以外的颜色分量)的信息选择上下文模型来执行熵解码。
[0085]分层解码器230通过基于根据最大编码单元的关于编码深度和编码模式的信息对每个最大编码单元中的图像数据进行解码，来恢复当前画面。换句话说，分层解码器230可基于提取的关于包括在每个最大编码单元中的具有树结构的编码单元之中的每个编码单元的分区类型、预测模式和变换单元的信息，来对已编码的图像数据进行解码。解码处理可包括预测(所述预测包括帧内预测和运动补偿)和逆变换。
[0086]分层解码器230可基于关于根据编码深度的编码单元的预测单元的分区类型和预测模式的信息，根据每个编码单元的分区和预测模式执行帧内预测或运动补偿。
[0087]此外，分层解码器230可基于关于根据编码深度的编码单元的变换单元的尺寸的信息，根据编码单元中的每个变换单元执行逆变换，从而根据最大编码单元执行逆变换。
[0088]分层解码器230可通过使用根据深度的划分信息来确定当前最大编码单元的至少一个编码深度。如果划分信息指示图像数据在当前深度中不再被划分，则当前深度是编码深度。因此，分层解码器230可通过使用关于预测单元的分区类型、预测模式和变换单元的尺寸的信息，针对当前最大编码单元中的图像数据对当前深度的编码单元进行解码。
[0089]换句话说，可通过观察为编码单元、预测单元和最小单元之中的预定数据单元分配的编码信息集来收集包含编码信息(所述编码信息包括相同的划分信息)的数据单元，收集的数据单元可被视为是将由分层解码器230以相同的编码模式进行解码的一个数据单
J Li ο
[0090]视频解码装置200可获得关于当针对每个最大编码单元递归执行编码时产生最小编码误差的至少一个编码单元的信息，并可使用所述信息来对当前画面进行解码。换句话说，可对每个最大编码单元中被确定为最佳编码单元的具有树结构的编码单元的已编码的图像数据进行解码。
[0091]因此，即使图像数据具有高分辨率和大数据量，也可通过使用编码单元的尺寸和编码模式来对图像数据进行有效地解码和恢复，其中，根据图像数据的特征，通过使用从编码器接收的关于最佳编码模式的信息来自适应地确定所述编码单元的尺寸和所述编码模式。
[0092]现在将参照图3至图13描述根据本发明的实施例的确定具有树结构的编码单元、预测单元和变换单元的方法。
[0093]图3是用于描述根据本发明的实施例的编码单元的概念的示图。
[0094]编码单元的尺寸可以以为宽X高来表示，并且可以是64X64、32X32、16X16和8X8。64X64的编码单元可被划分为64 X 64、64 X 32、32 X 64或32 X 32的分区，32 X 32的编码单元可被划分为32X32、32X16、16X32或16X16的分区，16X16的编码单元可被划分为16X16、16X8、8X16或8X8的分区，8X8的编码单元可被划分为8X8、8X4、4X8或4X4的分区。
[0095]在视频数据310中，分辨率为1920 X 1080，编码单元的最大尺寸为64且最大深度为2。在视频数据320中，分辨率为1920 X 1080，编码单元的最大尺寸为64且最大深度为
3。在视频数据330中，分辨率为352X288，编码单元的最大尺寸为16且最大深度为I。图3中示出的最大深度表示从最大编码单元到最小编码单元的划分总次数。
[0096]如果分辨率高或数据量大，则编码单元的最大尺寸可以较大，从而不仅提高了编码效率，还精确地反映出图像的特征。因此，比视频数据330具有更高的分辨率的视频数据310和视频数据320的编码单元的最大尺寸可以是64。
[0097]由于视频数据310的最大深度是2，因此，由于通过对最大编码单元划分两次，深度被加深到两层，从而视频数据310的编码单元315可包括具有64的长轴尺寸的最大编码单元以及具有32和16的长轴尺寸的编码单元。同时，由于视频数据330的最大深度是1，因此，由于通过对最大编码单元划分一次，深度被加深到一层，从而视频数据330的编码单元335可包括具有16的长轴尺寸的最大编码单元以及具有8的长轴尺寸的编码单元。
[0098]由于视频数据320的最大深度为3，因此，由于通过对最大编码单元划分三次，深度被加深到3层，从而视频数据320的编码单元325可包括具有64的长轴尺寸的最大编码单元以及具有32、16和8的长轴尺寸的编码单元。随着深度加深，可精确地表示细节信息。
[0099]图4是根据本发明的实施例的基于具有分层结构的编码单元的视频编码器400的框图。[0100]帧内预测器410针对当前帧405在帧内模式下对编码单元执行帧内预测，运动估计器420和运动补偿器425在帧间模式下通过使用当前帧405和参考帧495，分别对编码单元执行帧间估计和运动补偿。
[0101]从帧内预测器410、运动估计器420和运动补偿器425输出的数据通过变换器430和量化器440被输出为量化的变换系数。量化的变换系数通过反量化器460和逆变换器470被恢复为空间域中的数据，恢复的空间域中的数据在通过去块单元480和环路滤波单元490进行后处理之后被输出为参考帧495。量化的变换系数可通过熵编码器450被输出为比特流455。
[0102]当对最大编码单元的图像数据和与根据深度的编码模式相关的符号进行编码时，熵编码器450可通过基于分层构造的数据单元的分层结构信息和除分层结构以外的各种信息(诸如颜色分量)选择上下文模型来执行熵解码。
[0103]为了将视频编码器400应用在视频编码装置100中，视频编码器400的所有元件(即，帧内预测器410、运动估计器420、运动补偿器425、变换器430、量化器440、熵编码器450、反量化器460、逆变换器470、去块单元480和环路滤波单元490)在考虑每个最大编码单元的最大深度的同时，基于具有树结构的编码单元之中的每个编码单元来执行操作。
[0104]具体地，帧内预测器410、运动估计器420和运动补偿器425在考虑当前最大编码单元的最大尺寸和最大深度的同时，确定具有树结构的编码单元之中的每个编码单元的分区和预测模式，变换器430确定具有树结构的编码单元之中的每个编码单元中的变换单元的尺寸。此外，根据本实施例的熵编码器450可根据相应符号的类型，通过基于分层构造的数据单元的分层结构信息和除分层结构以外的各种信息(诸如颜色分量)选择用于熵编码的上下文模型来执行熵编码。
[0105]图5是根据本发明的实施例的基于编码单元的视频解码器500的框图。
[0106]解析器510从比特流505中解析将被解码的已编码的图像数据以及用于解码所需的关于编码的信息。已编码的图像数据通过熵解码器520和反量化器530被输出为反量化的数据，反量化的数据通过逆变换器540被恢复为空间域中的图像数据。
[0107]帧内预测器550针对空间域中的图像数据，在帧内模式下对编码单元执行帧内预测，运动补偿器560通过使用参考帧585在帧间模式下对编码单元执行运动补偿。
[0108]经过帧内预测器550和运动补偿器560的空间域中的图像数据可在通过去块单元570和环路滤波单元580进行后处理之后被输出为恢复的帧595。此外，通过去块单元570和环路滤波单元580进行后处理的图像数据可被输出为参考帧585。
[0109]为了将视频解码器500应用在视频解码装置200中，视频解码器500的所有元件(即，解析器510、熵解码器520、反量化器530、逆变换器540、帧内预测器550、运动补偿器560、去块单元570和环路滤波单元580)针对每个最大编码单元基于具有树结构的编码单元执行操作。
[0110]具体地，帧内预测器550和运动补偿器560确定具有树结构的每个编码单元的分区和预测模式，逆变换器540不得不确定每个编码单元的变换单元的尺寸。此外，根据本实施例的熵解码器520可根据相应符号的类型，通过基于分层构造的数据单元的分层结构信息和除分层结构以外的各种信息(诸如颜色分量)，选择用于对将被解码的已编码的图像数据和指示解码所需的关于编码的信息的符号进行熵解码的上下文模型，以执行熵解码。[0111]图6是示出根据本发明的实施例的根据深度的编码单元以及分区的示图。
[0112]视频编码装置100和视频解码装置200使用分层编码单元以考虑图像的特征。可根据图像的特征自适应地确定编码单元的最大高度、最大宽度和最大深度，或可由用户不同地设置编码单元的最大高度、最大宽度和最大深度。可根据编码单元的预定最大尺寸来确定根据深度的编码单元的尺寸。
[0113]在根据本发明的实施例的编码单元的分层结构600中，编码单元的最大高度和最大宽度均为64，并且最大深度为4。由于深度沿分层结构600的纵轴加深，因此根据深度的编码单元的高和宽均被划分。此外，沿分层结构600的横轴示出作为用于根据深度的每个编码单元的预测编码的基础的预测单元和分区。
[0114]换句话说，编码单元610是分层结构600中的最大编码单元，其中，深度为0，尺寸(即，高乘宽)为64X64。深度沿纵轴加深，存在尺寸为32X32且深度为I的编码单元620、尺寸为16 X 16且深度为2的编码单元630、尺寸为8 X 8且深度为3的编码单元640以及尺寸为4X4且深度为4的编码单元650。尺寸为4X4且深度为4的编码单元650是最小编码单元。
[0115]编码单元的预测单元和分区根据每个深度沿横轴排列。换句话说，如果尺寸为64X64且深度为O的编码单元610是预测单元，则预测单元可被划分为包括在编码单元610中的分区，即，尺寸为64X64的分区610、尺寸为64X32的分区612、尺寸为32X64的分区614或尺寸为32X32的分区616。
[0116]类似地，尺寸为32X32且深度为I的编码单元620的预测单元可被划分为包括在编码单元620中的分区，即，尺寸为32X32的分区620、尺寸为32X16的分区622、尺寸为16X32的分区624和尺寸为16X16的分区626。
[0117]类似地，尺寸为16 X 16且深度为2的编码单元630的预测单元可被划分为包括在编码单元630中的分区，即，包括在编码单元630中的尺寸为16X16的分区、尺寸为16X8的分区632、尺寸为8X16的分区634和尺寸为8X8的分区636。
[0118]类似地，尺寸为8X8且深度为3的编码单元640的预测单元可被划分为包括在编码单元640中的分区，即，包括在编码单元640中的尺寸为8X8的分区、尺寸为8X4的分区642、尺寸为4X8的分区644和尺寸为4X4的分区646。
[0119]尺寸为4X4且深度为4的编码单元650是最小编码单元和最低深度的编码单元。编码单元650的预测单元仅被分配给尺寸为4X4的分区。
[0120]为了确定组成最大编码单元610的编码单元的至少一个编码深度，视频编码装置100的分层编码器110针对包括在最大编码单元610中的与每个深度相应的编码单元执行编码。
[0121]随着深度加深，包括相同范围和相同尺寸的数据的根据深度的编码单元的数量增加。例如，需要四个与深度2相应的编码单元来覆盖包括在一个与深度I相应的编码单元中的数据。因此，为了比较相同数据的根据深度的编码结果，与深度I相应的编码单元和四个与深度2相应的编码单元均被编码。
[0122]为了针对多个深度中的当前深度执行编码，可通过沿分层结构600的横轴，针对与当前深度相应的编码单元中的每个预测单元执行编码，来针对当前深度选择最小编码误差。可选择地，随着深度沿分层结构600的纵轴加深，可通过针对每个深度比较根据深度的最小编码误差并执行编码，从而搜索最小编码误差。编码单元610中具有最小编码误差的深度和分区可被选为编码单元610的编码深度和分区类型。
[0123]图7是用于描述根据本发明的实施例的编码单元710和变换单元720之间的关系的示图。
[0124]视频编码装置100或视频解码装置200针对每个最大编码单元，根据具有小于或等于最大编码单元的尺寸的编码单元来对图像进行编码或解码。可基于不大于相应编码单元的数据单元来选择编码期间用于变换的变换单元的尺寸。
[0125]例如，在视频编码装置100或视频解码装置200中，如果编码单元710的尺寸是64X64，则可通过使用尺寸为32X32的变换单元720来执行变换。
[0126]此外，可通过对小于64X64的尺寸为32X32、16X 16、8X8和4X4的变换单元中的每一个执行变换，来对尺寸为64X64的编码单元710的数据进行编码，然后可选择具有最小编码误差的变换单元。
[0127]图8是用于描述根据本发明的实施例的与编码深度相应的编码单元的编码信息的示图。
[0128]视频编码装置100的输出单元130可对用于与编码深度相应的每个编码单元的关于分区类型的信息800、关于预测模式的信息810和关于变换单元的尺寸的信息820进行编码和发送，作为关于编码模式的信息。
[0129]信息800指示关于通过对当前编码单元的预测单元进行划分而获得的分区的形状的信息，其中，所述分区是用于对当前编码单元进行预测编码的数据单元。例如，尺寸为2NX2N的当前编码单元CU_0可被划分为尺寸为2NX2N的分区802、尺寸为2NXN的分区804、尺寸为NX2N的分区806和尺寸为NXN的分区808中的任意一个。这里，关于分区类型的信息800被设置为指示尺寸为2NXN的分区804、尺寸为NX2N的分区806和尺寸为NXN的分区808中的一个。
[0130]信息810指示每个分区的预测模式。例如，信息810可指示对由信息800指示的分区执行的预测编码的模式，即，帧内模式812、帧间模式814或跳过模式816。
[0131]信息820指示当对当前编码单元执行变换时所基于的变换单元。例如，变换单元可以是第一帧内变换单元822、第二帧内变换单元824、第一帧间变换单元826或第二帧间变换单元828。
[0132]视频解码装置200的熵解码器220可基于根据深度的每个编码单元提取和使用用于解码的信息800、810和820。
[0133]图9是根据本发明的实施例的根据深度的编码单元的示图。
[0134]划分信息可被用于指示深度的改变。划分信息指示当前深度的编码单元是否被划分为更低深度的编码单元。
[0135]用于对深度为O且尺寸为2N_0X2N_0的编码单元900进行预测编码的预测单元910可包括以下分区类型的分区:尺寸为2N_0X2N_0的分区类型912、尺寸为2N_0XN_0的分区类型914、尺寸为N_0X2N_0的分区类型916、尺寸为Ν_0ΧΝ_0的分区类型918。图9仅示出通过对预测单元910进行对称划分而获得的分区类型912至918，但分区类型不限于此，预测单元910的分区可包括不对称分区、具有预定形状的分区和具有几何形状的分区。
[0136]根据每个分区类型，对一个尺寸为2N_0X2N_0的分区、两个尺寸为2N_0XN_0的分区、两个尺寸为N_0X2N_0的分区和四个尺寸为Ν_0ΧΝ_0的分区重复执行预测编码。可对尺寸为2N_0 X 2N_0、N_0 X 2N_0、2N_0 X N_0和N_0 X N_0的分区执行帧内模式和帧间模式下的预测编码。仅对尺寸为2N_0X2N_0的分区执行跳过模式下的预测编码。
[0137]如果在尺寸为2N_0X2N_0、2N_0XN_0和N_0X2N_0的分区类型912至916之一中编码误差最小，则预测单元910可不被划分到更低深度。
[0138]如果在尺寸为Ν_0ΧΝ_0的分区类型918中编码误差最小，则深度从O改变到I以在操作920对分区类型918进行划分，并且对深度为2且尺寸为Ν_0ΧΝ_0的分区类型编码单元重复执行编码，以搜索最小编码误差。
[0139]用于对深度为I且尺寸为2N_1X2N_1 (= Ν_0ΧΝ_0)的(分区类型)编码单元930进行预测编码的预测单元940可包括以下分区类型的分区:尺寸为2N_1X2N_1的分区类型942、尺寸为2N_1XN_1的分区类型944、尺寸为N_1X2N_1的分区类型946和尺寸为N_1XN_1的分区类型948。
[0140]如果在尺寸为N_1XN_1的分区类型948中编码误差最小，则深度从I改变到2以在操作950对分区类型948进行划分，并且对深度为2且尺寸为N_2XN_2的编码单元960重复执行编码，以搜索最小编码误差。
[0141]当最大深度为d时，根据每个深度的划分操作可被执行，直到深度变为d-Ι时，并且划分信息可被编码直到深度为O到d-2中的一个时。换句话说，当编码被执行直到在操作970中与深度d-2相应的编码单元被划分之后深度为d-Ι时，用于对深度为d-Ι且尺寸为2N_(d-l) X2N_(d-l)的编码单元980进行预测编码的预测单元990可包括以下分区类型的分区:尺寸为2N_(d-l) X2N_(d-l)的分区类型992、尺寸为2N_(d_l) XN_(d_l)的分区类型994、尺寸为N_(d-1) X2N_(d-l)的分区类型996和尺寸为N_(d_l) XN_(d_l)的分区类型998。
[0142]可在分区类型992至998之中对一个尺寸为2N_(d-l) X2N_(d-l)的分区、两个尺寸为2N_(d-l) XN_(d-l)的分区、两个尺寸为N_(d-1) X2N_(d-l)的分区、四个尺寸为N_(d-1) XN_(d-l)的分区重复执行预测编码，以搜索具有最小编码误差的分区类型。
[0143]即使在尺寸为N_(d-1) XN_(d-l)的分区类型998具有最小编码误差时，由于最大深度为d，因此深度为d-Ι的编码单元CU_(d-l)不再被划分到更低深度，组成当前最大编码单元900的编码单元的编码深度被确定为d-Ι，并且当前最大编码单元900的分区类型可被确定为N_(d-1) XN_(d-l)。此外，由于最大深度为d，因此不设置用于最小编码单元980的划分信息。
[0144]数据单元999可以是针对当前最大编码单元的“最小单元”。根据本发明的实施例的最小单元可以是通过将最小编码单元980划分为4而获得的矩形数据单元。通过重复执行编码，视频编码装置100可通过比较根据编码单元900的深度的编码误差来选择具有最小编码误差的深度，以确定编码深度，并将相应的分区类型和预测模式设置为编码深度的编码模式。
[0145]这样，在I至d的所有深度中比较根据深度的最小编码误差，具有最小编码误差的深度可被确定为编码深度。编码深度、预测单元的分区类型和预测模式可作为关于编码模式的信息而被编码和发送。此外，由于编码单元从深度O被划分到编码深度，因此仅编码深度的划分信息被设置为0，并且除了编码深度之外的深度的划分信息被设置为I。[0146]视频解码装置200的熵解码器220可提取并使用关于编码单元900的编码深度和预测单元的信息，以对编码单元912进行解码。视频解码装置200可通过使用根据深度的划分信息来将划分信息为O的深度确定为编码深度，并使用关于相应深度的编码模式的信息以进行解码。
[0147]图10至图12是用于描述根据本发明的实施例的编码单元1010、预测单元1060和变换单元1070之间的关系的示图。
[0148]编码单元1010是最大编码单元中与由视频编码装置100确定的编码深度相应的、具有树结构的编码单元。预测单元1060是编码单元1010中的每一个的预测单元的分区，变换单元1070是编码单元1010中的每一个的变换单元。
[0149]当在编码单元1010中最大编码单元的深度是O时，编码单元1012和1054的深度是 1，编码单元 1014、1016、1018、1028、1050 和 1052 的深度是 2，编码单元 1020、1022、1024、1026、1030、1032和1048的深度是3，编码单元1040、1042、1044和1046的深度是4。
[0150]在预测单元1060中，通过对编码单元进行划分来获得某些编码单元1014、1016、1022、1032、1048、1050、1052 和 1054。换句话说，编码单元 1014、1022、1050 和 1054 中的分区类型具有2NXN的尺寸，编码单元1016、1048和1052中的分区类型具有NX2N的尺寸，编码单元1032的分区类型具有NXN的尺寸。编码单元1010的预测单元和分区小于或等于每个编码单元。
[0151]按照小于编码单元1052的数据单元对变换单元1070中的编码单元1052的图像数据执行变换或逆变换。此外，变换单元1070中的编码单元1014、1016、1022、1032、1048、1050和1052在尺寸和形状方面与预测单元1060中的编码单元1014、1016、1022、1032、1048,1050和1052不同。换句话说，视频编码装置100和视频解码装置200可对相同编码单元中的数据单元分别执行帧内预测、运动估计、运动补偿、变换和逆变换。
[0152]因此，对最大编码单元的每个区域中具有分层结构的编码单元中的每一个递归地执行编码，以确定最佳编码单元，从而可获得具有递归树结构的编码单元。编码信息可包括关于编码单元的划分信息、关于分区类型的信息、关于预测模式的信息和关于变换单元的尺寸的信息。表I示出可由视频编码装置100和视频解码装置200设置的编码信息。
[0153]表I
[0154]
【权利要求】
1.一种视频解码方法，包括:通过对编码的比特流进行解析来提取基于分层构造的数据单元编码的画面的符号；基于所述符号所属的数据单元的分层信息来确定用于所述符号的熵解码的上下文模型；以及使用确定的上下文模型来对所述符号进行熵解码。
2.如权利要求1所述的视频解码方法，其中，提取符号的步骤包括:提取指示通过对画面进行划分而获得的最大编码单元的尺寸、指示最大编码单元的空间划分次数的深度、用于根据深度分层构造的编码单元的预测编码的分区、和提取了分层结构的变换单元的结构的信息，确定上下文模型的步骤包括:基于指示最大编码单元的尺寸、深度、分区和具有分层结构的变换单元的结构的信息，确定根据分层构造的树结构的编码单元、用于所述深度的每个编码单元的预测编码的分区以及根据树结构的变换单元。
3.如权利要求1所述的视频解码方法，其中，分层信息包括以下信息中的至少一个--关于符号所属的数据单元的尺寸的信息以及指示符号所属的数据单元相对于更高层级的数据单元的相对尺寸的相对分层信息，其中，所述更高层级的数据单元比符号所属的数据单元具有更大的尺寸。
4.如权利要求1所述的视频解码方法，其中，在确定上下文模型的步骤中，基于与分层结构相关的且具有I个状态值的第一信息和与除分层结构以外的视频编码相关的且具有J个状态值的第二信息来确定多个预设上下文模型中的一个，其中，所述I是整数，所述J是整数。
5.如权利要求1所述的视频解码方法，其中，所述符号包括以下信息中的至少一个:变换系数相关信息、用于使用分层构造的数据单元进行编码的与变换单元的分层结构相关的信息、以及与画面的分层结构相关的信息。
6.如权利要求5所述的视频解码方法，其中，变换系数相关信息包括与根据基于具有分层结构的变换单元变换的树结构的变换单元的变换系数相关的以下项中的至少一个:指示不为O的变换系数的位置的标记“significant_coeff_flag”、指示不为O的最后变换系数的位置的标记“last_significant_coeff_flag”、指示在变换单元中包括的变换系数中是否存在不为O的变换系数值的标记“c0ded_bl0ck_flag”、以及不为O的变换系数的绝对值，在确定上下文模型的步骤中，基于包括变换系数的变换单元的尺寸、变换单元中的变换系数的位置以及变换单元的颜色分量中的至少一个来确定多个上下文模型中的一个。
7.如权利要求5所述的视频解码方法，其中，与变换单元的分层结构相关的信息包括:用于指示具有分层结构的变换单元的结构的，指示变换单元是否被划分的变换单元划分标记“ TU尺寸标记”，在确定上下文模型的步骤中，基于变换单元的尺寸和变换单元相对于包括变换单元的预测单元的相对尺寸中的至少一个来确定多个上下文模型中的一个。
8.如权利要求5所述的视频解码方法，其中，与画面的分层结构相关的信息包括:用于指示具有分层结构的编码单元的结构的，指示编码单元是否被划分的划分标记“split_flag”，在确定上下文模型的步骤中，基于编码单元的尺寸和编码单元相对于包括所述编码单元的最大编码单元的相对尺寸中的至少一个来确定多个上下文模型中的一个。
9.如权利要求1所述的视频解码方法，其中，上下文模型包括:关于与最可能符号(MPS)和最不可能符号(LPS)相应的二进制信号O和I的信息，其中，所述二进制信号是指示所述符号以及MPS和LPS中的至少一个的概率值的二进制信号，基于查找表或所述二进制信号的出现统计累计值来确定MPS和LPS中的至少一个的概率值。
10.一种视频解码装置，包括:符号提取单元，用于通过对编码的比特流进行解析，提取基于分层构造的数据单元编码的画面的符号；以及熵解码器，用于基于所述符号所属的数据单元的分层信息来确定用于所述符号的熵解码的上下文模型，并使用确定的上下文模型来对所述符号进行熵解码。
11.一种视频编码方法，包括:基于分层构造的数据单元对形成视频的画面进行编码；基于编码的画面的符号所属的数据单元的分层信息来确定用于所述符号的熵编码的上下文模型；以及使用确定的上下文模型对所述符号进行熵编码。
12.如权利要求11所述的视频编码方法，其中，对画面进行编码的步骤包括:针对通过按照最大编码单元对画面进行划分而获得的至少一个最大编码单元中的每一个，从根据深度的编码单元确定包括编码深度的编码单元的根据树结构的编码单元；确定用于编码深度的每个编码单元的预测编码的分区；以及通过基于变换单元的分层结构执行变换来确定根据树结构的变换单元，其中，根据指示最大编码单元的空间划分次数的深度来分层构造所述根据深度的编码单元。
13.如权利要求11所述的视频编码方法，其中，分层信息包括以下信息中的至少一个:关于符号所属的数据单元的尺寸的信息以及指示符号所属的数据单元相对于更高层级的数据单元的相对尺寸的相对分层信息，其中，所述更高层级的数据单元比符号所属的数据单元具有更大的尺寸。
14.如权利要求11所述的视频编码方法，其中，在确定上下文模型的步骤中，基于与分层结构相关的且具有I个状态值的第一信息和与除分层结构以外的视频编码相关的且具有J个状态值的第二信息来确定多个预设上下文模型中的一个，其中，所述I是整数，所述J是整数。
15.一种视频编码装置，包括:分层编码器，用于基于分层构造的数据单元对形成视频的画面进行编码；以及熵编码器，用于基于编码的画面的符号所属的数据单元的分层信息来确定用于所述符号的熵编码的上下文模型，并使用确定的上下文模型对所述符号进行编码。
【文档编号】H04N7/32GK103430541SQ201280012098
【公开日】2013年12月4日申请日期:2012年1月6日优先权日:2011年1月6日
【发明者】李善一, 郑海庆, 千岷洙申请人:三星电子株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李善一;郑海庆;千岷洙
技术所有人：三星电子株式会社
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。