基于非对称卷积的VVC帧内跨分量色度预测

文档序号:35349612发布日期:2023-09-07 21:45阅读:29来源:国知局
基于非对称卷积的VVC帧内跨分量色度预测

本发明涉及图像与视频处理领域,更具体而言,涉及用于基于非对称卷积的vvc帧内跨分量色度预测的方法、装置和计算机程序产品。


背景技术:

1、数字视频功能可以结合到各种设备中,包括数字电视、数字直接广播系统、无线广播系统、个人数字助理(pda)、膝上型电脑或台式计算机、平板电脑、电子书阅读器、数码相机、数字记录设备、数字媒体播放器、视频游戏设备、视频游戏机、蜂窝或卫星无线电电话、所谓的“智能电话”、视频电话会议设备、视频流设备等。

2、数字视频设备实施视频编码(coding)技术,诸如由mpeg-2、mpeg-4、itu-t h.263、itu-th.264/mpeg-4,第10部分,高级视频编码(avc)、高效视频编码(hevc)标准、itu-th.265/高效视频编码(hevc)、多功能视频编码(versatile video coding)vvc(h.266)、以及此类标准的扩展定义的标准中描述的那些技术。通过实施这样的视频编码技术,视频设备可以更有效地发送、接收、编码、解码和/或存储数字视频信息。

3、2010年4月,两大国际视频编码标准组织vceg和mpeg成立视频压缩联合小组jct-vc(joint collaborative team on video coding),一同开发高效视频编码标准。

4、在2013年,jct-vc完成了对hevc(high efficiency video coding)标准(也称为h.265)开发,并且随后陆续发布了多个版本。

5、hevc提出了全新的语法单元:编码单元(cu)是进行预测、变换、量化和熵编码的基本单元,预测单元(pu)是进行帧内帧间预测的基本单元,变换单元(tu)是进行变换和量化的基本单元。另外,每个cu定义了共享相同预测模式(帧内或帧间)的区域。

6、如图1所示,在hevc中,可以进行帧内预测模式和帧间预测模式的切换。在帧内预测模式和帧间预测模式中,hevc都采用编码树单元(ctu)的编码结构,ctu是hevc编解码的基本处理单元。ctu由1个亮度ctb(编码树块,coding tree block)、2个色度ctb和相应的语法元素组成。图2显示了在一个lcu(最大编码单元)编码后的ctu结构。在hevc中,lcu可以只包含一个编码单元(cu),也可以使用ctu四叉树结构划分出为不同大小的cu。

7、hevc中有四种大小cu,大小分别为:64x64、32x32、16x16和8x8。cu块越小,其在ctu树中位置越深。当cu为64x64、32x32和16x16时称为2nx2n模式(表示可以划分为更小的cu),当cu为8x8时称为nxn模式(表示不可以进行进一步划分)。对于帧内预测,cu被分成两个partmode(2nx2n和nxn),这取决于它是否可以被分成更小的cu。尺寸为64x64、32x32和16x16的cu属于2n×2n,尺寸为8×8的cu属于n×n。

8、在hevc中,pu进行帧内帧间预测的基本单元,pu的划分是以cu为基础的,具有五种规则大小64x64、32x32、16x16、8x8和4x4。更具体地,pu尺寸基于partmode:对于2n×2n的partmode pu尺寸与cu相同,对于n×n的partmode cu可以被划分为四个4×4子pu。对于2n*2n的cu模式,帧内预测pu的可选模式包括2n*2n和n*n,帧间预测pu的可选模式有8种,包括4种对称模式(2n*2n,n*2n,2n*n,n*n)和4种非对称模式(2n*nu,2n*nd,nl*2n,nr*2n),其中,2n*nu和2n*nd分别以上下1:3、3:1的比例划分,nl*2n和nr*2n分别以左右1:3、3:1的比例划分。

9、在hevc中,仍然继续使用h.264/avc的拉格朗日率失真优化(rdo)进行模式选择,为每一个帧内模式计算其rdo:

10、j=d+λr                             (1)

11、其中,j为拉格朗日代价(亦即rd-cost),d表示当前帧内模式的失真,r表示编码当前预测模式下所有信息所需的比特数,λ为拉格朗日因子。其中d通常使用绝对哈达玛变换差之和(satd)来实现。

12、处理一帧视频图像需要首先将其划分成多个lcu(64x64),然后依次编码每个lcu。每个lcu依次递归划分,其通过计算当前深度的rd-cost判定是否继续划分。一个lcu最小可划分至8x8大小的单元,如图2所示。编码器通过比较深度的rd-cost值判定是否继续划分,如果当前深度内的4个子cu的编码代价总和大于当前cu,则不继续划分;反之则继续划分,直至划分结束。

13、本领域技术人员容易理解,由于ctu是对lcu进行cu划分的树状编码结构,ctu中的cu划分方式是以lcu开始的,因此在本领域中这两个名词经常可交换地使用。

14、在帧内预测中,每个pu使用总共35种预测模式。使用粗略模式决策(rmd),我们可以获得64x64、32x32和16x16块的三种候选模式以及8x8和4x4块的八种候选模式。通过合并来自相邻块的最可能模式(mpm)来获得每个pu大小的最佳候选列表。然后,通过rdo来选择当前pu的最佳帧内预测模式。当完成当前cu中包括的所有pu的帧内预测时,完成当前cu的帧内预测。通过当前cu的rd-cost与当前cu及其4个子cu的四个子cu的总rd-cost之间的比较来选择具有较小rd-cost的次优cu内部预测完成。当完成所有cu分区时,完成当前ctu帧内预测。对于hevc,当对lcu进行编码时,应当执行85个cu(一个64×64cu,四个32×32cu,十六个16×16cu和六十四个8×8cu)的帧内预测。当cu被编码时,应当执行一个pu或四个子pu的帧内预测。大量cu和pu导致帧内预测的高复杂性。

15、为了开发超越hevc的新技术,2015年成立的一个新的组织,联合视频探索组(joint video exploration term),并在2018年更名为联合视频专家组(joint videoexperts term,jvet)。在hevc的基础上,多功能视频编码(versatile video coding)vvc(h.266)的研究由jvet组织于2018年4月10美国圣地亚哥会议上提出,在h.265/hevc基础上改进的新一代视频编码技术,其主要目标是改进现有hevc,提供更高的压缩性能,同时会针对新兴应用(360°全景视频和高动态范围(hdr)视频)进行优化。vvc的第一版在2020年8月完成,在itu-t网站上以h.266标准正式发布。

16、有关hevc和vvc的相关文件和测试平台可以从https://jvet.hhi.fraunhofer.de/获得,并且vvc的相关提案可以从http://phenix.it-sudparis.eu/jvet/获得。

17、vvc依然沿用h.264就开始采用的混合编码框架,其vtm编码器的一般性方框图如图1所示。帧间和帧内预测编码:消除时间域和空间域的相关性。变换编码:对残差进行变换编码以消除空间相关性。熵编码:消除统计上的冗余度。vvc将在混合编码框架内,着力研究新的编码工具或技术,提高视频压缩效率。

18、虽然vvc和hevc中都采用树结构来进行ctu划分,但是在vvc采用了与hevc不同的树结构ctu划分方式。并且,与hevc相比,vvc中的ctu的(亮度块)最大大小达到了128x128(尽管亮度变换块的最大大小为64x64)。

19、与hevc类似,vvc将图片划分为子图片(subpicture)、切片(slice)、和图块(tile)。一个图片被划分为一个或多个图块行和一个或多个图块列。图块是覆盖图片的矩形区域的ctu序列。切片由整数个完整图块或在图片的图块内的整数个连续的完整ctu行。支持两种切片模式,即光栅扫描切片模式和矩形切片模式。在光栅扫描切片模式中,切片包含图片的图块光栅扫描中的完整图块的序列。在矩形切片模式中,切片包含共同形成图片的矩形区域的多个完整图块,或者一个图块的、共同形成图片中的矩形区域的多个连续完整ctu行。矩形切片内的图块在对应于该图块的矩形区域内以图块光栅扫描顺序进行扫描。子图片包含一个或多个切片,这些切片共同覆盖图片的矩形区域。

20、如上所述地,在hevc中,使用四叉树结构将ctu划分为cu(即编码树)。关于帧内编码和帧间编码的决策是在叶节点cu处做出的。换言之,一个叶节点cu定义了共享相同预测模式(例如帧内预测或帧间预测)的一个区域。然后,根据pu划分类型,每个叶cu可以进一步划分为1、2或4个预测单元pu。在每个pu内,使用相同的预测过程,并将相关信息以pu为基础发送到解码器段。在基于pu的预测过程获得了残差块后,可以根据类似于cu的编码树的另一类似四叉树结构将叶cu划分为tu。

21、而在vvc中,则采用了具有嵌套的多类型树的四叉树分割结构(qtmt)来划分ctu,其中嵌套的多类型树使用二叉树和三叉树。作为一个示例,这种嵌套的多类型树的一个实例是四叉树-二叉树(qtbt)结构。qtbt结构包括两个级别:根据四叉树划分而划分的第一级,以及根据二叉树划分而划分的第二级。qtbt结构的根节点对应于ctu。二叉树的叶节点对应于编码单元(cu),cu定义了共享相同预测模式(例如帧内预测或帧间预测)的一个区域。在vvc中删除了cu、pu和tu的不同形式。

22、在vvc中,一个ctu首先通过四叉树进行划分,然后再通过多类型树进行进一步划分。如图3所示,vvc规定了4种多类型树划分模式:水平二叉树划分(split_bt_hor)、垂直二叉树划分(split_bt_ver)、水平三叉树划分(split_tt_ver)、垂直三叉树划分(split_tt_hor)。多类型树的叶节点被称为编码单元(cu),并且除非cu对于最大变换长度而言过大,否则该cu分割就会用于预测和变换处理而不进行进一步分割。这就意味着在大多数情况下,cu、pu和tu在该具有嵌套的多类型树的四叉树分割结构是具有相同的块大小的。其中的例外是所支持的最大变换长度小于cu的颜色分量的宽度或高度。图4示出了vvc的具有嵌套的多类型树的四叉树分割结构的ctu到cu的分割的一个具体实施例,其中,粗体框表示四叉树分割,剩余的边表示多类型树分割。vvc的这种具有嵌套的多类型树的四叉树分割结构提供了包括cu的内容自适应编码树结构。

23、cu的大小可以与ctu一样大,也可以以亮度样本为单位小到4x4。对于4:2:0色度格式的情况,最大色度编码块大小为64x64,最小大小色度大小由16个色度样本组成。在vvc中,支持的最大亮度变换大小为64x 64,支持的最高色度变换大小为32x32。当编码块的宽度或高度大于最大变换宽度或高度时,编码块在水平和/或垂直方向上自动分割,以满足该方向上的变换大小限制。

24、以下参数由具有嵌套多类型树编码树方案的四叉树的序列参数集(sps)语法元素定义和指定:

25、–ctu大小:四元树的根节点大小

26、–minqtsize:允许的最小四叉树叶节点大小

27、–maxbtsize:允许的最大二叉树根节点大小

28、–maxttsize:允许的最大三叉树根节点大小

29、–maxmttdepth:从四叉树叶划分多类型树时允许的最大层次深度

30、–minbtsize:允许的最小二叉树叶节点大小

31、–minttsize:允许的最小三叉树叶节点大小

32、在具有嵌套多类型树编码树结构的四叉树的一个示例中,ctu大小被设置为128x128亮度样本,具有两个对应的64x64块4:2:0色度样本,minqtsize被设置为16x16,maxbtsize被设置成128x128并且maxttsize被设置成64x64,minbtsize和minttsize(对于宽度和高度)被设置为4x4,并且maxmttdepth被设置成4。将四叉树划分首先应用于ctu以生成四叉树叶节点。四叉树叶节点的大小可以从16x16(即minqtsize)到128x128(即ctu大小)。如果叶四叉树节点为128x128,则不会被二叉树进一步划分,因为其大小超过了maxbtsize和maxttsize(即64x64)。否则,叶四叉树节点可以通过多类型树进一步划分。因此,四叉树叶节点也是多类型树的根节点,并且它具有多类型树深度(mttdepth)为0。当多类型树深度达到maxmttdepth(即4)时,不考虑进一步划分。当多类型树节点的宽度等于minbtsize且小于或等于2*minttsize时,不考虑进一步的水平划分。类似地,当多类型树节点的高度等于minbtsize且小于或等于2*minttsize时,不考虑进一步的垂直划分。

33、在vvc中,编码树方案支持亮度分量和色度分量具有单独的块树结构的能力。对于p和b切片,一个ctu中的亮度和色度ctb必须共享相同的编码树结构。然而,对于i切片,亮度和色度可以具有单独的块树结构。当应用单独的块树模式时,亮度ctb通过一个编码树结构被划分为cu,色度ctb通过另一编码树结构而被划分为色度cu。这意味着i切片中的cu可以由亮度分量的编码块或两个色度分量的编码块组成,并且p或b切片中的cu总是由所有三个颜色分量的编码块组成,除非视频是单色的。

34、在进行了ctu划分后,对表示预测和/或残差信息以及其他信息的cu的视频数据进行编码。预测信息指示将如何预测cu以便形成cu的预测块。残差信息通常表示编码之前的cu的样本与预测块的样本之间的逐样本差。

35、为了预测cu,通常可通过帧间预测或帧内预测来形成cu的预测块。帧间预测通常是指根据先前译码的图片的数据来预测cu,而帧内预测通常是指根据同一图片的先前译码的数据来预测cu。为了执行帧间预测,可使用一个或多个运动向量来生成预测块。通常可以例如按照cu与参考块之间的差来执行运动搜索,以识别与cu紧密匹配的参考块。可使用绝对差之和(sad)、平方差之和(ssd)、平均绝对差(mad)、均方差(msd)或其他此类差值计算来计算差值度量,以确定参考块是否与当前cu紧密匹配。在一些示例中,可使用单向预测或双向预测来预测当前cu。

36、在帧间预测中,vvc中仍然使用了hevc中的跳过(skip)模式和合并(merge)模式。对于每个帧间预测cu,由运动矢量、参考图片索引和参考图片列表使用索引组成运动参数,以及vvc的新编码特征所需的附加信息,被用于帧间预测样本生成。可以以显式或隐式的方式用信号通知运动参数。当用跳过(skip)模式对cu进行编码时,该cu与一个pu相关联,并且不具有有效的残差系数,不具有编码的运动矢量差值或参考图片索引。指定合并模式,从而从相邻cu获得当前cu的运动参数(包括空间后续和时间候选),以及vvc中引入的附加调度。合并模式可以应用于任何帧间预测cu,而不仅仅是用于跳过模式。合并模式的替代方案是运动参数的显式传输,其中运动向量、每个参考图片列表的对应参考图片索引和参考图片列表使用标志以及其他所需信息被显式地按每个cu发信号通知。

37、对于帧间预测,在vvc中,除了hevc中使用的平移运动预测和运动补偿之外,还提供了仿射运动补偿模式(仿射motion compensated prediction)。在仿射运动补偿模式中,可以确定表示非平移运动(诸如,放大或缩小、旋转、透视运动或其他不规则运动类型)的两个或更多个运动向量。

38、为了执行帧内预测,可以选择用于生成预测块的帧内预测模式。vvc提供了67种帧内预测模式,包括各种方向模式,以及平面模式和dc模式。通常,选择帧内预测模式,该帧内预测模式描述到当前块(例如,cu的块)的相邻样本,其中从所述相邻样本预测当前块的样本。假设以光栅扫描顺序(从左到右、从上到下的译码顺序或从右到左、从上到下的译码顺序)对ctu和cu进行译码,则这些样本通常可以在与当前块相同的图片中当前块的上方、上方及左侧或左侧。

39、对于帧内预测,vvc还引入了跨分量线性模型(cross-component linear model,cclm)。cclm是一种新的vvc帧内跨分量色度预测技术。它通过对亮度和色度之间的关系建立一个线性模型,利用已完成编码的亮度实现对色度进行预测,以减少分量之间存在的冗余,提高了编码效率。

40、对表示当前块的预测模式的数据进行编码。例如,对于帧间预测模式,视频编码器200可以对表示使用各种可用帧间预测模式中的哪一种帧间预测模式的数据以及用于对应模式的运动信息进行编码。对于单向或双向帧间预测,例如,可以使用高级运动向量预测(amvp)或合并模式来对运动向量进行编码。可以使用类似模式来编码用于仿射运动补偿模式的运动向量。

41、在诸如块的帧内预测或帧间预测之类的预测之后,可以计算块的残差数据。残差数据(诸如残差块)表示该块与使用相应预测模式形成的该块的预测块之间的逐样本差。可将一个或多个变换应用于残差块,以产生在变换域而非样本域中的经变换的数据。例如,可将离散余弦变换(dct)、整数变换、小波变换或概念上类似的变换应用于残差视频数据。另外,视频编码器200可在一次变换之后应用二次变换,例如,与模式相关的不可分离的二次变换(mdnsst)、与信号相关的变换、karhunen-loeve变换(klt)等。在应用一个或多个变换之后产生变换系数。

42、如上所述,在用以产生变换系数的任何变换之后,可以根据量化系数(qp),执行对变换系数的量化。量化通常是指对变换系数进行量化以可能减少用于表示系数的数据量,从而提供进一步压缩的过程。通过执行量化过程,可以减小与一些或所有系数相关联的位深度。例如,可以在量化期间将n-位值舍入为m-位值,其中n大于m。在一些示例中,为了执行量化,可以执行对待量化的值的按位右移。量化系数(qp)通常是采用语法元素的行驶包含在头信息中的。

43、在量化之后,可以扫描变换系数,从而从包括经量化的变换系数的二维矩阵产生一维向量。可以将扫描设计为将较高能量(并且因此较低频率)的系数放置在向量的前面,并将较低能量(并且因此较高频率)的变换系数放置在向量的后面。在一些示例中,可以利用预定义的扫描顺序来扫描经量化的变换系数以产生串行化的向量,然后对向量的经量化的变换系数进行熵编码。在其他示例中,可以执行自适应扫描。在扫描经量化的变换系数以形成一维向量之后,可以例如根据上下文自适应二进制算术译码(cabac)对一维向量进行熵编码还可对用于语法元素的值进行熵编码,语法元素描述与经编码视频数据相关联的元数据,以供视频解码器300在解码视频数据时使用。

44、在编码过程中,可以例如在图片报头、块报头、切片报头中,生成语法数据,诸如基于块的语法数据、基于图片的语法数据和基于序列的语法数据,或其他语法数据,诸如序列参数集(sps)、图片参数集(pps)或视频参数集(vps)。视频解码器可类似地解码此类语法数据以确定如何解码对应的视频数据。这些信息都可以被称为“头信息”。

45、以此方式,可以生成包括经编码视频数据(例如,描述从图片到块(例如,cu)的划分的语法元素以及块的预测和/或残差信息)的位流。

46、vvc中的跨分量线性模型(cross-component linear model,cclm)是一种新的vvc帧内跨分量色度预测技术,其通过对亮度和色度之间的关系建立一个线性模型,利用已完成编码的亮度实现对色度进行预测,以减少分量之间存在的冗余,提高了编码效率。

47、具体而言,vvc标准当中亮度和色度的划分与编码过程是独立的,其中,y亮度分量和uv色度分量可以具有不同的划分结构。在一种可能情况中,一个色度块可能有几个同位亮度块与之对应。这是色度独立划分带来的一种编码新特性,为跨分量色度预测技术奠定了基础。cclm预测技术是vvc帧内跨分量色度预测模块的新技术,也是hevc标准中跨分量预测(cross component prediction,ccp)技术的一种延伸。cclm技术突破了ccp技术只用于残差域的限制,使其在其他方面得到了广泛的应用。cclm技术中的跨分量预测过程是将重建后的亮度像素数据作为输入,利用线性模型输出得到相应的色度像素。

48、(1)下采样滤波器

49、在yuv的4:2:0采样格式中,亮度分量和色度分量的尺寸不同。在应用cclm技术之前,为了使亮度分量的分辨率及位置和色度分量匹配,需要对亮度分量(当前cu亮度分量和邻域参考像素的亮度分量)进行下采样。亮度分量和色度分量的空间采样位置有4种常见类型,色度采样类型示意图如图2-3所示。

50、vvc标准根据采样位置及滤波位置的不同,采用了三种下采样滤波器,如图5所示,白色像素为色度分量(x,y)对应亮度分量位置,使用滤波模板进行下采样滤波,得到对应位置滤波后的亮度分量。对于色度采样类型2和类型3,使用如图6(a)所示的5抽头下采样滤波器;对于色度采样类型0和类型1,使用如图6(b)所示的6抽头下采样滤波器;当亮度上参考行处于ctu的边界时,采用如图6(c)所示的3抽头下采样滤波器。

51、(2)下采样滤波器

52、cclm技术对色度分量和己经完成重建的同一cu的亮度分量构建线性模型实现预测,使用如公式2-1所示的线性模型:

53、predc(i,j)=α*rec'l(i,j)+β (2-1)

54、其中predc(i,j)表示在cu中待预测的色度样本,rec'l(i,j)表示同一cu的下采样重建亮度样本。α和β分别对应线性模型的斜率和截距,由当前色度编码块相邻的4个参考色度像素和对应的下采样的4个亮度像素计算得到。

55、vvc标准的帧内色度预测模块包含3种cclm模式(lm,lm_l和lm_t模式),不同cclm模式使用的参考像素的选择方法也不同。假设当前块大小为w×h,上相邻像素位置由(0,-1),(1,-1)...(w+h-1,-1)表示,并且左相邻像素位置由(-1,0),(-1,1)...(-1,w+h-1)表示。则需要的4个像素的选择位置如下:

56、1)对于模式lm,选择的位置是(w/4,-1),(3w/4,-1),(-1,h/4)和(-1,3h/4)。

57、2)对于模式lm_t,选择的位置是((w+h)/8,-1),(3(w+h)/8,-1),(-1,5(w+h)/8)和(-1,7(w+h)/8)。

58、3)对于模式lm_l,选择的位置是(-1,(w+h)/8),(-1,3(w+h)/8),(5(w+h)/8,-1)和(-1,7(w+h)/8)。

59、图7中展示了不同cclm模式下4×4的编码块参考像素采样位置。

60、vvc标准采用低复杂度的最大最小方法来推导出线性模型中α和β的参数。在预定义的位置选择四个相邻的色度样本(c1、c2、c3、c4)及其相应的下采样亮度样本(y1、y2、y3、y4),按照亮度大小排序,较小的两对(y1,c1)和(y2,c2)取平均值,较大的两对(y3,c3)和(y4,c4)取平均值,形成两个亮度和色度样本对,表示为(ya,ca)和(yb,cb),然后通过公式2-2导出α和β。

61、

62、(3)下采样滤波器

63、在vvc标准中,cclm技术的三种模式与色度预测候选模式列表中已有的五种模式(dm,planar,dc,hor和ver模式)会经过一系列代价比较,决策出最优模式,之后编码端会对最优模式进行熵编码,即最优模式所对应的编号进行编码,如表1所示。具体的编码过程如下:

64、1)若lm,lm_l,lm_t模式中的一种是最优模式,利用上下文模型ctx0将首位编码为1;若其他五种模式中的一种是最优模式,利用上下文模型ctx0将首位编码为0。

65、2)当最优模式的首位编码为1时,继续判断最优模式是lm,lm_l,lm_t三种模式当中的哪一种。若最优模式是lm模式,则使用上下文模型ctx1将最优模式的第二位编码为0,编码结束;若最优模式不是lm模式,则使用上下文模型ctx1将最优模式的第二位编码为1;最后编码第三位时以旁路编码的方式进行,将lm_l模式编码为0,lm_t模式编码为1。

66、当最优模式的首位编码为0时,继续判断最优模式是五种模式当中的哪一种。若最优模式是dm模式,则用上下文模型ctx2将第二位编码为0,编码结束;若最优模式不是dm模式,则用上下文模型ctx2将第二位编码为1;接着使用旁路编码的方式编码其他四种模式,将planar模式编码为00,dc模式编码为11,hor模式编码为10,ver模式编码为01,编码结束。

67、1色度模式的熵编码

68、

69、

70、一方面,现有的cclm预测技术还存在一些缺陷,如对于复杂编码块的预测效果不佳,降低了去相关能力。

71、另一方面,近年来,深度学习在视频压缩领域的研究越来越受到重视。与传统的视频压缩算法相比,基于深度学习的算法能够充分利用网络的非线性特性以及大量的视频数据,有望显著提高压缩性能,为视频压缩系统提供了一种新的、切实可行的途径。目前,已经有研究者为编码器的各模块设计了初步的深度学习算法,取得了一定的成效,但缺乏系统性的深度学习优化方案,优化效果有待提高。


技术实现思路

1、本公开内容提出了用于在多功能视频编码(vvc)中。更具体而言,本公开内容用于基于非对称卷积的vvc帧内跨分量色度预测的方法、装置、编解码器以及处理器可读存储介质。

2、根据一个方面,一种用于基于非对称卷积的帧内跨分量色度预测的方法,包括:

3、利用非对称卷积,提取当前块的左侧和上方的亮度分量(y)和色度分量(u、v)的特征;

4、利用非对称卷积,提取已重建的亮度分量(y)的特征;

5、使用注意力机制,将所述相邻块的亮度分量和色度分量的特征和所述已重建的亮度分量的特征进行融合;以及

6、使用经过注意力机制融合后的特征通过预测头分支获得色度分量(u、v)预测值。

7、根据进一步的方面,其中,利用非对称卷积,提取当前块的左侧和上方的亮度分量(y)和色度分量(u、v)的特征进一步包括:

8、连续地先进行n×1的垂直非对称卷积再进行1×n的水平非对称卷积,以便提取当前块的左侧和上方的亮度分量(y)和色度分量(u、v)的特征。

9、根据进一步的方面,其中,利用非对称卷积,提取已重建的亮度分量的特征进一步包括:

10、利用卷积核为方形(n×n)、水平(1×n)和垂直(n×1)的三个平行卷积层,来提取已重建的亮度分量(y)的特征。

11、根据进一步的方面,其中,使用注意力机制,将所述相邻块的亮度分量和色度分量的特征和所述已重建的亮度分量的特征进行融合进一步包括:

12、将所述当前块的左侧和上方的亮度分量(y)和色度分量(u、v)的特征使用1×1核进行卷积,以得到第一特征矩阵;

13、将所述已重建的亮度分量(y)的特征使用1×1核进行卷积,以得到第二特征矩阵;

14、将所述第一特征矩阵与所述第二特征矩阵相乘,以得到预注意映射;

15、对所述预注意映射中的每个元素进行归一化指数运算,以得到注意力矩阵;

16、将所述注意力矩阵与所述当前块的左侧和上方的亮度分量(y)和色度分量(u、v)的特征进行相乘,以得到第三矩阵;

17、将所述第三矩阵使用1×1核进行卷积,以得到第四矩阵;

18、将所述已重建的亮度分量(y)的特征使用1×1核进行卷积,并与所述第四矩阵相乘,以得到第五矩阵;以及

19、将所述第五矩阵与第三矩阵进行连接。

20、根据进一步的方面,其中,使用经过注意力机制融合后的特征通过预测头分支获得色度分量(u、v)预测值进一步包括:

21、对使用经过注意力机制融合后的特征进行3x3卷积核1x1卷积。

22、根据进一步的方面,其中,所述当前块的左侧和上方的亮度分量(y)和色度分量(u、v)的特征是特征图,并且所述已重建的亮度分量(y)的特征是特征图。

23、根据进一步的方面,其中,利用非对称卷积,提取已重建的亮度分量的特征进一步包括:

24、利用修正的线性单元(relu)对三个平行卷积层的卷积结果进行激活。

25、根据进一步的方面,其中,利用非对称卷积,提取当前块的左侧和上方的亮度分量(y)和色度分量(u、v)的特征进一步包括:

26、不利用归一化层进行归一化。

27、根据进一步的方面,其中,n=3。

28、根据另一方面,提出了一种用于执行所述的方法的计算机程序产品。根据进一步的方面,该计算机程序产品具有非暂时性存储介质,其上存储有计算机代码/指令,当其被处理器执行时,可以实现本文所述的各种操作。

29、根据另一方面,提出了一种可用于视频编解码的设备,该设备包括:一个或多个处理器;存储器,其中存储有计算机代码,所述计算机代码当由所述处理器执行时,实现所述的方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1