基于多尺度特征融合的HEVC-SCC帧内CU快速划分编码方法及装置

文档序号:35210614发布日期:2023-08-24 04:42阅读:51来源:国知局
基于多尺度特征融合的HEVC-SCC帧内CU快速划分编码方法及装置

本发明涉及视频编码领域,特别涉及一种基于多尺度特征融合的hevc-scc帧内cu快速划分编码方法及装置。


背景技术:

1、随着计算机视觉、多媒体技术和人机交互等领域的快速发展,屏幕内容视频作为一种新型的视频表示形式,获得了越来越多的关注。与自然场景视频相比,屏幕内容视频具有丰富的锐利边缘、包含大量的平坦区域以及重复出现的图案文本,如果用传统的视频编码标准来处理屏幕内容视频,压缩效果往往不佳,会出现文本失真、图像模糊等问题。因此,联合视频编码组在高效视频编码标准的基础上开发了屏幕内容编码(screen contentcoding,scc)标准:hevc-scc。该标准通过沿用hevc的35种帧内预测模式和引入帧内块复制模式、调色板等模式,提高了屏幕内容视频的压缩效果,但计算复杂度也急剧增加。

2、由于hevc-scc采用了与hevc相同的基于四叉树的编码树单元(coding treeunit,ctu),需要自上而下从64×64的cu开始划分,直到划分成最小的8×8cu,然后再由下往上比较划分代价,通过对比划分前cu的率失真代价与划分成四个子cu的率失真代价之和决定是否划分。如果划分成四个子cu的率失真代价之和小于划分前cu的率失真代价,则编码时cu需要划分,否则不划分。复杂冗余的递归划分方式给scc编码器带来了巨大的计算负担。然而传统的快速算法依赖于手工提取的特征,其特征数量有限,只能对应特定序列的指定特征。得益于机器学习尤其是深度学习的成功,利用深度学习技术改进传统的编码器,提高了视频编码器的编码速度,加速了视频编码过程。然而现有技术的cnn结构学习能力有限,需要多次调用cu模型,无法保持rdc权衡。因此,基于上述问题的考量,在不影响主观质量的情况下降低屏幕内容视频cu划分的计算复杂度是设计scc编码器的关键挑战。


技术实现思路

1、本发明的主要目的在于克服现有技术中的上述缺陷,提出一种基于多尺度特征融合的hevc-scc帧内cu快速划分编码方法及装置,在主观质量不受影响的同时,能够节省编码时间,明显降低屏幕内容视频的计算复杂度,加速hevc-scc的编码过程。

2、本发明采用如下技术方案:

3、一方面,一种基于多尺度特征融合的hevc-scc帧内cu快速划分编码方法,包括:

4、数据集制作步骤,建立hevc-scc的cu划分数据集,获取不同量化参数下的hevc-scc的cu划分数据集真实标签;

5、网络模型构建步骤,构建包括输入层、预处理层、多尺度特征提取层、连接层、全连接层和输出层的网络模型mff-cnn;其中,多尺度特征提取层设置3个卷积核,经过每个卷积核后得到的特征图都会输入到连接层中,连接层中有9种不同尺度的特征图;

6、网络模型训练步骤,基于制作的数据集,对构建的网络模型进行训练,获得训练好的网络模型mff-cnn;

7、网络模型预测步骤,将提取亮度信息的ctu输入到训练好的mff-cnn,获得网络预测标签;

8、编码步骤,根据网络预测标签,为不同类型序列赋不同阈值以进行编码。

9、优选的,所述的数据集包括:训练集、验证集和测试集;所述训练集、验证集和测试集中的每一个集均包含三个子集;第一个子集的分辨率为1024×576,第二个子集的分辨率为1792×1024,第三个子集为2304×1280。

10、优选的,所述量化参数包括四个量化等级,分别为22、27、32和37。

11、优选的,输入的视频经过处理后,被划分成一个个64×64的ctu,提取其中的亮度信息后送入网络模型中;网络模型一共有三条分支,三条分支经网络处理后生成21个标签,表示ctu是否要划分。

12、优选的,网络模型的预处理层用于ctu的亮度矩阵与图像整体的平均亮度做差,同时还有选择性地对第一条分支a1和第二条分支a2进行下采样操作。

13、优选的,网络的多尺度特征提取层设置3个卷积核,经过每个卷积核后得到的特征图都会输入到连接层中。

14、优选的,网络模型的全连接层的特征向量中添加有量化参数qp。

15、优选的,根据网络预测标签,为不同类型序列赋不同阈值以进行编码,具体包括:

16、为不同类型序列赋不同阈,其中,m类视频阈值为826491,tgm类视频阈值为648291,a和cc类视频阈值为556482;

17、编码器调用网络预测的cu划分标签,如果标签值为1,则需要划分,如果标签值为0,则不需要划分。

18、优选的,所述网络模型的损失函数如下:

19、

20、其中,表示真实值和预测值的交叉熵,、、分别表示第一级64×64、第二级32×32、第三级16×16cu的真实划分标签,表示64×64ctu的真实划分标签,,则表示4个32×32ctu的真实划分标签,则表示4×4个16×16ctu的真实划分标签;同理,、、分别表示第一级64×64、第二级32×32、第三级16×16的预测标签,表示64×64ctu的预测划分标签,,则表示4个32×32ctu的预测划分标签,则表示4×4个16×16ctu的预测划分标签;网络的预测标签和真实标签都经过了二值化,范围在[0,1]之间。

21、另一方面,一种基于多尺度特征融合的hevc-scc帧内cu快速划分编码装置,包括:

22、数据集制作模块,建立hevc-scc的cu划分数据集,获取不同量化参数下的hevc-scc的cu划分数据集真实标签;

23、网络模型构建模块,构建包括输入层、预处理层、多尺度特征提取层、连接层、全连接层和输出层的网络模型mff-cnn;其中,多尺度特征提取层设置3个卷积核,经过每个卷积核后得到的特征图都会输入到连接层中,连接层中有9种不同尺度的特征图;

24、网络模型训练模块,基于制作的数据集,对构建的网络模型进行训练,获得训练好的网络模型mff-cnn;

25、网络模型预测模块,将提取亮度信息的ctu输入到训练好的mff-cnn,获得网络预测标签;

26、编码模块,根据网络预测标签,为不同类型序列赋不同阈值以进行编码。

27、与现有技术相比,本发明的有益效果如下:

28、(1)本发明首先搭建数据库,构建基于多尺度特征融合的卷积神经网络模型,并训练基于多尺度特征融合的卷积神经网络模型;其次将输入的ctu通过多尺度特征融合卷积神经网络,输出预测标签;最后为不同类型序列赋不同阈值,根据预测标签指导平台进行编码,从而跳过不必要的深度遍历;基于多尺度特征融合的hevc-scc帧内cu快速划分编码方法,能够节省编码时间,明显降低屏幕内容视频的计算复杂度;

29、(2)本发明通过自制的数据集能提升训练数据集内容的多样性,尽可能多方面、宽领域、多角度地符合屏幕内容视频测试序列所包含的特征;

30、(3)本发明采用多尺度特征融合的网络结构,每个卷积核后得到的特征图都会输入到连接层中,通过在多个尺度上卷积再聚合,可以增加特征,提升训练效果,提高预测精度;

31、(4)本发明通过对不同类型的视频序列设置双阈值,降低了标签预测的错误率,实现计算复杂度和时间节省的良好权衡。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1