基于多尺度特征融合的HEVC-SCC帧内CU快速划分编码方法及装置

文档序号：35210614发布日期：2023-08-24 04:42阅读：51来源：国知局

本发明涉及视频编码领域，特别涉及一种基于多尺度特征融合的hevc-scc帧内cu快速划分编码方法及装置。

背景技术：

1、随着计算机视觉、多媒体技术和人机交互等领域的快速发展，屏幕内容视频作为一种新型的视频表示形式，获得了越来越多的关注。与自然场景视频相比，屏幕内容视频具有丰富的锐利边缘、包含大量的平坦区域以及重复出现的图案文本，如果用传统的视频编码标准来处理屏幕内容视频，压缩效果往往不佳，会出现文本失真、图像模糊等问题。因此，联合视频编码组在高效视频编码标准的基础上开发了屏幕内容编码（screen contentcoding，scc）标准：hevc-scc。该标准通过沿用hevc的35种帧内预测模式和引入帧内块复制模式、调色板等模式，提高了屏幕内容视频的压缩效果，但计算复杂度也急剧增加。

2、由于hevc-scc采用了与hevc相同的基于四叉树的编码树单元（coding treeunit，ctu），需要自上而下从64×64的cu开始划分，直到划分成最小的8×8cu，然后再由下往上比较划分代价，通过对比划分前cu的率失真代价与划分成四个子cu的率失真代价之和决定是否划分。如果划分成四个子cu的率失真代价之和小于划分前cu的率失真代价，则编码时cu需要划分，否则不划分。复杂冗余的递归划分方式给scc编码器带来了巨大的计算负担。然而传统的快速算法依赖于手工提取的特征，其特征数量有限，只能对应特定序列的指定特征。得益于机器学习尤其是深度学习的成功，利用深度学习技术改进传统的编码器，提高了视频编码器的编码速度，加速了视频编码过程。然而现有技术的cnn结构学习能力有限，需要多次调用cu模型，无法保持rdc权衡。因此，基于上述问题的考量，在不影响主观质量的情况下降低屏幕内容视频cu划分的计算复杂度是设计scc编码器的关键挑战。

技术实现思路

1、本发明的主要目的在于克服现有技术中的上述缺陷，提出一种基于多尺度特征融合的hevc-scc帧内cu快速划分编码方法及装置，在主观质量不受影响的同时，能够节省编码时间，明显降低屏幕内容视频的计算复杂度，加速hevc-scc的编码过程。

2、本发明采用如下技术方案：

3、一方面，一种基于多尺度特征融合的hevc-scc帧内cu快速划分编码方法，包括：

4、数据集制作步骤，建立hevc-scc的cu划分数据集，获取不同量化参数下的hevc-scc的cu划分数据集真实标签；

5、网络模型构建步骤，构建包括输入层、预处理层、多尺度特征提取层、连接层、全连接层和输出层的网络模型mff-cnn；其中，多尺度特征提取层设置3个卷积核，经过每个卷积核后得到的特征图都会输入到连接层中，连接层中有9种不同尺度的特征图；

6、网络模型训练步骤，基于制作的数据集，对构建的网络模型进行训练，获得训练好的网络模型mff-cnn；

7、网络模型预测步骤，将提取亮度信息的ctu输入到训练好的mff-cnn，获得网络预测标签；

8、编码步骤，根据网络预测标签，为不同类型序列赋不同阈值以进行编码。

9、优选的，所述的数据集包括：训练集、验证集和测试集；所述训练集、验证集和测试集中的每一个集均包含三个子集；第一个子集的分辨率为1024×576，第二个子集的分辨率为1792×1024，第三个子集为2304×1280。

10、优选的，所述量化参数包括四个量化等级，分别为22、27、32和37。

11、优选的，输入的视频经过处理后，被划分成一个个64×64的ctu，提取其中的亮度信息后送入网络模型中；网络模型一共有三条分支，三条分支经网络处理后生成21个标签，表示ctu是否要划分。

12、优选的，网络模型的预处理层用于ctu的亮度矩阵与图像整体的平均亮度做差，同时还有选择性地对第一条分支a1和第二条分支a2进行下采样操作。

13、优选的，网络的多尺度特征提取层设置3个卷积核，经过每个卷积核后得到的特征图都会输入到连接层中。

14、优选的，网络模型的全连接层的特征向量中添加有量化参数qp。

15、优选的，根据网络预测标签，为不同类型序列赋不同阈值以进行编码，具体包括：

16、为不同类型序列赋不同阈，其中，m类视频阈值为826491，tgm类视频阈值为648291，a和cc类视频阈值为556482；

17、编码器调用网络预测的cu划分标签，如果标签值为1，则需要划分，如果标签值为0，则不需要划分。

18、优选的，所述网络模型的损失函数如下：

19、

20、其中，表示真实值和预测值的交叉熵，、、分别表示第一级64×64、第二级32×32、第三级16×16cu的真实划分标签，表示64×64ctu的真实划分标签，,则表示4个32×32ctu的真实划分标签，则表示4×4个16×16ctu的真实划分标签；同理，、、分别表示第一级64×64、第二级32×32、第三级16×16的预测标签，表示64×64ctu的预测划分标签，,则表示4个32×32ctu的预测划分标签，则表示4×4个16×16ctu的预测划分标签；网络的预测标签和真实标签都经过了二值化，范围在[0，1]之间。

21、另一方面，一种基于多尺度特征融合的hevc-scc帧内cu快速划分编码装置，包括：

22、数据集制作模块，建立hevc-scc的cu划分数据集，获取不同量化参数下的hevc-scc的cu划分数据集真实标签；

23、网络模型构建模块，构建包括输入层、预处理层、多尺度特征提取层、连接层、全连接层和输出层的网络模型mff-cnn；其中，多尺度特征提取层设置3个卷积核，经过每个卷积核后得到的特征图都会输入到连接层中，连接层中有9种不同尺度的特征图；

24、网络模型训练模块，基于制作的数据集，对构建的网络模型进行训练，获得训练好的网络模型mff-cnn；

25、网络模型预测模块，将提取亮度信息的ctu输入到训练好的mff-cnn，获得网络预测标签；

26、编码模块，根据网络预测标签，为不同类型序列赋不同阈值以进行编码。

27、与现有技术相比，本发明的有益效果如下：

28、（1）本发明首先搭建数据库，构建基于多尺度特征融合的卷积神经网络模型，并训练基于多尺度特征融合的卷积神经网络模型；其次将输入的ctu通过多尺度特征融合卷积神经网络，输出预测标签；最后为不同类型序列赋不同阈值，根据预测标签指导平台进行编码，从而跳过不必要的深度遍历；基于多尺度特征融合的hevc-scc帧内cu快速划分编码方法，能够节省编码时间，明显降低屏幕内容视频的计算复杂度；

29、（2）本发明通过自制的数据集能提升训练数据集内容的多样性，尽可能多方面、宽领域、多角度地符合屏幕内容视频测试序列所包含的特征；

30、（3）本发明采用多尺度特征融合的网络结构，每个卷积核后得到的特征图都会输入到连接层中，通过在多个尺度上卷积再聚合，可以增加特征，提升训练效果，提高预测精度；

31、（4）本发明通过对不同类型的视频序列设置双阈值，降低了标签预测的错误率，实现计算复杂度和时间节省的良好权衡。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈婧李志鸿曾焕强林琦朱建清
技术所有人：华侨大学
我是此专利的发明人

上一篇：前端业务的打包方法及相关设备与流程
上一篇：启动芯片的方法、电子设备及可读存储介质与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。