一种自适应选择参考帧的会话视频语义压缩框架及方法

文档序号:34764214发布日期:2023-07-13 06:40阅读:19来源:国知局
一种自适应选择参考帧的会话视频语义压缩框架及方法

本发明属于生成式视频压缩领域,具体涉及一种自适应选择参考帧的会话视频语义压缩框架及方法。


背景技术:

1、现有的视频压缩技术可分为:传统编码和基于深度学习编码。传统的视频压缩方法都是通过使用手工设计的模块,例如基于块的运动估计、离散余弦变换来减少空间和时间冗余,其中vvc是最先进的标准。端到端的全神经网络视频压缩方案也被提出,通过在整个模型中联合学习进行运动估计、运动压缩和残差压缩,可以直接进行端到端优化率失真目标函数达到全局最优。研究人员提出了一些基于生成式重建来实现语义视频压缩,这些方法往往传输人脸的特征表达,结合关键帧在解码端重建,从而可以在大幅度降低码率的同时保证视频重建质量。

2、目前的生成方案视频压缩对人脸的表现良好,在运动信息表征上,多采用的是线性变换估计运动信息,而大多数物体的运动是弯曲的,所以对于大幅度肢体动作变现不佳。在视频帧分类上,有些方法的关键帧是静态选取,导致视频序列为快速运动序列,视频无法高保真度复现;有的方法利用评比重建视频与原视频的psnr值是否达到阈值来判断是否刷新关键帧,视频重建质量不佳时,频繁刷新关键帧,gop过短会造成数据冗余问题,增加网络传输压力。


技术实现思路

1、针对现有技术的不足,本发明提出一种自适应选择参考帧的会话视频语义压缩框架及方法,采用非线性变换形式来估计图像的运动信息,使得重建更加的自然真实,同时提出自适应刷新参考帧,解决视频序列为快速运动序列时,视频重建质量差与关键帧频繁刷新数据冗余的问题。

2、一种自适应选择参考帧的会话视频语义压缩框架,具体包括:编码端和解码端;所述编码端,对完整的视频序列采样出关键帧,对所述关键帧用hevc编码得到码流1,并提取非关键帧的关键点数据以及背景运动系数、运动复杂度进行无损编码得到码流2;

3、所述编码端,具体包括:

4、1、关键帧采样单元,所述关键帧采样单元按采样间隔n对完整的视频序列采样,即每n帧采样一帧作为关键帧;

5、2、关键帧编码单元,所述的关键帧编码单元将关键帧看做一个新的视频序列并用hevc编码器对其进行编码,得到码流1;

6、3、关键点提取器单元,所述关键点提取单元利用基于卷积神经网络的关键点提取器,提取出每个非关键帧的若干个uint8类型的关键点;

7、4、背景运动提取器单元,所述背景运动提取器单元利用基于卷积神经网络的背景提取器,提取出每个非关键帧相对于关键帧的背景运动系数;

8、5、运动评估单元,所述运动评估单元利用关键帧和非关键帧的关键点集合得到稀疏光流图,获取运动复杂度;

9、6、非关键帧编码单元,所述非关键帧编码单元将关键点数据、背景运动系数、运动复杂度利用无损编码的方式进行编码,得到码流2;

10、所述解码端,对收到的码流1利用hevc的解码器进行解码,得到重建的关键帧,同时设置为参考帧;对收到码流2进行解码得到非关键帧的运动复杂度和关键点数据以及背景运动系数,更新参考帧,利用关键点数据、背景运动系数结合所述重建后的参考帧,对非关键帧进行重建;将所述重建后的关键帧与重建后的非关键帧组合,形成最终的视频序列;所述解码端,具体包括:

11、1、关键帧解码单元,所述关键帧解码单元利用hevc解码器对所述码流1进行解码,得到重建后的关键帧;

12、2、非关键帧解码单元,所述非关键帧解码单元对所述码流2进行解码,得到非关键帧的关键点数据、背景运动系数、运动复杂度;

13、3、参考帧单元,所述的参考帧单元根据当前帧运动复杂度与阈值的关系,选择存放当前帧重建的参考帧数据;

14、4、非关键帧重建单元,所述非关键帧重建单元利用解码的非关键帧数据,结合重建后的参考帧,利用自适应选择参考帧方法对非关键帧进行重建。

15、一种自适应选择参考帧的会话视频语义压缩方法,基于上述一种自适应选择参考帧的会话视频语义压缩框架实现,具体包括以下步骤:

16、步骤1:将待编码视频序列{fi}i=1,2,3,…,n的第一帧作为关键帧fi,将其它视频帧{fi}i=2,3,4,…,n默认作为非关键帧;

17、步骤2:若待编码帧为关键帧fi,则在编码端利用hevc编码器编码至解码端;若待编码帧为非关键帧fi,在编码端获取关键点集合背景运动系数以及运动复杂度δi,对关键点集合背景运动系数与运动复杂度δi进行无损编码至解码端;

18、对于所述非关键帧图像fi,使用基于卷积神经网络的关键点提取器提取得到关键点坐标集合

19、对于所述非关键帧fi在编码端获得背景运动系数将关键帧fi与非关键帧fi进行图像拼接输入基于卷积神经网络背景运动提取器中,输出非关键帧fi背景运动的仿射变换系数对于所述非关键帧fi在编码端获得运动复杂度δi,将关键帧fi使用基于卷积神经网络的关键点提取器提取到的关键点坐标集合hi=δ(fi),与所述的非关键帧fi在编码端获得关键点集合二者作差得到稀疏光流图,计算非关键帧上特征点的水平和垂直方向的光流速度的平均值,即可求得运动物体的宏观光流速度,为运动复杂度δi,如式3所示;

20、

21、

22、

23、假设有n个关键点,ux,vy分别为第j个关键点水平方向和垂直方向的光流速度,则分别为这些特征点在水平方向和垂直方向光流速度的平均值;

24、步骤3:在解码端,若待解码帧为关键帧,则利用hevc解码器解码获得关键帧重建帧令为解码端参考帧图像,同时关键帧重建帧通过关键点提取器获得关键点集合若待解码帧为非关键帧,则通过无损解码获得非关键帧关键点集合背景运动系数运动复杂度

25、步骤4:设置运动评估阈值τ,若解码端获取的待重建帧运动复杂度则解码端参考帧图像保持为若解码端获取的待重建帧运动复杂度则解码端参考帧图像更新为关键帧重建帧以及当前帧相邻前一帧的重建帧

26、步骤5:提取参考帧图像和待重建帧对应关键点集合,结合所述参考帧图像和所述关键点集合以及当前待重建帧的背景运动系数重建出当前帧

27、步骤a:读取参考帧图像以及对应关键点集合;

28、步骤b:若参考帧为单帧,利用和求解tps变换时所需的运动参数a1,a2,a3,wr,将运动参数与通过基于卷积神经网络的密集光流网络计算光流ti和多分辨率遮罩将ti,以及共同输入图像生成网络中得到重建图像

29、步骤c:若参考帧为多帧,利用和求解tps变换时所需的运动参数a1,a2,a3,wr1;将运动参数与通过基于卷积神经网络的密集光流网络计算光流ti1和多分辨率遮罩将ti1,以及共同输入图像生成网络中得到重建图像利用和求解tps变换时所需的运动参数b1,b2,b3,wr2;将运动参数通过卷积神经网络的密集光流网络计算光流ti2和多分辨率遮罩将ti2,以及共同输入图像生成网络中得到重建图像将与输入图像融合模块,得到重建图像

30、所述的求解变换运动参数,计算公式如式4:

31、

32、其中(xi,yi)为关键点坐标,(xj,,yj)为关键点坐标,系数a1,a2,a3为线性变换系数,wr为非线性变换权重,u(||(xj,,yj)-(xi,,yi)||)为l2范数,这里面双调和方程u(r)=r2log r2,

33、所述图像生成网络将输入编码器,光流用于变换每层特征图;通过预测的mk(p)进行图像遮挡后变换的特征图;通过跳跃连接与上层解码器输出融合特征;通过两个残差网络即上采样层,生成重建图像;

34、将待编码的完整视频序列在时域上以n为时间间隔分割成不同的视频序列,所述n为大于3的整数,n的取值可以根据处理的视频序列不同和所需gop不同而自适应调节,重复步骤1~5直至完成所有视频的编码解码。

35、本发明有益技术效果:

36、本发明重建出的视频帧图像表现良好,且由于只采用了关键帧图像以及关键点作为特征的表征进行传输,在编解码传输过程中只会占用较少的带宽,使得码率相比传统方法大幅度的下降。与其他方法相比,在面对快速大姿态运动时,由于动态的选取参考帧,在重建质量上明显优于其他方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1