视频画质增强模型的构建方法、视频画质增强方法及装置与流程

文档序号:30088590发布日期:2022-05-18 07:22阅读:71来源:国知局
视频画质增强模型的构建方法、视频画质增强方法及装置与流程

1.本发明涉及图像处理技术领域,更具体的,涉及一种视频画质增强模型的构建方法、视频画质增强方法及装置。


背景技术:

2.随着时代发展,人们对视频画质的要求不断提高。但是,目前存在大量由于拍摄设备落后、拍摄技术差、以及视频在制作、转码、传输过程中画质损伤等因素造成低质量视频,严重影响观看体验,同等条件下还会增加额外的码率开销。因此,对低质量视频进行画质提升有着重要意义。
3.视频画质增强一般分为传统方法和深度学习方法。传统的视频增强方法大多是专家根据视频的属性信息(亮度、色彩、色温等)而制定的一套增强规则,增强效果依赖于经验,准确性较低。现有深度学习方法大多针对某一种特殊情景进行研究,训练出一个端到端的模型,通用性不强。


技术实现要素:

4.有鉴于此,本发明提供了一种视频画质增强模型的构建方法、视频画质增强方法及装置,实现对视频帧的清晰度增强、色彩增强和分辨率增强,通用性强且增强效果好。
5.为了实现上述发明目的,本发明提供的具体技术方案如下:
6.一种视频画质增强模型的构建方法,包括:
7.获取清晰度增强模型训练数据、分辨率增强模型训练数据和色彩增强模型训练数据;
8.利用所述清晰度增强模型训练数据对自编码网络进行训练,得到清晰度增强模型,所述自编码网络包括编码器和解码器,所述编码器和所述解码器分别由卷积神经网络组成;
9.利用所述色彩增强模型训练数据对双路生成式对抗网络进行训练,得到色彩增强模型;
10.利用所述分辨率增强模型训练数据对卷积神经网络进行训练,得到分辨率增强模型;
11.将所述清晰度增强模型、所述色彩增强模型和所述分辨率增强模型转换为预设格式,并将其按照清晰度增强-色彩增强-分辨率增强的顺序集成在视频转码程序中。
12.可选的,所述自编码网络还包括噪声估计子网络,所述噪声估计子网络是利用噪声估计训练数据对卷积神经网络进行训练后得到的。
13.可选的,所述利用所述清晰度增强模型训练数据对自编码网络进行训练,得到清晰度增强模型,包括:
14.将所述清晰度增强模型训练数据输入所述噪声估计子网络,得到所述清晰度增强模型训练数据的噪声值;
15.将所述清晰度增强模型训练数据和所述噪声值依次输入所述编码器和所述解码器,得到所述自编码网络的输出数据;
16.将所述自编码网络的输出数据和所述清晰度增强模型训练数据的真实参考图像数据输入第一损失函数,得到所述第一损失函数的输出值;
17.当所述第一损失函数的输出值收敛时,得到所述清晰度增强模型。
18.可选的,所述第一损失函数为最小绝对值偏差函数l1-loss、最小平方误差函数l2-loss与平滑损失函数smoth-loss的加权和。
19.可选的,所述利用所述色彩增强模型训练数据对双路生成式对抗网络进行训练,得到色彩增强模型,包括:
20.将所述色彩增强模型训练数据输入所述双路生成式对抗网络,得到所述双路生成式对抗网络的输出数据;
21.将所述双路生成式对抗网络的输出数据和所述色彩增强模型训练数据的真实参考图像数据输入第二损失函数,得到所述第二损失函数的输出值,所述第二损失函数为循环一致性损耗函数;
22.当所述第二损失函数的输出值收敛时,得到所述色彩增强模型。
23.可选的,所述分辨率增强模型对应的卷积神经网络以残差网络为基本模块,各残差网络之间加入预设级联机制。
24.可选的,所述利用所述分辨率增强模型训练数据对卷积神经网络进行训练,得到分辨率增强模型,包括:
25.将所述分辨率增强模型训练数据输入卷积神经网络,得到该卷积神经网络的输出数据;
26.将该卷积神经网络的输出数据和所述分辨率增强模型训练数据的真实参考图像数据输入第三损失函数,得到所述第三损失函数的输出值,所述第三损失函数为基于特征金字塔的函数;
27.当所述第三损失函数的输出值收敛时,得到所述分辨率增强模型。
28.一种视频画质增强方法,包括:
29.在接收到视频画质增强请求的情况下,对所述视频画质增强请求进行解析,得到待增强视频帧和增强处理选项,所述增强处理选项至少为清晰度增强选项、色彩增强选项和分辨率增强选项中的任意一个选项;
30.将所述待增强视频帧输入与所述增强处理选项对应的视频画质增强模型中,得到视频画质增强处理后的视频帧,其中,所述视频画质增强模型是根据上述实施例公开的一种视频画质增强模型的构建方法预先构建的,所述清晰度增强选项对应清晰度增强模型,所述色彩增强选项对应色彩增强模型,所述分辨率增强选项对应分辨率增强模型。
31.可选的,当所述视频画质增强请求中包括一个以上所述增强处理选项时,所述将所述待增强视频帧输入与所述增强处理选项对应的视频画质增强模型中,得到视频画质增强处理后的视频帧,包括:
32.按照清晰度增强-色彩增强-分辨率增强的顺序,将所述待增强视频帧输入与所述增强处理选项对应的视频画质增强模型中,得到视频画质增强处理后的视频帧。
33.一种视频画质增强模型的构建装置,包括:
34.训练数据获取单元,用于获取清晰度增强模型训练数据、分辨率增强模型训练数据和色彩增强模型训练数据;
35.清晰度增强模型构建单元,用于利用所述清晰度增强模型训练数据对自编码网络进行训练,得到清晰度增强模型,所述自编码网络包括编码器和解码器,所述编码器和所述解码器分别由卷积神经网络组成;
36.色彩增强模型构建单元,用于利用所述色彩增强模型训练数据对双路生成式对抗网络进行训练,得到色彩增强模型;
37.分辨率增强模型构建单元,用于利用所述分辨率增强模型训练数据对卷积神经网络进行训练,得到分辨率增强模型;
38.模型集成单元,用于将所述清晰度增强模型、所述色彩增强模型和所述分辨率增强模型转换为预设格式,并将其按照清晰度增强-色彩增强-分辨率增强的顺序集成在视频转码程序中。
39.可选的,所述自编码网络还包括噪声估计子网络,所述噪声估计子网络是利用噪声估计训练数据对卷积神经网络进行训练后得到的。
40.可选的,所述清晰度增强模型构建单元,具体用于:
41.将所述清晰度增强模型训练数据输入所述噪声估计子网络,得到所述清晰度增强模型训练数据的噪声值;
42.将所述清晰度增强模型训练数据和所述噪声值依次输入所述编码器和所述解码器,得到所述自编码网络的输出数据;
43.将所述自编码网络的输出数据和所述清晰度增强模型训练数据的真实参考图像数据输入第一损失函数,得到所述第一损失函数的输出值;
44.当所述第一损失函数的输出值收敛时,得到所述清晰度增强模型。
45.可选的,所述第一损失函数为最小绝对值偏差函数l1-loss、最小平方误差函数l2-loss与平滑损失函数smoth-loss的加权和。
46.可选的,所述色彩增强模型构建单元,具体用于:
47.将所述色彩增强模型训练数据输入所述双路生成式对抗网络,得到所述双路生成式对抗网络的输出数据;
48.将所述双路生成式对抗网络的输出数据和所述色彩增强模型训练数据的真实参考图像数据输入第二损失函数,得到所述第二损失函数的输出值,所述第二损失函数为循环一致性损耗函数;
49.当所述第二损失函数的输出值收敛时,得到所述色彩增强模型。
50.可选的,所述分辨率增强模型对应的卷积神经网络以残差网络为基本模块,各残差网络之间加入预设级联机制。
51.可选的,所述分辨率增强模型构建单元,具体用于:
52.将所述分辨率增强模型训练数据输入卷积神经网络,得到该卷积神经网络的输出数据;
53.将该卷积神经网络的输出数据和所述分辨率增强模型训练数据的真实参考图像数据输入第三损失函数,得到所述第三损失函数的输出值,所述第三损失函数为基于特征金字塔的函数;
54.当所述第三损失函数的输出值收敛时,得到所述分辨率增强模型。
55.一种视频画质增强装置,包括:
56.增强请求解析单元,用于在接收到视频画质增强请求的情况下,对所述视频画质增强请求进行解析,得到待增强视频帧和增强处理选项,所述增强处理选项至少为清晰度增强选项、色彩增强选项和分辨率增强选项中的任意一个选项;
57.增强处理单元,用于将所述待增强视频帧输入与所述增强处理选项对应的视频画质增强模型中,得到视频画质增强处理后的视频帧,其中,所述视频画质增强模型是根据上述实施例公开的一种视频画质增强模型的构建方法预先构建的,所述清晰度增强选项对应清晰度增强模型,所述色彩增强选项对应色彩增强模型,所述分辨率增强选项对应分辨率增强模型。
58.可选的,当所述视频画质增强请求中包括一个以上所述增强处理选项时,所述增强处理单元,具体用于按照清晰度增强-色彩增强-分辨率增强的顺序,将所述待增强视频帧输入与所述增强处理选项对应的视频画质增强模型中,得到视频画质增强处理后的视频帧。
59.相对于现有技术,本发明的有益效果如下:
60.本发明公开的一种视频画质增强模型的构建方法,利用机器学习方法,通过构建清晰度增强模型、色彩增强模型和分辨率增强模型,并将其按照清晰度增强-色彩增强-分辨率增强的顺序集成在视频转码程序中,根据用户的视频画质增强请求,实现在视频转码程序中对视频画质的清晰度增强和/或色彩增强和/或分辨率增强,满足用户不同的视频画质增强请求,提高了视频画质增强方法的通用性。
附图说明
61.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
62.图1为本发明实施例公开的一种视频画质增强模型的构建方法的流程示意图;
63.图2为本发明实施例公开的自编码网络的结构示意图;
64.图3为本发明实施例公开的单路生成式对抗网络结构示意图;
65.图4为本发明实施例公开的卷积神经网络模型的结构示意图;
66.图5为本发明实施例公开的一种视频画质增强方法的流程示意图;
67.图6为本发明实施例公开的一种视频画质增强模型的构建装置的结构示意图;
68.图7为本发明实施例公开的一种视频画质增强装置的结构示意图。
具体实施方式
69.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
70.请参阅图1,本发明实施例公开了一种视频画质增强模型的构建方法,具体包括以下步骤:
71.s101:获取清晰度增强模型训练数据、分辨率增强模型训练数据和色彩增强模型训练数据;
72.清晰度增强主要分为去噪和去模糊,此处的噪声包括高斯噪声、压缩噪声等;此处的模糊指的是最常见的运动模糊。因此,清晰度增强模型训练数据一方面来自于视频平台线上实际的低清晰度视频,另一方面由不同规则模拟生成,即加入随机噪声、采用不同的算子做滤波等,并设计出符合真实低质量视频分布的数据扩充规则。
73.分辨率增强模型训练数据一部分采用视频平台真实低分辨率视频,一部分由脚本模拟生成,即在缩小图像尺寸的同时加入一些随机噪声或者不同算子的滤波等,旨在生成接近真实低分辨率视频的数据。
74.本实施例中用于训练色彩增强模型的是双路生成式对抗网络,进行端到端的非监督训练,因此,色彩增强模型训练数据为视频平台的片库资源,即只需收集我们希望达到的色彩效果的一组图片即可。
75.s102:利用清晰度增强模型训练数据对自编码网络进行训练,得到清晰度增强模型,自编码网络包括编码器和解码器,编码器和解码器分别由卷积神经网络组成;
76.用于训练清晰度增强模型的自编码网络包括编码器和解码器,请参阅图2,左半部分为编码器,右半部分为解码器,均为11个卷积层和2个池化层。表示特征图,表示卷积层,表示池化层,表示上采样层,在编码器中,首先将输入数据经过多层卷积层和池化层逐步转换成空间尺寸为1*1、通道数为256的特征图,然后在解码器中将其转换回输入数据的原始尺寸和通道数。
77.网络结构中各特征图之间广泛采用跳跃连接结构,用于组合不同卷积层的信息,有利于梯度传播和加速收敛。编码器和解码器结构均采用残差网络resnet作为基本模块。
78.为了能够处理不同低清晰度情况的视频,我们设计了一个噪声估计子网络,训练数据在进入编码器前先进入噪声估计网络,将训练数据和噪声估计网络的输出的噪声值同时依次输入编码器和解码器,从而得到鲁棒的输出。
79.噪声估计子网络采用的是普通的全卷积网络,其训练过程中的输出真实参考值即模拟生成噪声图时的噪声大小,该网络的嵌入能够使网络整体对输入图像噪声大小不敏感。
80.为了保证清晰度增强模型的训练效果,本实施例通过第一损失函数估计训练效果,第一损失函数为最小绝对值偏差函数l1-loss、最小平方误差函数l2-loss与平滑损失函数smoth-loss的加权和,,既能保证网络的快速收敛,又能保证模型训练的的稳定性。
81.训练数据经过整个自编码网络后的输出与真实参考图像数据一起输入第一损失loss函数,并将结果进行backward回传,用于更新网络参数的值。优化器采用pytorch框架自带的adam方法,参数β1=0.9,β2=0.999,batch_size设为16,初始学习率设为0.001连续训练100个epoch,后续采用分段递减的策略,即每20个epoch学习率降为之前的10%,以此进行有监督训练。
82.s103:利用色彩增强模型训练数据对双路生成式对抗网络进行训练,得到色彩增强模型;
83.双路生成式对抗网络gan结构,充分利用gan在图像生成方面的优势,依托视频平台的片库资源,进行端到端的非监督训练。单路gan的结构如图3所示,双路gan就是两个单路gan并列,相互之间再加入一些联结机制。生成器(generator)用于生成色彩增强的图像,鉴别器(discriminator)区分真实的目标图像与生成器生成的增强图像。我们把调色问题理解为图像翻译问题,即把一种风格的图像翻译成另一种风格的图像。我们借鉴风格迁移算法cycle-gan,第二损失函数采用循环一致性损耗函数(cycle consistency loss),大大降低了gan网络训练过程中不稳定情况的发生。与其他任务不同,色彩增强很难找到训练数据对,我们采用gan网络做非监督训练,只需收集我们希望达到的色彩效果的一组图片即可,大大降低了数据收集的难度。训练过程中参数batch size设为4,生成器和鉴别器学习率设为0.00001,对学习率同样采用分段递减的策略进行非监督训练。
84.s104:利用分辨率增强模型训练数据对卷积神经网络进行训练,得到分辨率增强模型;
85.请参阅图4,用于训练分辨率增强模型的卷积神经网络以resnet做为基本模块,为了减少总体参数量,在各resnet模块间加入级联机制,即将中间层的输出级联到更高的层,最终收敛于最后一层卷积层。网络的第一层和最后一层均为卷积核为1*1的均值平移层,分别完成去均值化和其逆运算,在训练中不需要更新参数。其余各卷积层卷积核大小均为3*3,激活函数采用relu。上采样层采用pixelshuffle,对输出特征图做增倍处理。
86.上述卷积神经网络通过第三损失函数来评估训练效果,第三损失函数设计采用特征金字塔思想,使用一些中间层和最终输出层的多项式和作为最终表达式。网络的浅层包含较多的基本信息,包括纹理、线条等,网络的高层包含较多的语义信息,采用特征金字塔的思想设计loss函数的优势在于能够在实现图像超分辨率的同时对一些细节部分进行精细刻画,充分学到低分辨率图像到高分辨率图像的整体和细节映射关系。
87.优化器采用adam方法,参数batch size设为64,初始学习率设为0.0001,对学习率同样采用分段递减的策略进行有监督训练。
88.s105:将清晰度增强模型、色彩增强模型和分辨率增强模型转换为预设格式,并将其按照清晰度增强-色彩增强-分辨率增强的顺序集成在视频转码程序中。
89.本发明实施例中的模型训练算法均采用pytorch框架开发,网络结构设计完成后,算法在nvidia公司的tesla p40型号gpu上做训练。根据算法的训练输出不断调整训练参数,使算法最终收敛于一个理想精度之下。将训练所得模型转换为tensorflow框架的pb格式,使其能够被集成于ffmpeg转码流程之中。最终使用流程大致为:源视频

解码为视频帧

视频场景分割

根据需要选取不同模型组合进行视频增强

视频帧合并输出。
90.本实施例还公开了一种视频画质增强方法,利用上述实施例构建的视频画质增强模型进行视频画质增强处理,请参阅图5,该方法包括以下步骤:
91.s201:在接收到视频画质增强请求的情况下,对视频画质增强请求进行解析,得到待增强视频帧和增强处理选项,增强处理选项至少为清晰度增强选项、色彩增强选项和分辨率增强选项中的任意一个选项;
92.也就是说,根据用户对不同视频帧的增强需求发送相应的视频画质增强请求,该请求中的增强处理选项可以为清晰度增强选项、色彩增强选项和分辨率增强选项中的任意一个选项,也可以为其中的任意两个选项,还可以为全部三个选项。
93.s202:将待增强视频帧输入与增强处理选项对应的视频画质增强模型中,得到视频画质增强处理后的视频帧,其中,清晰度增强选项对应清晰度增强模型,色彩增强选项对应色彩增强模型,分辨率增强选项对应分辨率增强模型。
94.当视频画质增强请求中包括一个以上增强处理选项时,按照清晰度增强-色彩增强-分辨率增强的顺序,将待增强视频帧输入与增强处理选项对应的视频画质增强模型中,得到视频画质增强处理后的视频帧。
95.以视频画质增强请求包括清晰度增强选项、色彩增强选项和分辨率增强选项为例,将待增强视频帧输入清晰度增强模型,清晰度增强模型的输出结果输入到色彩增强模型,色彩增强模型的输出结果输入到分辨率增强模型,分辨率增强模型的输出结果即为视频画质增强处理后的视频帧。
96.可见本实施例公开的一种视频画质增强方法,利用机器学习方法,通过构建清晰度增强模型、色彩增强模型和分辨率增强模型,并将其按照清晰度增强-色彩增强-分辨率增强的顺序集成在视频转码程序中,根据用户的视频画质增强请求,实现在视频转码程序中对视频画质的清晰度增强和/或色彩增强和/或分辨率增强,满足用户不同的视频画质增强请求,提高了视频画质增强方法的通用性。
97.基于上述实施例公开的一种视频画质增强模型的构建方法,本实施例对应公开了一种视频画质增强模型的构建装置,请参阅图6,该装置包括:
98.训练数据获取单元401,用于获取清晰度增强模型训练数据、分辨率增强模型训练数据和色彩增强模型训练数据;
99.清晰度增强模型构建单元402,用于利用所述清晰度增强模型训练数据对自编码网络进行训练,得到清晰度增强模型,所述自编码网络包括编码器和解码器,所述编码器和所述解码器分别由卷积神经网络组成;
100.色彩增强模型构建单元,用于利用所述色彩增强模型训练数据对双路生成式对抗网络进行训练403,得到色彩增强模型;
101.分辨率增强模型构建单元,用于利用所述分辨率增强模型训练数据对卷积神经网络进行训练,得到分辨率增强模型;
102.模型集成单元404,用于将所述清晰度增强模型、所述色彩增强模型和所述分辨率增强模型转换为预设格式,并将其按照清晰度增强-色彩增强-分辨率增强的顺序集成在视频转码程序中。
103.可选的,所述自编码网络还包括噪声估计子网络,所述噪声估计子网络是利用噪声估计训练数据对卷积神经网络进行训练后得到的。
104.可选的,所述清晰度增强模型构建单元402,具体用于:
105.将所述清晰度增强模型训练数据输入所述噪声估计子网络,得到所述清晰度增强模型训练数据的噪声值;
106.将所述清晰度增强模型训练数据和所述噪声值依次输入所述编码器和所述解码器,得到所述自编码网络的输出数据;
107.将所述自编码网络的输出数据和所述清晰度增强模型训练数据的真实参考图像数据输入第一损失函数,得到所述第一损失函数的输出值;
108.当所述第一损失函数的输出值收敛时,得到所述清晰度增强模型。
109.可选的,所述第一损失函数为最小绝对值偏差函数l1-loss、最小平方误差函数l2-loss与平滑损失函数smoth-loss的加权和。
110.可选的,所述色彩增强模型构建单元403,具体用于:
111.将所述色彩增强模型训练数据输入所述双路生成式对抗网络,得到所述双路生成式对抗网络的输出数据;
112.将所述双路生成式对抗网络的输出数据和所述色彩增强模型训练数据的真实参考图像数据输入第二损失函数,得到所述第二损失函数的输出值,所述第二损失函数为循环一致性损耗函数;
113.当所述第二损失函数的输出值收敛时,得到所述色彩增强模型。
114.可选的,所述分辨率增强模型对应的卷积神经网络以残差网络为基本模块,各残差网络之间加入预设级联机制。
115.可选的,所述分辨率增强模型构建单元404,具体用于:
116.将所述分辨率增强模型训练数据输入卷积神经网络,得到该卷积神经网络的输出数据;
117.将该卷积神经网络的输出数据和所述分辨率增强模型训练数据的真实参考图像数据输入第三损失函数,得到所述第三损失函数的输出值,所述第三损失函数为基于特征金字塔的函数;
118.当所述第三损失函数的输出值收敛时,得到所述分辨率增强模型。
119.基于上述实施例公开的一种视频画质增强方法,本实施例对应公开了一种视频画质增强装置,请参阅图7,该装置包括:
120.增强请求解析单元501,用于在接收到视频画质增强请求的情况下,对所述视频画质增强请求进行解析,得到待增强视频帧和增强处理选项,所述增强处理选项至少为清晰度增强选项、色彩增强选项和分辨率增强选项中的任意一个选项;
121.增强处理单元502,用于将所述待增强视频帧输入与所述增强处理选项对应的视频画质增强模型中,得到视频画质增强处理后的视频帧,其中,所述视频画质增强模型是根据上述实施例公开的一种视频画质增强模型的构建方法预先构建的,所述清晰度增强选项对应清晰度增强模型,所述色彩增强选项对应色彩增强模型,所述分辨率增强选项对应分辨率增强模型。
122.可选的,当所述视频画质增强请求中包括一个以上所述增强处理选项时,所述增强处理单元,具体用于按照清晰度增强-色彩增强-分辨率增强的顺序,将所述待增强视频帧输入与所述增强处理选项对应的视频画质增强模型中,得到视频画质增强处理后的视频帧。
123.本实施例公开的一种视频画质增强模型的构建装置及视频画质增强装置,利用机器学习方法,通过构建清晰度增强模型、色彩增强模型和分辨率增强模型,并将其按照清晰度增强-色彩增强-分辨率增强的顺序集成在视频转码程序中,根据用户的视频画质增强请求,实现在视频转码程序中对视频画质的清晰度增强和/或色彩增强和/或分辨率增强,满足用户不同的视频画质增强请求,提高了视频画质增强方法的通用性。
124.上述各个实施例之间可任意组合,对所公开的实施例的上述说明,本说明书中各实施例中记载的特征可以相互替换或者组合,使本领域专业技术人员能够实现或使用本申
请。
125.对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1