本发明涉及的是一种图像处理领域的技术,具体是一种基于光流的无参考视频稳定性质量评价系统。
背景技术:
1、用户生成内容(ugc,user generated content)视频通常会出现严重失真,例如模糊、低光照和抖动,从而降低观看者的体验质量(qoe,quality of experience)。在这些失真类别中,抖动是最降低观看者的体验质量的一种,它可能会导致观看者头晕,这是由相机握持不稳定引起的。尽管近年来提出了大量视频稳定算法来消除抖动但是没有具体且准确的指标来评估视频稳定性。
技术实现思路
1、本发明针对现有视频质量评价技术无法较高准确度评价拍摄视频的稳定性,从而无法得到精确的稳定性分数的不足,提出一种基于光流的无参考视频稳定性质量评价系统,通过特征张量融合加强了提取出的视频各类特征的表达性和视频各类特征的可融合性,提高了视频全局特征张量对于整个视频的表达能力,从而使得最终的视频回归器能回归出更加精确的视频稳定性分数。
2、本发明是通过以下技术方案实现的:
3、本发明涉及一种基于光流的无参考视频稳定性质量评价系统,包括:特征提取模块、特征融合模块和质量分数回归模块,其中:特征提取模块从输入的待评价视频中分别提取出光流特征、语义特征和模糊特征;特征融合模块将提取到的所有特征融合为视频全局特征;质量分数回归模块根据视频全局特征预测得到稳定性质量分数。
4、所述的特征提取模块包括:光流特征提取单元、语义特征提取单元和模糊特征提取单元,其中:光流特征提取单元通过光流提取方法从待评价视频中提取得到视频光流信息后再通过三维深度神经网络从待评价视频中提取出完整光流特征张量;语义特征提取单元使用swin transformer从待评价视频中提取图像场上的语义特征;模糊特征提取单元通过对待评价视频在时间上进行下采样后使用二维深度神经网络提取出整个视频的模糊特征张量。
5、所述的三维深度神经网络,采用但不限于3d resnet实现。
6、所述的特征融合是指:将特征提取步骤得到的光流特征张量、语义特征张量以及模糊特征张量通过平均池化层得到同样的维度后,通过拼接得到视频全局特征张量。
7、所述的质量分数回归是指:将特征融合后的视频全局特征张量通过多层感知器(mlp)回归得到稳定性质量分数。
8、技术效果
9、本发明通过使用三个深度神经网络,分别从视频及其光流中提取光流特征、语义特征和模糊特征,能够准确预测视频的稳定性质量分数,其准确度超过目前现有的视频质量评估模型。
1.一种基于光流的无参考视频稳定性质量评价系统,其特征在于,包括:特征提取模块、特征融合模块和质量分数回归模块,其中:特征提取模块从输入的待评价视频中分别提取出光流特征、语义特征和模糊特征;特征融合模块将提取到的所有特征融合为视频全局特征;质量分数回归模块根据视频全局特征预测得到稳定性质量分数。
2.根据权利要求1所述的基于光流的无参考视频稳定性质量评价系统,其特征是,所述的特征提取模块包括:光流特征提取单元、语义特征提取单元和模糊特征提取单元,其中:光流特征提取单元通过光流提取方法从待评价视频中提取得到视频光流信息后再通过三维深度神经网络从待评价视频中提取出完整光流特征张量;语义特征提取单元使用swintransformer从待评价视频中提取图像场上的语义特征;模糊特征提取单元通过对待评价视频在时间上进行下采样后使用二维深度神经网络提取出整个视频的模糊特征张量。
3.根据权利要求1所述的基于光流的无参考视频稳定性质量评价系统,其特征是,所述的特征融合是指:将特征提取步骤得到的光流特征张量、语义特征张量以及模糊特征张量通过平均池化层得到同样的维度后,通过拼接得到视频全局特征张量。
4.根据权利要求1所述的基于光流的无参考视频稳定性质量评价系统,其特征是,所述的质量分数回归是指:将特征融合后的视频全局特征张量通过多层感知器(mlp)回归得到稳定性质量分数。
5.一种根据权利要求1-4中任一所述系统的基于光流的无参考视频稳定性质量评价方法,其特征在于,包括: