基于音视频特征融合的视频质量评价方法、装置和设备与流程

文档序号：39405352发布日期：2024-09-18 11:38阅读：25来源：国知局

本发明一般涉及多媒体处理领域，并且更具体地，涉及基于音视频特征融合的视频质量评价方法、装置和设备。

背景技术：

1、随着抖音、netflix、youtube等视频应用平台日益普及，音视频内容剧增。用户不仅可以享受专业团队制作的音频和视频，还可以分享自己的音视频内容。视觉和听觉是我们用来从周围世界收集信息的最丰富的感官数据来源，对消费者来说，音频和视频的质量体验都很重要。

2、由于音视频在采集、制作和传输过程中容易出现各种复杂的、非线性的、混合的视频失真(如噪声、相机抖动、曝光过低)和音频失真(如背景噪声、风噪声、处理噪声)，这些都可能影响音视频内容的整体感知体验。特别是近年来人工智能生成视频技术的日益成熟，音频和视频共存的多媒体内容不断涌现，因此，亟需一个能有效分析音视频体验效果的综合质量评价算法，帮助评价生成内容质量的同时，进一步促进生成视频技术的改进与发展。

3、现有技术中视频质量评价方法往往针对于纯视频内容，采用的数据集并不包含音频信息，因此，所提出的方法并未考虑音频信息，因此无法适用于音视频共存的视频内容质量评价。此外，现有的音视频共存的数据集较少，目前结合音频和视频信息分析的多模态视频质量评价方法较少，现有技术的主要做法是分别提取音频特征和视频特征，然后简单融合后获取整体质量评价分数。但由于上述方法对两种模态信息的特征提取不够准确，也忽略了两种模态信息的交互作用，因此无法获取较好的性能。

技术实现思路

1、根据本发明的实施例，提供了一种基于音视频特征融合的视频质量评价方案。解决了现有技术中对音频和视频特征特征提取不准确，忽略两种模态信息的交互作用，仅进行简单融合获取整体质量评价分数，无法获取较好的性能的技术问题，实现语义特征的深层融合，有效提升算法的可靠性和有效性。

2、在本发明的第一方面，提供了一种基于音视频特征融合的视频质量评价方法。

3、该方法包括：获取视频段，提取视频段的关键帧，输入到transformer编码器中，得到视频段的视觉特征。

4、从视频段对应的音频段获取gaf频谱图，从gaf频谱图中提取对应音频段的频谱信息，并将对应音频段的频谱信息输入卷积模块，输出对应音频段的音频特征。

5、将视觉特征输入改进的transformer编码器，得到视频段的视觉语义特征；以及将对应音频段的音频特征输入resnet18卷积神经网络，得到对应音频段的音频语义特征。

6、将视频段的视觉语义特征和对应音频段的音频语义特征进行融合后输入全连接层，输出视频段的质量评价分数，对视频段进行质量评价。

7、在本发明的第二方面，提供了一种基于音视频特征融合的视频质量评价装置。

8、该装置包括：视觉特征获取模块，用于获取视频段，提取视频段的关键帧，输入到transformer编码器中，得到视频段的视觉特征。

9、音频特征获取模块，用于从视频段对应的音频段获取gaf频谱图，从gaf频谱图中提取对应音频段的频谱信息，并将对应音频段的频谱信息输入卷积模块，输出对应音频段的音频特征。

10、语义特征获取模块，用于将视觉特征输入改进的transformer编码器，得到视频段的视觉语义特征；以及将对应音频段的音频特征输入resnet18卷积神经网络，得到对应音频段的音频语义特征。

11、融合评价模块，用于将视频段的视觉语义特征和对应音频段的音频语义特征进行融合后输入全连接层，输出视频段的质量评价分数，对视频段进行质量评价。

12、在本发明的第三方面，提供了一种基于音视频特征融合的视频质量评价方法。

13、该方法包括：获取目标视频，对所述目标视频的视频数据和音频数据进行分段处理，得到若干个视频段以及对应的音频段。

14、从若干视频段中选择一视频段，利用上述的方法输出视频段的质量评价分数。

15、遍历目标视频的全部视频段，计算全部视频段的质量评价分数的平均值作为目标视频的质量评价分数，对目标视频进行质量评价。

16、在本发明的第四方面，提供了一种基于音视频特征融合的视频质量评价装置。

17、该装置包括：分段处理模块，用于获取视频数据，对所述视频数据的视频数据和音频数据进行分段处理，得到若干个视频段以及对应的音频段。

18、视频段质量评价模块，用于从若干视频段中选择一视频段，利用上述的方法输出视频段的质量评价分数。

19、目标视频质量评价模块，用于遍历目标视频的全部视频段，计算全部视频段的质量评价分数的平均值作为目标视频的质量评价分数，对目标视频进行质量评价。

20、在本发明的第五方面，提供了一种电子设备。该电子设备至少一个处理器；以及与所述至少一个处理器通信连接的存储器；所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明第一方面的方法。

21、在本发明的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本发明第一方面的方法。

22、应当理解，
技术实现要素：
部分中所描述的内容并非旨在限定本发明的实施例的关键或重要特征，亦非用于限制本发明的范围。本发明的其它特征将通过以下的描述变得容易理解。

技术特征：

1.一种基于音视频特征融合的视频质量评价方法，其特征在于，包括：

2.一种基于音视频特征融合的视频质量评价装置，其特征在于，包括：

3.一种基于音视频特征融合的视频质量评价方法，其特征在于，包括：

4.一种基于音视频特征融合的视频质量评价装置，其特征在于，包括：

5.一种电子设备，包括至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其特征在于，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1所述的方法。

6.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1所述的方法。

技术总结
本发明的实施例提供了基于音视频特征融合的视频质量评价方法、装置和设备。所述方法包括获取视频段的关键帧，输入到Transformer编码器中，得到视觉特征；从音频段获取GAF频谱图，提取对应的频谱信息，输入卷积模块，输出音频特征；将视觉特征输入改进的Transformer编码器，得到视觉语义特征；将音频特征输入ResNet18卷积神经网络，得到音频语义特征；将视觉语义特征和音频语义特征进行融合后输入全连接层，输出质量评价分数，进行质量评价。以此方式，可以解决现有技术中对音频和视频特征特征提取不准确，忽略交互作用，仅进行简单融合获取整体质量评价分数，无法获取较好的性能的技术问题。

技术研发人员：武靖恺,刘允,韩少野,徐波,吕景松,董玉杰,付立军,李鑫,代红梅,蒋金河
受保护的技术使用者：北斗数字信息产业发展（辽宁）有限公司
技术研发日：
技术公布日：2024/9/17

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：武靖恺,刘允,韩少野,徐波,吕景松,董玉杰,付立军,李鑫,代红梅,蒋金河
技术所有人：北斗数字信息产业发展（辽宁）有限公司
我是此专利的发明人

上一篇：一种设置有固定管道结构的造口袋
上一篇：一种窄间隙强化传热复合套管结构的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。