基于音视一致性感知的音视显著性检测方法

文档序号:35898395发布日期:2023-10-28 23:23阅读:来源:国知局

技术特征:

1.基于音视一致性感知的音视显著性检测方法,其特征在于,其包括:

2.根据权利要求1所述的音视显著性检测方法,其特征在于,所述一致性标注包括:当配对的音频与视频时间对齐后,若音频中某时刻的声音由该时刻的视频中的显著目标发出,则认为该时刻的音频和视频具有关联,将其关联程度即一致性赋值为1,若音频中某时刻的声音不由该时刻的视频中的显著目标发出,则认为该时刻的音频和视频不具有关联,将其关联程度即一致性赋值为0。

3.根据权利要求1所述的音视显著性检测方法,其特征在于,所述标注后的音视频数据集组成如下:

4.根据权利要求1所述的音视显著性检测方法,其特征在于,所述音视频一致性分类器包括输入层、与输入层相连的视频特征提取模块和音频特征提取模块、与视频特征提取模块和音频特征提取模块相连的特征融合模块、与特征融合模块相连的全连接层、及与全连接层相连的输出层;其中,所述视频特征提取模块由3dresnet网络构成,所述音频特征提取模块由soundnet网络构成,所述特征融合模块由矩阵加法操作构成。

5.根据权利要求4所述的音视显著性检测方法,其特征在于,其中,所述视频特征提取模块由含注意力机制的四层3dresnet网络构成,每层均由resnet50网络形成;和/或,所述音频特征提取模块由通过视觉和声音自监督联合训练的soundnet网络构成。

6.根据权利要求5所述的音视显著性检测方法,其特征在于,通过所述视频特征提取模块进行视频特征提取的过程包括:由四层3dresnet网络的每层网络对输入的编码后视频帧进行特征提取,分别得到一个时空尺度下的视频特征xm(m=1,…,4);在四层3dresnet网络间增加注意力机制,对每层输出的视频特征xm(m=1,…,4)进行注意力筛选;通过所述音频频特征提取模块进行音频特征提取的过程包括:将输入的音频波形进行海明窗加窗处理,得到当前音频信号波形位置得到强调的音频段数据,通过soundnet网络的前七层对音频段数据进行编码提取,得到音频特征。

7.根据权利要求1所述的音视显著性检测方法,其特征在于,所述音频波形为梅尔频谱处理后的音频波形,其通过预训练后的语音识别模型得到。

8.根据权利要求1所述的音视显著性检测方法,其特征在于,所述音视频融合判断模型构建如下:

9.根据权利要求1所述的音视显著性检测方法,其特征在于,所述音视一致性感知训练使用的损失函数lall为:

10.根据权利要求9所述的音视显著性检测方法,其特征在于,所述第二音视显著性检测模型的训练过程包括:


技术总结
本发明公开了一种基于音视一致性感知的音视显著性检测方法。所述检测方法包括:根据音视频间的关联程度对音视频进行一致性标注,通过标注后的音视频数据集构建音视频一致性分类器并构建基于一致性分类结果的音视频融合判断模型,通过融合判断模型预测待进行音视显著性检测的视频和音频是否需要进行融合;将音视频一致性分类器、融合判断模型集成于音视显著性检测模型中,并通过标注后的音视频数据集对音视频一致性分类器及音视显著性检测模型进行联合训练,获得显著性检测结果。本发明可获得具有音视一致性感知能力的显著性检测结果,显著提高对音视频数据中显著性目标的检测能力。

技术研发人员:陈程立诏,宋梦柯,刘新宇,李潞铭,宋佳,胡诗语,赵一汎,王子铭,张明月,杨龙燕,崔爽锌,薛子玥,卢博,梁少峰,朱晓东,尹涵冰,张钰,袁千禧,刘伊凡,崔奇
受保护的技术使用者:中国石油大学(华东)
技术研发日:
技术公布日:2024/1/15
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1