1.基于音视一致性感知的音视显著性检测方法,其特征在于,其包括:
2.根据权利要求1所述的音视显著性检测方法,其特征在于,所述一致性标注包括:当配对的音频与视频时间对齐后,若音频中某时刻的声音由该时刻的视频中的显著目标发出,则认为该时刻的音频和视频具有关联,将其关联程度即一致性赋值为1,若音频中某时刻的声音不由该时刻的视频中的显著目标发出,则认为该时刻的音频和视频不具有关联,将其关联程度即一致性赋值为0。
3.根据权利要求1所述的音视显著性检测方法,其特征在于,所述标注后的音视频数据集组成如下:
4.根据权利要求1所述的音视显著性检测方法,其特征在于,所述音视频一致性分类器包括输入层、与输入层相连的视频特征提取模块和音频特征提取模块、与视频特征提取模块和音频特征提取模块相连的特征融合模块、与特征融合模块相连的全连接层、及与全连接层相连的输出层;其中,所述视频特征提取模块由3dresnet网络构成,所述音频特征提取模块由soundnet网络构成,所述特征融合模块由矩阵加法操作构成。
5.根据权利要求4所述的音视显著性检测方法,其特征在于,其中,所述视频特征提取模块由含注意力机制的四层3dresnet网络构成,每层均由resnet50网络形成;和/或,所述音频特征提取模块由通过视觉和声音自监督联合训练的soundnet网络构成。
6.根据权利要求5所述的音视显著性检测方法,其特征在于,通过所述视频特征提取模块进行视频特征提取的过程包括:由四层3dresnet网络的每层网络对输入的编码后视频帧进行特征提取,分别得到一个时空尺度下的视频特征xm(m=1,…,4);在四层3dresnet网络间增加注意力机制,对每层输出的视频特征xm(m=1,…,4)进行注意力筛选;通过所述音频频特征提取模块进行音频特征提取的过程包括:将输入的音频波形进行海明窗加窗处理,得到当前音频信号波形位置得到强调的音频段数据,通过soundnet网络的前七层对音频段数据进行编码提取,得到音频特征。
7.根据权利要求1所述的音视显著性检测方法,其特征在于,所述音频波形为梅尔频谱处理后的音频波形,其通过预训练后的语音识别模型得到。
8.根据权利要求1所述的音视显著性检测方法,其特征在于,所述音视频融合判断模型构建如下:
9.根据权利要求1所述的音视显著性检测方法,其特征在于,所述音视一致性感知训练使用的损失函数lall为:
10.根据权利要求9所述的音视显著性检测方法,其特征在于,所述第二音视显著性检测模型的训练过程包括: