本申请实施例涉及人工智能,特别涉及一种用于音视频匹配的模型训练方法、音视频匹配方法及装置。
背景技术:
1、随着短视频等视频软件的盛行,用户帐号可以自行剪辑并发布视频,一般来说,用户帐号在发布视频时,同时会给视频配上bgm(background music,背景音乐)。
2、相关技术中,会根据bgm的热度(被使用次数/被播放次数)来给用户帐号的视频进行bgm推荐,例如,根据音频播放次数从大到小,来给用户帐号推荐bgm。
3、而相关技术中,根据热度来给用户推荐bgm,很有可能导致推荐给用户的bgm和用户待发布视频的内容不适配,导致推荐bgm的命中率(发布的bgm来自推荐的bgm的视频数量与发布的带bgm的视频数量的比值)低。
技术实现思路
1、本申请实施例提供了一种用于音视频匹配的模型训练方法、音视频匹配方法及装置。所述技术方案如下:
2、根据本申请实施例的一个方面,提供了一种用于音视频匹配的模型训练方法,所述方法包括:
3、基于至少一个视频样本和至少一个音频样本,构建样本对的集合,所述样本对的集合包括至少一个正样本对和至少一个负样本对,所述正样本对包括具有匹配关系的一个视频样本和一个音频样本,所述负样本对包括不具有匹配关系的一个视频样本和一个音频样本;
4、对于同一个样本对中的视频样本和音频样本,通过视频特征提取模型提取所述视频样本对应的特征信息,通过音频特征提取模型提取所述音频样本对应的特征信息;
5、根据同一个样本对中的所述视频样本对应的特征信息和所述音频样本对应的特征信息,确定对比损失函数的值;其中,所述对比损失函数用于表征所述样本对的匹配程度;
6、根据所述对比损失函数的值,对所述视频特征提取模型和所述音频特征提取模型的参数进行调整,得到完成训练的视频特征提取模型和完成训练的音频特征提取模型。
7、根据本申请实施例的一个方面,提供了一种音视频匹配方法,所述方法包括:
8、获取待匹配的第一视频;
9、通过视频特征提取模型提取所述第一视频对应的特征信息;
10、根据所述第一视频对应的特征信息以及n个音频分别对应的特征信息,确定所述第一视频与各个所述音频之间的匹配度;其中,所述音频对应的特征信息是通过音频特征提取模型得到的,所述视频特征提取模型和所述音频特征提取模型采用对比学习进行训练,n为大于1的整数;
11、根据所述第一视频与各个所述音频之间的匹配度,从所述n个音频中确定与所述第一视频相匹配的至少一个匹配音频。
12、根据本申请实施例的一个方面,提供了一种用于音视频匹配的模型训练装置,所述装置包括:
13、集合构建模块,用于基于至少一个视频样本和至少一个音频样本,构建样本对的集合,所述样本对的集合包括至少一个正样本对和至少一个负样本对,所述正样本对包括具有匹配关系的一个视频样本和一个音频样本,所述负样本对包括不具有匹配关系的一个视频样本和一个音频样本;
14、信息提取模块,用于对于同一个样本对中的视频样本和音频样本,通过视频特征提取模型提取所述视频样本对应的特征信息,通过音频特征提取模型提取所述音频样本对应的特征信息;
15、损失确定模块,用于根据同一个样本对中的所述视频样本对应的特征信息和所述音频样本对应的特征信息,确定对比损失函数的值;其中,所述对比损失函数用于表征所述样本对的匹配程度;
16、参数调整模块,用于根据所述对比损失函数的值,对所述视频特征提取模型和所述音频特征提取模型的参数进行调整,得到完成训练的视频特征提取模型和完成训练的音频特征提取模型。
17、根据本申请实施例的一个方面,提供了一种音视频匹配装置,所述装置包括:
18、视频获取模块,用于获取待匹配的第一视频;
19、信息提取模块,用于通过视频特征提取模型提取所述第一视频对应的特征信息;
20、匹配度确定模块,用于根据所述第一视频对应的特征信息以及n个音频分别对应的特征信息,确定所述第一视频与各个所述音频之间的匹配度;其中,所述音频对应的特征信息是通过音频特征提取模型得到的,所述视频特征提取模型和所述音频特征提取模型采用对比学习进行训练,n为大于1的整数;
21、音频确定模块,用于根据所述第一视频与各个所述音频之间的匹配度,从所述n个音频中确定与所述第一视频相匹配的至少一个匹配音频。
22、根据本申请实施例的一个方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现上述方法。
23、根据本申请实施例的一个方面,提供了一种计算机可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现上述方法。
24、根据本申请实施例的一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行上述方法。
25、本申请实施例提供的技术方案可以包括如下有益效果:
26、通过对视频特征提取模型以及音频特征提取模型进行采用对比学习进行联合训练,由于在联合训练时视频特征提取模型以及音频特征提取模型均可以学到视频模态以及音频模态的特征,并且采用对比学习的方式训练,可以提升视频特征提取模型对视频的特征提取能力以及音频特征提取模型对于音频的特征提取能力。因此根据通过视频特征提取模型提取的视频特征以及通过音频特征提取模型提取的视频特征之间的匹配度,来确定推荐给待匹配视频的音频,可以提高bgm命中率。
1.一种用于音视频匹配的模型训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述根据同一个样本对中的所述视频样本对应的特征信息和所述音频样本对应的特征信息,以及所述增广视频样本对应的特征信息和所述增广音频样本对应的特征信息,确定所述对比损失函数的值,包括:
4.根据权利要求2所述的方法,其特征在于,所述对所述视频样本进行增广处理,得到所述视频样本对应的增广视频样本;以及,对所述音频样本进行增广处理,得到所述音频样本对应的增广音频样本,包括:
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
6.根据权利要求2所述的方法,其特征在于,所述对所述视频样本进行增广处理,得到所述视频样本对应的增广视频样本;以及,对所述音频样本进行增广处理,得到所述音频样本对应的增广音频样本,包括:
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
8.根据权利要求2所述的方法,其特征在于,所述对所述视频样本进行增广处理,得到所述视频样本对应的增广视频样本;以及,对所述音频样本进行增广处理,得到所述音频样本对应的增广音频样本,包括:
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
10.一种音视频匹配方法,其特征在于,所述方法包括:
11.根据权利要求10所述的方法,其特征在于,所述根据所述第一视频对应的特征信息以及n个音频分别对应的特征信息,确定所述第一视频与各个所述音频之间的匹配度,包括:
12.根据权利要求11所述的方法,其特征在于,所述根据所述第一视频对应的特征信息与所述第i个音频的m个关联视频分别对应的特征信息之间的相似度,得到第二相似度,包括:
13.根据权利要求10所述的方法,其特征在于,所述获取待匹配的第一视频之后,还包括:
14.根据权利要求13所述的方法,其特征在于,所述方法还包括:
15.根据权利要求10至14任一项所述的方法,其特征在于,所述视频特征提取模型和所述音频特征提取模型的训练过程如下:
16.一种用于音视频匹配的模型训练装置,其特征在于,所述装置包括:
17.一种音视频匹配装置,其特征在于,所述装置包括:
18.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如上述权利要求1至9任一项所述的方法,或实现如上述权利要求10至15任一项所述的方法。
19.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如上述权利要求1至9任一项所述的方法,或实现如上述权利要求10至15任一项所述的方法。
20.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中,处理器从所述计算机可读存储介质读取并执行所述计算机程序,以实现如上述权利要求1至9任一项所述的方法,或实现如上述权利要求10至15任一项所述的方法。