本技术涉及计算机,特别是涉及一种歌曲表征输出模型的训练方法、歌曲处理方法、计算机设备、计算机可读存储介质和计算机程序产品。
背景技术:
1、基于对比学习方式的跨模态歌曲表征大模型可以利用歌曲的文本信息和音乐信息,让模型学习表征空间内跨模态信息的交互。
2、在相关技术中,通常是采用正样本和随机挑选出的负样本,对基于对比学习方式的跨模态歌曲表征大模型进行模型训练。由于在模型训练过程中,随机选出的负样本中歌曲的文本信息与正样本中歌曲的文本信息之间可能存在语义关联,在语义关联性越大的情况下,使用存在语义关联的负样本越容易对模型训练产生混淆影响,导致模型训练效果不佳。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够提升模型训练效果的歌曲表征输出模型的训练方法、歌曲处理方法、计算机设备、计算机可读存储介质和计算机程序产品。
2、第一方面,本技术提供了一种歌曲表征输出模型的训练方法。所述方法包括:
3、获取多个样本对的歌曲训练数据;每个所述样本对包括同一歌曲的歌曲音频和歌曲描述文本;
4、针对当前样本对,根据所述当前样本对中的歌曲描述文本分别与各其他样本对中的歌曲描述文本之间的文本差异,从各所述其他样本对中选择文本差异相对较大的多个歌曲描述文本作为所述当前样本对中的歌曲音频的负样本;其中所述当前样本对为所述多个样本对中任一样本对,所述其他样本对为所述多个样本对中所述当前样本对之外的样本对;
5、确定所述当前样本对中的歌曲音频与歌曲描述文本之间的第一表征距离,所述当前样本对中的歌曲描述文本作为所述当前样本对中的歌曲音频的正样本,并确定所述当前样本对中的歌曲音频与多个所述负样本之间的第二表征距离;
6、基于所述第一表征距离和所述第二表征距离,对所述歌曲表征输出模型进行对比学习训练,直至得到训练后的歌曲表征输出模型;所述训练后的歌曲表征输出模型用于输出歌曲音频表征和歌曲描述文本表征。
7、在其中一个实施例中,所述根据所述当前样本对中的歌曲描述文本分别与各其他样本对中的歌曲描述文本之间的文本差异,从各所述其他样本对中选择文本差异相对较大的多个歌曲描述文本作为所述当前样本对中的歌曲音频的负样本,包括:
8、将所述当前样本对中的歌曲描述文本输入至所述歌曲表征输出模型中的文本编码模型,得到第一文本表征,将每个所述其他样本对中的歌曲描述文本输入至所述文本编码模型,得到第二文本表征;
9、确定所述第一文本表征分别与每个所述第二文本表征之间的表征距离;
10、按照多个所述表征距离的大小排序选择预设筛选数量的排序靠前的表征距离,将选择的表征距离对应的所述其他样本对的歌曲描述文本作为所述当前样本对中的歌曲音频的负样本。
11、在其中一个实施例中,所述确定所述当前样本对中的歌曲音频与歌曲描述文本之间的第一表征距离,包括:
12、将所述当前样本对中的歌曲描述文本输入至所述歌曲表征输出模型中的文本编码模型,得到第一文本表征;
13、将所述当前样本对中的歌曲音频输入至所述歌曲表征输出模型中的音频编码模型,得到音频表征;
14、分别对所述第一文本表征和所述音频表征进行维度变换,将维度变换后的第一文本表征与维度变换后的音频表征之间的表征距离作为所述第一表征距离。
15、在其中一个实施例中,所述确定所述当前样本对中的歌曲音频与多个所述负样本之间的第二表征距离,包括:
16、将所述当前样本对中的歌曲音频输入至所述歌曲表征输出模型中的音频编码模型,得到音频表征;
17、将每个所述其他样本对中的歌曲描述文本输入至所述歌曲表征输出模型中的文本编码模型,得到每个所述负样本的第二文本表征;
18、分别对每个所述负样本的第二文本表征和所述音频表征进行维度变换,将维度变换后的第二文本表征与维度变换后所述音频表征之间的表征距离,作为所述第二表征距离。
19、在其中一个实施例中,所述基于所述第一表征距离和所述第二表征距离,对所述歌曲表征输出模型进行对比学习训练,直至得到训练后的歌曲表征输出模型,包括:
20、将所述第一表征距离与所述第二表征距离的比值,结合加权参数计算得到目标损失值;所述加权参数为根据所述正样本的第一文本表征和多个所述负样本的第二文本表征之间的距离均值确定的;
21、根据所述目标损失值进行对比学习训练至损失函数收敛,得到所述训练后的歌曲表征输出模型。
22、在其中一个实施例中,所述确定所述当前样本对中的歌曲音频与多个所述负样本之间的第二表征距离,包括:
23、在每次迭代损失的过程中,分别从多个所述负样本中随机选取部分负样本,并确定所述当前样本对中的歌曲音频分别与每次随机选取的所述负样本之间的第二表征距离;
24、所述基于所述第一表征距离和所述第二表征距离,对所述歌曲表征输出模型进行对比学习训练,包括:
25、在每次迭代损失的过程中,基于所述第一表征距离和每次确定的所述第二表征距离,对所述歌曲表征输出模型进行对比学习训练。
26、第二方面,本技术提供了一种歌曲处理方法。所述方法包括:
27、获取待处理歌曲的歌曲音频和歌曲描述文本;
28、将所述歌曲音频和所述歌曲描述文本输入至训练后的歌曲表征输出模型,得到所述待处理歌曲的歌曲音频表征和歌曲描述文本表征;所述待处理歌曲的歌曲音频表征和歌曲描述文本表征在表征空间中相互靠近;
29、其中,所述训练后的歌曲表征输出模型为由任一项所述的歌曲表征输出模型的训练方法训练得到。
30、第三方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的歌曲表征输出模型的训练方法的步骤,和/或,如第二方面所述的歌曲处理方法的步骤。
31、第四方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的歌曲表征输出模型的训练方法的步骤,和/或,如第二方面所述的歌曲处理方法的步骤。
32、第五方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如第一方面所述的歌曲表征输出模型的训练方法的步骤,和/或,如第二方面所述的歌曲处理方法的步骤。
33、上述一种歌曲表征输出模型的训练方法、歌曲处理方法、计算机设备、计算机可读存储介质和计算机程序产品,通过获取多个样本对的歌曲训练数据,该每个样本对包括同一歌曲的歌曲音频和歌曲描述文本,针对当前样本对,根据当前样本对中的歌曲描述文本分别与各其他样本对中的歌曲描述文本之间的文本差异,从各其他样本对中选择文本差异相对较大的多个歌曲描述文本作为当前样本对中的歌曲音频的负样本,其中当前样本对为多个样本对中任一样本对,其他样本对为多个样本对中当前样本对之外的样本对,然后确定当前样本对中的歌曲音频与歌曲描述文本之间的第一表征距离,当前样本对中的歌曲描述文本作为当前样本对中的歌曲音频的正样本,并确定当前样本对中的歌曲音频与多个负样本之间的第二表征距离,进而基于第一表征距离和第二表征距离,对歌曲表征输出模型进行对比学习训练,直至得到训练后的歌曲表征输出模型,该训练后的歌曲表征输出模型用于输出歌曲音频表征和歌曲描述文本表征,实现了在歌曲表征输出模型的训练过程中对负样本的处理优化,能够克服负样本和正样本之间存在语义相似的问题,使得模型可以稳定进行训练,有效提升了模型训练效果和模型性能。