本公开涉及人工智能,尤其涉及一种音频数据处理方法、装置、电子设备及存储介质。
背景技术:
1、随着移动互联网的发展,越来越多的平台提供基于音频的互动功能,例如:k歌、配音等功能。
2、在基于音频数据的互动过程中,往往可以基于用户的音频数据生成用户的互动数据,例如:评估用户的音频数据的质量、生成用户的年度或者季度的评价报告等。
3、然而在互动数据的生成过程中,往往仅考虑了用户的音准、节奏、技巧、情感、气息等评价指标,评价指标较为单一,导致基于用户音频数据生成互动数据的方式灵活性较低。
技术实现思路
1、本公开提供一种音频数据处理方法、装置、电子设备及存储介质,以至少解决相关技术中基于音频数据生成互动数据的过程中,评价指标单一的问题。本公开的技术方案如下:
2、根据本公开实施例的第一方面,提供一种音频数据处理方法,包括:
3、对目标音频数据进行音色特征提取,得到所述目标音频数据的音色特征;
4、从基准音色特征中确定与所述音色特征相匹配的目标基准音色特征,其中,不同的所述基准音色特征对应不同的音色等级;
5、根据所述目标基准音色特征对应的音色等级,确定所述目标音频数据的音色等级数据。
6、在其中一个实施例中,在从基准音色特征中确定与所述音色特征相匹配的目标基准音色特征之前,所述方法还包括:
7、获取标定音频数据;
8、基于预设的音色处理策略,确定各所述标定音频数据的音色等级数据;
9、根据各所述标定音频数据的音色等级数据,确定各所述标定音频数据对应的音色等级;
10、针对任一所述音色等级,分别对所述音色等级对应的各所述标定音频数据进行音色特征提取,并根据各所述标定音频数据对应的音色特征,构建得到所述音色等级对应的基准音色特征。
11、在其中一个实施例中,所述基于预设的音色处理策略,确定各所述标定音频数据的音色等级数据,包括:
12、对所述标定音频数据进行分组处理,得到多个音频数据组,所述音频数据组中包括两个所述标定音频数据;
13、针对目标音频数据组,获取针对所述目标音频数据组中两个所述标定音频数据的音色对比数据,所述目标音频数据组为任一所述音频数据组;
14、根据所述目标音频数据组中各所述标定音频数据的初始音色等级数据、两个所述标定音频数据的音色对比数据,确定所述目标音频数据组中各所述标定音频数据的音色等级数据。
15、在其中一个实施例中,所述目标音频数据组中包括第一标定音频数据和第二标定音频数据,所述根据所述目标音频数据组中各所述标定音频数据的初始音色等级数据、两个所述标定音频数据的音色对比数据,确定所述目标音频数据组中各所述标定音频数据的音色等级数据,包括:
16、根据所述第一标定音频数据的初始音色等级数据和所述第二标定音频数据的初始音色等级数据、及所述第一标定音频数据与所述第二标定音频数据的音色对比数据,确定所述第一标定音频数据的当前音色等级数据及所述第二标定音频数据的当前音色等级数据;
17、根据所述第一标定音频数据的初始音色等级数据和第二标定音频数据的初始音色等级数据,确定所述第一标定音频数据对应的胜率期望值及所述第二标定音频数据对应的胜率期望值;
18、在所述第一标定音频数据的当前音色等级数据与所述第一标定音频数据对应的胜率期望值匹配失败的情况下,调整所述第一标定音频数据的所述初始音色等级数据,和/或,在所述第二标定音频数据的当前音色等级数据与所述第二标定音频数据对应的胜率期望值匹配失败的情况下,调整所述第二标定音频数据的所述初始音色等级数据,并跳转至根据所述第一标定音频数据的初始音色等级数据和所述第二标定音频数据的初始音色等级数据,确定所述第一标定音频数据对应的胜率期望值及所述第二标定音频数据对应的胜率期望值的步骤,直至所述第一标定音频数据的当前音色等级数据与所述第一标定音频数据对应的胜率期望值匹配成功、且所述第二标定音频数据的当前音色等级数据与所述第二标定音频数据对应的胜率期望值匹配成功为止;
19、将所述第一标定音频数据当前的初始音色等级数据,作为所述第一标定音频数据的音色等级数据,及将所述第二标定音频数据当前的初始音色等级数据,作为所述第二标定音频数据的音色等级数据。
20、在其中一个实施例中,所述从基准音色特征中确定与所述音色特征相匹配的目标基准音色特征,包括:
21、分别确定各基准音色特征与所述音色特征的特征相似度;
22、将对应特征相似度最高的所述基准音色特征,作为与所述音色特征相匹配的目标基准音色特征。
23、在其中一个实施例中,所述对目标音频数据进行音色特征提取,得到所述目标音频数据的音色特征,包括:
24、对所述目标音频数据进行频谱特征提取,得到所述目标音频数据的频谱特征;
25、通过音色特征提取网络对所述频谱特征进行音色特征提取,得到所述目标音频数据的音色特征。
26、在其中一个实施例中,所述音色特征提取网络包括特征提取网络和池化层,所述通过音色特征提取网络对所述频谱特征进行音色特征提取,得到所述目标音频数据的音色特征,包括:
27、通过特征提取网络对所述频谱特征进行特征提取,得到目标特征,所述目标特征包括所述目标音频数据中各音频帧的特征表示;
28、通过所述池化层对所述目标特征进行音色特征提取,得到所述目标音频数据的音色特征。
29、在其中一个实施例中,所述通过所述池化层对所述目标特征进行音色特征提取,得到所述目标音频数据的音色特征,包括:
30、在所述池化层内,执行以下步骤:
31、针对任一所述音频帧,根据所述音频帧的特征表示,确定所述音频帧对应的注意力权重;
32、根据各所述音频帧对应的注意力权重及各所述音频帧的特征表示,确定所述目标音频数据对应的特征表示均值及特征表示方差;
33、对所述特征表示均值及所述特征表示方差进行拼接处理,得到所述目标音频数据的音色特征。
34、在其中一个实施例中,在通过音色特征提取网络对所述频谱特征进行音色特征提取,得到所述目标音频数据的音色特征之前,所述方法还包括:
35、获取样本音频数据,所述样本音频数据具有标注信息,所述标注信息包括所述样本音频数据所属样本对象的标签信息;
36、将所述样本音频数据对应的频谱特征输入初始音色特征提取网络进行音色特征提取,得到所述样本音频数据对应的音色特征;
37、对所述样本音频数据对应的音色特征进行识别处理,得到所述样本音频数据的识别结果;
38、根据所述样本音频数据的识别结果及所述样本音频数据的标注信息,确定所述初始音色特征提取网络的损失值,并根据所述损失值,训练所述初始音色特征提取网络,得到音色特征提取网络。
39、根据本公开实施例的第二方面,提供一种音频数据处理装置,包括:
40、提取单元,被配置为执行对目标音频数据进行音色特征提取,得到所述目标音频数据的音色特征;
41、第一确定单元,被配置为执行从基准音色特征中确定与所述音色特征相匹配的目标基准音色特征,其中,不同的所述基准音色特征对应不同的音色等级;
42、第二确定单元,被配置为执行根据所述目标基准音色特征对应的音色等级,确定所述目标音频数据的音色等级数据。
43、在其中一个实施例中,所述装置还包括:
44、第一获取单元,被配置为执行获取标定音频数据;
45、第三确定单元,被配置为执行基于预设的音色处理策略,确定各所述标定音频数据的音色等级数据;
46、第四确定单元,被配置为执行根据各所述标定音频数据的音色等级数据,确定各所述标定音频数据对应的音色等级;
47、构建单元,被配置为执行针对任一所述音色等级,分别对所述音色等级对应的各所述标定音频数据进行音色特征提取,并根据各所述标定音频数据对应的音色特征,构建得到所述音色等级对应的基准音色特征。
48、在其中一个实施例中,所述第三确定单元,还被配置为执行:
49、对所述标定音频数据进行分组处理,得到多个音频数据组,所述音频数据组中包括两个所述标定音频数据;
50、针对目标音频数据组,获取针对所述目标音频数据组中两个所述标定音频数据的音色对比数据,所述目标音频数据组为任一所述音频数据组;
51、根据所述目标音频数据组中各所述标定音频数据的初始音色等级数据、两个所述标定音频数据的音色对比数据,确定所述目标音频数据组中各所述标定音频数据的音色等级数据。
52、在其中一个实施例中,所述目标音频数据组中包括第一标定音频数据和第二标定音频数据,所述第三确定单元,还被配置为执行:
53、根据所述第一标定音频数据的初始音色等级数据和所述第二标定音频数据的初始音色等级数据、及所述第一标定音频数据与所述第二标定音频数据的音色对比数据,确定所述第一标定音频数据的当前音色等级数据及所述第二标定音频数据的当前音色等级数据;
54、根据所述第一标定音频数据的初始音色等级数据和第二标定音频数据的初始音色等级数据,确定所述第一标定音频数据对应的胜率期望值及所述第二标定音频数据对应的胜率期望值;
55、在所述第一标定音频数据的当前音色等级数据与所述第一标定音频数据对应的胜率期望值匹配失败的情况下,调整所述第一标定音频数据的所述初始音色等级数据,和/或,在所述第二标定音频数据的当前音色等级数据与所述第二标定音频数据对应的胜率期望值匹配失败的情况下,调整所述第二标定音频数据的所述初始音色等级数据,并跳转至根据所述第一标定音频数据的初始音色等级数据和所述第二标定音频数据的初始音色等级数据,确定所述第一标定音频数据对应的胜率期望值及所述第二标定音频数据对应的胜率期望值的步骤,直至所述第一标定音频数据的当前音色等级数据与所述第一标定音频数据对应的胜率期望值匹配成功、且所述第二标定音频数据的当前音色等级数据与所述第二标定音频数据对应的胜率期望值匹配成功为止;
56、将所述第一标定音频数据当前的初始音色等级数据,作为所述第一标定音频数据的音色等级数据,及将所述第二标定音频数据当前的初始音色等级数据,作为所述第二标定音频数据的音色等级数据。
57、在其中一个实施例中,所述第一确定单元,还被配置为执行:
58、分别确定各基准音色特征与所述音色特征的特征相似度;
59、将对应特征相似度最高的所述基准音色特征,作为与所述音色特征相匹配的目标基准音色特征。
60、在其中一个实施例中,所述提取单元,还被配置为执行:
61、对所述目标音频数据进行频谱特征提取,得到所述目标音频数据的频谱特征;
62、通过音色特征提取网络对所述频谱特征进行音色特征提取,得到所述目标音频数据的音色特征。
63、在其中一个实施例中,所述音色特征提取网络包括特征提取网络和池化层,所述提取单元,还被配置为执行:
64、通过特征提取网络对所述频谱特征进行特征提取,得到目标特征,所述目标特征包括所述目标音频数据中各音频帧的特征表示;
65、通过所述池化层对所述目标特征进行音色特征提取,得到所述目标音频数据的音色特征。
66、在其中一个实施例中,所述提取单元,还被配置为执行:
67、在所述池化层内,执行以下步骤:
68、针对任一所述音频帧,根据所述音频帧的特征表示,确定所述音频帧对应的注意力权重;
69、根据各所述音频帧对应的注意力权重及各所述音频帧的特征表示,确定所述目标音频数据对应的特征表示均值及特征表示方差;
70、对所述特征表示均值及所述特征表示方差进行拼接处理,得到所述目标音频数据的音色特征。
71、在其中一个实施例中,所述装置还包括:
72、第二获取单元,被配置为执行获取样本音频数据,所述样本音频数据具有标注信息,所述标注信息包括所述样本音频数据所属样本对象的标签信息;
73、第一处理单元,被配置为执行将所述样本音频数据对应的频谱特征输入初始音色特征提取网络进行音色特征提取,得到所述样本音频数据对应的音色特征;
74、识别单元,被配置为执行对所述样本音频数据对应的音色特征进行识别处理,得到所述样本音频数据的识别结果;
75、第五确定单元,被配置为执行根据所述样本音频数据的识别结果及所述样本音频数据的标注信息,确定所述初始音色特征提取网络的损失值,并根据所述损失值,训练所述初始音色特征提取网络,得到音色特征提取网络。
76、根据本公开实施例的第三方面,提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现第一方面中提供的任一项音频数据处理方法。
77、根据本公开实施例的第四方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行第一方面中提供的任一项音频数据处理方法。
78、根据本公开实施例的第五方面,提供一种计算机程序产品,所述计算机程序产品中包括指令,所述指令被电子设备的处理器执行时,使得所述电子设备能够执行第一方面中提供的任一项音频数据处理方法。
79、本公开的实施例提供的技术方案至少带来以下有益效果:
80、本公开实施例提供的音频数据处理方法、装置、电子设备及存储介质,对目标音频数据进行音色特征提取,得到目标音频数据的音色特征,从不同音色等级对应的基准音色特征中确定与音色特征相匹配的目标基准音色特征,并根据目标基准音色特征对应的音色等级,确定目标音频数据的音色等级数据。基于本公开实施例提供的音频数据处理方法、装置、电子设备及存储介质,可以从音色这一维度进行音频数据的分析处理,得到相关的音色等级数据,丰富了针对音频数据的评价指标,进而使得基于用户的音频数据生成互动数据的过程中,可以充分考量用户的音色,提高基于用户音频数据生成互动数据的灵活性和精准性。
81、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。