1.本发明涉及音频处理技术领域,尤其涉及一种音频处理模型的训练方法、音频处理方法及相关设备。
背景技术:2.随着技术的不断发展,在会议、语音通话、广播语音等场景下,说话人分离技术均有应用需求。说话人分离技术,也可以称为说话人分离,说话人分割,说话人角色分离,说话人日志,说话人归档等,主要是用于在一段音频中标出每个说话人的说话时间段。
3.现有技术在进行说话人分离时,通常是提取出每个音频片段中的说话人向量,再用无监督的方式对提取出的说话人向量进行聚类,通过不断地迭代操作,得到每个说话人的说话时间段。
4.由于现有技术在进行存在说话人分离时,没有明确的参考特征向量,从而导致从音频片段中提取说话人向量时的准确度较低,进而导致说话人分离的准确度较低。
技术实现要素:5.本发明实施例提供一种音频处理模型的训练方法、音频处理方法及相关设备,以解决说话人分离的准确度较低的问题。
6.第一方面,本发明实施例提供了一种音频处理模型的训练方法,包括:
7.将音频样本数据输入到待训练音频处理模型进行迭代训练,所述待训练音频处理模型包括音频处理网络和说话人识别网络;
8.利用损失函数确定第n次训练的损失值,n为正整数;
9.基于所述损失值对所述待训练音频处理模型进行参数调整;
10.在所述损失值满足损失收敛条件的情况下,将所述第n次训练的待训练音频处理模型中的音频处理网络确定为音频处理模型;
11.其中,所述音频处理网络用于根据对所述音频样本数据对应的音频帧序列进行特征提取,获得用于表示所述音频帧序列的统计特征向量序列和每一所述音频帧对应的第二特征向量,并根据所述第二特征向量输出每一所述音频帧对应的第一类别,所述音频帧序列包括多个音频帧;所述说话人识别网络用于根据对所述音频处理网络获得的所述统计特征向量序列进行分类处理,获得每一所述统计特征向量对应的第二类别及每一所述音频帧对应的所述第二特征向量;所述损失值包括基于所述音频处理网络输出的第一类别与预先标注的第一类别的差值确定的第一损失值,以及基于所述说话人识别网络输出的第二类别与预先标注的第二类别的差值确定的第二损失值。
12.可选地,所述音频处理网络包括:
13.特征提取层,所述特征提取层用于对所述音频样本数据对应的音频帧序列进行特征提取,获得第一序列,所述第一序列包括多个第一特征向量,且每一所述第一特征向量均与一个所述音频帧对应;
14.特征统计层,所述特征统计层用于对所述第一序列中连续的至少两个所述第一特征向量进行统计处理,获得所述统计特征向量序列,所述统计特征向量序列包括多个统计特征向量;
15.身份向量提取层,所述身份向量提取层用于对所述统计特征向量序列进行向量提取,获得第二序列,所述第二序列包括多个第二特征向量,且每一所述第二特征向量均与一个所述音频帧对应;
16.分类处理层,所述分类处理层用于对所述第二序列进行分类处理,获得每一所述音频帧对应的第一类别。
17.可选地,所述特征统计层包括:
18.音频分割子层,所述音频分割子层用于对所述第一序列中的所述第一特征向量组合,获得特征组,其中,每一所述特征组内均包括至少两个连续的所述第一特征向量;
19.池化操作子层,所述池化操作子层用于对每一所述特征组内的所述第一特征向量进行池化操作,获得每一所述特征组的统计特征向量,其中,所述统计特征向量中包括一个高阶统计量。
20.第二方面,本发明实施例提供了一种音频处理方法,包括:
21.将待处理的音频数据对应的音频帧序列输入到音频处理模型,获得每一所述音频帧对应的第一类别,所述音频帧序列包括多个音频帧;
22.其中,所述音频处理模型利用如第一方面所述的音频处理模型的训练方法训练获得。
23.可选地,所述将待处理的音频数据对应的音频帧序列输入到音频处理模型,获得每一所述音频帧对应的第一类别,包括:
24.将待处理的音频数据对应的音频帧序列输入到特征提取层进行特征提取,获得第一序列,所述第一序列包括多个第一特征向量,且每一所述第一特征向量均与一个所述音频帧对应;
25.将所述第一序列输入到特征统计层,多个对连续的至少两个所述第一特征向量进行统计处理,获得统计特征向量序列,所述统计特征向量序列包括多个统计特征向量;
26.将所述统计特征向量序列输入到身份向量提取层进行向量提取,获得第二序列,所述第二序列包括多个第二特征向量,且每一所述第二特征向量均与一个所述音频帧对应;
27.将所述第二序列输入到分类网络层进行分类处理,获得每一所述音频帧对应的第一类别。
28.第三方面,本发明实施例还提供一种音频处理模型的训练装置,包括:
29.训练模块,用于将音频样本数据输入到待训练音频处理模型进行迭代训练,所述待训练音频处理模型包括音频处理网络和说话人识别网络;
30.第一确定模块,用于利用损失函数确定第n次训练的损失值,n为正整数;
31.调整模块,用于基于所述损失值对所述待训练音频处理模型进行参数调整;
32.第二确定模块,用于在所述损失值满足损失收敛条件的情况下,将所述第n次训练的待训练音频处理模型中的音频处理网络确定为音频处理模型;
33.其中,所述音频处理网络用于根据对所述音频样本数据对应的音频帧序列进行特
征提取,获得用于表示所述音频帧序列的统计特征向量序列和每一所述音频帧对应的第二特征向量,并根据所述第二特征向量输出每一所述音频帧对应的第一类别,所述音频帧序列包括多个音频帧;所述说话人识别网络用于根据对所述音频处理网络获得的所述统计特征向量序列进行分类处理,获得每一所述统计特征向量对应的第二类别及每一所述音频帧对应的所述第二特征向量;所述损失值包括基于所述音频处理网络输出的第一类别与预先标注的第一类别的差值确定的第一损失值,以及基于所述说话人识别网络输出的第二类别与预先标注的第二类别的差值确定的第二损失值。
34.可选地,所述音频处理网络包括:
35.特征提取层,所述特征提取层用于对所述音频样本数据对应的音频帧序列进行特征提取,获得第一序列,所述第一序列包括多个第一特征向量,且每一所述第一特征向量均与一个所述音频帧对应;
36.特征统计层,所述特征统计层用于对所述第一序列中连续的至少两个所述第一特征向量进行统计处理,获得所述统计特征向量序列,所述统计特征向量序列包括多个统计特征向量;
37.身份向量提取层,所述身份向量提取层用于对所述统计特征向量序列进行向量提取,获得第二序列,所述第二序列包括多个第二特征向量,且每一所述第二特征向量均与一个所述音频帧对应;
38.分类处理层,所述分类处理层用于对所述第二序列进行分类处理,获得每一所述音频帧对应的第一类别。
39.第四方面,本发明实施例还提供了一种音频处理装置,包括:
40.输入模块,用于将待处理的音频数据对应的音频帧序列输入到音频处理模型,获得每一所述音频帧对应的第一类别,所述音频帧序列包括多个音频帧;
41.其中,所述音频处理模型利用如第一方面所述的音频处理模型的训练方法训练获得。
42.第五方面,本发明实施例还提供了一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如第一方面所述的音频处理模型的训练方法中的步骤,或实现如第二方面所述的音频处理方法中的步骤。
43.第六方面,本发明实施例还提供了一种可读存储介质,所述可读存储介质上存储有程序,所述程序被处理器执行时实现如第一方面所述的音频处理模型的训练方法中的步骤,或实现如第二方面所述的音频处理方法中的步骤。
44.在本发明实施例中,所述待训练音频处理模型包括音频处理网络和说话人识别网络,所述音频处理网络用于输出每一所述音频帧对应的第一类别,所述说话人识别网络用于获得每一所述统计特征向量对应的第二类别,所述说话人识别网络在训练过程中充分利用了预先获得的说话人的音频特征信息,提高了输出结果的准确度。由于所述说话人识别网络提高了所述统计特征向量的准确度和所述第二特征向量的准确度,因而所述音频处理模型用于分类的特征向量与音频数据更加相符,进而提高了所述音频处理网络的输出的准确度,即提高了所述音频处理模型的输出准确度,同时,所述音频处理模型可以进行端到端的说话人分离。由于所述第二特征向量的输出受到所述音频处理网络和所述说话人识别网
络的共同影响,因此在进行说话人分离时充分利用了说话人的音频信息,提高了信息的利用率。
附图说明
45.为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获取其他的附图。
46.图1是本发明实施例提供的音频处理模型的训练方法的流程示意图;
47.图2是本发明实施例提供的待训练音频处理模型的结构示意图;
48.图3是本发明实施例提供的音频处理方法的流程示意图;
49.图4是本发明实施例提供的音频处理模型的训练装置的结构示意图;
50.图5是本发明实施例提供的音频处理装置的结构示意图;
51.图6是本发明实施例提供的电子设备的结构示意图。
具体实施方式
52.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获取的所有其他实施例,都属于本发明保护的范围。
53.除非另作定义,本发明中使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也相应地改变。
54.如图1-图2所示,本发明实施例提供了一种音频处理模型的训练方法,包括:
55.步骤101,将音频样本数据输入到待训练音频处理模型进行迭代训练,所述待训练音频处理模型包括音频处理网络和说话人识别网络。
56.应理解的是,在本技术实施例中,所述音频样本数据的数量为多个。将音频样本数据输入到待训练音频处理模型进行迭代训练可以理解为,使用多个所述音频样本数据对所述音频处理模型进行多次迭代训练。
57.在本发明实施例中,其中,所述音频处理网络用于根据对所述音频样本数据对应的音频帧序列进行特征提取,获得用于表示所述音频帧序列的统计特征向量序列和每一所述音频帧对应的第二特征向量,并根据所述第二特征向量输出每一所述音频帧对应的第一类别,所述音频帧序列包括多个音频帧;所述说话人识别网络用于根据对所述音频处理网络获得的所述统计特征向量序列进行分类处理,获得每一所述统计特征向量对应的第二类别及每一所述音频帧对应的所述第二特征向量;所述损失值包括基于所述音频处理网络输出的第一类别与预先标注的第一类别的差值确定的第一损失值,以及基于所述说话人识别网络输出的第二类别与预先标注的第二类别的差值确定的第二损失值。
58.应理解的是,在一些实施例中,所述第一类别也可以称为相对类别,所述第一类别可以理解为说话人一相对于说话人二的说话时间,在所述第一类别中,无需判断具体的说话人。在一些实施例中,所述第二类别也可以称为绝对类别,所述第二类别可以判断每一时间段对应的样本集中的具体说话人。
59.应理解的是,所述音频处理网络根据所述音频样本数据对应的音频帧序列获得了所述统计特征向量。所述统计特征向量输入所述说话人识别网络中,说话人识别网络一方面可以通过所述统计特征向量输出每一所述统计特征向量对应的第二类别,同时输出每一所述音频帧对应的所述第二特征向量。
60.应理解的是,在对所述待训练音频处理模型进行迭代训练之前,样本集通常包括多个已知的说话人的音频。同时,每一个说话人都对应有一个第二类别。在具体实现时,用于对所述待训练音频处理模型进行迭代训练的音频样本数据通常为多个说话人进行对话的音频。所述音频处理网络输出每一所述音频帧对应的第一类别可以理解为,在所述音频样本数据中获得每一个说话人说话的时间段。所述说话人识别网络获得每一所述统计特征向量对应的第二类别可以理解为,所述说话人识别网络将所述统计特征向量进行分类处理,从而确定在音频的每一时间段内的说话人对应的第二类别。
61.步骤102,利用损失函数确定第n次训练的损失值,n为正整数。
62.在进行迭代训练的过程中,利用损失函数对每一次训练的输出结果进行计算,确定当次训练的损失值。
63.应理解的是,所述损失函数包括第一损失函数和第二损失函数。所述第一损失函数用于对每一次所述音频处理网络的输出结果进行计算,确定当次训练的第一损失值;所述第二损失函数用于对每一次所述说话人识别网络的输出结果进行计算,确定当此训练的第二损失值。其中,所述损失函数的具体类型在此不做限定。例如,在一些实施例中,所述第一损失函数可以为置换不变训练(permutation-invariant training,pit)损失函数。在一些实施例中,所述第二损失函数可以为aam-softmax损失函数公式。
64.应理解的是,所述损失值包括基于所述音频处理网络输出的第一类别与预先标注的第一类别的差值确定的第一损失值,以及基于所述说话人识别网络输出的第二类别与预先标注的第二类别的差值确定的第二损失值。所述损失值可以理解为,包括所述第一损失函数计算得到的第一损失值和所述第二损失函数计算得到的第二损失值。
65.步骤103,基于所述损失值对所述待训练音频处理模型进行参数调整。
66.应理解的是,基于所述损失值对所述待训练音频处理模型进行参数调整指的是,使用所述第一损失值和所述第二损失值同时对所述待训练音频处理模型的参数进行调整,以达到训练所述待训练音频处理模型的目的。在一些实施例中,基于所述损失值对所述待训练音频处理模型进行参数调整也可以理解为基于所述损失值对所述待训练音频处理模型的权重进行调整。
67.步骤104,在所述损失值满足损失收敛条件的情况下,将所述第n次训练的待训练音频处理模型中的音频处理网络确定为音频处理模型。
68.应理解的是,所述损失值满足损失收敛条件可以理解为,所述第一损失值和/或所述第二损失值满足收敛条件。在所述损失值满足损失收敛条件的情况下,可以认为所述待训练音频处理模型的训练已完成。
69.应理解的是,在具体实现时,迭代训练完成的判断方法在此不做限定。例如,在一些实施例中,在所述损失值大于阈值的情况下,将所述第n次训练的待训练音频处理模型中的音频处理网络确定为音频处理模型。在另一些实施例中,在所述迭代训练的次数达到预设值的情况下,将所述第n次训练的待训练音频处理模型中的音频处理网络确定为音频处理模型。
70.为了方便理解,下面将以一个具体的示例对所述音频处理模型的训练过程进行说明。在对所述待训练音频处理模型进行迭代训练之前,首先录入4个说话人的音频,通过对4个说话人的音频进行处理,得到了每一个说话人对应的特征向量。下面将以一个音频样本数据对所述音频处理模型进行训练的过程进行说明。为了方便描述,将4个说话人的第二类别分别记为a、b、c、d。将音频样本数据输入到待训练音频处理模型进行迭代训练。假设所述音频样本数据为a和c进行对话的音频,此时所述第一类别可以分为四类,第一类为仅说话人一处于说话状态,第二类为仅说话人二处于说话状态,第三类为说话人一和说话人二均处于说话状态,第四类为说话人一和说话人二均未处于说话状态,其中,所述说话人一和说话人二中一者为a,另一者为c。
71.所述音频处理网络可以输出每一所述音频帧对应的第一类别,通过将所述音频处理网络输出的每一所述音频帧对应的第一类别与预先已知的每一所述音频帧对应的第一类别进行对比,得到两者之间的差值,并利用所述第一损失函数确定所述第一损失值,通过所述第一损失值对所述待训练音频处理模型进行参数调整。通过对所述待训练音频处理模型进行训练,可以提高所述音频处理网络的输出的第一类别的准确度。
72.所述说话人识别网络可以输出每一所述统计特征向量对应的第二类别,每一所述统计特征向量均有可能对应多个类别,即a、b、c、d中的一个或多个。通过将所述说话人识别网络输出的每一所述统计特征向量对应的第二类别与预先已知的每一所述统计特征向量对应的第二类别进行对比,得到两者之间的差值,并利用所述第二损失函数确定所述第二损失值,通过所述第二损失值对所述待训练音频处理模型进行参数调整。通过对所述待训练音频处理模型进行训练,可以提高所述说话人识别网络的输出的第二类别的准确度。
73.由此可知,所述音频处理网络可以对音频进行说话人分离处理,在一段音频中标出每个说话人的说话时间段,由于所述音频处理网络无需识别具体的第二类别,因此无需用户提前注册,即在对音频进行处理时,无需音频中的说话人提前录入音频信息,提高了使用的便捷度和适用的范围。
74.在一些实施例中,可以将在所述损失值满足损失收敛条件的情况下,将所述第n次训练的待训练音频处理模型确定为音频处理模型。在这种情况下,所述音频处理模型既可以输出每一所述音频帧对应的第一类别,也可以输出每一所述音频帧或每一所述统计特征向量对应的第二类别。虽然本实施例提供的音频处理方法既可以输出音频中每个说话人的说话时间段,也可以输出每一个时间段的说话人身份。但是,在使用所述音频处理模型对音频进行处理时,需要用户为训练时使用的样本集中的说话人。应理解的是,在具体实现时,所述音频处理网络和所述说话人识别网络为可分离的网络。
75.在本发明实施例中,所述待训练音频处理模型包括音频处理网络和说话人识别网络,所述音频处理网络用于输出每一所述音频帧对应的第一类别,所述说话人识别网络用于获得每一所述统计特征向量对应的第二类别,所述说话人识别网络在训练过程中充分利
用了预先获得的说话人的音频特征信息,提高了输出结果的准确度。由于所述说话人识别网络提高了所述统计特征向量的准确度和所述第二特征向量的准确度,因而所述音频处理模型用于分类的特征向量与音频数据更加相符,进而提高了所述音频处理网络的输出的准确度,即提高了所述音频处理模型的输出准确度,同时,所述音频处理模型可以进行端到端的说话人分离。由于所述第二特征向量的输出受到所述音频处理网络和所述说话人识别网络的共同影响,因此在进行说话人分离时充分利用了说话人的音频信息,提高了信息的利用率。
76.如图2所示,可选地,所述音频处理网络包括:
77.特征提取层,所述特征提取层用于对所述音频样本数据对应的音频帧序列进行特征提取,获得第一序列,所述第一序列包括多个第一特征向量,且每一所述第一特征向量均与一个所述音频帧对应。
78.应理解的是,所述音频帧序列可以理解为多个音频帧按照顺序排列集合,例如,可以对音频样本数据的每一音频帧进行提取,并按照音频帧对应的时序排列得到所述音频帧序列。
79.应理解的是,获得所述音频样本数据对应的音频帧序列的具体操作在此不做限定。例如,在一些实施例中,认为输入语音信号是10ms-30ms内的短时平稳信号。因此,在本实施例中,可以采用25ms的帧长,10ms的帧移对所述音频样本数据进行分帧操作,得到所述音频帧序列。
80.应理解的是,所述第一序列包括多个第一特征向量,每一所述第一特征向量均与一个所述音频帧对应,所述第一特征向量可以用于表示对应的所述音频帧。
81.应理解的是,对所述音频帧序列进行特征提取,获得第一序列的具体操作在此不做限定。例如,在一些实施例中,首先,对所述音频帧序列进行短时傅里叶变换,获得多个频率特征点。可选地,在一些实施例中,所述短时傅里叶变换可以为512点的短时傅里叶变换,此时得到的频率特征点的数量为257。其次,获取多个所述频率特征点的幅值并执行取对数操作,从而得到多个对应的第一频谱图,每一所述第一频谱图用于表示一个对应的所述音频帧。然后,对所述第一频谱图提取多维特征,可以得到多个对应的第二频谱图。应理解的是,所述多维特征可以为梅尔频率分析(mel-frequency analysis,fbank)多维特征。应理解的是,提取的所述特征的维度在此不做限定,例如,所述特征可以为64维特征、128维特征或32维特征。最后,将所述第二频谱图输入神经网络,即可得到所述第一序列。应理解的是,所述神经网络的具体结构在此不做限定。例如,所述神经网络可以为卷积神经网络(convolutional neural networks,cnn)、深度神经网络(deep neural networks,dnn)、时延神经网络(time-delay neural network,tdnn)或长短期记忆人工神经网络(longshort-term memory,lstm)。
82.特征统计层,所述特征统计层用于对所述第一序列中连续的至少两个所述第一特征向量进行统计处理,获得所述统计特征向量序列,所述统计特征向量序列包括多个统计特征向量。
83.应理解的是,所述第一特征向量通常不仅包括其对应的所述音频帧的特征信息,还包括与其对应的所述音频帧相关的其他所述音频帧的特征信息。例如,当所述神经网络为cnn时,cnn每层的感受野是当前层的上下文信息,总的感受野是所有获取的上下文信息。
应理解的是,所述上下文信息指的是与当前层对应的所述音频帧连续的其他所述音频帧。
84.在一些实施例中,所述第一序列还可以通过注意力模块,得到相同形状的相关第一序列,所述相关第一序列中的每一相关第一特征向量包含每一所述音频帧和其他所述音频帧的相关性信息。
85.在所述音频帧的时间较短的情况下,所述第一特征向量不足以表示说话人的特征。为了获得更多的特征信息,可以利用所述特征统计层对所述第一序列中连续的至少两个所述第一特征向量进行统计处理,获得所述统计特征向量序列,所述统计特征向量不仅包含所述第一特征向量的特性信息,还包括多个所述第一特征向量信息的统计量。
86.应理解的是,所述统计特征向量序列中包括多个所述统计特征向量,因此次,所述特征统计层需要对不同的连续的至少两个所述第一特征向量进行统计处理。
87.应理解的是,对所述第一序列中连续的至少两个所述第一特征向量进行统计处理的具体操作在此不做限定。例如,在一实施例中,所述对所述第一序列中连续的至少两个所述第一特征向量进行统计处理包括:用窗长为150帧,窗移为1帧的窗进行滑动统计池化操作。具体地,对窗内包括的所述音频帧对应的所述第一特征向量进行池化操作,获得对应所述统计特征向量。然后移动所述窗,每次移动的步长为1帧,在移动后对当前窗内包括的所述音频帧对应的所述第一特征向量进行池化操作,获得对应的所述统计特征向量。应理解的是,所窗长的取值大小在此不做限定,所述窗移的取值大小在此不做限定。在使用10ms的帧移对所述音频样本数据进行分帧操作的情况下,可以使用窗长为150帧,窗移为1帧的窗进行滑动统计池化操作,此时每一次池化操作均是对150帧进行池化操作,即1.5秒时间内的所述音频帧进行池化操作。
88.身份向量提取层,所述身份向量提取层用于对所述统计特征向量序列进行向量提取,获得第二序列,所述第二序列包括多个第二特征向量,且每一所述第二特征向量均与一个所述音频帧对应。
89.应理解的是,对所述统计特征向量序列进行向量提取的具体方法在此不做限定。例如,在一实施例中,对所述统计特征向量序列进行向量提取可以理解为,将所述统计特征向量序列映射为所述第二序列。
90.应理解的是,所述特征统计层输出的统计特征向量会输入到所述说话人识别网络。说话人识别网络一方面会输出每一所述统计特征向量对应的说话人表示,另一方面会经由所述身份向量提取层输出所述第二序列。由此可知,在对所述说话人识别网络的训练过程中,数据也会通过所述身份向量提取层。在一些实施例中,有可以认为所述身份向量提取层为所述音频处理网络和所述说话人识别网络共有的。
91.分类处理层,所述分类处理层用于对所述第二序列进行分类处理,获得每一所述音频帧对应的第一类别。
92.应理解的是,对所述第二序列进行分类处理的方法在此不做限定。通常,所述音频处理模型为神经网络模型,可以利用神经网络的分类函数对所述第二序列进行分类,从而得到每一个所述第二特征向量对应的类别,即每一个所述第二特征向量对应的所述音频帧对应的第一类别。
93.应理解的是,所述说话人识别网络包括第二分类处理层,所述第二分类处理层用于对所述统计特征向量序列进行分类处理,获得每一所述音频帧对应的第二类别。
94.在具体实现时,通过将类别相同且连续的所述音频帧记为一个时间段,即可获得每个人的说话时间段。
95.在本发明实施例中,所述音频处理网络包括特征提取层、特征统计层、身份向量提取层和分类处理层。通过所述特征统计层一方面可以提高获取的特征信息的完整性,另一方面可以降低所述第一特征向量的维度,提高数据计算的速度。同时,通过所述身份向量提取层,可以将所述统计特征向量映射成所述第二特征向量。相较于所述第一特征向量,所述第二特征向量与对应的所述音频帧更加相符,从而分类结果也更加准确。
96.需要说明的是,本技术实施例中介绍的多种可选的实施方式,彼此可以相互结合实现,也可以单独实现,对此本技术实施例不作限定。
97.可选地,所述特征统计层包括:
98.音频分割子层,所述音频分割子层用于对所述第一序列中的所述第一特征向量组合,获得特征组,其中,每一所述特征组内均包括至少两个连续的所述第一特征向量。
99.应理解的是,连续的所述第一特征向量可以理解为,所述第一特征向量所表示的所述音频帧在时间上是连续的。所述特征组的数量为多个,每一所述特征组内的所述第一特征向量的数量可以不同。在本发明实施例中,两个不同的所述特征组内可以包括相同的某一个所述第一特征向量。
100.池化操作子层,所述池化操作子层用于对每一所述特征组内的所述第一特征向量进行池化操作,获得每一所述特征组的统计特征向量,其中,所述统计特征向量中包括一个高阶统计量。
101.应理解的是,对每一所述特征组内的所述第一特征向量进行池化操作可以理解为,对每一所述特征组内的所述第一特征向量进行统计计算,通过统计计算一阶统计量、二阶统计量和高阶统计量。例如,在一实施例中,对每一所述特征组内的所述第一特征向量进行池化操作,得到多个所述第一特征向量的最大值和/或平均值。在另一实施例中,对每一所述特征组内的所述第一特征向量进行池化操作,得到多个所述第一特征向量的标准差和/或方差。
102.在本实施例中,所述特征统计层包括所述音频分割子层和池化操作子层。通过所述音频分割子层和所述池化操作层,可以对至少两个连续的所述第一特征向量进行统计操作。由于所述特征组所对应的音频时间较长,包含的信息较多,提高了输出的所述说明人标识的准确性,同时通过所述第二损失值可以调整系统的参数,使得所述统计特征向量与对应的所述音频帧更加相符,从而提高了所述音频处理模型的处理结果的准确度。
103.如图3所示,本发明实施例还提供一种音频处理方法,包括:
104.步骤301,将待处理的音频数据对应的音频帧序列输入到音频处理模型,获得每一所述音频帧对应的第一类别,所述音频帧序列包括多个音频帧;
105.其中,所述音频处理模型利用如上述的音频处理模型的训练方法训练获得。
106.可选地,所述将待处理的音频数据对应的音频帧序列输入到音频处理模型,获得每一所述音频帧对应的第一类别,包括:
107.将待处理的音频数据对应的音频帧序列输入到特征提取层进行特征提取,获得第一序列,所述第一序列包括多个第一特征向量,且每一所述第一特征向量均与一个所述音频帧对应;
108.将所述第一序列输入到特征统计层,多个对连续的至少两个所述第一特征向量进行统计处理,获得统计特征向量序列,所述统计特征向量序列包括多个统计特征向量;
109.将所述统计特征向量序列输入到身份向量提取层进行向量提取,获得第二序列,所述第二序列包括多个第二特征向量,且每一所述第二特征向量均与一个所述音频帧对应;
110.将所述第二序列输入到分类网络层进行分类处理,获得每一所述音频帧对应的第一类别。
111.应理解的是,在对所述待训练音频处理模型进行训练的过程中,将所述音频处理模型确定为所述音频处理模型。因此,在本实施例中,将待处理的音频数据对应的音频帧序列输入到音频处理模型可以理解为,将待处理的音频数据对应的音频帧序列输入到所述音频处理网络。
112.应理解的是,将待处理的音频数据对应的音频帧序列输入到音频处理模型,获得每一所述音频帧对应的第一类别可以理解为,将所述音频帧序列输入到特征提取层进行特征提取,获得所述第一序列。将获得到的所述第一序列输入到特征统计层进行特征提取,获得所述统计特征向量序列。将获得到的所述统计特征向量序列输入到身份向量提取层进行向量提取,获得所述第二序列。将所述第二序列输入到分类网络层进行分类处理,获得每一所述音频帧对应的第一类别。
113.应理解的是,根据前述内容可知,所述音频处理网络包括特征提取层、特征统计层、身份向量提取层和分类处理层。因此,在使用所述音频处理模型进行音频处理的具体实施方式可以参照前述内容,在此不做赘述。
114.参见图4,图4是本技术实施例提供的音频处理模型的训练装置400的结构图,如图4所示,本发明实施例还提供了一种音频处理模型的训练装置400,包括:
115.训练模块401,用于将音频样本数据输入到待训练音频处理模型进行迭代训练,所述待训练音频处理模型包括音频处理网络和说话人识别网络;
116.第一确定模块402,用于利用损失函数确定第n次训练的损失值,n为正整数;
117.调整模块403,用于基于所述损失值对所述待训练音频处理模型进行参数调整;
118.第二确定模块404,用于在所述损失值满足损失收敛条件的情况下,将所述第n次训练的待训练音频处理模型中的音频处理网络确定为音频处理模型;
119.其中,所述音频处理网络用于根据对所述音频样本数据对应的音频帧序列进行特征提取,获得用于表示所述音频帧序列的统计特征向量序列和每一所述音频帧对应的第二特征向量,并根据所述第二特征向量输出每一所述音频帧对应的第一类别,所述音频帧序列包括多个音频帧;所述说话人识别网络用于根据对所述音频处理网络获得的所述统计特征向量序列进行分类处理,获得每一所述统计特征向量对应的第二类别及每一所述音频帧对应的所述第二特征向量;所述损失值包括基于所述音频处理网络输出的第一类别与预先标注的第一类别的差值确定的第一损失值,以及基于所述说话人识别网络输出的第二类别与预先标注的第二类别的差值确定的第二损失值。
120.可选地,所述音频处理网络包括:
121.特征提取层,所述特征提取层用于对所述音频样本数据对应的音频帧序列进行特征提取,获得第一序列,所述第一序列包括多个第一特征向量,且每一所述第一特征向量均
与一个所述音频帧对应;
122.特征统计层,所述特征统计层用于对所述第一序列中连续的至少两个所述第一特征向量进行统计处理,获得所述统计特征向量序列,所述统计特征向量序列包括多个统计特征向量;
123.身份向量提取层,所述身份向量提取层用于对所述统计特征向量序列进行向量提取,获得第二序列,所述第二序列包括多个第二特征向量,且每一所述第二特征向量均与一个所述音频帧对应;
124.分类处理层,所述分类处理层用于对所述第二序列进行分类处理,获得每一所述音频帧对应的第一类别。
125.本技术实施例提供的音频处理模型的训练装置400能够实现图1的方法实施例实现的各个过程,为避免重复,这里不再赘述。
126.参见图5,图5是本技术实施例提供的音频处理装置500的结构图,如图5所示,本发明实施例还提供了一种音频处理装置500,包括:
127.输入模块501,用于将待处理的音频数据对应的音频帧序列输入到音频处理模型,获得每一所述音频帧对应的第一类别,所述音频帧序列包括多个音频帧;
128.其中,所述音频处理模型500利用上述的音频处理模型的训练方法训练获得。
129.本技术实施例提供的音频处理装置500能够实现图3的方法实施例实现的各个过程,为避免重复,这里不再赘述。
130.图6为实现本技术各个实施例的一种电子设备的硬件结构示意图。
131.该电子设备600包括但不限于:射频单元601、网络模块602、音频输出单元603、输入单元604、传感器605、显示单元606、用户输入单元607、接口单元608、存储器609、处理器610、以及电源611等部件。本领域技术人员可以理解,图6中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。在本技术实施例中,电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。
132.其中,处理器610,用于执行以下操作:
133.将音频样本数据输入到待训练音频处理模型进行迭代训练,所述待训练音频处理模型包括音频处理网络和说话人识别网络;
134.利用损失函数确定第n次训练的损失值,n为正整数;
135.基于所述损失值对所述待训练音频处理模型进行参数调整;
136.在所述损失值满足损失收敛条件的情况下,将所述第n次训练的待训练音频处理模型中的音频处理网络确定为音频处理模型;
137.其中,所述音频处理网络用于根据对所述音频样本数据对应的音频帧序列进行特征提取,获得用于表示所述音频帧序列的统计特征向量序列和每一所述音频帧对应的第二特征向量,并根据所述第二特征向量输出每一所述音频帧对应的第一类别,所述音频帧序列包括多个音频帧;所述说话人识别网络用于根据对所述音频处理网络获得的所述统计特征向量序列进行分类处理,获得每一所述统计特征向量对应的第二类别及每一所述音频帧对应的所述第二特征向量;所述损失值包括基于所述音频处理网络输出的第一类别与预先标注的第一类别的差值确定的第一损失值,以及基于所述说话人识别网络输出的第二类别
与预先标注的第二类别的差值确定的第二损失值。
138.或者,处理器610,用于执行以下操作:
139.将待处理的音频数据对应的音频帧序列输入到音频处理模型,获得每一所述音频帧对应的第一类别,所述音频帧序列包括多个音频帧;
140.其中,所述音频处理模型利用上述的音频处理模型的训练方法训练获得。
141.应理解的是,本技术实施例中,射频单元601可用于收发信息或通话过程中,信号的接收和发送,具体的,将来自基站的下行数据接收后,给处理器610处理;另外,将上行的数据发送给基站。通常,射频单元601包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外,射频单元601还可以通过无线通信系统与网络和其他设备通信。
142.电子设备通过网络模块602为用户提供了无线的宽带互联网访问,如帮助用户收发电子邮件、浏览网页和访问流式媒体等。
143.音频输出单元603可以将射频单元601或网络模块602接收的或者在存储器609中存储的音频数据转换成音频信号并且输出为声音。而且,音频输出单元603还可以提供与电子设备600执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出单元603包括扬声器、蜂鸣器以及受话器等。
144.输入单元604用于接收音频或视频信号。输入单元604可以包括图形处理器(graphics processing unit,gpu)6041和麦克风6042,图形处理器6041对在视频捕获模式或音频捕获模式中由音频捕获装置(如摄像头)获得的静态图片或视频的音频数据进行处理。处理后的音频帧可以显示在显示单元606上。经图形处理器6041处理后的音频帧可以存储在存储器609(或其它存储介质)中或者经由射频单元601或网络模块602进行发送。麦克风6042可以接收声音,并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元601发送到移动通信基站的格式输出。
145.电子设备600还包括至少一种传感器605,比如光传感器、运动传感器以及其他传感器。具体地,光传感器包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板6061的亮度,接近传感器可在电子设备600移动到耳边时,关闭显示面板6061和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;传感器605还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等,在此不再赘述。
146.显示单元606用于显示由用户输入的信息或提供给用户的信息。显示单元606可包括显示面板6061,可以采用液晶显示器(liquid crystal display,lcd)、有机发光二极管(organic light-emitting diode,oled)等形式来配置显示面板6061。
147.用户输入单元607可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地,用户输入单元607包括触控面板6071以及其他输入设备6072。触控面板6071,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板6071上或在触控面板6071附近的操作)。触控面板6071可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测
装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器610,接收处理器610发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板6071。除了触控面板6071,用户输入单元607还可以包括其他输入设备6072。具体地,其他输入设备6072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
148.进一步的,触控面板6071可覆盖在显示面板6061上,当触控面板6071检测到在其上或附近的触摸操作后,传送给处理器610以确定触摸事件的类型,随后处理器610根据触摸事件的类型在显示面板6061上提供相应的视觉输出。虽然在图6中,触控面板6071与显示面板6061是作为两个独立的部件来实现电子设备的输入和输出功能,但是在某些实施例中,可以将触控面板6071与显示面板6061集成而实现电子设备的输入和输出功能,具体此处不做限定。
149.接口单元608为外部装置与电子设备600连接的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(i/o)端口、视频i/o端口、耳机端口等等。接口单元608可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到电子设备600内的一个或多个元件或者可以用于在电子设备600和外部装置之间传输数据。
150.存储器609可用于存储软件程序以及各种数据。存储器609可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器609可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
151.处理器610是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器609内的软件程序和/或模块,以及调用存储在存储器609内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。处理器610可包括一个或多个处理单元;优选的,处理器610可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器610中。
152.电子设备600还可以包括给各个部件供电的电源611(比如电池),优选的,电源611可以通过电源管理系统与处理器610逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
153.另外,电子设备600包括一些未示出的功能模块,在此不再赘述。
154.优选的,本技术实施例还提供一种电子设备,包括处理器610,存储器609,存储在存储器609上并可在所述处理器610上运行的计算机程序,该计算机程序被处理器610执行时实现上述音频处理模型的训练方法和上述音频处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
155.本技术实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述音频处理模型的训练方法和上述音频处
理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(read-only memory,简称rom)、随机存取存储器(random access memory,简称ram)、磁碟或者光盘等。
156.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
157.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本技术各个实施例所述的方法。
158.上面结合附图对本技术的实施例进行了描述,但是本技术并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本技术的启示下,在不脱离本技术宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本技术的保护之内。