声纹识别方法、装置、电子设备和存储介质与流程

文档序号:31155413发布日期:2022-08-17 07:03阅读:90来源:国知局
声纹识别方法、装置、电子设备和存储介质与流程

1.本公开涉及人工智能技术领域,具体为深度学习、语音技术领域,尤其涉及声纹识别方法、装置、电子设备和存储介质。


背景技术:

2.声纹类似于指纹,是一个人特有的信息,一个人说的不同的话,其声纹是一致的,因此,通过声纹识别可以对说话人的身份进行识别。在实际声纹识别中,声纹识别往往会受到说话人自身与环境等多重因素的干扰,从而对声纹识别的准确性造成了一定的影响。因此,如何提高声纹识别的准确性成为重点的研究方向。


技术实现要素:

3.本公开提供了一种声纹识别方法、装置、电子设备和存储介质。
4.根据本公开的一方面,提供了一种声纹识别方法,所述方法包括:获取待识别的目标音频数据,并基于所述目标音频数据,获取对应的局部音频特征和全局音频特征;将所述局部音频特征输入声纹识别模型的学生网络,以得到所述学生网络输出的第一声纹特征;将所述全局音频特征输入所述声纹识别模型的教师网络,以得到所述教师网络输出的第二声纹特征;基于所述第一声纹特征和所述第二声纹特征,确定所述目标音频数据对应的目标声纹特征。
5.根据本公开的另一方面,提供了一种用于声纹识别的模型训练方法,所述方法包括:获取训练样本集,所述训练样本集中包括多个样本音频数据;基于所述样本音频数据,获取对应的样本局部音频特征和样本全局音频特征;将所述样本局部音频特征作为声纹识别模型中的学生网络的训练样本,将所述样本全局音频特征作为所述声纹识别模型中的教师网络的训练样本,对声纹识别模型中的教师网络和学生网络进行训练,以得到训练后的声纹识别模型。
6.根据本公开的另一方面,提供了一种声纹识别装置,所述装置包括:第一获取模块,用于获取待识别的目标音频数据,并基于所述目标音频数据,获取对应的局部音频特征和全局音频特征;第一处理模块,用于将所述局部音频特征输入声纹识别模型的学生网络,以得到所述学生网络输出的第一声纹特征;第二处理模块,用于将所述全局音频特征输入所述声纹识别模型的教师网络,以得到所述教师网络输出的第二声纹特征;第一确定模块,用于基于所述第一声纹特征和所述第二声纹特征,确定所述目标音频数据对应的目标声纹特征。
7.根据本公开的另一方面,提供了一种用于声纹识别的模型训练装置,所述装置包括:第二获取模块,用于获取训练样本集,所述训练样本集中包括多个样本音频数据;第三获取模块,用于基于所述样本音频数据,获取对应的样本局部音频特征和样本全局音频特征;训练模块,用于将所述样本局部音频特征作为声纹识别模型中的学生网络的训练样本,将所述样本全局音频特征作为所述声纹识别模型中的教师网络的训练样本,对声纹识别模
型中的教师网络和学生网络进行训练,以得到训练后的声纹识别模型。
8.根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开的声纹识别方法,或者执行本公开的用于声纹识别的模型训练方法。
9.根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开实施例公开的声纹识别方法,或者执行本公开实施例公开的用于声纹识别的模型训练方法。
10.根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开的声纹识别方法的步骤,或者实现本公开的用于声纹识别的模型训练方法的步骤。
11.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
12.附图用于更好地理解本方案,不构成对本公开的限定。其中:
13.图1是根据本公开第一实施例的声纹识别方法的流程示意图;
14.图2是根据本公开第二实施例的声纹识别方法的流程示意图;
15.图3是根据本公开第三实施例的用于声纹识别的模型训练方法的流程示意图;
16.图4是根据本公开第四实施例的用于声纹识别的模型训练方法的流程示意图;
17.图5是根据本公开第四实施例的用于声纹识别的模型训练方法的框架图;
18.图6是根据本公开第五实施例的声纹识别装置的结构示意图;
19.图7是根据本公开第六实施例的用于声纹识别的模型训练装置的结构示意图;
20.图8是用来实现本公开实施例的声纹识别方法或用于声纹识别的模型训练方法的电子设备的框图。
具体实施方式
21.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
22.本公开实施例提供一种能够提高声纹识别的准确性的声纹识别方法和用于声纹识别的模型训练方法,其中声纹识别方法,包括:获取待识别的目标音频数据,并基于目标音频数据,获取对应的局部音频特征和全局音频特征;将局部音频特征输入声纹识别模型的学生网络,以得到学生网络输出的第一声纹特征;将全局音频特征输入声纹识别模型的教师网络,以得到教师网络输出的第二声纹特征;基于第一声纹特征和第二声纹特征,确定目标音频数据对应的目标声纹特征。由此,通过利用学生网络和教师网络,分别基于目标音频数据对应的局部音频特征和全局音频特征这两种不同特点的特征,获取目标音频数据对应的目标声纹特征,提高了声纹识别的准确性。
23.本公开提供的声纹识别方法、用于声纹识别的模型训练方法、装置、电子设备、非瞬时计算机可读存储介质以及计算机程序产品,涉及人工智能技术领域,具体为深度学习、语音技术领域。
24.其中,人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
25.下面参考附图描述本公开实施例的声纹识别方法、用于声纹识别的模型训练方法、装置、电子设备、非瞬时计算机可读存储介质以及计算机程序产品。
26.需要说明的是,本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
27.图1是根据本公开第一实施例的声纹识别方法的流程示意图。其中,需要说明的是,本实施的声纹识别方法,执行主体为声纹识别装置,该声纹识别装置可以由软件和/或硬件实现,该声纹识别装置可以配置在电子设备,该电子设备可以包括但不限于终端设备、服务器等,该实施例对电子设备不作具体限定。
28.如图1所示,该声纹识别方法可以包括:
29.步骤101,获取待识别的目标音频数据,并基于目标音频数据,获取对应的局部音频特征和全局音频特征。
30.其中,待识别的目标音频数据为需要进行声纹识别的一段连续的语音,例如一个句子、一段话等。
31.在示例实施例中,可以通过各种公开、合法合规的方式获取待识别的目标音频数据,例如可以从公开数据集处获取待识别的目标音频数据,或者也可以在经过用户授权后从用户处获取待识别的目标音频数据,本公开对此不作限制。
32.例如,声纹识别装置可以在经过用户授权后,获取录音机、麦克风等音频采集设备实时采集的需要进行声纹识别的目标音频数据,比如用户在唤醒手机、平板等电子设备时,获取手机、平板等电子设备中的采集设备采集的音频数据。
33.或者,声纹识别装置可以在经过用户授权后,从互联网络中下载需要进行声纹识别的目标音频数据,或者从社交软件中下载需要进行声纹识别的目标音频数据等。本公开对此不做限定。
34.其中,局部音频特征,为仅包含目标音频数据中的局部信息的特征,比如,目标音频数据对应的局部音频特征,可以包括将目标音频数据分帧为多帧第一子音频数据后,各帧第一子音频数据的特征,而每帧第一子音频数据的特征,仅根据该帧第一子音频数据或该帧第一子音频数据的前后几帧第一子音频数据得到。
35.全局音频特征,为包含目标音频数据的全局信息的特征,比如,目标音频数据对应的全局音频特征,可以包括将目标音频数据分帧为多帧第一子音频数据后,各帧第一子音频数据的特征,而每帧第一子音频数据的特征,根据该帧第一子音频数据以及整个目标音频数据得到。
36.其中,局部音频特征和全局音频特征,为低级特征,可以采用传统的数字信号处理
技术获得,比如可以采用mfcc(mel frequency cepstral coefficients,梅尔频率倒谱系数)、plp(perceptual linear predictive,感知线性预测)或fbank(filter bank,滤波器组)等方法获得。
37.步骤102,将局部音频特征输入声纹识别模型的学生网络,以得到学生网络输出的第一声纹特征。
38.步骤103,将全局音频特征输入声纹识别模型的教师网络,以得到教师网络输出的第二声纹特征。
39.其中,声纹识别模型中可以包括教师网络和学生网络,教师网络和学生网络的网络结构可以相同。其中,教师网络和学生网络的网络结构可以根据需要进行构建,能实现声纹特征提取功能即可。比如,教师网络和学生网络均可以由以下网络层依次连接而成:conv1d(one-dimensional convolution,一维卷积)层、relu(修正线性单元)激活函数层、bn(batch normalizaion,批量归一化)层、3个se(squeeze-and-excitation,挤压与激发)-res2block(残差块)层、conv1d层、relu层、attentive stat pooling(注意力机制统计池化)层、bn层、fc(fully connected,全连接)层、bn层。
40.在示例实施例中,包括教师网络和学生网络的声纹识别模型为预先训练好的模型,用于对任意的音频数据进行声纹识别,以获取音频数据对应的声纹特征。其中,训练过程可以参考以下实施例,此处不作赘述。
41.其中,教师网络和学生网络均可以包括依次连接的声纹特征提取层以及声纹分布预测层。其中,声纹特征提取层用于提取音频数据中的声纹特征,声纹特征为表示说话人特性的高级的属性表征,可以用于辨别说话人的性别、口音、生理结构、发音习惯等说话人信息,可以从低级的局部音频特征或者全局音频特征中提取得到;声纹分布预测层用于预测声纹特征对应的声纹分布概率,其中,声纹分布概率表示声纹特征在多个说话人上的后验概率的大小。
42.其中,在对声纹识别模型中的教师网络和学生网络进行训练时,可以将样本训练集中的样本音频数据对应的样本局部音频特征,作为学生网络的训练样本,将样本训练集中的样本音频数据对应的样本全局音频特征,作为教师网络的训练样本,对声纹识别模型中的教师网络和学生网络进行训练,使得训练后的教师网络中声纹特征提取层,可以用于从样本全局音频特征提取声纹特征,教师网络中声纹分布预测层,可以用于基于从样本全局音频特征提取的声纹特征,预测该声纹特征对应的声纹分布概率,并且使得学生网络中声纹特征提取层,可以用于从样本局部音频特征中提取声纹特征,学生网络中声纹分布预测层,可以用于基于从样本局部音频特征提取的声纹特征,预测该声纹特征对应的声纹分布概率。
43.在示例实施例中,可以将目标音频数据对应的局部音频特征输入学生网络,以得到学生网络中声纹特征提取层输出的第一声纹特征,并将目标音频数据对应的局部音频特征输入教师网络,以得到教师网络中声纹特征提取层输出的第二声纹特征。
44.步骤104,基于第一声纹特征和第二声纹特征,确定目标音频数据对应的目标声纹特征。
45.在示例实施例中,学生网络输出的第一声纹特征,及教师网络输出的第二声纹特征,均可以用向量的形式进行表示,那么,在获取第一声纹特征及第二声纹特征之后,可以
将第一声纹特征及第二声纹特征的平均值作为目标声纹特征。
46.或者,还可以分别为第一声纹特征及第二声纹特征分配相应的权重,之后将第一声纹特征与第二声纹特征之间的加权和作为目标声纹特征。即将第一声纹特征与其对应的权重的乘积,及第二声纹特征与其对应的权重的乘积之和,作为目标声纹特征。
47.在示例实施例中,为了实现对说话人的身份验证,还可以获取预先存储的音频数据对应的声纹特征,比如在用户进行账户注册时预先存储的声纹特征,在获取说话人的目标音频数据对应的目标声纹特征后,可以将目标声纹特征与预先存储的音频数据对应的声纹特征进行比较,根据两个声纹特征之间的相似度,确定目标音频数据对应的说话人与注册用户是否为同一人。
48.综上,示例实施例的声纹识别方法,获取待识别的目标音频数据,并基于目标音频数据,获取对应的局部音频特征和全局音频特征,将局部音频特征输入声纹识别模型的学生网络,以得到学生网络输出的第一声纹特征,将全局音频特征输入声纹识别模型的教师网络,以得到教师网络输出的第二声纹特征,基于第一声纹特征和第二声纹特征,确定目标音频数据对应的目标声纹特征。由此,通过利用学生网络和教师网络,分别基于目标音频数据对应的局部音频特征和全局音频特征这两种不同特点的特征,获取目标音频数据对应的目标声纹特征,提高了声纹识别的准确性。
49.下面结合图2,对本公开提供的声纹识别方法中,获取目标音频数据对应的局部音频特征和全局音频特征的过程进行进一步说明。
50.图2是根据本公开第二实施例的声纹识别方法的流程示意图。如图2所示,声纹识别方法,可以包括以下步骤:
51.步骤201,获取待识别的目标音频数据。
52.其中,步骤201的具体实现过程及原理,可以参考上述实施例的描述,此处不再赘述。
53.步骤202,对目标音频数据进行分帧,以得到多帧第一子音频数据。
54.在示例实施例中,可以对目标音频数据进行分帧,即将目标音频数据切分为固定长度的小段,以得到多帧第一子音频数据。由于对目标音频数据进行音频特征提取时,采用傅里叶变换将音频数据从时域信号转换为频域信号,而傅里叶变换适用于平稳的信号,因此,为了保证音频数据的短时平稳性,一般取20毫秒(ms)-40ms音频为一帧,比如,每帧音频的长度可以为25ms,本公开对此不做限定。
55.其中,在对目标音频数据进行分帧时,为了避免窗边界对目标音频数据的遗漏,对帧做偏移时,要有帧迭(也称帧移),即每帧第一子音频数据之间需要重叠一部分。一般取帧长的一半作为帧移。比如,帧长为25ms,帧移可以为10ms。本公开对此不做限定。
56.步骤203,对各帧第一子音频数据进行特征提取,以得到各帧第一子音频数据对应的特征向量。
57.在示例实施例中,可以采用传统的数字信号处理技术,比如采用mfcc、plp或fbank等方法,对各帧第一子音频数据进行特征提取,得到对应帧的第一子音频数据对应的特征向量。本公开对此不做限定。
58.步骤204,对于各帧第一子音频数据,基于对应的特征向量,以及前后至少一帧的第一子音频数据对应的特征向量的平均值,获取第一子音频数据对应的局部音频特征。
59.在示例实施例中,可以采用以下方式,对各帧第一子音频数据对应的特征向量进行均值规整,得到各帧第一子音频数据对应的局部音频特征:对于每帧第一子音频数据,获取该帧第一子音频数据对应的平均值,其中,该平均值为该帧第一子音频数据之前的n帧第一子音频数据对应的特征向量以及该帧第一子音频数据之后的n帧第一子音频数据对应的特征向量的平均值,再利用该帧第一子音频数据对应的特征向量,减去对应的该平均值,得到该帧第一子音频数据对应的局部音频特征。其中,n为大于或等于1的整数。
60.步骤205,对于各帧第一子音频数据,基于对应的特征向量,以及各帧第一子音频数据对应的特征向量的平均值,获取第一子音频数据对应的全局音频特征。
61.其中,步骤204与205可以同时执行,也可以分先后执行,本实施例对步骤204与205的执行时机不作限制。
62.在示例实施例中,可以采用以下方式,对各帧第一子音频数据对应的特征向量进行均值规整,得到各帧第一子音频数据对应的全局音频特征:获取对目标音频数据分帧后的所有帧的第一子音频数据对应的特征向量的平均值,再对于每帧第一子音频数据,利用该帧第一子音频数据对应的特征向量,减去该平均值,得到该帧第一子音频数据对应的全局音频特征。
63.通过上述过程,实现了准确获取目标音频数据中各帧第一子音频数据对应的局部音频特征和全局音频特征,为提高声纹识别的准确性奠定了基础。
64.步骤206,将局部音频特征输入声纹识别模型的学生网络,以得到学生网络输出的第一声纹特征。
65.需要说明的是,目标音频数据对应的局部音频特征,包括各帧第一子音频数据对应的局部音频特征,可以将各帧第一子音频数据对应的局部音频特征输入声纹识别模型的学生网络,以得到学生网络输出的对应各帧第一子音频数据的第一声纹特征。
66.步骤207,将全局音频特征输入声纹识别模型的教师网络,以得到教师网络输出的第二声纹特征。
67.其中,步骤206与207可以同时执行,也可以分先后执行,本实施例对步骤206与207的执行时机不作限制。
68.需要说明的是,目标音频数据对应的全局音频特征,包括各帧第一子音频数据对应的全局音频特征,可以将各帧第一子音频数据对应的全局音频特征输入声纹识别模型的教师网络,以得到教师网络输出的对应各帧第一子音频数据的第二声纹特征。
69.步骤208,基于第一声纹特征和第二声纹特征,确定目标音频数据对应的目标声纹特征。
70.其中,步骤206-208的具体实现过程及原理,可以参考上述实施例的描述,此处不再赘述。
71.在示例实施例中,获取到各帧第一子音频数据对应的第一声纹特征后,比如可以将各帧第一子音频数据对应的第一声纹特征的平均值,作为最终确定目标声纹特征时所用的第一声纹特征,或者分别为各帧第一子音频数据分配相应的权重,将各帧第一子音频数据对应的第一声纹特征的加权和,作为最终确定目标声纹特征时所用的第一声纹特征。类似的,获取到各帧第一子音频数据对应的第二声纹特征后,可以将各帧第一子音频数据对应的第一声纹特征的平均值或者加权和,作为最终确定目标声纹特征时所用的第二声纹特
征。
72.综上,示例实施例的声纹识别方法,获取待识别的目标音频数据,对目标音频数据进行分帧,以得到多帧第一子音频数据,对各帧第一子音频数据进行特征提取,以得到各帧第一子音频数据对应的特征向量,对于各帧第一子音频数据,基于对应的特征向量,以及前后至少一帧的第一子音频数据对应的特征向量的平均值,获取第一子音频数据对应的局部音频特征,对于各帧第一子音频数据,基于对应的特征向量,以及各帧第一子音频数据对应的特征向量的平均值,获取第一子音频数据对应的全局音频特征,将局部音频特征输入声纹识别模型的学生网络,以得到学生网络输出的第一声纹特征,将全局音频特征输入声纹识别模型的教师网络,以得到教师网络输出的第二声纹特征,基于第一声纹特征和第二声纹特征,确定目标音频数据对应的目标声纹特征,由此,通过利用学生网络和教师网络,分别基于目标音频数据对应的局部音频特征和全局音频特征这两种不同特点的特征,获取目标音频数据对应的目标声纹特征,提高了声纹识别的准确性。
73.在示例实施例中,还提供一种用于声纹识别的模型训练方法。图3是根据本公开第三实施例的用于声纹识别的模型训练方法的流程示意图。
74.其中,需要说明的是,本公开实施例提供的用于声纹识别的模型训练方法,执行主体为用于声纹识别的模型训练装置,以下简称模型训练装置。该模型训练装置可以由软件和/或硬件实现,该模型训练装置可以配置在电子设备,该电子设备可以包括但不限于终端设备、服务器等,该实施例对电子设备不作具体限定。
75.如图3所示,用于声纹识别的模型训练方法,可以包括以下步骤:
76.步骤301,获取训练样本集,训练样本集中包括多个样本音频数据。
77.其中,训练样本集可以为从voxceleb(人类语音的大规模视听数据集),cn-celeb(说话人识别声纹语音数据库)等开源数据中获取的音频数据,每个样本音频数据为一段连续的语音,例如一个句子、一段话等。
78.步骤302,基于样本音频数据,获取对应的样本局部音频特征和样本全局音频特征。
79.其中,获取样本音频数据对应的样本局部音频特征和样本全局音频特征的方式,与获取目标音频数据对应的局部音频数据和全局音频数据的方式相同,可以参考上述实施例的描述,此处不作赘述。
80.步骤303,将样本局部音频特征作为声纹识别模型中的学生网络的训练样本,将样本全局音频特征作为声纹识别模型中的教师网络的训练样本,对声纹识别模型中的教师网络和学生网络进行训练,以得到训练后的声纹识别模型。
81.其中,声纹识别模型中可以包括教师网络和学生网络,教师网络和学生网络的网络结构可以相同。其中,教师网络和学生网络的网络结构可以根据需要进行构建,能实现声纹特征提取功能即可。
82.在示例实施例中,获取样本音频数据对应的样本局部音频特征和样本全局音频特征后,可以将样本训练集中的样本音频数据对应的样本局部音频特征作为学生网络的训练样本,将样本训练集中的样本音频数据对应的全局音频特征作为教师网络的训练样本,对声纹识别模型中的教师网络和学生网络进行自监督训练。
83.需要说明的是,训练后的声纹识别模型中的教师网络和学生网络,可以用于执行
前述的声纹识别方法。采用训练后的声纹识别模型中的教师网络和学生网络执行前述的声纹识别方法的过程,可以参考上述声纹识别方法的实施例的说明,此处不再赘述。
84.综上,示例实施例提供的用于声纹识别的模型训练方法,获取训练样本集,训练样本集中包括多个样本音频数据,基于样本音频数据,获取对应的样本局部音频特征和样本全局音频特征,将样本局部音频特征作为声纹识别模型中的学生网络的训练样本,将样本全局音频特征作为声纹识别模型中的教师网络的训练样本,对声纹识别模型中的教师网络和学生网络进行训练,以得到训练后的声纹识别模型,实现了基于训练样本集中样本音频数据对应的样本局部音频特征和样本全局音频特征,对声纹识别模型中的教师网络和学生网络进行训练,得到用于声纹识别的教师网络和学生网络,通过利用训练后的声纹识别模型中学生网络和教师网络,分别基于目标音频数据对应的局部音频特征和全局音频特征这两种不同特点的特征,获取目标音频数据对应的目标声纹特征,可以提高声纹识别的准确性。并且,由于无需对训练样本集中的各样本音频数据进行标签标注,从而降低了标注成本。
85.通过上述分析可知,可以对声纹识别模型中的教师网络和学生网络进行自监督训练,下面结合图4,进一步说明本公开提供的用于声纹识别的模型训练方法中,对声纹识别模型中的教师网络和学生网络进行自监督训练的过程。图4是根据本公开第四实施例的用于声纹识别的模型训练方法的流程示意图。
86.如图4所示,用于声纹识别的模型训练方法,可以包括以下步骤:
87.步骤401,获取训练样本集,训练样本集中包括多个样本音频数据。
88.步骤402,基于样本音频数据,获取对应的样本局部音频特征和样本全局音频特征。
89.在示例实施例中,可以采用以下方式,基于样本音频数据,获取对应的样本局部音频特征:对样本音频数据进行分帧,以得到多帧第四子音频数据;对各帧第四子音频数据进行特征提取,以得到各帧第四子音频数据对应的特征向量;对于各帧第四子音频数据,基于对应的特征向量,以及前后至少一帧的第四子音频数据对应的特征向量的平均值,获取第四子音频数据对应的样本局部音频特征。
90.其中,上述实施例中获取目标音频数据对应的局部音频特征的过程,也适用于本示例实施例中获取样本音频数据对应的样本局部音频特征的过程,此处不再赘述。
91.在示例实施例中,还可以采用以下方式,基于样本音频数据,获取对应的样本局部音频特征:对样本音频数据进行增强处理,以获取样本音频数据对应的增强音频数据;对样本音频数据以及增强音频数据进行分帧,以得到多帧第二子音频数据;对各帧第二子音频数据进行特征提取,以得到各帧第二子音频数据对应的特征向量;对于各帧第二子音频数据,基于对应的特征向量,以及前后至少一帧的第二子音频数据对应的特征向量的平均值,获取第二子音频数据对应的样本局部音频特征。样本音频数据对应的样本局部音频特征,包括各帧第二子音频数据对应的样本局部音频特征。
92.其中,对样本音频数据进行增强处理的方式,比如可以包括:随机擦除、混合环境噪声、不同因子尺度变换、裁剪分片等。需要说明的是,对于从某些开源数据集中获取的样本音频数据,可能已经包括了街道、展厅、厨房、操场、车内、机场、房间混响等多种类型噪声,则可以不再进行混合环境噪声的操作。不同因子尺度变换,比如包括拉伸或压缩时间区
间的变换。
93.随机擦除,比如可以采用以下方式:根据样本音频数据的时长,确定待生成的随机数的数量,基于待生成的随机数的数量,生成随机擦除参数组,其中,随机擦除参数组中均包括多个随机数及每个随机数对应的时长参数及每个随机数对应的频点参数,进而基于随机擦除参数组,对样本音频数据进行处理,实现对样本音频数据的随机擦除。
94.其中,可以预先为每个时长区间,设定对应的待生成的随机数的数量,之后根据样本音频数据的时长所在的时长区间,确定待生成的随机数的数量。比如,预先设定4000ms-5000ms这一时长区间对应的待生成的随机数的数量为20个,若样本音频数据的时长为4500ms,则样本音频数据对应的待生成的随机数的数量为20个。
95.或者,也可以预先为每个时长区间,设定对应的待生成的随机数的数量范围,之后根据样本音频数据的时长所在的时长区间,随机确定待生成的随机数的数量。比如,预先设定4000ms-5000ms这一时长区间对应的待生成的随机数的数量为10-20个,若样本音频数据的时长4800ms,则待生成的随机数的数量可以为12个,也可以为15个,本公开对此不做限定。
96.其中,时长参数,可以为对样本音频数据在时域上进行擦除的时间长度。频点参数,可以为每个随机数附近的多个频率点。随机擦除参数组中包含的随机数、每个随机数对应的时长参数及频点参数均可以为随机产生的,相应的,每个随机数对应的时长参数可以相同,也可以不同,每个随机数对应的频点参数可以相同,也可以不同。本公开对此不做限定。
97.基于随机擦除参数组,对样本音频数据进行处理时,可以基于随机擦除参数组中包含的多个随机数及每个随机数对应的时长参数,对样本音频数据的时域进行擦除处理,基于多个随机数及每个随机数对应的频点参数对样本音频数据的频域进行擦除处理,以实现对样本音频数据的随机擦除。
98.获取样本音频数据对应的增强音频数据后,可以对样本音频数据以及对应的增强音频数据进行分帧,得到多帧第二子音频数据,再对各帧第二子音频数据进行特征提取,进而对各帧第二子音频数据对应的特征向量进行均值规整获取样本局部音频特征,具体过程可以参考前述实施例中获取局部音频特征的过程,此处不再赘述。
99.由此,实现了准确获取样本音频数据和对应的增强音频数据中各帧第二子音频数据对应的样本局部音频特征,为提高基于样本局部音频特征训练的声纹识别的准确性奠定了基础,且通过对样本音频数据进行数据增强,相当于加入了噪声的干扰,进而通过利用基于样本音频数据和对应的增强音频数据获取的样本局部音频特征,作为训练样本对教师网络和学生网络进行训练,可以提升学生网络和教师网络的抗干扰能力。另外,由于每次进行数据增强时都是随机的,比如每次进行随机擦除时的随机擦除参数组不同,因此每次的数据都不同,从而可以增强音频数据的多样性。
100.在示例实施例中,可以采用以下方式,基于样本音频数据,获取对应的样本全局音频特征:对样本音频数据进行分帧,以得到多帧第三子音频数据;对各帧第三子音频数据进行特征提取,以得到各帧第三子音频数据对应的特征向量;对于各帧第三子音频数据,基于对应的特征向量,以及各帧第三子音频数据对应的特征向量的平均值,获取第三子音频数据对应的样本全局音频特征。
101.其中,上述实施例中获取目标音频数据对应的全局音频特征的过程,也适用于示例实施例中获取样本音频数据对应的样本全局音频特征的过程,此处不再赘述。
102.由此,实现了准确获取样本音频数据中各帧第三子音频数据对应的样本全局音频特征,为提高基于样本全局音频特征训练的声纹识别的准确性奠定了基础。
103.需要说明的是,样本音频数据对应的样本局部音频特征中包括各帧第二子音频数据对应的样本局部音频特征,样本音频数据对应的样本全局音频特征中包括各帧第三子音频数据对应的样本全局音频特征,在实际训练过程中,第二子音频数据和第三子音频数据的时长相等时,为了保证第二子音频数据对应的样本局部音频特征的数量,与第三子音频数据对应的样本全局音频特征的数量相等,在对样本音频数据进行分帧获取第三子音频数据时,可以复用样本音频数据,使得第二子音频数据的数量与第三子音频数据对应的数量相等。
104.步骤403,将样本局部音频特征输入学生网络分支,以得到样本局部音频特征对应的第一声纹分布概率,并将样本全局音频特征输入教师网络分支,以得到样本全局音频特征对应的第二声纹分布概率。
105.其中,第一声纹分布概率,表示样本局部音频特征对应的声纹特征在多个说话人上的后验概率的大小;第二声纹分布概率,表示样本全局音频特征对应的声纹特征在多个说话人上的后验概率的大小。
106.其中,参考图5,声纹识别模型包括教师网络分支和学生网络分支,教师网络分支包括教师网络,学生网络分支包括学生网络,教师网络和学生网络的网络结构相同。其中,图5中的ps表示第一声纹分布概率,p
t
表示第二声纹分布概率。
107.在示例实施例中,可以将各帧第二子音频数据对应的样本局部音频特征输入学生网络分支,进行前向计算,以得到学生网络分支输出的各样本局部音频特征各自对应的第一声纹分布概率,并且,可以将各帧第三子音频数据对应的样本全局音频特征输入教师网络分支,进行前向计算,以得到教师网络分支输出的各样本全局音频特征各自对应的第二声纹分布概率。
108.步骤404,基于第一声纹分布概率与第二声纹分布概率之间的损失,对学生网络的模型参数进行调整。
109.步骤405,基于调整后的学生网络的模型参数,对教师网络的模型参数进行调整,以基于调整后的学生网络和教师网络,得到训练后的声纹识别模型。
110.在示例实施例中,可以基于各样本局部音频特征各自对应的第一声纹分布概率,与各样本全局音频特征各自对应的第二声纹分布概率之间的损失,对学生网络的模型参数进行调整,再基于调整后的学生网络的模型参数,对教师网络的模型参数进行调整。
111.在示例实施例中,为了使教师网络分支和学生网络分支输出的声纹分布概率相同,可以采用交叉熵来计算第一声纹分布概率与第二声纹分布概率之间的损失,再根据随机梯度下降准则反向更新学生网络的模型参数,学生网络的模型参数更新后,可以通过ema(exponential moving average,指数移动平均)策略更新教师网络的模型参数。
112.即,可以采用以下公式(1)所示的方式,对学生网络的模型参数进行调整:
113.114.其中,θs表示学生网络的模型参数;p
t
(x')表示教师网络分支输出的样本全局音频特征x’对应的第二声纹分布概率;ps(x)表示学生网络分支输出的样本局部音频特征x对应的第一声纹分布概率;损失函数h(p
t
(x'),ps(x))表示-p
t
(x')logps(x);公式(1)的含义为,通过调整学生网络的模型参数θs,使得损失函数h(p
t
(x'),ps(x))的值最小。
115.可以采用以下公式(2)所示的方式,基于调整后的学生网络的模型参数,对教师网络的模型参数进行调整:
116.θ
t

λθ
t
+(1-λ)θsꢀꢀꢀꢀꢀꢀ
(2)
117.其中,λ表示超参数,可以根据需要取值,比如可以取0.996~1之间的值;θ
t
表示教师网络的模型参数;公式(2)的含义为,将λθ
t
+(1-λ)θs作为教师网络的模型参数。
118.需要说明的是,上述对学生网络和教师网络的模型参数进行调整的方式,仅是示例性说明,不能理解为对本方案的限制。
119.上述对教师网络和学生网络进行训练的方式,基于第一声纹分布概率与第二声纹分布概率之间的损失,对学生网络的模型参数进行调整,基于调整后的学生网络的模型参数,对教师网络的模型参数进行调整,由此,通过基于两种不同的学习策略来保障训练学习的有效性,将学生网络学习到的部分知识通过该方式部分的蒸馏到教师网络中去,这样相互辅助,相互校验纠正,以使两个网络分支输出的声纹分布概率尽可能的接近,实现了对教师网络和学生网络的自监督训练,由于无需对训练样本集中的各样本音频数据进行标签标注,从而降低了标注成本。另外,使得训练后的声纹识别模型可以利用相同网络结构的教师网络和学生网络,通过分别基于目标音频数据对应的局部音频特征和全局音频特征这两种不同特点的特征,准确获取目标音频数据对应的内部不变的高级的属性表征,即目标声纹特征,从而提高声纹识别的准确性。
120.在示例实施例中,参考图5,学生网络分支还可以包括与学生网络连接的第一归一化层,相应的,步骤403中将样本局部音频特征输入学生网络分支,以得到样本局部音频特征对应的第一声纹分布概率,可以包括:将样本局部音频特征输入学生网络,以获取学生网络输出的样本局部音频特征对应的第一初始声纹分布概率;将第一初始声纹分布概率输入第一归一化层,以获取第一归一化层输出的样本局部音频特征对应的第一声纹分布概率。
121.其中,第一初始声纹分布概率,表示学生网络预测的样本局部音频特征对应的声纹特征在多个说话人上的后验概率的大小。
122.在示例实施例中,为了使输出更加平滑,在第一归一化层的计算中,可以添加常量因子τs,相应的,第一归一化层可以采用以下公式(3)所示的方式,对学生网络输出的样本局部音频特征对应的第一初始声纹分布概率进行处理,得到样本局部音频特征对应的第一声纹分布概率:
[0123][0124]
其中,τs可以根据需要取值,比如可以取0.04~0.07之间的值;ps(x)(i)表示样本局部音频特征对应的声纹特征在第i个说话人上的后验概率的大小;gθs表示学生网络;gθs(x)(i)表示学生网络输出的样本局部音频特征对应的第一初始声纹分布概率中,声纹特征在第i个说话人上的后验概率的大小;gθs(x)
(k)
表示学生网络输出的样本局部音频特征对应
的第一初始声纹分布概率中,声纹特征在第k个说话人上的后验概率的大小;k表示说话人的总数。
[0125]
通过上述过程,实现了利用第一归一化层,对学生网络输出的样本局部音频特征对应的第一初始声纹分布概率进行归一化处理,得到样本局部音频特征对应的第一声纹分布概率。
[0126]
在示例实施例中,学生网络可以包括依次连接的声纹特征提取层以及声纹分布预测层,相应的,将样本局部音频特征输入学生网络,以获取学生网络输出的样本局部音频特征对应的第一初始声纹分布概率,可以包括:将样本局部音频特征输入学生网络中的声纹特征提取层,以获取声纹特征提取层输出的样本局部音频特征对应的第三声纹特征;将第三声纹特征输入学生网络中的声纹分布预测层,以获取声纹分布预测层输出的样本局部音频特征对应的第一初始声纹分布概率。
[0127]
由此,使得学生网络经过训练,可以学习到如何从局部音频特征中提取声纹特征,以及预测声纹特征对应的声纹分布概率,从而可以利用训练后的学生网络,从待识别的目标音频数据对应的局部音频特征中提取第一声纹特征。
[0128]
在示例实施例中,教师网络分支的结构可以与学生网络分支的结构相同,即教师网络分支可以包括教师网络和第二归一化层,教师网络的结构可以与学生网络的结构相同,即教师网络可以包括声纹特征提取层以及声纹分布预测层。
[0129]
在示例实施例中,为了使训练更稳定,教师网络分支除了可以包括教师网络及第二归一化层,还可以包括中心化层,其中,中心化层与教师网络及第二归一化层分别连接。即,教师网络分支可以包括教师网络、与教师网络连接的中心化层,以及与中心化层连接的第二归一化层。
[0130]
相应的,步骤403中将样本全局音频特征输入教师网络分支,以得到样本全局音频特征对应的第二声纹分布概率,可以包括:将各帧第三子音频数据对应的样本全局音频特征,输入教师网络,以获取教师网络输出的各帧第三子音频数据对应的第二初始声纹分布概率;将各帧第三子音频数据对应的第二初始声纹分布概率,输入中心化层,以利用各帧第三子音频数据对应的第二初始声纹分布概率的平均值,对中心化层输出的前一个样本音频数据对应的初始声纹分布概率进行更新,得到第三初始声纹分布概率;将第三初始声纹分布概率,输入第二归一化层,以获取第二归一化层输出的第二声纹分布概率。
[0131]
其中,第二初始声纹分布概率,表示教师网络预测的样本全局音频特征对应的声纹特征在多个说话人上的后验概率的大小。
[0132]
即,可以采用以下公式(4)所示的方式,得到第三初始声纹分布概率:
[0133][0134]
其中,m为超参数,可以根据需要取值,比如取0.9;b为迭代训练过程中每批数据的帧数,即对样本音频数据进行分帧后得到的第三子音频数据的帧数;c表示中心化层输出的当前样本音频数据对应的初始声纹分布概率,即第三初始声纹分布概率;c’表示中心化层输出的前一个样本音频数据对应的初始声纹分布概率,c’的初始值可以根据需要设置;gθ
t
表示教师网络;gθ
t
(x'j)表示教师网络输出的第j帧第三子音频数据x'j对应的第二初始声纹分布概率。
[0135]
需要说明的是,在迭代训练过程中,将各帧第二子音频数据对应的第一初始声纹分布概率,输入第一归一化层后,得到的为各帧第二子音频数据各自对应的第一声纹分布概率,即学生网络分支对于当前样本音频数据,可以输出多个第一声纹分布概率,而将各帧第三子音频数据对应的第二初始声纹分布概率,输入中心化层后,得到的为当前样本音频数据对应的一个第三初始声纹分布概率,相应的,将第三初始声纹分布概率,输入第二归一化层后,得到的为当前样本音频数据对应的一个第二声纹分布概率,即教师网络分支对于当前样本音频数据,可以输出一个第二声纹分布概率,在对学生网络的模型参数进行调整时,可以基于各第一声纹分布概率分布与同一个第二声纹分布概率之间的损失进行调整。
[0136]
通过上述过程,实现了利用教师网络分支获取第二声纹分布概率,且通过在教师网络分支中加入中心化层,通过中心化层利用各帧第三子音频数据对应的第二初始声纹分布概率的平均值,对中心化层输出的前一个样本音频数据对应的初始声纹分布概率进行更新,得到当前样本音频数据对应的第三初始声纹分布概率,可以去除各帧第三子音频数据对应的第二初始声纹分布概率中的野值点,使训练更稳定,提高训练后的声纹识别模型的声纹识别准确性。且通过利用第二归一化层对第三初始声纹分布概率进行处理,实现了对中心化层输出的当前样本音频数据对应的第三初始声纹分布概率的归一化处理。
[0137]
另外,由于本公开实施例中对声纹识别模型中教师网络和学生网络进行训练时采用的训练样本集是无标签的,在训练过程中可能会出现不稳定或崩溃的情况,那么,在示例实施例中,可以基于课程式学习的思想,让声纹识别模型先从容易的训练样本开始学习,并逐渐进阶到复杂的训练样本和知识,以减少迭代步数,加速训练过程,并且避免出现训练不稳定或崩溃的情况,且使声纹识别模型获得更好的泛化性能。
[0138]
其中,可以采用在不同阶段的训练中,逐渐增加数据量和/或增加数据增强的方式的策略,实现声纹识别模型先从容易的训练样本开始学习,并逐渐进阶到复杂的训练样本和知识。
[0139]
以在不同阶段的训练中,逐渐增加数据量和增加数据增强的方式的策略为例。相应的,在示例实施例中,对声纹识别模型进行训练时的训练样本集的数量可以为n个,n为大于1的整数,并且可以将训练过程分为p个阶段,每个阶段中,获取n个训练样本集中的m个训练样本集,并基于m个训练样本集对声纹识别模型中的教师网络和学生网络进行一个阶段的训练。其中,m为大于0的整数,p为大于1的整数,且随着阶段数的增加,m的数值增大,对m个训练样本集中样本音频数据进行数据增强的方式增多。在经过p个阶段的训练后,将经过p个阶段的训练后得到的声纹识别模型,确定为训练后的声纹识别模型。
[0140]
举例来说,假设声纹识别模型的训练过程包括50轮训练,训练样本集的数量为3个训练样本集,每个训练样本集中包括10万个样本音频数据。那么可以设置前10轮训练为第一个阶段,第11轮至30轮训练为第二个阶段,第31轮至50轮训练为第三阶段。并且设置第一个阶段中,采用3个训练样本集中的任意1个训练样本集进行训练,并且在对这1个训练样本集中的样本音频数据进行数据增强时,仅采用随机擦除的增强方式;在第二个阶段中,采用3个训练样本集中的任意2个训练样本集进行训练,并且在对这2个训练样本集中的样本音频数据进行数据增强时,采用随机擦除及混合环境噪声的增强方式;在第三个阶段中,采用全部3个训练样本集进行训练,并且在对这3个训练样本集中的样本音频数据进行数据增强时,采用随机擦除、混合环境噪声及尺度变换的增强方式。其中,在每轮训练中,对声纹识别
模型中的教师网络和学生网络进行训练的方式为上述实施例中的训练方式。
[0141]
综上,示例实施例提供的用于声纹识别的模型训练方法,获取训练样本集,训练样本集中包括多个样本音频数据,基于样本音频数据,获取对应的样本局部音频特征和样本全局音频特征,将样本局部音频特征输入学生网络分支,以得到样本局部音频特征对应的第一声纹分布概率,并将样本全局音频特征输入教师网络分支,以得到样本全局音频特征对应的第二声纹分布概率,基于第一声纹分布概率与第二声纹分布概率之间的损失,对学生网络的模型参数进行调整,基于调整后的学生网络的模型参数,对教师网络的模型参数进行调整,以基于调整后的学生网络和教师网络,得到训练后的声纹识别模型,实现了基于训练样本集中样本音频数据对应的样本局部音频特征和样本全局音频特征,对声纹识别模型中的教师网络和学生网络进行自监督训练,得到用于声纹识别的教师网络和学生网络,通过利用训练后的声纹识别模型中学生网络和教师网络,分别基于目标音频数据对应的局部音频特征和全局音频特征这两种不同特点的特征,获取目标音频数据对应的目标声纹特征,可以提高声纹识别的准确性。并且,由于无需对训练样本集中的各样本音频数据进行标签标注,从而降低了标注成本。
[0142]
下面结合图6,对本公开提供的声纹识别装置进行说明。
[0143]
图6是根据本公开第五实施例的声纹识别装置的结构示意图。
[0144]
如图6所示,本公开提供的声纹识别装置600,包括:第一获取模块601、第一处理模块602、第二处理模块603以及第一确定模块604。
[0145]
其中,第一获取模块601,用于获取待识别的目标音频数据,并基于目标音频数据,获取对应的局部音频特征和全局音频特征;
[0146]
第一处理模块602,用于将局部音频特征输入声纹识别模型的学生网络,以得到学生网络输出的第一声纹特征;
[0147]
第二处理模块603,第二处理模块,用于将全局音频特征输入声纹识别模型的教师网络,以得到教师网络输出的第二声纹特征。
[0148]
第一确定模块604,用于基于第一声纹特征和第二声纹特征,确定目标音频数据对应的目标声纹特征。
[0149]
需要说明的是,本实施例提供的声纹识别装置600,可以执行前述实施例的声纹识别方法。其中,声纹识别装置600可以由软件和/或硬件实现,该声纹识别装置600可以配置在电子设备,该电子设备可以包括但不限于终端设备、服务器等,该实施例对电子设备不作具体限定。
[0150]
在示例实施例中,第一获取模块601,包括:
[0151]
第一分帧子模块,用于对目标音频数据进行分帧,以得到多帧第一子音频数据;
[0152]
第一特征提取子模块,用于对各帧第一子音频数据进行特征提取,以得到各帧第一子音频数据对应的特征向量;
[0153]
第一获取子模块,用于对于各帧第一子音频数据,基于对应的特征向量,以及前后至少一帧的第一子音频数据对应的特征向量的平均值,获取第一子音频数据对应的局部音频特征;
[0154]
第二获取子模块,用于对于各帧第一子音频数据,基于对应的特征向量,以及各帧第一子音频数据对应的特征向量的平均值,获取第一子音频数据对应的全局音频特征。
[0155]
需要说明的是,前述对于声纹识别方法的实施例的说明,也适用于本公开提供的声纹识别装置,此处不再赘述。
[0156]
示例实施例提供的声纹识别装置,获取待识别的目标音频数据,并基于目标音频数据,获取对应的局部音频特征和全局音频特征,将局部音频特征输入声纹识别模型的学生网络,以得到学生网络输出的第一声纹特征,将全局音频特征输入声纹识别模型的教师网络,以得到教师网络输出的第二声纹特征,基于第一声纹特征和第二声纹特征,确定目标音频数据对应的目标声纹特征。由此,通过利用学生网络和教师网络,分别基于目标音频数据对应的局部音频特征和全局音频特征这两种不同特点的特征,获取目标音频数据对应的目标声纹特征,提高了声纹识别的准确性。
[0157]
在示例实施例中,还提供一种用于声纹识别的模型训练装置。下面结合图7,对本公开提供的用于声纹识别的模型训练装置进行说明。
[0158]
图7是根据本公开第六实施例的用于声纹识别的模型训练装置的结构示意图。
[0159]
如图7所示,本公开提供的用于声纹识别的模型训练装置700,包括:第二获取模块701、第三获取模块702以及训练模块703。
[0160]
其中,第二获取模块701,用于获取训练样本集,训练样本集中包括多个样本音频数据;
[0161]
第三获取模块702,用于基于样本音频数据,获取对应的样本局部音频特征和样本全局音频特征;
[0162]
训练模块703,用于将样本局部音频特征作为声纹识别模型中的学生网络的训练样本,将样本全局音频特征作为声纹识别模型中的教师网络的训练样本,对声纹识别模型中的教师网络和学生网络进行训练,以得到训练后的声纹识别模型。
[0163]
需要说明的是,本实施例提供的用于声纹识别的模型训练装置700,简称模型训练装置,可以执行前述实施例的用于声纹识别的模型训练方法。其中,模型训练装置可以由软件和/或硬件实现,该模型训练装置可以配置在电子设备,该电子设备可以包括但不限于终端设备、服务器等,该实施例对电子设备不作具体限定。
[0164]
在示例实施例中,声纹识别模型包括教师网络分支和学生网络分支,教师网络分支包括教师网络,学生网络分支包括学生网络;教师网络和学生网络的网络结构相同;
[0165]
训练模块703,包括:
[0166]
第一处理子模块,用于将样本局部音频特征输入学生网络分支,以得到样本局部音频特征对应的第一声纹分布概率,并将样本全局音频特征输入教师网络分支,以得到样本全局音频特征对应的第二声纹分布概率;
[0167]
第一调整子模块,用于基于第一声纹分布概率与第二声纹分布概率之间的损失,对学生网络的模型参数进行调整;
[0168]
第二调整子模块,用于基于调整后的学生网络的模型参数,对教师网络的模型参数进行调整,以基于调整后的学生网络和教师网络,得到训练后的声纹识别模型。
[0169]
在示例实施例中,第三获取模块702,包括:
[0170]
第二处理子模块,用于对样本音频数据进行增强处理,以获取样本音频数据对应的增强音频数据;
[0171]
第二分帧子模块,用于对样本音频数据以及增强音频数据进行分帧,以得到多帧
第二子音频数据;
[0172]
第二特征提取子模块,用于对各帧第二子音频数据进行特征提取,以得到各帧第二子音频数据对应的特征向量;
[0173]
第三获取子模块,用于对于各帧第二子音频数据,基于对应的特征向量,以及前后至少一帧的第二子音频数据对应的特征向量的平均值,获取第二子音频数据对应的样本局部音频特征。
[0174]
在示例实施例中,学生网络分支还包括与学生网络连接的第一归一化层;
[0175]
第一处理子模块,包括:
[0176]
第一处理单元,用于将样本局部音频特征输入学生网络,以获取学生网络输出的样本局部音频特征对应的第一初始声纹分布概率;
[0177]
第二处理单元,用于将第一初始声纹分布概率输入第一归一化层,以获取第一归一化层输出的样本局部音频特征对应的第一声纹分布概率。
[0178]
在示例实施例中,学生网络包括依次连接的声纹特征提取层以及声纹分布预测层;
[0179]
第一处理单元,包括:
[0180]
第一处理子单元,用于将样本局部音频特征输入学生网络中的声纹特征提取层,以获取声纹特征提取层输出的样本局部音频特征对应的第三声纹特征;
[0181]
第二处理子单元,用于将第三声纹特征输入学生网络中的声纹分布预测层,以获取声纹分布预测层输出的样本局部音频特征对应的第一初始声纹分布概率。
[0182]
在示例实施例中,第三获取模块702,包括:
[0183]
第三分帧子模块,用于对样本音频数据进行分帧,以得到多帧第三子音频数据;
[0184]
第三特征提取子模块,用于对各帧第三子音频数据进行特征提取,以得到各帧第三子音频数据对应的特征向量;
[0185]
第四获取子模块,用于对于各帧第三子音频数据,基于对应的特征向量,以及各帧第三子音频数据对应的特征向量的平均值,获取第三子音频数据对应的样本全局音频特征。
[0186]
在示例实施例中,教师网络分支还包括与教师网络连接的中心化层,以及与中心化层连接的第二归一化层;
[0187]
第一处理子模块,包括:
[0188]
第三处理单元,用于将各帧第三子音频数据对应的样本全局音频特征,输入教师网络,以获取教师网络输出的各帧第三子音频数据对应的第二初始声纹分布概率;
[0189]
第四处理单元,用于将各帧第三子音频数据对应的第二初始声纹分布概率,输入中心化层,以利用各帧第三子音频数据对应的第二初始声纹分布概率的平均值,对中心化层输出的前一个样本音频数据对应的初始声纹分布概率进行更新,得到第三初始声纹分布概率;
[0190]
第五处理单元,用于将第三初始声纹分布概率,输入第二归一化层,以获取第二归一化层输出的第二声纹分布概率。
[0191]
在示例实施例中,训练样本集的数量为n,n为大于1的整数;装置还包括:
[0192]
第四获取模块,用于获取n个训练样本集中的m个训练样本集;
[0193]
训练模块703包括训练单元,用于基于m个训练样本集对声纹识别模型中的教师网络和学生网络进行一个阶段的训练;其中,m为大于0的整数;
[0194]
模型训练装置700还包括:第二确定模块,用于将经过p个阶段的训练后得到的声纹识别模型,确定为训练后的声纹识别模型;p为大于1的整数,且随着阶段数的增加,m的数值增大,对m个训练样本集中样本音频数据进行数据增强的方式增多。
[0195]
需要说明的是,前述对于用于声纹识别的模型训练方法的实施例的说明,也适用于本公开提供的用于声纹识别的模型训练装置,此处不再赘述。
[0196]
本公开实施例提供的用于声纹识别的模型训练装置,获取训练样本集,训练样本集中包括多个样本音频数据,基于样本音频数据,获取对应的样本局部音频特征和样本全局音频特征,将样本局部音频特征作为声纹识别模型中的学生网络的训练样本,将样本全局音频特征作为声纹识别模型中的教师网络的训练样本,对声纹识别模型中的教师网络和学生网络进行训练,以得到训练后的声纹识别模型,实现了基于训练样本集中样本音频数据对应的样本局部音频特征和样本全局音频特征,对声纹识别模型中的教师网络和学生网络进行训练,得到用于声纹识别的教师网络和学生网络,通过利用训练后的声纹识别模型中学生网络和教师网络,分别基于目标音频数据对应的局部音频特征和全局音频特征这两种不同特点的特征,获取目标音频数据对应的目标声纹特征,可以提高声纹识别的准确性。并且,由于无需对训练样本集中的各样本音频数据进行标签标注,从而降低了标注成本。
[0197]
基于上述实施例,本公开还提供一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开的声纹识别方法,或者执行本公开的用于声纹识别的模型训练方法。
[0198]
基于上述实施例,本公开还提供一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开实施例公开的声纹识别方法,或者执行本公开实施例公开的用于声纹识别的模型训练方法。
[0199]
基于上述实施例,本公开还提供一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开的声纹识别方法的步骤,或者实现本公开的用于声纹识别的模型训练方法的步骤。
[0200]
根据本公开的实施例,本公开还提供了一种电子设备和一种可读存储介质和一种计算机程序产品。
[0201]
图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0202]
如图8所示,该电子设备800可以包括计算单元801,其可以根据存储在只读存储器(rom)802中的计算机程序或者从存储单元808加载到随机访问存储器(ram)803中的计算机程序,来执行各种适当的动作和处理。在ram 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、rom 802以及ram 803通过总线804彼此相连。输入/输出(i/o)接口
805也连接至总线804。
[0203]
设备800中的多个部件连接至i/o接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0204]
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如声纹识别方法或用于声纹识别的模型训练方法。例如,在一些实施例中,声纹识别方法或用于声纹识别的模型训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由rom 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到ram 803并由计算单元801执行时,可以执行上文描述的声纹识别方法或用于声纹识别的模型训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行声纹识别方法或用于声纹识别的模型训练方法。
[0205]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、复杂可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0206]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0207]
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0208]
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视
器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0209]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)、互联网和区块链网络。
[0210]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务("virtual private server",或简称"vps")中,存在的管理难度大,业务扩展性弱的缺陷。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
[0211]
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
[0212]
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1