训练方法、系统、介质及跨信道及方言的声纹识别模型与流程

文档序号:33375293发布日期:2023-03-08 03:45阅读:60来源:国知局
训练方法、系统、介质及跨信道及方言的声纹识别模型与流程

1.本发明涉及说话人识别技术领域,具体地说,涉及一种训练方法、系统、介质及跨信道及方言的声纹识别模型。


背景技术:

2.目前基于x-vector构架的说话人识别模型的主要优点在于,在训练数据充足的情况下,相比传统的i-vector系统拥有更高的识别率。其在跨信道语音识别时,因其模型架构而导致的缺陷也较为显著;主要体现在,随着训练数据量的增加,会导致训练的模型向着训练数据中的信道差异发生偏移,导致最终训练结果与预期的结果完全不同。
3.上述缺陷主要是因为,目前的基于x-vector构架的模型,主要是以说话人语音数据中一些表征向量的交叉熵去对多个说话人进行分类,并用预先标注的说话标签减少损失函数的熵值以实现模型的训练;由于基于x-vector构架的说话人识别模型需要较大量的训练数据量以实现更高识别率的获取,故在训练数据量增多的情形时难以避免地会将训练样本中的不利因素(如信道不匹配、方言不匹配等)凸显出来;在模型训练时,这些不利因素一旦形成一定的规模,就会导致整体模型往不利因素发生偏移,最后就会对整体效果带来负面影响。
4.其中,上述的跨信道是指语音数据的信道来源,也即不同的声音采集设备带来了信道的差异。


技术实现要素:

5.本发明提供了一种跨信道及方言的声纹识别模型的训练方法,其能够克服现有技术的某种或某些缺陷。
6.根据本发明的跨信道及方言的声纹识别模型的训练方法,该声纹识别模型具有依次连接的第一输入层、第一卷积层、声纹特征提取网络层、前馈网络层和第一输出层,第一输入层用于获取语音特征序列w
i1
,声纹特征提取网络层用于输出语音表征序列w
i*
,第一输出层用于输出说话人预测序列
7.对该声纹识别模型进行训练时,包括如下步骤:
8.步骤s1、构建文本特征提取网络、第二输出层及第三输出层;
9.其中,文本特征提取网络用于获取文本特征序列t
i1
并输出文本表征序列t
i*
,第二输出层与前馈网络层连接并用于输出信道预测序列第三输出层与前馈网络层连接并用于输出文本预测序列
10.步骤s2、构建训练集x;
11.其中,x={xi|i=1,2,3,

n},xi={si,ci,w
i0
,t
i0
};n为样本总数,xi为第i个样本,si、ci、w
i0
和t
i0
分别为样本xi的说话人标签、信道标签、语音数据和文本数据;
12.步骤s3、初始化声纹识别模型的参数;
13.步骤s4、训练声纹识别模型并构建损失函数l;
14.在对训练声纹识别模型时,对语音表征序列w
i*
和文本表征序列t
i*
进行融合并获取融合特征序列ai,之后以融合特征序列ai作为前馈网络层的输出进而获取说话人预测序列信道预测序列和文本预测序列
15.其中,融合特征序列ai中任一特征的值为语音表征序列w
i*
和文本表征序列t
i*
中对应特征的值的算术和;
16.其中,l=-α2l2+α1l1+α3l3;l1、l2和l3分别为用于表征信道、说话人和文本数据的预测值与真实值间的差异的损失函数,α1、α2和α3分别为损失函数l1、l2和l3的权重,α1、α2和α3的取值区间均为(0,1)且人为设定;
17.步骤s5、更新声纹识别模型的参数;
18.步骤s6、重复步骤s4及s5,直至损失函数最优,完成声纹识别模型的训练。
19.通过上述使得,在对声纹识别模型进行训练时,能够通过文本特征提取网络额外引入文本信息,并能够基于第一输入层、第二输入层和第三输入层同时对信道来源、说话人来源和文本信息进行预测,之后基于3者的损失函数构建整个模型训练的损失函数;故而能够较佳地在训练的过程中引入信道识别和文本识别,以多任务的方式实现所训练模型的较强鲁棒性的获取,进而尽量减少因训练数据量增加而导致的信道不匹配、方言不匹配等不利因素的累积。
20.作为优选,文本特征提取网络具有依次连接的第二输入层和第二卷积层,第二输入层用于对文本数据t
i0
进行向量化处理以获取向量化的文本特征序列t
i1
,第二卷积层用于对文本特征序列ti进行卷积处理以获取文本表征序列t
i*
。故而能够较佳地实现对文本数据的处理,以保证后续步骤的实现。
21.作为优选,第二输入层具有2层双向lstm网络层,并用于将文本数据t
i0
处理成具有512维度的文本向量。故而能够较佳实现文本特征序列t
i1
的获取。
22.作为优选,第二卷积层和第一卷积层具有相同架构且共用参数。通过保证其具有相同构架,保证了步骤s4中的数据融合的实现;通过保证参数的共用,保证了因第二卷积层和第一卷积层在迭代过程中因参数的差异,而对最终训练所得的声纹识别模型的性能造成干扰。
23.作为优选,第一输出层用于提取语音数据w
i0
的mfcc特征并作为语音特征序列w
i1
。故而较佳地实现了语音特征序列w
i1
的获取。
24.作为优选,声纹特征提取网络层采用transformer网络。故而能够较佳地借助现有架构实现对语音数据的识别及处理。
25.作为优选,损失函数l1、l2和l3均采用交叉熵损失函数。故而便于实现。
26.此外,本发明还提供了一种跨信道及方言的声纹识别模型的训练装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时,实现任一项上述的训练方法的步骤。故而能够较佳地实现上述训练方法。
27.此外,本发明还提供了一种计算机可读介质,其上存储有计算机程序,其特征在于:所述计算机程序被执行时实现任一项上述的训练方法的步骤。故而能够较佳地实现上述训练方法。
28.此外,本发明还提供了一种跨信道及方言的声纹识别模型,其具有依次连接的第
一输入层、第一卷积层、声纹特征提取网络层、前馈网络层和第一输出层,第一输入层用于获取语音特征序列w
i1
,声纹特征提取网络层用于输出语音表征序列w
i*
,第一输出层用于输出说话人预测序列其通过任一项上述的训练方法训练获取。故而在面对跨信道、多方言语音数据的处理时,能够具备较佳的泛化性和鲁棒性。
附图说明
29.图1为实施例1中的训练方法的框架示意图。
具体实施方式
30.为进一步了解本发明的内容,结合附图和实施例对本发明作详细描述。应当理解的是,实施例仅仅是对本发明进行解释而并非限定。
31.实施例1
32.见于图1,本实施例提供了一种跨信道及方言的声纹识别模型的训练方法,该声纹识别模型具有依次连接的第一输入层、第一卷积层、声纹特征提取网络层、前馈网络层和第一输出层,第一输入层用于获取语音特征序列w
i1
,声纹特征提取网络层用于输出语音表征序列w
i*
,第一输出层用于输出说话人预测序列
33.对该声纹识别模型进行训练时,包括如下步骤:
34.步骤s1、构建文本特征提取网络、第二输出层及第三输出层;
35.其中,文本特征提取网络用于获取文本特征序列t
i1
并输出文本表征序列t
i*
,第二输出层与前馈网络层连接并用于输出信道预测序列第三输出层与前馈网络层连接并用于输出文本预测序列
36.步骤s2、构建训练集x;
37.其中,x={xi|i=1,2,3,

n},xi={si,ci,w
i0
,t
i0
};n为样本总数,xi为第i个样本,si、ci、w
i0
和t
i0
分别为样本xi的说话人标签、信道标签、语音数据和文本数据;
38.步骤s3、初始化声纹识别模型的参数;
39.步骤s4、训练声纹识别模型并构建损失函数l;
40.在对训练声纹识别模型时,对语音表征序列w
i*
和文本表征序列t
i*
进行融合并获取融合特征序列ai,之后以融合特征序列ai作为前馈网络层的输出进而获取说话人预测序列信道预测序列和文本预测序列
41.其中,融合特征序列ai中任一特征的值为语音表征序列w
i*
和文本表征序列t
i*
中对应特征的值的算术和;
42.其中,l=-α2l2+α1l1+α3l3;l1、l2和l3分别为用于表征信道、说话人和文本数据的预测值与真实值间的差异的损失函数,α1、α2和α3分别为损失函数l1、l2和l3的权重,α1、α2和α3的取值区间均为(0,1)且人为设定;
43.步骤s5、更新声纹识别模型的参数;
44.步骤s6、重复步骤s4及s5,直至损失函数最优,完成声纹识别模型的训练。
45.通过上述使得,在对声纹识别模型进行训练时,能够通过文本特征提取网络额外
引入文本信息,并能够基于第一输入层、第二输入层和第三输入层同时对信道来源、说话人来源和文本信息进行预测,之后基于3者的损失函数构建整个模型训练的损失函数;故而能够较佳地在训练的过程中引入信道识别和文本识别,以多任务的方式实现所训练模型的较强鲁棒性的获取,进而尽量减少因训练数据量增加而导致的信道不匹配、方言不匹配等不利因素的累积。
46.基于上述训练方法获取的声纹识别模型能够较佳地实现在跨信道、跨方言情形下,对说话人识别的泛化性及鲁棒性。
47.可以理解的是,文本特征提取网络、第二输出层及第三输出层仅在训练时具有,经训练完成后的声纹识别模型的输入能够仅为待识别语音数据且输出能够仅为预测的说话人。
48.此外,可以理解的是,本实施例中的训练集x在构建时,应当保证足够多的不同信道及不同方言的样本。
49.本实施例中,文本特征提取网络具有依次连接的第二输入层和第二卷积层,第二输入层用于对文本数据t
i0
进行向量化处理以获取向量化的文本特征序列t
i1
,第二卷积层用于对文本特征序列ti进行卷积处理以获取文本表征序列t
i*
。故而能够较佳地实现对文本数据的处理,以保证后续步骤的实现。
50.本实施例中,第二输入层具有2层双向lstm网络层,并用于将文本数据t
i0
处理成具有512维度的文本向量。故而能够较佳实现文本特征序列t
i1
的获取。
51.本实施例中,第二卷积层和第一卷积层具有相同架构且共用参数。通过保证其具有相同构架,保证了步骤s4中的数据融合的实现;通过保证参数的共用,保证了因第二卷积层和第一卷积层在迭代过程中因参数的差异,而对最终训练所得的声纹识别模型的性能造成干扰。
52.本实施例中,第一输出层用于提取语音数据w
i0
的mfcc特征并作为语音特征序列w
i1
。故而较佳地实现了语音特征序列w
i1
的获取。
53.本实施例中,声纹特征提取网络层采用transformer网络。故而能够较佳地借助现有架构实现对语音数据的识别及处理。
54.本实施例中,损失函数l1、l2和l3均采用交叉熵损失函数。故而便于实现。
55.基于本实施例的训练方法,本实施例还提供了一种跨信道及方言的声纹识别模型的训练装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时,实现上述的训练方法的步骤。故而能够较佳地实现上述训练方法。
56.基于本实施例的训练方法,本实施例还提供了一种计算机可读介质,其上存储有计算机程序,所述计算机程序被执行时实现上述的训练方法的步骤。故而能够较佳地实现上述训练方法。
57.此外,基于本实施例的训练方法,本实施例还提供了一种跨信道及方言的声纹识别模型,其具有依次连接的第一输入层、第一卷积层、声纹特征提取网络层、前馈网络层和第一输出层,第一输入层用于获取语音特征序列w
i1
,声纹特征提取网络层用于输出语音表征序列w
i*
,第一输出层用于输出说话人预测序列其通过上述的训练方法训练获取。故而在面对跨信道、多方言语音数据的处理时,能够具备较佳的泛化性和鲁棒性。
58.以上示意性的对本发明及其实施方式进行了描述,该描述没有限制性,附图中所
示的也只是本发明的实施方式之一,实际的结构并不局限于此。所以,如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1