声纹认证处理方法及装置的制造方法

文档序号：9752207阅读：1056来源：国知局

声纹认证处理方法及装置的制造方法
【技术领域】
[0001]本申请涉及声纹认证技术领域，尤其涉及一种声纹认证处理方法及装置。
【背景技术】
[0002]随着技术的不断进步，声纹识别(Voiceprint Recognit1n，VPR)技术的应用领域越来越广泛。
[0003]声纹识别可以确认某段语音是否是指定的某个人所说的，例如，考勤打卡，或者银行交易时需要对用户声音进行确认。在声纹识别之前，都需要先对说话人的声纹进行建模，这就是所谓的“训练”或“学习”过程。
[0004]目前的声纹识别的训练过程是通过通用的模型进行声纹的训练和识别，准确性不尚O

【发明内容】

[0005]本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
[0006]为此，本申请的第一个目的在于提出一种声纹认证处理方法，该方法建立了区分性别的声纹认证处理模型，以便提高了声纹认证的效率和准确性。
[0007]本申请的第二个目的在于提出一种声纹认证处理装置。
[0008]为达上述目的，本申请第一方面实施例提出了一种声纹认证处理方法，包括:应用混合性别的深度神经网络DNN声纹基线系统，提取训练集中每条语音的第一特征向量;根据所述每条语音的第一特征向量以及预先标注的性别标签训练性别分类器;根据所述训练集中不同性别的语音数据，分别训练不同性别的DNN模型；根据不同性别的DNN模型以及所述训练集中不同性别的语音数据，分别训练不同性别的统一背景模型、特征向量提取模型、以及概率线性判别分析模型。
[0009]本申请实施例的声纹认证处理方法，通过应用混合性别的深度神经网络DNN声纹基线系统，提取训练集中每条语音的第一特征向量;根据所述每条语音的第一特征向量以及预先标注的性别标签训练性别分类器;根据所述训练集中不同性别的语音数据，分别训练不同性别的DNN模型;根据不同性别的DNN模型以及所述训练集中不同性别的语音数据，分别训练不同性别的统一背景模型、特征向量提取模型、以及概率线性判别分析模型。由此，建立了区分性别的声纹认证处理模型，以便提高了声纹认证的效率和准确性。
[0010]为达上述目的，本申请第二方面实施例提出了一种声纹认证处理装置，包括:提取模块，用于应用混合性别的深度神经网络DNN声纹基线系统，提取训练集中每条语音的第一特征向量;生成模块，用于根据所述每条语音的第一特征向量以及预先标注的性别标签训练性别分类器;第一训练模块，用于根据所述训练集中不同性别的语音数据，分别训练不同性别的DNN模型；第二训练模块，用于根据不同性别的DNN模型以及所述训练集中不同性别的语音数据，分别训练不同性别的统一背景模型、特征向量提取模型、以及概率线性判别分析模型。
[0011]本申请实施例的声纹认证处理装置，通过应用混合性别的深度神经网络DNN声纹基线系统，提取训练集中每条语音的第一特征向量;根据所述每条语音的第一特征向量以及预先标注的性别标签训练性别分类器;根据所述训练集中不同性别的语音数据，分别训练不同性别的DNN模型;根据不同性别的DNN模型以及所述训练集中不同性别的语音数据，分别训练不同性别的统一背景模型、特征向量提取模型、以及概率线性判别分析模型。由此，建立了区分性别的声纹认证处理模型，以便提高了声纹认证的效率和准确性。
【附图说明】
[0012]本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中:
[0013]图1是本申请一个实施例的声纹认证处理方法的流程图；
[0014]图2为性别分类器的生成示意图；
[0015]图3为男性声纹认证处理模型生成示意图；
[0016]图4为女性声纹认证处理模型生成示意图；
[0017]图5是本申请另一个实施例的声纹认证处理方法的流程图；
[0018]图6是本申请另一个实施例的声纹认证处理方法的流程图；
[0019]图7是本申请一个实施例的声纹认证处理装置的结构示意图；
[0020]图8是本申请另一个实施例的声纹认证处理装置的结构示意图；
[0021]图9是本申请另一个实施例的声纹认证处理装置的结构示意图。
【具体实施方式】
[0022]下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。
[0023 ]下面参考附图描述本申请实施例的声纹认证处理方法及装置。
[0024]图1是本申请一个实施例的声纹认证处理方法的流程图。
[0025]如图1所示，该声纹认证处理方法包括:
[0026]步骤101，应用混合性别的深度神经网络DNN声纹基线系统，提取训练集中每条语音的第一特征向量。
[0027]步骤102，根据所述每条语音的第一特征向量以及预先标注的性别标签训练性别分类器。
[0028]具体地，为了训练建立区分性别的声纹认证处理模型，首先需要应用混合性别的深度神经网络DNN声纹基线系统生成性别训练性别分类器，以便应用训练性别分类器识别输入声音的性别，为输入的声音分配性别标签。
[0029]图2为性别分类器的生成示意图，参见图2说明如何应用混合性别的DNN声纹基线系统生成性别分类器，具体如下:
[0030]预先设置包含多条语音的训练集，训练集中的每条语音数据都预先标注有对应的性别信息，比如，第一条语音数据对应的性别为男性数据，第二条语音数据对应的性别为女性数据。[0031 ]将训练集中的每条语音数据输入混合性别的DNN声纹基线系统，应用DNN声纹基线系统对每条语音数据进行数据处理，提取与每条语音对应的第一特征向量。
[0032]进而，根据每条语音的第一特征向量，以及预先标注的每条语音的性别训练性别分类器，从而可以应用训练性别分类器识别输入声音的性别，为输入的声音分配性别标签。
[0033]步骤103，根据所述训练集中不同性别的语音数据，分别训练不同性别的DNN模型。
[0034]具体地，根据训练集中不同性别的语音数据，以及预设的深度神经网络算法分别训练不同性别的DNN模型，也就是说，分别训练男性DNN模型和女性DNN模型。
[0035]其中，男性DNN模型用于接收男性的语音数据，输出与该男性语音数据对应的后验概率，女性DNN模型用于接收女性的语音数据，输出与该女性语音数据对应的后验概率。
[0036]步骤104，根据不同性别的DNN模型以及所述训练集中不同性别的语音数据，分别训练不同性别的统一背景模型、特征向量提取模型、以及概率线性判别分析模型。
[0037]具体地，根据不同性别的DNN模型以及训练集中不同性别的语音数据，分别训练不同性别的统一背景模型、特征向量提取模型、以及概率线性判别分析模型。
[0038]其中，对各个模型的功能解释如下:
[0039]统一背景模型，用于对DNN模型输出的后验概率进行归一化处理；
[0040]特征向量提取模型，用于接收DNN模型输出的后验概率以及用户输入的语音数据，并且根据预设的算法提取语音数据的第二特征向量；
[0041 ]概率线性判别分析模型，用于比较用户输入的语音数据的第二特征向量与预先存储的声纹注册模板的相似度。
[0042]图3

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李超;吴本谷;朱林;
技术所有人：百度在线网络技术（北京）有限公司;
我是此专利的发明人

上一篇：一种基于非等重保护的速率自适应声码通信方法
上一篇：一种语音控制方法和控制设备的制造方法