基于深度神经网络的说话人验证方法、终端及存储介质与流程

文档序号:31872825发布日期:2022-10-21 20:04阅读:105来源:国知局
基于深度神经网络的说话人验证方法、终端及存储介质与流程

1.本发明涉及计算机技术领域,尤其涉及的是基于深度神经网络的说话人验证方法、终端及存储介质。


背景技术:

2.随着人工智能的发展及计算机算力的提升,基于深度神经网络的说话人验证方式在近几年取得了较好的效果,并逐步应用在智能移动设备、智能安防等领域中。
3.目前基于深度神经网络的说话人验证方法,大多简单基于卷积神经网络或者循环神经网络。如在google特出的基于ge2e loss的说话人验证方案[1]中,为了提取每个语音数据的嵌入向量,该方案采用了一个三层的lstm(长短时记忆网络)网络,具体结构如图2所示。
[0004]
又如一些说话人验证方案,虽然已经采用结合卷积神经网络和循环神经网络的方法来构建音频的特征提取网络,但是在训练网络模型时采用了softmax cross entropy loss(softmax激活函数常接在神经网络最后一层之后,以用于分类任务;在分类任务中,以常用交叉熵损失(cross entropy loss)作为损失函数)来训练模型。如在方案基于resnet(残差神经网络)-lstm的声纹识别方法[2]中,将resnet+lstm提取的音频特征向量映射成一个340维(训练集340个说话人)的向量,通过softmax激活函数后结合真实标签一起计算模型的cross entropy loss然后反向传播更新模型参数。
[0005]
已有说话人验证方案中的主要缺点是只单独使用了卷积神经网络或者循环神经网络来提取语音数据的嵌入向量。由于语音数据的频谱特征图存在时域和频域两个维度,若采用上述已有方案,则在提取语音数据的嵌入向量时,无法同时考虑到语音数据的时域特征和频域特征,导致在完成说话人验证任务时,语音数据的特征信息无法充分利用。此外采用softmax cross entropy loss不能让同类样本学习到的特征向量距离越来越近,不同类样本学习到的特征向量距离越来越远,使得softmax loss并不适合处理说话人验证型的任务。从而使得已有说话人验证技术方案训练得到的说话人验证模型在完成说话人验证任务时far(false acceptation rate,错误接受率)和frr(false rejection rate,错误拒绝率)偏高,系统性能无法达到理想状态。
[0006]
因此,现有技术还有待改进。


技术实现要素:

[0007]
本发明要解决的技术问题在于,针对现有技术缺陷,本发明提供一种基于深度神经网络的说话人验证方法、终端及存储介质,以解决现有的说话人验证方法错误接受率及错误拒绝率偏高的问题。
[0008]
本发明解决技术问题所采用的技术方案如下:
[0009]
第一方面,本发明提供一种基于深度神经网络的说话人验证方法,包括:
[0010]
获取若干条待测说话人的音频数据和若干条注册说话人的音频数据;
[0011]
分别提取若干条所述待测说话人的音频特征和若干条所述注册说话人的音频特征;
[0012]
通过训练后的深度神经网络生成所提取的音频特征的嵌入中心向量;其中,所述深度神经网络为基于残差神经网络和长短时记忆网络构建得到的网络;
[0013]
计算所述待测说话人与所述注册说话人之间的嵌入中心向量的余弦相似度,根据所述余弦相似度对所述待测说话人进行验证。
[0014]
在一种实现方式中,所述分别提取若干条所述待测说话人的音频特征和若干条所述注册说话人的音频特征,包括:
[0015]
分别对若干条所述待测说话人的音频数据和若干条所述注册说话人的音频数据进行预加重处理,得到对应的预处理数据;
[0016]
根据预设分帧数对得到的预处理数据进行分帧处理,并在分帧后的音频数据中增加对应的时间窗口,得到各说话人对应的音频时间序列;
[0017]
将得到的音频时间序列转换为对应的复数矩阵,并根据所述复数矩阵提取得到各说话人的音频数据对应的音频特征。
[0018]
在一种实现方式中,所述将得到的音频时间序列转换为对应的复数矩阵,包括:
[0019]
通过短时傅里叶变换将得到的所述音频时间序列转换为对应的复数矩阵:
[0020][0021]
其中,n_fft为fft窗口大小512,hop_length为帧移160,win_length为加窗窗长320。
[0022]
在一种实现方式中,所述根据复数矩阵提取得到各说话人的音频数据对应的音频特征,包括:
[0023]
根据随机机制打乱各复数矩阵的排序;
[0024]
将乱序后的复数矩阵进行取模,获得对应的音频数据的幅度谱;
[0025]
将所述幅度谱进行平方操作,以获得音频数据的能量谱;
[0026]
构建梅尔滤波器组,将所述能量谱通过梅尔滤波器组后取对数获得各说话人的音频数据对应的音频特征。
[0027]
在一种实现方式中,所述根据复数矩阵提取得到各说话人对应的音频特征,之后包括:
[0028]
将获得的音频特征输入至所述深度神经网络的输入层。
[0029]
在一种实现方式中,所述通过训练后的深度神经网络生成所提取的音频特征的嵌入中心向量,包括:
[0030]
通过所述深度神经网络中最后一层长短时记忆层的最后一个输出信号连接至全连接层;
[0031]
利用所述全连接层将输入的音频特征映射到一个预设维度,获得各音频数据对应的嵌入向量;
[0032]
根据得到的嵌入向量计算各说话人的音频数据对应的嵌入中心向量。
[0033]
在一种实现方式中,所述计算待测说话人与所述注册说话人之间的嵌入中心向量的余弦相似度,根据所述余弦相似度对所述待测说话人进行验证,包括:
[0034]
根据各说话人的音频数据对应的嵌入向量及嵌入中心向量,计算得到所述待测说话人与所述注册说话人之间余弦相似度;
[0035]
判断所述余弦相似度是否超过预设阈值;
[0036]
若为是,则判定所述待测说话人与所述注册说话人为同一人,并输出所述待测说话人的验证结果。
[0037]
在一种实现方式中,所述基于深度神经网络的说话人验证方法还包括:
[0038]
根据输出的所述待测说话人的验证结果更新所述深度神经网络的模型参数。
[0039]
第二方面,本发明还提供一种终端,包括:处理器以及存储器,所述存储器存储有基于深度神经网络的说话人验证程序,所述基于深度神经网络的说话人验证程序被所述处理器执行时用于实现如第一方面所述的基于深度神经网络的说话人验证方法的操作。
[0040]
第三方面,本发明还提供一种存储介质,所述存储介质为计算机可读存储介质,所述存储介质存储有基于深度神经网络的说话人验证程序,所述基于深度神经网络的说话人验证程序被处理器执行时用于实现如第一方面所述的基于深度神经网络的说话人验证方法的操作。
[0041]
本发明采用上述技术方案具有以下效果:
[0042]
本发明构建了一种结合fbank特征、resnet、lstm以及contrast loss的新型说话人验证网络模型,能够在学习说话人验证网络模型时,充分利用音数据的频域特征和时域特征信息,同时在网络模型更新参数的时候注重于不容易被区分开的音频数据。从而使得说话人验证模型能够更加准确完成说话人验证任务,提高说话人验证系统性能。
附图说明
[0043]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
[0044]
图1是本发明的一种实现方式中基于深度神经网络的说话人验证方法的流程图。
[0045]
图2是现有的基于ge2e loss的说话人验证方案的示意图。
[0046]
图3是本发明的一种实现方式中傅里叶变换的示意图。
[0047]
图4是本发明的一种实现方式中深度神经网络的结构示意图。
[0048]
图5是本发明的一种实现方式中深度神经网络的训练及验证的流程示意图。
[0049]
图6是本发明的一种实现方式中音频文件的音频特征提取示意图。
[0050]
图7是本发明的一种实现方式中终端的功能原理图。
[0051]
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0052]
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0053]
示例性方法
[0054]
目前基于深度神经网络的说话人验证方法存在以下两点问题:一种说话人验证方法大多只单独基于卷积神经网络或者循环神经网络,因此存在无法同时考虑语音数据的频域特征和时域特征的问题。另一种说话人验证方法在训练说话人验证网络模型时损失函数多采用softmax cross entropy loss(softmax损失函数),但因为softmax loss不能让同类样本学习到的特征向量距离越来越近,同时不同类样本学习到的特征向量距离越来越远,因此softmax loss并不适合处理说话人验证型的任务。
[0055]
针对上述技术问题,本实施例中提出了一种结合fbank特征(以类似于人耳的方式对音频进行处理,得到的音频特征)、resnet(残差神经网络)、lstm(长短时记忆网络)以及contrast loss(对比损失)的新型说话人验证网络模型,能够在学习说话人验证网络模型时,充分利用音数据的频域特征和时域特征信息,同时在网络模型更新参数的时候注重于那些不容易被区分开的音频数据。从而降低说话人验证系统的错误接受率(false acceptation rate,far)和错误拒绝率(false rejection rate,frr),提高说话人验证系统性能。
[0056]
如图1所示,本发明实施例提供一种基于深度神经网络的说话人验证方法,包括以下步骤:
[0057]
步骤s100,获取若干条待测说话人的音频数据和若干条注册说话人的音频数据。
[0058]
在本实施例中,所述基于深度神经网络的说话人验证方法应用于终端中,所述终端包括但不限于:计算机以及移动终端等设备。
[0059]
在本实施例中,所述方法可以应用于基于深度神经网络的说话人验证系统中,应用场景包括:个人日常生活中的各种事物访问控制的授权,比如智能手机锁屏、各类网络账号的声控密码锁、电脑声控锁、声控安全门、汽车声控锁等。
[0060]
传统基于深度神经网络的说话验证方案往往只能考虑到语音数据中时域特征或者频域特征其中一个维度的信息,通过引入本实施例方案,说话人验证系统可以在进行说活人验证时同时考虑语音数据的时域特征和频域特征,进而更准确的完成说话人验证任务。
[0061]
在本实施例中,主要流程分为四个主要阶段:数据预处理阶段、构造嵌入向量提取网络阶段、网络模型训练阶段以及模型预测阶段。
[0062]
在本实施例中的四个主要阶段中,所述数据预处理阶段指的是接收数据集中不同说话人的语音数据,经过预处理将语音数据转换成二维数组,并按9:1的比例分为训练集和验证集进行保存。所述构建嵌入向量提取网络阶段是指构建一个基于resnet+lstm的深度神经网络,以用于提取语音数据的嵌入特征。所述网络模型训练阶段是指使用resnet+lstm深度神经网络提取的语音数据的嵌入向量和真实的标签训练网络模型;所述模型预测阶段是指说话人识别系统在使用时,给出注册说话人的若干条语音数据以及若干个待测说话人的语音数据,系统将模型预测结果判断待测说话人与注册说话人是否为同一个人。
[0063]
在本实施例中,需要在基于深度神经网络的说话人验证系统中输入预设数据集,所述预设数据集为音频数据集,其中包括不同说话人的语音音频文件;在所述数据预处理阶段中,可以通过16000采样率来读取所述预设数据集中不同说话人的语音音频文件,并在系统中返回读取的语音音频文件所对应的音频时间序列以及音频的采样率。
[0064]
本实施例中通过在基于深度神经网络的说话人验证系统中输入预设数据集,可利
用该预设数据集中不同说话人的语音音频文件对构造的基于resnet+lstm的深度神经网络进行训练及测试,从而利用训练好的深度神经网络对需要验证的说话人进行音频验证。
[0065]
在获取得到多个音频时间序列及对应的音频采样率后,可以通过短时傅里叶变换将多个语音数据转换为二维数据组,得到深度网络模型所需要的训练数据;并且,按照9:1的比例分成训练集和验证集,以.npy文件格式保存到对应的路径。
[0066]
本实施例中通过短时傅里叶变换对样本音频数据集进行预处理,进而对构建的深度神经网络进行训练,使得基于深度神经网络的说话人验证系统在进行说活人验证时,可以同时考虑语音数据的时域特征和频域特征,进而更准确的完成说话人验证任务。
[0067]
在现有的说话人识别方案中,单独采用卷积神经网络或者循环神经网络来提取语音数据的嵌入向量往往会遗漏语音数据时域特征或频域特征其中一维的信息。
[0068]
为了解决此缺陷,在本实施例中构建了一个基于resnet+ltsm的新型深度神经网络,以此来提取音频数据的嵌入向量,该新型深度神经网络结合了resnet和lstm网络的特点,可以在提取音频数据的嵌入向量时,同时考虑音频数据的时域特征和频域特征。
[0069]
具体地,如图4所示,resnet网络部分包括:一层64个卷积核大小为7
×
7且步长为2的卷积层、一层池化窗口大小为3
×
3且步长为2的池化层以及12个残差块;lstm网络部分包括:三层隐藏层维度为128且输出向量维度为64的长短时记忆层构成。
[0070]
在本实施例中,在构建新的深度神经网络后,通过所述训练集对该新的深度神经网络进行训练;每一轮训练完成后,进而通过所述测试集对该新的深度神经网络进行评分,根据测试的评分反馈进行下一轮的训练过程,直至模型训练完成。
[0071]
如图5所示,在本实施例中,深度神经网络模型的每一轮训练包括:获取输入音频fbank特征、提取音频嵌入向量、计算模型损失、反向传播更新模型参数以及评估模型性能五个步骤。
[0072]
在本实施例中,在使用验证集评价模型的过程中,先通过深度神经网络模型对验证集处理,得到损失值;然后,根据得到的损失值刷新模型的最优性能,即根据损失值更新模型参数;通过刷新后的性能确定该深度神经网络模型是否可以进行保存,若满足模型保存的要求,即可进行保存,其中,模型保存的要求至少包括损失值达到预设值(例如,预设值为0.5)以内;若不满足模型保存的要求,则进一步判断当前的训练次数是否达到设定的训练次数(例如,训练次数为1000);若达到设定的训练次数,则结束训练,若未达到设定的训练次数,则进行下一轮的训练过程。
[0073]
在本实施例中,在得到训练后的深度神经网络后,可在说话人验证系统中输入若干条待测说话人的音频数据和若干条注册说话人的音频数据;然后,从输入的待测说话人和注册说话人的音频数据中,提取到待测说话人和注册说话人对应的音频特征,根据对应的音频特征对待测说话人的音频信息进行验证。
[0074]
如图1所示,本发明实施例提供一种基于深度神经网络的说话人验证方法,包括以下步骤:
[0075]
步骤s200,分别提取若干条所述待测说话人的音频特征和若干条所述注册说话人的音频特征。
[0076]
由于人耳对声音频谱的响应是非线性的,因此,可以通过fbank算法得到音频数据中的音频特征,即fbank特征;fbank算法是一种前端处理算法,以类似于人耳的方式对音频
进行处理,可以提高语音识别的性能。在本实施例中,获得语音信号的fbank特征的步骤分别为:预加重、分帧、加窗、短时傅里叶变换(stft)、mel滤波、去均值等。对fbank做离散余弦变换(dct)即可获得mfcc特征。
[0077]
在本实施例中,在获取若干条待测说话人的音频数据和若干条注册说话人的音频数据后,针对输入的若干条待测说话人的音频数据,可以参照图6中所示的顺序提取对应的音频特征,即通过短时傅里叶变换得到对应的stft矩阵,再将stft矩阵取模后,可以获得音频数据的幅度谱;然后,将幅度谱做平方操作获得音频数据的能量谱;最后,构建梅尔滤波器组,将能量谱通过梅尔滤波器组后取对数获得音频数据的fbank特征,并将此特征作为网络模型的输入。
[0078]
针对输入的若干条注册说话人的音频数据,可以采取相同的方式,得到音频数据的fbank特征,并将此特征作为网络模型的输入。
[0079]
具体地,在本实施例的一种实现方式中,步骤s200包括以下步骤:
[0080]
步骤s201,分别对若干条所述待测说话人的音频数据和若干条所述注册说话人的音频数据进行预加重处理,得到对应的预处理数据;
[0081]
步骤s202,根据预设分帧数对得到的预处理数据进行分帧处理,并在分帧后的音频数据中增加对应的时间窗口,得到各说话人对应的音频时间序列;
[0082]
步骤s203,将得到的音频时间序列转换为对应的复数矩阵,并根据所述复数矩阵提取得到各说话人的音频数据对应的音频特征。
[0083]
在本实施例中,在短时傅里叶变换的过程中,通过短时傅里叶变换(stft)将音频序列转换成一个对应的复数矩阵,所述复数矩阵的大小为:
[0084][0085]
其中,n_fft为fft窗口大小512,hop_length为帧移160,win_length为加窗窗长320。
[0086]
具体地,如图3所示,先获取所需要的音频文件,然后通过16000的采样率得到样本音频数据,进而通过分帧处理,得到多个子音频数据;利用加窗技术进行傅里叶变换,以堆叠拼接的方式得到所述复数矩阵,即傅里叶变换(stft)矩阵。
[0087]
进一步地,在得到所述复数矩阵后,接着判断生成的复数矩阵帧数是否满足预定帧数80帧,若不满足预定帧数80帧,则忽略该音频文件;若满足预定帧数80帧,则取该音频文件生成的复数矩阵最后的80帧,以此表示该音频文件,即选择当前复数矩阵中排列在尾部的80帧数据,并根据选择的80帧数据更新对应的音频文件;最后将更新后的音频文件,以.npy文件格式保存到对应的路径。
[0088]
具体地,在本实施例的一种实现方式中,步骤s203包括以下步骤:
[0089]
步骤s203a,通过短时傅里叶变换将得到的所述音频时间序列转换为对应的复数矩阵;
[0090]
步骤s203b,根据随机机制打乱各复数矩阵的排序;
[0091]
步骤s203c,将乱序后的复数矩阵进行取模,获得对应的音频数据的幅度谱;
[0092]
步骤s203d,将所述幅度谱进行平方操作,以获得音频数据的能量谱;
[0093]
步骤s203e,构建梅尔滤波器组,将所述能量谱通过梅尔滤波器组后取对数获得各
说话人的音频数据对应的音频特征;
[0094]
步骤s203f,将获得的音频特征输入至所述深度神经网络的输入层。
[0095]
如图6所示,在获取fbank特征的过程中,首先读取存储的.npy文件,获取音频文件的stft矩阵,并对其进行乱序处理,得到乱序后的m条音频数据的stft矩阵;再将stft矩阵取模后,可以获得音频数据的幅度谱;然后,将幅度谱做平方操作获得音频数据的能量谱;最后,构建梅尔滤波器组,将能量谱通过梅尔滤波器组后取对数获得音频数据的fbank特征,并将此特征作为网络模型的输入。
[0096]
如图1所示,本发明实施例提供一种基于深度神经网络的说话人验证方法,包括以下步骤:
[0097]
步骤s300,通过训练后的深度神经网络生成所提取的音频特征的嵌入中心向量。
[0098]
在本实施例中,将fbank特征输入基于resnet+lstm的深度神经网络中,并用最后一层lstm的最后一个输出信号通过全连接层映射到一个低维度,并将最终获得(n*m)
×
(densedim)大小的矩阵e;即通过基于resnet+lstm的深度神经网络输出得到这批音频数据的嵌入向量,可用e
ji
表示第j个说话人的第i条音频的嵌入向量。
[0099]
具体地,在本实施例的一种实现方式中,步骤s300包括以下步骤:
[0100]
步骤s301,通过所述深度神经网络中最后一层长短时记忆层的最后一个输出信号连接至全连接层;
[0101]
步骤s302,利用所述全连接层将输入的音频特征映射到一个预设维度,获得各音频数据对应的嵌入向量;
[0102]
步骤s303,根据得到的嵌入向量计算各说话人的音频数据对应的嵌入中心向量。
[0103]
在本实施例中,在得到深度神经网络的输出矩阵e后,计算此批数据中各说话人的嵌入中心向量:有了各说话人的嵌入中心向量,则可以计算该批音频数据的嵌入向量与各说话人的嵌入中心向量间的相似度:s
ji,k
=w
·
cos(e
ji
,ck)+b,获得一个相似度矩阵s。
[0104]
如图1所示,在本发明实施例的一种实现方式中,基于深度神经网络的说话人验证方法还包括以下步骤:
[0105]
步骤s400,计算所述待测说话人与所述注册说话人之间的嵌入中心向量的余弦相似度,根据所述余弦相似度对所述待测说话人进行验证。
[0106]
在本实施例中,在所述模型预测阶段,输入若干条注册说话人的音频数据及若干条待测说话人的音频数据,通过训练好的深度神经网络模型进行对说话人进行预测,即可判断待测说话人与注册说话人是否为同一个人;可以理解的是,此过程为使用语音匹配等应用程序根据说话者的已知语音(即注册说话人的音频数据)验证说话(即待测说话人的音频数据)是否属于特定说话者的过程。
[0107]
具体地,在本实施例的一种实现方式中,步骤s400包括以下步骤:
[0108]
步骤s401,根据各说话人的音频数据对应的嵌入向量及嵌入中心向量,计算得到所述待测说话人与所述注册说话人之间余弦相似度;
[0109]
步骤s402,判断所述余弦相似度是否超过预设阈值;
[0110]
步骤s403,若为是,则判定所述待测说话人与所述注册说话人为同一人,并输出所
述待测说话人的验证结果。
[0111]
在本实施例中,在所述模型预测阶段,输入若干条注册说话人的音频数据及若干条待测说话人的音频数据。根据上述几个阶段,将各自的音频数据经过如图3中所示、如图6中所示流程转换成fbank特征,再经过上述训练好的深度神经网络模型生成音频的嵌入向量,便可计算得到注册说话人与待测说话人的嵌入中心向量。最后计算注册说话人和待测说话人嵌入中心向量间的余弦相似度,若超过预设阈值(例如,余弦相似度阈值可以设置为95%),则系统判断待测说话人与注册说话人为同一人。
[0112]
本实施例通过上述技术方案达到以下技术效果:
[0113]
本实施例构建了一种结合fbank特征、resnet、lstm以及contrast loss的新型说话人验证网络模型,能够在学习说话人验证网络模型时,充分利用音数据的频域特征和时域特征信息,同时在网络模型更新参数的时候注重于那些不容易被区分开的音频数据。从而使得说话人验证模型能够更加准确完成说话人验证任务,提高说话人验证系统性能。
[0114]
示例性设备
[0115]
基于上述实施例,本发明还提供一种终端,包括:通过系统总线连接的处理器、存储器、接口、显示屏以及通讯模块;其中,所述处理器用于提供计算和控制能力;所述存储器包括存储介质以及内存储器;所述存储介质存储有操作系统和计算机程序;所述内存储器为所述存储介质中的操作系统和计算机程序的运行提供环境;所述接口用于连接外部设备,例如,移动终端以及计算机等设备;所述显示屏用于显示相应的信息;所述通讯模块用于与云端服务器或移动终端进行通讯。
[0116]
所述计算机程序被所述处理器执行时用以实现一种基于深度神经网络的说话人验证方法的操作。
[0117]
本领域技术人员可以理解的是,图7中示出的原理框图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的终端的限定,具体的终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0118]
在一个实施例中,提供了一种终端,其中,包括:处理器和存储器,所述存储器存储有基于深度神经网络的说话人验证程序,所述基于深度神经网络的说话人验证程序被所述处理器执行时用于实现如上所述的基于深度神经网络的说话人验证方法的操作。
[0119]
在一个实施例中,提供了一种存储介质,其中,所述存储介质存储有基于深度神经网络的说话人验证程序,所述基于深度神经网络的说话人验证程序被所述处理器执行时用于实现如上所述的基于深度神经网络的说话人验证方法的操作。
[0120]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一非易失性存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。
[0121]
综上,本发明提供了一种基于深度神经网络的说话人验证方法、终端及存储介质,方法包括:获取若干条待测说话人的音频数据和若干条注册说话人的音频数据;分别提取若干条所述待测说话人的音频特征和若干条所述注册说话人的音频特征;通过训练后的深度神经网络生成所提取的音频特征的嵌入中心向量;其中,所述深度神经网络为基于残差
神经网络和长短时记忆网络构建得到的网络;计算所述待测说话人与所述注册说话人之间的嵌入中心向量的余弦相似度,根据所述余弦相似度对所述待测说话人进行验证。本发明充分利用音频数据的频域特征和时域特征信息,注重于不易被区分的音频数据,使得网络模型能够更加准确完成说话人验证任务,提高说话人验证系统性能。
[0122]
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1