说话人验证方法、装置以及存储介质与流程

文档序号:30986766发布日期:2022-08-03 01:38阅读:161来源:国知局
说话人验证方法、装置以及存储介质与流程

1.本发明涉及计算机技术领域,特别是涉及一种说话人验证方法、装置以及存储介质。


背景技术:

2.声纹识别技术是依据提取出来的说话人声音特征和说话内容信息的综合特征,自动核验说话人身份的技术。现在的识别效果大多基于常见大模型,且对于语音特征的处理不够细致,会导致模型的识别率下降。并且无法实现在移动端,小内存限制下(参数量100k以内),特定场景下的说话人验证。
3.针对上述的现有技术中存在的现有的声纹识别技术无法处理语音特征的细节信息导致识别率下降,并且无法实现在移动端小内存限制下特定场景内的说话人验证的技术问题,目前尚未提出有效的解决方案。


技术实现要素:

4.本公开的实施例提供了一种说话人验证方法、装置以及存储介质,以至少解决现有技术中存在的现有的声纹识别技术无法处理语音特征的细节信息导致识别率下降,并且无法实现在移动端小内存限制下特定场景内的说话人验证的技术问题。
5.根据本公开实施例的一个方面,提供了一种说话人验证方法,用于实现移动端说话人的验证,包括:从预先设置的声音采集设备接收采集的说话人的音频数据,其中音频数据为用户的特定命令发声;将音频数据进行数据扩充,确定有效音频段;通过预先设置的特征提取算法,对有效音频段进行特征提取,确定音频特征;以及通过预先训练的声纹模型,将音频特征与预先注册用户的声音特征进行匹配,在音频特征与声音特征相匹配的情况下,确定说话人和用户为同一人,其中声纹模型为基于长短期记忆和全局平均信息融和技术的模型。
6.根据本公开实施例的另一个方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时由处理器执行以上任意一项所述的方法。
7.根据本公开实施例的另一个方面,还提供了一种说话人验证装置,用于实现移动端说话人的验证,包括:接收模块,用于从预先设置的声音采集设备接收采集的说话人的音频数据,其中音频数据为用户的特定命令发声,其中音频数据为用户的特定命令发声;第一确定模块,用于将音频数据进行数据扩充,确定有效音频段;第二确定模块,用于通过预先设置的特征提取算法,对有效音频段进行特征提取,确定音频特征;以及第三确定模块,用于通过预先训练的声纹模型,将音频特征与预先注册用户的声音特征进行匹配,在音频特征与声音特征相匹配的情况下,确定说话人和用户为同一人,其中声纹模型为基于长短期记忆和全局平均信息融和技术的模型。
8.根据本公开实施例的另一个方面,还提供了一种说话人验证装置,用于实现移动端说话人的验证,包括:处理器;以及存储器,与处理器连接,用于为处理器提供处理以下处
理步骤的指令:从预先设置的声音采集设备接收采集的说话人的音频数据,其中音频数据为用户的特定命令发声;将音频数据进行数据扩充,确定有效音频段;通过预先设置的特征提取算法,对有效音频段进行特征提取,确定音频特征;以及通过预先训练的声纹模型,将音频特征与预先注册用户的声音特征进行匹配,在音频特征与声音特征相匹配的情况下,确定说话人和用户为同一人,其中声纹模型为基于长短期记忆和全局平均信息融和技术的模型。
9.在本公开实施例中,通过将音频数据进行扩充,扩充在音频数据的丰富度加强模型鲁棒性。并且本发明在基于语音片段训练的流程中增加了全局平均信息融合技术,来使得网络能够对局部信息以及全局信息有更好的理解。基于长短期记忆和全局平均信息融和技术的声纹模型可以适应移动端的小内存的场景。进而解决现有技术中存在的现有的声纹识别技术无法处理语音特征的细节信息导致识别率下降,并且无法实现在移动端小内存限制下特定场景内的说话人验证的技术问题。
附图说明
10.此处所说明的附图用来提供对本公开的进一步理解,构成本发明的一部分,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。在附图中:
11.图1是用于实现根据本公开实施例1所述的方法的计算设备的硬件结构框图;
12.图2是根据本公开实施例1的第一个方面所述的说话人验证方法的流程示意图;
13.图3是根据本公开实施例1所述的说话人验证方法的另一流程示意图;
14.图4a是根据本公开实施例1所述的chain model作为对齐模型的训练帧准率的示意图;
15.图4b是根据本公开实施例1所述的传统的tdnn作为对齐模型的训练帧准率的示意图;
16.图5a是根据本公开实施例1所述的lstm模型roc曲线的示意图;
17.图5b是根据本公开实施例1所述的gru模型roc曲线的示意图;
18.图6是根据本公开实施例1所述的平均注意力强化结构的示意图;
19.图7是根据本公开实施例2所述的说话人验证装置的示意图;以及
20.图8是根据本公开实施例3所述的说话人验证装置的示意图。
具体实施方式
21.为了使本技术领域的人员更好地理解本公开的技术方案,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本公开一部分的实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本公开保护的范围。
22.需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆
盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
23.实施例1
24.根据本实施例,还提供了一种说话人验证方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
25.本实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的计算设备中执行。图1示出了一种用于实现说话人验证方法的计算设备的硬件结构框图。如图1所示,计算设备可以包括一个或多个处理器(处理器可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器、以及用于通信功能的传输装置。除此以外,还可以包括:显示器、输入/输出接口(i/o接口)、通用串行总线(usb)端口(可以作为i/o接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算设备还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
26.应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算设备中的其他元件中的任意一个内。如本公开实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
27.存储器可用于存储应用软件的软件程序以及模块,如本公开实施例中的说话人验证方法对应的程序指令/数据存储装置,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的说话人验证方法。存储器可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
28.传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算设备的通信供应商提供的无线网络。在一个实例中,传输装置包括一个网络适配器(network interface controller,nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置可以为射频(radio frequency,rf)模块,其用于通过无线方式与互联网进行通讯。
29.显示器可以例如触摸屏式的液晶显示器(lcd),该液晶显示器可使得用户能够与计算设备的用户界面进行交互。
30.此处需要说明的是,在一些可选实施例中,上述图1所示的计算设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算设备中的部件的类型。
31.在上述运行环境下,根据本实施例的第一个方面,提供了一种说话人验证方法。图2示出了该方法的流程示意图,参考图2所示,该方法包括:
32.s202:从预先设置的声音采集设备接收采集的说话人的音频数据,其中音频数据为用户的特定命令发声;
33.s204:将音频数据进行数据扩充,确定有效音频段;
34.s206:通过预先设置的特征提取算法,对有效音频段进行特征提取,确定音频特征;以及
35.s208:通过预先训练的声纹模型,将音频特征与预先注册用户的声音特征进行匹配,在音频特征与声音特征相匹配的情况下,确定说话人和用户为同一人,其中声纹模型为基于长短期记忆和全局平均信息融和技术的模型。
36.正如背景技术中所述的,声纹识别技术是依据提取出来的说话人声音特征和说话内容信息的综合特征,自动核验说话人身份的技术。现在的识别效果大多基于常见大模型,且对于语音特征的处理不够细致,会导致模型的识别率下降。并且无法实现在移动端,小内存限制下(参数量100k以内),特定场景下的说话人验证。
37.有鉴于此,本技术实施例提供了一种说话人的验证,可以实现移动端说话人的验证。首先计算设备从预先设置的声音采集设备接收采集的说话人的音频数据,其中音频数据为用户的特定命令发声(s202)。
38.具体地,图3示例性的示出了说话人验证的流程示意图,参考图3所示,声音采集设备可以是移动端的麦克风等设备,从而可以采集说话人的音频数据。计算设备接收说话人的音频数据,从而验证说话人是否为预先设定的用户。
39.进一步地,计算设备将音频数据进行数据扩充,确定有效音频段(s204)。
40.具体地,为了使得带噪数据更加丰富,且使得每一条语音都能随机生成相应的带噪数据,以增强模型的鲁棒性、泛化性。即对音频数据进行扩充,本发明可以使用on-the-fly的带噪数据生成方式,即边训练边生成带噪音频。这样的带噪音频生成方式极大的提升了带噪音频的丰富度,使得模型能够适应多数加噪场景,提高说话人验证准确率。
41.进一步地,计算设备通过预先设置的特征提取算法,对有效音频段进行特征提取,确定音频特征(s206)。
42.具体地,可以通过fbank方法对有效音频段进行特征提取,从而提取出有效音频段的音频特征。
43.进一步地,计算设备通过预先训练的声纹模型,将音频特征与预先注册用户的声音特征进行匹配,在音频特征与声音特征相匹配的情况下,确定说话人和用户为同一人,其中声纹模型为基于长短期记忆和全局平均信息融和技术的模型(s208)。
44.具体地,由于lstm网络对于过长的序列处理能力不佳,且容易出现梯度消失,为了强化网络对于音频的全局信息的提取,本发明在基于语音片段训练的流程中增加了全局平均信息融合技术,来使得网络能够对局部信息以及全局信息有更好的理解。
45.此外,由于移动端的限制,参数量大小不能超100k。鉴于rnn网络对于上下文信息处理能力较好,且网络参数相对较少,所以在gru和lstm中进行主干网络选取。鉴于基于softmax分类的说话人识别对人数的限制,对于超大规模说话人识别建模有些困难,从而本发明选取了端到端的ge2eloss作为相似度的衡量。
46.从而通过上述方式,通过将音频数据进行扩充,扩充在音频数据的丰富度加强模型鲁棒性。并且本发明在基于语音片段训练的流程中增加了全局平均信息融合技术,来使得网络能够对局部信息以及全局信息有更好的理解。基于长短期记忆和全局平均信息融和技术的声纹模型可以适应移动端的小内存的场景。进而解决现有技术中存在的现有的声纹识别技术无法处理语音特征的细节信息导致识别率下降,并且无法实现在移动端小内存限制下特定场景内的说话人验证的技术问题。
47.可选地,将音频数据进行数据扩充,确定有效语音段的操作,包括:通过预先设定的对齐模型对音频数据进行切分,确定音频数据的开头音频、有效音频以及结尾音频;以及在有效音频长度不足预先设定的长度的情况下,通过开头音频和/或结尾音频对有效音频进行扩充,确定有效音频段。
48.具体地,对于长度不足138帧的音频,通过kaldi训练的对齐模型切分出开头静音或噪声、有效语音、结尾静音或噪声,然后通过切出来的静音或噪声来补齐有效语音段。其中可以通过on-the-fly的带噪数据生成方式,即边训练边生成带噪音频,对有效音频进行补齐,确定有效音频段。这样的带噪音频生成方式极大的提升了带噪音频的丰富度,使得模型能够适应多数加噪场景,提高说话人验证准确率。从而通过上述方式,使得带噪数据更加丰富,且使得每一条语音都能随机生成相应的带噪数据,增强了模型的鲁棒性、泛化性。
49.此外,进行说话人验证网络训练时,在语音片段选取的过程中,一般的方法会使用足够长的语音进行片段选取,并且会使用vad(静音抑制)。这样不仅会浪费一部分较短的音频资源,还会使得语音在丰富度上有损。在本算法的实现场景下,例如对于帧长的要求是138帧,即会使用138帧长的语音进行说话人验证。
50.针对以上情况,本发明采用kaldi生成的对齐文件作为有效语音帧选取的依据,对有效语音进行更为准确的选取。由于kaldi默认的帧长是25ms,帧移是10ms,而我们实现的特征提取算法使用的是帧长32ms,帧移是16ms,会在帧级别上进行等比例的缩放。对于小于138的帧进行随机前后padding的方式利用并丰富训练数据,使用随机截取有效数据+开头或结尾连续静音帧的的采样方法随机生成5条138帧的音频,并保留音频中间的静音,以扩充在静音帧上的丰富度。对于大于138帧的语音,以138帧作为窗长,138*0.75作为窗移,来进行训练样本的采集。为加强模型鲁棒性,数据增广使用了多场景下加噪。
51.基于chain model的特性,blank可能会覆盖因素边界,所以在使用对齐文件进行帧级别语音提取之前,进行了kaldi的chain model模型以及传统的tdnn模型作为对齐模型的效果对比,结果如图4a和图4b所示。图4a和图4b是在开源数据集(aishell2,aidatatang等)+采集数据+带噪数据一共700多万条语音上,使用以上两个对齐模型生成训练的语音识别模型过程可视化。从图4a和图4b的train accuracy能够看出,传统的tdnn作为对齐模型的帧准率确实要更好一些,所以本发明采用传统的tdnn模型作为对齐模型来进行音频数据的补齐。
52.可选地,该方法还包括:通过如下步骤训练声纹模型:通过对齐模型对样本音频数据进行扩充,确定有效样本音频段,其中对齐模型为通过单因素训练得到的,样本音频数据为样本用户的特定命令发声;通过预定长度的窗口截取有效样本音频段,确定训练数据;通过特征提取算法对训练数据进行特征提取,确定样本音频特征;将样本音频特征输入至声纹模型,确定损失函数;以及根据损失函数,优化声纹模型。
53.具体地,首先对于长度不足138帧的音频,通过kaldi训练的对齐模型切分出开头静音或噪声、有效语音、结尾静音或噪声,然后通过切出来的静音或噪声来补齐有效语音段,确定有效样本音频段。然后通过固定窗长随机截取包含10到50帧的静音段的138帧音频,作为训练数据。训练音频通过提取fbank特征送入到lstm网络,得到损失函数,通过损失函数对声纹模型进行优化。从而通过多次迭代优化声纹模型,达到提升说话人验证的准确率的效果。
54.此外,由于lstm网络对于过长的序列处理能力不佳,且容易出现梯度消失,为了强化网络对于音频的全局信息的提取,本发明在基于语音片段训练的流程中增加了全局平均信息融合技术,来使得网络能够对局部信息以及全局信息有更好的理解,提高说话人验证模型对于语音部分和整体信息的提取能力。
55.其次,由于移动端的限制,参数量大小不能超100k。鉴于rnn网络对于上下文信息处理能力较好,且网络参数相对较少,决定在gru和lstm中进行主干网络选取。鉴于基于softmax分类的说话人识别对人数的限制,对于超大规模说话人识别建模有些困难,选取了端到端的ge2eloss作为相似度的衡量。其中,表1是gru+ge2e以及lstm+ge2e在3*64网络大小,使用相同训练数据,测试数据为同命令(关闭音乐)下的的性能对比:
56.表1
57.网络参数量eer准确率lstm+ge2e92.16k0.05996.3%gru+ge2e69.12k0.07495.1%
58.此外,图5a为lstm模型roc曲线示意图,图5b为gru模型roc曲线的示意图,通过性能对比以及图4和图5的roc曲线可以看出,lstm+ge2e的效果要好于gru+ge2e的效果。因此本发明采用lstm+ge2e的方式进行样本训练。
59.可选地,样本音频特征输入至声纹模型,确定损失函数的操作,包括:通过预先设定的池化方法对样本音频特征进行池化,确定声纹表征数据;将声纹表征数据进行融和,确定声纹表征矩阵;以及通过余弦相似度方法计算声纹表征矩阵,确定损失函数。
60.具体地,参考图6所示,样本音频特征经过averagepooling(也可以是其他池化方法)得到对应的声纹表征(embedding):e1,e2,e3,e4。然后通过segment info merge将e1,e2,e3,e4的信息融合为e^(声纹表征矩阵),送入到基于余弦相似度的ge2e矩阵计算loss,得到l(e^)及l(sum),相加得到总的loss。
61.其中l为ge2eloss损失函数,综合loss:
62.l=l(e^)+l(sum)=l(e^)+l(e1)+l(e2)+

+l(en)
63.从而通过上述方式得到声纹模型的损失函数,从而实现声纹模型的优化。
64.此外,参考图1所示,根据本实施例的第二个方面,提供了一种存储介质。所述存储介质包括存储的程序,其中,在所述程序运行时由处理器执行以上任意一项所述的方法。
65.从而根据本实施例,通过将音频数据进行扩充,扩充在音频数据的丰富度加强模型鲁棒性。并且本发明在基于语音片段训练的流程中增加了全局平均信息融合技术,来使得网络能够对局部信息以及全局信息有更好的理解。基于长短期记忆和全局平均信息融和技术的声纹模型可以适应移动端的小内存的场景。进而解决现有技术中存在的现有的声纹识别技术无法处理语音特征的细节信息导致识别率下降,并且无法实现在移动端小内存限
制下特定场景内的说话人验证的技术问题。
66.需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
67.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
68.实施例2
69.图7示出了根据本实施例所述的说话人验证装置700,该装置700与根据实施例1的第一个方面所述的方法相对应。参考图7所示,该装置700包括:接收模块710,用于从预先设置的声音采集设备接收采集的说话人的音频数据,其中音频数据为用户的特定命令发声,其中音频数据为用户的特定命令发声;第一确定模块720,用于将音频数据进行数据扩充,确定有效音频段;第二确定模块730,用于通过预先设置的特征提取算法,对有效音频段进行特征提取,确定音频特征;以及第三确定模块740,用于通过预先训练的声纹模型,将音频特征与预先注册用户的声音特征进行匹配,在音频特征与声音特征相匹配的情况下,确定说话人和用户为同一人,其中声纹模型为基于长短期记忆和全局平均信息融和技术的模型。
70.可选地,第一确定模块710,包括:第一确定子模块,用于通过预先设定的对齐模型对音频数据进行切分,确定音频数据的开头音频、有效音频以及结尾音频;以及第二确定子模块,用于在有效音频长度不足预先设定的长度的情况下,通过开头音频和/或结尾音频对有效音频进行扩充,确定有效音频段。
71.可选地,装置700还包括:通过如下步骤训练声纹模型:第四确定模块,用于通过对齐模型对样本音频数据进行扩充,确定有效样本音频段,其中对齐模型为通过单因素训练得到的,样本音频数据为样本用户的特定命令发声;第五确定模块,用于通过预定长度的窗口截取有效样本音频段,确定训练数据;第六确定模块,用于通过特征提取算法对训练数据进行特征提取,确定样本音频特征;第七确定模块,用于将样本音频特征输入至声纹模型,确定损失函数;以及优化模块,用于根据损失函数,优化声纹模型。
72.可选地,第七确定模块,包括:第三确定子模块,用于通过预先设定的池化方法对样本音频特征进行池化,确定声纹表征数据;第四确定子模块,用于将声纹表征数据进行融和,确定声纹表征矩阵;以及第五确定子模块,用于通过余弦相似度方法计算声纹表征矩阵,确定损失函数。
73.从而根据本实施例,通过将音频数据进行扩充,扩充在音频数据的丰富度加强模型鲁棒性。并且本发明在基于语音片段训练的流程中增加了全局平均信息融合技术,来使得网络能够对局部信息以及全局信息有更好的理解。基于长短期记忆和全局平均信息融和
技术的声纹模型可以适应移动端的小内存的场景。进而解决现有技术中存在的现有的声纹识别技术无法处理语音特征的细节信息导致识别率下降,并且无法实现在移动端小内存限制下特定场景内的说话人验证的技术问题。
74.实施例3
75.图8示出了根据本实施例所述的说话人验证装置800,该装置800与根据实施例1的第一个方面所述的方法相对应。参考图8所示,该装置800包括:处理器810;以及存储器820,与处理器810连接,用于为处理器810提供处理以下处理步骤的指令:从预先设置的声音采集设备接收采集的说话人的音频数据,其中音频数据为用户的特定命令发声;将音频数据进行数据扩充,确定有效音频段;通过预先设置的特征提取算法,对有效音频段进行特征提取,确定音频特征;以及通过预先训练的声纹模型,将音频特征与预先注册用户的声音特征进行匹配,在音频特征与声音特征相匹配的情况下,确定说话人和用户为同一人,其中声纹模型为基于长短期记忆和全局平均信息融和技术的模型。
76.可选地,将音频数据进行数据扩充,确定有效语音段的操作,包括:通过预先设定的对齐模型对音频数据进行切分,确定音频数据的开头音频、有效音频以及结尾音频;以及在有效音频长度不足预先设定的长度的情况下,通过开头音频和/或结尾音频对有效音频进行扩充,确定有效音频段。
77.可选地,存储器820还用于为处理器810提供处理以下处理步骤的指令:通过如下步骤训练声纹模型:通过对齐模型对样本音频数据进行扩充,确定有效样本音频段,其中对齐模型为通过单因素训练得到的,样本音频数据为样本用户的特定命令发声;通过预定长度的窗口截取有效样本音频段,确定训练数据;通过特征提取算法对训练数据进行特征提取,确定样本音频特征;将样本音频特征输入至声纹模型,确定损失函数;以及根据损失函数,优化声纹模型。
78.可选地,样本音频特征输入至声纹模型,确定损失函数的操作,包括:通过预先设定的池化方法对样本音频特征进行池化,确定声纹表征数据;将声纹表征数据进行融和,确定声纹表征矩阵;以及通过余弦相似度方法计算声纹表征矩阵,确定损失函数。
79.从而根据本实施例,通过将音频数据进行扩充,扩充在音频数据的丰富度加强模型鲁棒性。并且本发明在基于语音片段训练的流程中增加了全局平均信息融合技术,来使得网络能够对局部信息以及全局信息有更好的理解。基于长短期记忆和全局平均信息融和技术的声纹模型可以适应移动端的小内存的场景。进而解决现有技术中存在的现有的声纹识别技术无法处理语音特征的细节信息导致识别率下降,并且无法实现在移动端小内存限制下特定场景内的说话人验证的技术问题。
80.上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
81.在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
82.在本发明所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连
接,可以是电性或其它的形式。
83.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
84.另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
85.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
86.以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1