一种自动场景拓展的声纹采集方法与流程

文档序号:29084221发布日期:2022-03-02 00:55阅读:260来源:国知局
一种自动场景拓展的声纹采集方法与流程

1.本技术涉及声纹技术领域,更具体地,涉及一种自动场景扩展的声纹采集方法。


背景技术:

2.声纹识别技术是一种生物识别技术,通过语音来识别说话人身份的。声纹识别技术在多场景有所应用,如电话,手机,应用程序,门禁系统,智能音响,机器人等。
3.但是,在实际应用场景中可能受到环境噪声等外界因素的影响,进而导致声纹识别的准确率降低,降低了用户体验。


技术实现要素:

4.有鉴于此,本技术提出了一种自动场景扩展的声纹采集方法。
5.第一方面,本技术实施例提供了一种自动场景扩展的声纹采集方法,所述方法包括:获取第一注册音频;提取所述第一注册音频中的人声音频,作为目标音频;将所述目标音频与预设噪声集中至少一种环境噪声音频进行叠加,得到第二注册音频;基于预先训练的人声声纹模型,对所述第二注册音频进行特征提取,得到注册声纹特征,所述注册声纹特征用于声纹验证。
6.第二方面,本技术实施例提供了一种自动场景扩展的声纹采集装置,所述装置包括:音频获取模块、人声提取模块、音频叠加模块以及注册声纹获取模块。音频获取模块,用于获取第一注册音频;人声提取模块,用于提取所述第一注册音频中的人声音频,作为目标音频;音频叠加模块,用于将所述目标音频与预设噪声集中至少一种环境噪声音频进行叠加,得到第二注册音频;注册声纹获取模块,用于基于预先训练的人声声纹模型,对所述第二注册音频进行特征提取,得到注册声纹特征,所述注册声纹特征用于声纹验证。
7.第三方面,本技术实施例提供了一种电子设备,包括:一个或多个处理器;存储器;一个或多个程序,其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行第一方面提供的自动场景扩展的声纹采集方法。
8.第四方面,本技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序代码,所述程序代码可被处理器调用执行第一方面提供的自动场景扩展的声纹采集方法。
9.本技术提供的方案中,获取第一注册音频,提取第一注册音频中的人声音频,作为目标音频;将目标音频与预设噪声集中至少一种环境噪声音频进行叠加,得到第二注册音频;基于预先训练的人声声纹模型,对第二注册音频进行特征提取,得到注册声纹特征,注册声纹特征用于声纹验证。如此,在提取第一注册音频中的声纹特征之前,先将该人声音频进行分离,并与环境噪声音频进行叠加,得到第二注册音频,再提取第二注册音频中声纹特征,作为注册声纹特征,在声纹注册环节进行了场景拓展,提高了注册声纹的普适性,进而提高了声纹识别的鲁棒性和准确性。
附图说明
10.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
11.图1示出了本技术一实施例提供的自动场景扩展的声纹采集方法的流程示意图。
12.图2示出了本技术一实施例提供的声纹识别的流程示意图。
13.图3示出了本技术另一实施例提供的自动场景扩展的声纹采集方法的流程示意图。
14.图4示出了本技术又一实施例提供的自动场景扩展的声纹采集方法的流程示意图。
15.图5示出了图4中步骤s307在一种实施方式中的子步骤流程示意图。
16.图6示出了本技术再一实施例提供的自动场景扩展的声纹采集方法的流程示意图。
17.图7示出了图6中步骤s402在一种实施方式中的子步骤流程示意图。
18.图8示出了本技术又另一实施例提供的自动场景扩展的声纹采集方法的流程示意图。
19.图9是根据本技术一实施例提供的一种自动场景扩展的声纹采集装置的框图。
20.图10是本技术实施例的用于执行根据本技术实施例的自动场景扩展的声纹采集方法的电子设备的框图。
21.图11是本技术实施例的用于保存或者携带实现根据本技术实施例的自动场景扩展的声纹采集方法的程序代码的存储单元。
具体实施方式
22.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述。
23.声纹识别技术一种生物识别技术,通过语音来识别说话人身份的。声纹识别技术在多场景有所应用,如电话,手机,应用程序,门禁系统,智能音响,机器人等。但是,在实际应用场景中可能受到环境噪声、混响等外界因素的影响,进而导致声纹识别的准确率降低,降低了用户体验。
24.针对上述问题,发明人提出一种自动场景扩展的声纹采集方法,将第一注册音频中的人声音频提取出来,并与环境噪声音频进行叠加,得到第二注册音频,基于人声声纹识别模型,对第二注册音频进行特征提取,得到注册声纹特征。下面对该内容进行详细描述。
25.请参照图1,图1为本技术一实施例提供的一种自动场景扩展的声纹采集方法的流程示意图。下面将结合图1对本技术实施例提供的自动场景扩展的声纹采集方法进行详细阐述。该自动场景扩展的声纹采集方法可以包括以下步骤:
26.步骤s101:获取第一注册音频。
27.在本实施例中,请参阅图2,声纹识别的基本方案包括训练人声声纹模型、声纹注册和声纹验证三个阶段。在训练人声声纹模型阶段,;在声纹注册阶段,基于人声声纹模型,
从注册用户的注册音频中提取注册声纹特征;在声纹验证阶段,基于人声声纹模型,从待验证音频中提取验证声纹特征,将待验证声纹特征与声纹注册阶段生成的注册声纹特征进行相似度比较,以判断该验证音频是否来自于该注册用户。但是,在实际应用中,获取到的注册音频和待验证音频中均可能包含其他噪音音频(如环境噪音音频),进而导致声纹识别不准确,影响用户体验。
28.基于此,可以通过在声纹注册阶段,进行场景拓展,得到可以使声纹识别更具鲁棒性和准确性的注册声纹特征。具体地,可以先获取注册用户的第一注册音频,其中,获取第一注册音频的方式可以是通过电子设备自身配置的音频采集设备采集得到;也可以是通过接收由外置音频采集设备所采集到的第一注册音频,本实施例对此不作限制。
29.步骤s102:提取所述第一注册音频中的人声音频,作为目标音频。
30.在本实施例中,在获取到第一注册音频后,可以从第一注册音频中提取出纯净的不包含其他噪音音频的人声音频,作为目标音频。
31.在一些实施方式中,可以直接通过基于信号处理的语音检测(voice activity detection,vad)算法,标识出第一注册音频中的语音片段与非语音片段,确定非语音片段为纯噪音片段,以及语音片段为人声片段,因此,可以提取出第一注册音频中的语音片段作为上述目标音频。如此,可以根据简单的vad算法,迅速对第一注册音频中的人声音频和噪声音频进行分离,提取出人声音频作为目标音频,简单高效,提高了人声音频和噪声音频分离的速度,进而提高了声纹识别的效率。
32.在另一些实施方式中,可以通过预先训练的vad深度学习模型,将第一注册音频输入至vad深度学习模型中,即可实现人声音频和噪声音频的分离,并提取人声音频,作为上述目标音频。其中,可以通过收取目标音频类型和噪声音频类型的数据,形成样本训练数据,并基于该样本训练数据进行模型训练,得到上述vad深度学习模型。示例性地,目标音频类型的数据可以是人工客服电话通话音频中的人工客服的客服人声音频,因此,可以收集大量的不含任何其他噪声音频的客服人声音频,以及大量常见的电话通话噪声,比如电话的嘟嘟声、彩铃声、环境中的噪声比如鸣笛声、路人说话声、动物声等,将它们组合在一起形成训练数据;其中,组合的方式可以采取拼接、叠加等方式,并为每条音频中的每一音频帧打上与其对应的标签,该标签包括人声标签和噪声标签。如此,由于vad深度学习模型是通过大量样本训练数据进行训练得到,因此,通过将第一注册音频输入至预先训练的vad深度学习模型中,来提取人声音频的方式,可以得到更为准确且更为纯净的人声音频。
33.步骤s103:将所述目标音频与预设噪声集中至少一种环境噪声音频进行叠加,得到第二注册音频。
34.在本实施例中,预设噪声集中包括多种环境噪声音频,如汽车鸣笛声、引擎声、雨声、流水声、背景人声等,本实施例对此不作限制。其中,环境噪声音频可以是由电子设备采集得到,也可以是基于网络下载得到,本实施例对此不作限制。
35.可选地,可以将目标音频与上述多种环境噪声音频中的一种环境噪声音频进行叠加,也可以将目标音频与上述多种环境噪声音频中的两种或更多种环境噪声音频进行叠加,得到第二注册音频。即通过音频叠加的方式,将目标音频仿真为真实环境下存在噪音的注册音频。
36.在一些实施方式中,在将目标音频与环境噪声音频进行叠加之前,还可以对目标
音频进行降噪处理和/语音增强处理,以去除目标音频中还夹杂的部分细微噪声音频,以获取更为干净的人声音频,使叠加后的第二注册音频更贴合现实环境下注册用户发出的注册音频,提高基于第二注册音频得到的注册声纹特征的准确性,进而提高声纹识别的准确性和鲁棒性。
37.在另一些实施方式中,在将目标音频与环境噪声音频进行叠加后,还可以随机对叠加得到的音频进行混响处理和/或失真处理,得到第二注册音频。即进一步通过混响处理和/或失真处理等音频处理技术,使基于目标音频和环境噪声音频,仿真得到的第二注册音频更贴合现实环境下注册用户发出的注册音频,提高基于第二注册音频得到的注册声纹特征的准确性,进而提高声纹识别的准确性和鲁棒性。
38.在又一些实施方式中,可以在将目标音频与环境噪声音频进行叠加之前,还可以对目标音频进行降噪处理和/语音增强处理,以及在将目标音频与环境噪声音频进行叠加后,还可以随机对叠加得到的音频进行混响处理和/或失真处理,得到第二注册音频,可以大幅度提高声纹识别的准确性和鲁棒性。
39.步骤s104:基于预先训练的人声声纹模型,对所述第二注册音频进行特征提取,得到注册声纹特征,所述注册声纹特征用于声纹验证。
40.基于此,在获取到第二注册音频后,可以将第二注册音频输入至预先训练的人声声纹模型中,进行声纹特征提取,即可得到注册声纹特征,该注册声纹特征可以用于声纹识别过程中的声纹验证阶段。
41.在本实施例中,将第一注册音频中的人声音频与至少一种环境噪声音频进行叠加,得到第二注册音频,基于人声声纹模型,提取第二注册音频中的声纹特征,作为注册声纹特征。如此,在声纹注册阶段,结合环境噪声音频,得到可以使声纹识别更具普适性的注册声纹特征,提高声纹识别的准确性和鲁棒性,进而提高用户体验。
42.请参照图3,图3为本技术另一实施例提供的一种自动场景扩展的声纹采集方法的流程示意图。下面将结合图3对本技术实施例提供的自动场景扩展的声纹采集方法进行详细阐述。该自动场景扩展的声纹采集方法可以包括以下步骤:
43.步骤s201:获取第一注册音频。
44.步骤s202:提取所述第一注册音频中的人声音频,作为目标音频。
45.在本实施例中,步骤s201至步骤s202的具体实施方式可以参阅前述实施例中的内容,在此不再赘述。
46.步骤s203:将所述目标音频分别与预设噪声集中多种环境场景中的每种环境场景下的环境噪声音频进行叠加,得到多个第二注册音频。
47.在本实施例中,预设噪声集中可以包括多种环境场景下的环境噪声音频,如马路边场景下的汽车鸣笛噪声、引擎声等;咖啡厅场景下的背景人声、杯子碰撞声等;办公室场景下的键盘敲击声、背景人声等;游乐园场景下的音乐声、儿童嬉闹声等,本实施例对此不作限制。
48.基于此,可以将目标音频分别与多种环境场景中每种环境场景下的环境噪声进行叠加,得到多个第二注册音频。仍以上述提到的多种环境场景为例,进行音频叠加后,可以得到仿真马路边场景下的第二注册音频、咖啡厅场景下的第二注册音频、办公室场景下的第二注册音频以及游乐园场景下的第二注册音频。
49.步骤s204:基于所述人声声纹模型,对所述多个第二注册音频中的每个第二注册音频进行特征提取,得到多个第二注册声纹特征。
50.基于此,可以将多个第二注册音频中的每个第二注册音频均输入至人声声纹模型,进行特征提取,即可得到多个第二注册声纹特征,即得到每种环境场景下的注册声纹特征。仍以上述提到的多种环境场景为例,多个第二注册声纹特征可以包括马路边场景下的注册声纹特征、咖啡厅场景下的注册声纹特征、办公室场景下的注册声纹特征以及游乐园场景下的注册声纹特征。
51.步骤s205:获取所述多个第二注册声纹特征的平均特征,作为所述注册声纹特征。
52.在本实施例中,为提高最终得到的注册声纹特征的普适性,即该注册声纹特征可以在任何环境场景下的声纹验证下均保证较高的准确率,可以获取多个第二注册声纹特征的平均特征,作为最终的注册声纹特征。其中,声纹特征可以理解为一个二维特征向量,获取多个第二注册声纹特征的平均特征,即为求多个第二注册声纹特征向量的平均向量,将该平均向量作为平均特征。
53.步骤s206:获取用户输入的待验证音频。
54.在本实施例中,在进行声纹验证之前,需要获取用户输入的待验证音频,其中,获取待验证音频的方式可以是通过电子设备自身配置的音频采集设备采集得到;也可以是通过接收由外置音频采集设备所采集到的第一注册音频,本实施例对此不作限制。
55.步骤s207:基于所述人声声纹模型,对所述待验证音频进行特征提取,得到待验证声纹特征。
56.其中,将待验证音频输入至人声声纹模型中,进行特征提取,得到待验证声纹特征。
57.步骤s208:将所述待验证声纹特征与所述注册声纹特征进行匹配,得到匹配结果。
58.步骤s209:根据所述匹配结果确定所述用户是否为第一注册音频对应的注册用户。
59.进一步地,在获取到待验证声纹特征和注册声纹特征后,可以将待验证声纹特征与注册声纹特征进行相似度匹配。具体地,获取待验证声纹特征与注册声纹特征之间的相似度,作为目标相似度;判断目标相似度是否达到预设相似度阈值;若目标相似度达到预设相似度阈值,则确定该用户为第一注册音频对应的注册用户;若目标相似度未达到预设相似度阈值,则确定该用户不为第一注册音频对应的注册用户。其中,预设相似度阈值可以是预先设置的,如0.7,也可以根据不同的应用场景对其进行调整,本实施例对此不作限制。
60.在本实施例中,通过获取叠加得到的多个第二注册音频对应的第二注册声纹特征的平均特征,作为注册声纹特征;并基于该注册声纹特征,对待验证音频进行声纹验证,以判断发出待验证音频的用户是否为与注册用户。如此,通过获取多个第二注册声纹特征的平均特征,作为注册声纹特征,可以提高注册声纹特征的普适性,保证注册声纹特征可以在任何环境场景下的声纹验证阶段,均保证较高的准确率,即提高声纹识别的准确性和鲁棒性。
61.请参照图4,图4为本技术又一实施例提供的一种自动场景扩展的声纹采集方法的流程示意图。下面将结合图4对本技术实施例提供的自动场景扩展的声纹采集方法进行详细阐述。该自动场景扩展的声纹采集方法可以包括以下步骤:
62.步骤s301:获取第一注册音频。
63.步骤s302:提取所述第一注册音频中的人声音频,作为目标音频。
64.步骤s303:将所述目标音频分别与预设噪声集中多种环境场景中的每种环境场景下的环境噪声音频进行叠加,得到多个第二注册音频。
65.步骤s304:基于所述人声声纹模型,对所述多个第二注册音频中的每个第二注册音频进行特征提取,得到多个注册声纹特征,所述多个注册声纹特征与所述多种环境场景一一对应。
66.步骤s305:获取用户输入的待验证音频。
67.步骤s306:基于所述人声声纹模型,对所述待验证音频进行特征提取,得到待验证声纹特征。
68.在本实施例中,步骤s301至步骤s306的具体实施方式可以参阅前述实施例中的内容,在此不再赘述。
69.步骤s307:获取所述用户在输入所述待验证音频时所处的环境场景,作为目标场景。
70.在本实施例中,在获取到与多种环境场景一一对应的多个注册声纹特征后,在声纹验证阶段,可以通过确定用户在输入待验证音频时所处的环境场景,将待验证声纹特征与该环境场景对应的注册声纹特征进行匹配,以判断该用户是否为注册用户。
71.在一些实施方式中,请参阅图5,步骤s307可以包括:
72.步骤s3071:提取所述待验证音频中的噪声音频,作为目标噪声音频。
73.在本实施例中,可以从待验证音频中提取除噪声音频,并对噪声音频进行分析,以确定用户在输入该待验证音频时所处的环境场景。可选地,可以直接就信号处理的vad算法,标识出待验证音频中的语音片段与非语音片段,确定非语音片段为纯噪音片段,以及语音片段为人声片段;基于此,提取待验证音频中的非语音片段作为目标噪音音频。如此,可以快速从待验证音频中提取除噪音音频,简单高效,进而也提高了声纹识别的效率。
74.可选地,也可以通过预先训练的vad深度学习模型,将待验证音频输入至vad深度学习模型中,即可实现噪声音频和人声音频的分离,提取其中的噪声音频,作为上述目标噪声音频。其中,训练vad深度学习模型的具体实施方式可以参阅前述实施例中的内容,本实施例对此不作限制。
75.步骤s3072:基于预先训练的噪声声纹模型,对所述目标噪声音频进行特征提取,得到噪声声纹特征。
76.基于此,在获取到目标噪声音频后,可以将目标噪声音频输入至预先训练的噪声声纹模型中,进行特征提取,得到噪声声纹特征。如此,则可以根据噪声声纹特征,来确定用户在输入待验证音频时所处的环境场景。
77.步骤s3073:将所述噪声声纹特征与多种环境场景中的每种环境场景下的环境噪声音频的声纹特征进行相似度匹配,得到噪声相似度。
78.在本实施例中,电子设备中预先存储有预设噪声集,其中,预设噪声集中包括多种环境场景下的环境噪声音频,以及每种环境场景下的环境噪声音频的声纹特征。因此,可以将上述获取到的噪声声纹特征与每种环境场景下的环境噪声音频的声纹特征进行相似度匹配,得到噪声相似度。其中,噪声相似度越大,表征目标声纹特征与该环境场景下的环境
噪声音频的声纹特征越相似,用户在输入待验证音频时所处的环境场景与预设噪声集中的环境场景越相似。
79.步骤s3074:将所述噪声相似度大于第一相似度阈值的环境噪声音频对应的环境场景,作为所述目标场景。
80.其中,第一相似度阈值可以是预先设置的,如0.7,也可以根据不同的应用场景对其进行调整,本实施例对此不作限制。在获取到噪声相似度后,可以判断该噪声相似度是否大于第一相似度阈值,若大于,则表征用户在输入待验证音频时所处的环境场景与预设噪声集中的环境场景越相似,进而可以获取预设噪声集中该环境噪声音频对应的环境场景,作为目标场景。
81.步骤s308:从所述多个注册声纹特征中获取与所述目标场景对应的注册声纹特征,作为指定声纹特征。
82.基于此,从多个注册声纹特征中获取与目标场景对应的注册声纹特征,作为指定声纹特征。例如,若获取到的目标场景为马路边场景,则获取预设噪声集中马路边场景下的注册声纹特征,作为指定声纹特征。
83.步骤s309:将所述待验证声纹特征与所述指定声纹特征进行相似度匹配,得到匹配结果。
84.步骤s310:根据所述匹配结果确定所述用户是否为第一注册音频对应的注册用户。
85.在本实施例中,步骤s309至步骤s310的具体实施方式可以参阅前述实施例中的内容,在此不再赘述。
86.在另一些实施方式中,若该噪声相似度不大于第一相似度阈值,代表预设噪声集中并未包含用户在输入待验证音频时所处的环境场景所对应的环境噪声音频。此时,可以获取多种环境场景中的每种环境场景下的环境噪声音频的声纹特征的平均特征,作为注册声纹特征;将待验证声纹特征与注册声纹特征进行匹配,得到匹配结果;根据匹配结果确定用户是否为第一注册音频对应的注册用户,具体实施方式在此不再赘述,可以参阅前述实施例的内容。如此,可以在预设噪声集中未包含用户在输入待验证音频时所处的环境场景时,通过获取每种环境场景下的声纹特征的平均特征,作为注册声纹特征的方式,可以保证声纹识别过程的顺利推进,提高了声纹识别的效率和鲁棒性。
87.在本实施例中,在获取到多种环境场景中每种环境场景下的注册声纹特征后,可以对待验证音频中的噪声音频进行特征提取,得到噪声声纹特征,并将该噪声声纹特征与每种环境场景下的噪声音频的声纹特征进行匹配,并将相匹配的噪声音频对应的环境场景作为目标场景;再将待验证声纹特征与目标场景对应的注册声纹特征进行匹配,以判断用户是否为第一注册音频对应的注册用户。如此,使用与用户在输入待验证音频时所处的环境场景下的注册声纹特征,与待验证声纹特征进行匹配,可以提高声纹识别的准确性和效率。
88.请参照图6,图6为本技术再一实施例提供的一种自动场景扩展的声纹采集方法的流程示意图。下面将结合图6对本技术实施例提供的自动场景扩展的声纹采集方法进行详细阐述。该自动场景扩展的声纹采集方法可以包括以下步骤:
89.步骤s401:获取第一注册音频。
90.在本实施例中,步骤s401的具体实施方式可以参阅前述实施例中的内容,在此不再赘述。
91.步骤s402:基于所述第一注册音频,对所述预设噪声集进行更新。
92.在一些实施方式中,请参阅图7,步骤s402可以包括:
93.步骤s4021:提取所述第一注册音频中的噪声音频,作为第一噪声音频。
94.步骤s4022:基于预先训练的噪声声纹模型,对所述第一噪声音频进行特征提取,得到第一噪声声纹特征。
95.在本实施例中,提取噪声音频以及对噪声音频进行特征提取的具体实施方式可以参阅前述实施例中的内容,在此不再赘述。
96.步骤s4023:基于所述第一噪声声纹特征和所述多种环境场景中每种环境场景下的子噪声集的声纹特征,获取与所述第一噪声音频相匹配的子噪声集,作为目标子噪声集。
97.在本实施例中,预设噪声集中可以包括多种环境场景下的环境噪声,每种环境场景下的又包括子噪声集,子噪声集中可以包括该环境场景下的各种类型的环境噪声。例如,马路边场景对应的子噪声集中,可以包括汽车鸣笛噪声、引擎声或交警指挥声等,本实施例对此不作限制。
98.可选地,在获取到第一注册音频中第一噪声音频的第一噪声声纹特征后,可以将第一噪声声纹特征与每种环境场景下的子噪声集的声纹特征进行匹配,进而获取到与第一噪声音频相匹配的子噪声集。具体地,获取第一噪声声纹特征与每种环境场景下的子噪声集的声纹特征的相似度,得到多个噪声相似度;判断所述多个噪声相似度中是否存在大于预设相似度阈值的噪声相似度,若存在,将目标噪声相似度对应的子噪声集作为目标子噪声集,其中,目标相似度为多个噪声相似度中大于预设相似度阈值的噪声相似度,预设相似度阈值可以是预先设置的,如0.7,也可以根据不同应用场景对其进行调整,本实施例对此不作限制。
99.示例性地,若预设噪声集中包括子噪声集a、子噪声集b以及子噪声集c,预设相似度阈值为0.7,获取到第一噪声声纹特征分别与子噪声集a、子噪声集b以及子噪声集c的声纹特征为0.2、0.3、0.8,因此,将子噪声集c作为目标子噪声集。
100.步骤s4024:将所述第一噪声音频添加至所述目标子噪声集。
101.基于此,可以将第一噪声音频添加至目标子噪声集,如此,可以丰富目标子噪声集中包含的环境噪声音频的数量及种类。
102.在另一些实施方式中,在所述基于预先训练的噪声声纹模型,对所述第一噪声音频进行特征提取,得到第一噪声声纹特征之后,若基于所述第一噪声声纹特征和所述多种环境场景种每种环境场景下的子噪声集的声纹特征,未获取到与所述第一噪声音频相匹配的子噪声集,则生成一个新的子噪声集;将所述第一噪声音频添加至所述新的子噪声集;将所述新的子噪声集添加至所述预设噪声集中。也就是说,当不存在与第一噪声声纹特征相匹配的子噪声集的声纹特征时,代表此时预设噪声集中并未包含第一噪声音频对应的环境场景下的环境噪声。因此,可以生成一个新的子噪声集,并将第一子噪声集添加至该新的子噪声集中,再将新的子噪声集添加至预设噪声集中。如此,可以丰富预设子噪声集的种类,以及子噪声集中包含的环境噪声音频的数量及种类。
103.在又一些实施方式中,可以获取用户输入的待验证音频,从待验证音频中提取出
噪声音频,作为上述第一噪声音频;并将该第一噪声音频添加至预设噪声集中,对预设噪声集进行更新,更新的具体实施方式与前述实施例中基于第一注册音频,对预设噪声集进行更新类似,请参阅前述实施例的具体内容,在此不再赘述。
104.在一些实施方式中,在基于第一注册音频,对所述预设噪声集进行更新之后,可以每隔预设时长,基于更新后的预设噪声集,对人声声纹模型进行训练,更新人声声纹模型。如此,在人声声纹模型的训练过程中,通过引入预设噪声集中的环境噪声,对人声声纹模型进行训练,可以使模型具有鲁棒性;并且是周期性地根据每次更新后的预设噪声集,对人声声纹模型进行多次训练,即周期性更新人声声纹模型,可以进一步提高模型的鲁棒性,进而提高声纹识别的准确性和鲁棒性。
105.在本实施例中,可以从第一注册音频和待验证音频中提取噪声音频,并将该噪声音频添加至预设噪声集中,如此,可以对预设噪声集进行实时更新,丰富了预设噪声集中子噪声集的种类及数量,以及也丰富了子噪声集中包含的环境噪声的种类及数量,进而可以使基于预设噪声集训练的人声声纹模型更具鲁棒性,提高了声纹识别的准确性和鲁棒性;并且,由于预设噪声集中的环境噪声音频的种类以及数量,可以使叠加得到的注册声纹特征更具普适性,保证注册声纹特征可以在任何环境场景下的声纹验证阶段,均保证较高的准确率,即提高声纹识别的准确性和鲁棒性。
106.请参照图8,图8为本技术又另一实施例提供的一种自动场景扩展的声纹采集方法的流程示意图。下面将结合图8对本技术实施例提供的自动场景扩展的声纹采集方法进行详细阐述。
107.在本实施例中,获取注册用户输入的第一注册音频,通过vad算法,对第一注册音频进行音频分离,得到噪声音频和人声音频,将噪声音频与预设噪声集中的噪声进行相似度计算,具体地,通过噪声声纹模型提取特征,然后计算特征的相似度;如果噪声音频与某一个场景的噪声相似度超过阈值,则将该噪声音频作为噪声样本添加入该场景的预设噪声集,否则,新建一个场景,并将该噪声样本添加入该场景的预设噪声集中。进一步地,对人声音频进行降噪和语言增强处理,例如通过谱减法去除人声音频中夹杂的噪声,以获得更为干净的人声音频。再将经过降噪和语言增强处理的音频与预设噪声集中的噪声通过混噪算法(如叠加处理、混响处理以及失真处理)合成第二注册音频,通过人声声纹模型提取第二注册音频的特征,即可得到多个第二注册声纹特征,获取多个第二册声纹特征的平均特征作为注册声纹特征;当获取到用户输入的待验证音频时通过人声声纹模型对待验证音频进行特征提取,得到待验证声纹特征,将待验证声纹特征与注册声纹特征进行相似度比较(即声纹验证),并根据相似度比较的结果,判断该用户是否为与第一注册音频对应的注册用户。
108.在本实施例中,可以从第一注册音频中提取噪声音频,并将该噪声音频添加至预设噪声集中,如此,可以对预设噪声集进行实时更新,丰富了预设噪声集中的环境噪声的种类及数量,进而可以使基于预设噪声集训练的人声声纹模型更具鲁棒性,提高了声纹识别的准确性和鲁棒性;通过获取多个第二注册声纹特征的平均特征,作为注册声纹特征,可以提高注册声纹特征的普适性,保证注册声纹特征可以在任何环境场景下的声纹验证阶段,均保证较高的准确率,即提高声纹识别的准确性和鲁棒性。
109.请参照图9,其中示出了本技术一实施例提供的一种自动场景扩展的声纹采集装
置500的结构框图。该装置500可以包括:音频获取模块510、人声提取模块520、音频叠加模块530和注册声纹获取模块540。
110.音频获取模块510用于获取第一注册音频。
111.人声提取模块520用于提取所述第一注册音频中的人声音频,作为目标音频。
112.音频叠加模块530用于将所述目标音频与预设噪声集中至少一种环境噪声音频进行叠加,得到第二注册音频。
113.注册声纹获取模块540用于基于预先训练的人声声纹模型,对所述第二注册音频进行特征提取,得到注册声纹特征,所述注册声纹特征用于声纹验证。
114.在一些实施方式中,所述预设噪声集中包括多种环境场景下的环境噪声音频,音频叠加模块530可以具体用于:将所述目标音频分别与所述多种环境场景中的每种环境场景下的环境噪声音频进行叠加,得到多个第二注册音频。
115.在该方式下,注册声纹获取模块540可以包括:第一特征获取单元以及第二特征获取单元。其中,第一特征获取单元可以用于基于所述人声声纹模型,对所述多个第二注册音频中的每个第二注册音频进行特征提取,得到多个第二注册声纹特征。第二特征获取单元可以用于获取所述多个第二注册声纹特征的平均特征,作为所述注册声纹特征。
116.在一些实施方式中,自动场景扩展的声纹采集装置500还可以包括:验证音频获取模块、第三特征获取模块、匹配模块以及用户确定模块。其中,验证音频获取模块可以用于在基于预先训练的人声声纹模型,对所述第二注册音频进行特征提取,得到注册声纹特征之后,获取用户输入的待验证音频。第三特征获取模块可以用于基于所述人声声纹模型,对所述待验证音频进行特征提取,得到待验证声纹特征。匹配模块可以用于将所述待验证声纹特征与所述注册声纹特征进行匹配,得到匹配结果。用户确定模块可以用于根据所述匹配结果确定所述用户是否为第一注册音频对应的注册用户。
117.在另一些实施方式中,注册声纹获取模块540可以具体用于:基于所述人声声纹模型,对所述多个第二注册音频中的每个第二注册音频进行特征提取,得到多个注册声纹特征,所述多个注册声纹特征与所述多种环境场景一一对应。
118.在该方式下,自动场景扩展的声纹采集装置500可以包括:验证音频获取模块、第三特征获取模块、场景获取模块、第四特征获取模块、匹配模块以及用户确定模块。其中,验证音频获取模块可以用于在所述基于所述人声声纹模型,对所述多个第二注册音频中的每个第二注册音频进行特征提取,得到多个注册声纹特征之后,获取用户输入的待验证音频。第三特征获取模块可以用于基于所述人声声纹模型,对所述待验证音频进行特征提取,得到待验证声纹特征。场景获取模块可以用于获取所述用户在输入所述待验证音频时所处的环境场景,作为目标场景。第四特征获取模块可以用于从所述多个注册声纹特征中获取与所述目标场景对应的注册声纹特征,作为指定声纹特征。匹配模块可以用于将所述待验证声纹特征与所述指定声纹特征进行相似度匹配,得到匹配结果。用户确定模块可以用于根据所述匹配结果确定所述用户是否为第一注册音频对应的注册用户。
119.在一些实施方式中,场景获取模块可以包括:噪声提取单元、噪声特征提取单元、噪声匹配单元以及场景确定单元。其中,噪声提取单元可以用于提取所述待验证音频中的噪声音频,作为目标噪声音频。噪声特征提取单元可以用于基于预先训练的噪声声纹模型,对所述目标噪声音频进行特征提取,得到噪声声纹特征。噪声匹配单元可以用于将所述噪
声声纹特征与多种环境场景中的每种环境场景下的环境噪声音频的声纹特征进行相似度匹配,得到噪声相似度。场景确定单元可以用于将所述噪声相似度大于第一相似度阈值的环境噪声音频对应的环境场景,作为所述目标场景。
120.在一些实施方式中,自动场景扩展的声纹采集装置500可以包括:噪声集更新模块。其中,噪声集更新模块可以用于在所述获取第一注册音频之后,基于所述第一注册音频,对所述预设噪声集进行更新。
121.在该方式下,所述预设噪声集包括多种环境场景下的子噪声集,噪声集更新模块可以包括:第一噪声提取单元、第一噪声特征提取单元、子噪声集获取单元以及噪声添加单元。其中,第一噪声提取单元可以用于提取所述第一注册音频中的噪声音频,作为第一噪声音频。第一噪声特征提取单元可以用于基于预先训练的噪声声纹模型,对所述第一噪声音频进行特征提取,得到第一噪声声纹特征。子噪声集获取单元可以用于基于所述第一噪声声纹特征和所述多种环境场景中每种环境场景下的子噪声集的声纹特征,获取与所述第一噪声音频相匹配的子噪声集,作为目标子噪声集。噪声添加单元可以用于将所述第一噪声音频添加至所述目标子噪声集。
122.在一些实施方式中,噪声集更新模块可以包括:子噪声集生成单元、子噪声添加单元以及子噪声集添加单元。其中,子噪声集生成单元可以用于在所述基于预先训练的噪声声纹模型,对所述第一噪声音频进行特征提取,得到第一噪声声纹特征之后,若基于所述第一噪声声纹特征和所述多种环境场景种每种环境场景下的子噪声集的声纹特征,未获取到与所述第一噪声音频相匹配的子噪声集,则生成一个新的子噪声集。子噪声添加单元可以用于将所述第一噪声音频添加至所述新的子噪声集。子噪声集添加单元可以用于将所述新的子噪声集添加至所述预设噪声集中。
123.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
124.在本技术所提供的几个实施例中,模块相互之间的耦合可以是电性,机械或其它形式的耦合。
125.另外,在本技术各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
126.综上所述,本技术实施例提供的方案中,通过获取第一注册音频,提取第一注册音频中的人声音频,作为目标音频;将目标音频与预设噪声集中至少一种环境噪声音频进行叠加,得到第二注册音频;基于预先训练的人声声纹模型,对第二注册音频进行特征提取,得到注册声纹特征,注册声纹特征用于声纹验证。如此,在提取第一注册音频中的声纹特征之前,先将该人声音频进行分离,并与环境噪声音频进行叠加,得到第二注册音频,再提取第二注册音频中声纹特征,作为注册声纹特征,在声纹注册环节进行了场景拓展,提高了注册声纹的普适性,进而提高了声纹识别的鲁棒性和准确性。
127.下面将结合图对本技术提供的一种电子设备进行说明。
128.参照图10,图10示出了本技术实施例提供的一种电子设备600的结构框图,本技术实施例提供的自动场景扩展的声纹采集方法可以由该电子设备600执行。其中,电子设备600可以是智能手机、平板电脑、智能手表、笔记本电脑、台式电脑、服务器、录音笔等能够运
行应用程序的设备。
129.本技术实施例中的电子设备600可以包括一个或多个如下部件:处理器601、存储器602、以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器602中并被配置为由一个或多个处理器601执行,一个或多个程序配置用于执行如前述方法实施例所描述的方法。
130.处理器601可以包括一个或者多个处理核。处理器601利用各种接口和线路连接整个电子设备600内的各个部分,通过运行或执行存储在存储器602内的指令、程序、代码集或指令集,以及调用存储在存储器602内的数据,执行电子设备600的各种功能和处理数据。可选地,处理器601可以采用数字信号处理(digital signal processing,dsp)、现场可编程门阵列(field-programmable gate array,fpga)、可编程逻辑阵列(programmable logic array,pla)中的至少一种硬件形式来实现。处理器601可集成中央处理器(central processing unit,cpu)、图像处理器(graphics processing unit,gpu)和调制解调器等中的一种或几种的组合。其中,cpu主要处理操作系统、用户界面和应用程序等;gpu用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以集成到处理器601中,单独通过一块通信芯片进行实现。
131.存储器602可以包括随机存储器(random access memory,ram),也可以包括只读存储器(read-only memory)。存储器602可用于存储指令、程序、代码、代码集或指令集。存储器602可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备600在使用中所创建的数据(比如上述的各种对应关系)等。
132.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
133.在本技术所提供的几个实施例中,所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
134.另外,在本技术各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
135.请参考图11,其示出了本技术实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质700中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
136.计算机可读存储介质700可以是诸如闪存、eeprom(电可擦除可编程只读存储器)、eprom、硬盘或者rom之类的电子存储器。可选地,计算机可读存储介质700包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质700具有执行上述方法中的任何方法步骤的程序代码710的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码710可以例如以适当形式进行压缩。
137.最后应说明的是:以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管
参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1