语音数据库创建方法、声纹注册方法、装置、设备及介质与流程

文档序号:15271911发布日期:2018-08-28 22:32阅读:305来源:国知局

本发明涉及数据处理领域,尤其涉及一种语音数据库创建方法、声纹注册方法、装置、设备及介质。



背景技术:

随着人工智能技术的发展,人脸、语音和指纹等与人体特征相关的技术逐渐应用于实际生活中。声纹是用电声学仪器显示的携带言语信息的声波频谱,具有特定性和相对稳定性的特点。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程,每个人在讲话时使用的发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面的差异都很大,任何两个人的声纹图谱都有差异,因此可依靠声纹来对用户的身份进行验证。在声纹识别过程需预先注册声纹,当前声纹注册过程一般都是采用实时录制语音数据并进行声纹提取的方式来进行注册。从录制语音数据到声纹提取均需要消耗较长时间,这导致整个注册过程中耗时较长、注册效率较低。而且,采用实时录制语音数据注册声纹时,因为录制时的环境状态和用户身体健康状态,使得用于提取声纹的录制语音数据与其他时候采集的语音数据存在较大差异,从而影响实时录制语音数据提取的声纹在声纹识别时的准确性。



技术实现要素:

本发明实施例提供一种语音数据库创建方法、装置、设备及介质,以解决数据库处理效率较低的问题。

本发明实施例提供一种声纹注册方法、装置、设备及介质,以解决声纹特征准确性不高的问题。

第一方面,本发明实施例提供一种语音数据库创建方法,包括:

获取原始语音数据,所述原始语音数据包括原始用户标识和语音采集时间;

对所述原始语音数据进行预处理,获取有效语音数据;

获取所述有效语音数据对应的信噪比;

将所述有效语音数据存储在语音数据库中,并为所述语音数据库中的所述有效语音数据建立索引,所述索引包括原始用户标识、语音采集时间和信噪比。

第二方面,本发明实施例提供一种语音数据库创建装置,包括:

原始语音数据获取模块,用于获取原始语音数据,所述原始语音数据包括原始用户标识和语音采集时间;

数据预处理模块,用于对所述原始语音数据进行预处理,获取有效语音数据;

信噪比获取模块,用于获取所述有效语音数据对应的信噪比;

语音数据库索引建立模块,用于将所述有效语音数据存储在语音数据库中,并为所述语音数据库中的所述有效语音数据建立索引,所述索引包括原始用户标识、语音采集时间和信噪比。

第三方面,本发明实施例提供一种声纹注册方法,包括:

获取声纹注册请求,所述声纹注册请求包括注册用户标识和当前时间;

基于所述注册用户标识查询语音数据库,获取与所述注册用户标识相对应的原始用户标识对应的目标索引,所述语音数据库是采用第一方面所述的语音数据库创建方法创建的语音数据库;

根据所述目标索引的语音采集时间、信噪比和所述当前时间,获取每一所述目标索引对应的综合指数;

选取综合指数最高的目标索引对应的有效语音数据,作为注册语音数据;

基于所述注册语音数据,获取对应的声纹特征作为注册声纹。

第四方面,本发明实施例提供一种声纹注册装置,包括:

声纹注册请求获取模块,用于获取声纹注册请求,所述声纹注册请求包括注册用户标识和当前时间;

目标索引获取某块,用于基于所述注册用户标识查询语音数据库,获取与所述注册用户标识相对应的原始用户标识对应的目标索引,所述语音数据库是采用第一方面所述的语音数据库创建方法创建的语音数据库;

综合指数获取模块,用于根据所述目标索引的语音采集时间、信噪比和所述当前时间,获取每一所述目标索引对应的综合指数;

注册语音数据获取模块,用于选取综合指数最高的目标索引对应的有效语音数据,作为注册语音数据;

注册声纹获取模块,用于基于所述注册语音数据,获取对应的声纹特征作为注册声纹。

本发明第五方面提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本发明第一方面所述语音数据库创建方法的步骤;或者,所述处理器执行所述计算机程序时实现如本发明第三方面所述语音数据库创建方法的步骤。

本发明第六方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如本发明第一方面所述语音数据库创建方法的步骤;或者,所述处理器执行所述计算机程序时实现如本发明第三方面所述语音数据库创建方法的步骤。

本发明实施例提供的语音数据库创建方法、装置、设备及存储介质中,通过获取原始语音数据,为创建语音数据库提供数据来源。再对原始语音数据进行预处理,来获取有效语音数据,以提高后续的处理效率,节省数据处理时间。获取有效语音数据对应的信噪比,通过该信噪比,可以直观地判断出有效语音数据的噪音大小,从而获知有效语音数据的语音质量。最后将有效语音数据存储在语音数据库中,并为语音数据库中的有效语音数据建立索引,索引包括原始用户标识、语音采集时间和信噪比。该语音数据库创建方法通过对原始语音数据的预处理、计算有效语音数据的信噪比以及在创建语音数据库之后建立包括用户标识、语音采集时间和信噪比的索引,提高了数据库数据处理效率、也增加了声纹特征的准确性。此外,还可以方便后续声纹注册阶段快速定位到合适的有效语音数据。通过语音数据库在创建过程中的合理设置,提高了后续声纹注册阶段的声纹特征提取的准确性,减少了声纹注册的注册时间。

本发明实施例提供的声纹注册方法、装置、设备及存储介质中,该声纹注册方法采用本发明第一方面提供的语音数据库创建方法创建的语音数据库进行声纹注册,提高了声纹注册阶段声纹特征提取的准确性、减少了声纹注册的注册时间。声纹注册过程中基于目标索引来获取对应有效语音数据的综合指数,以利于快速定位到合适的有效语音数据,以保证提取出和用户最为吻合的声纹特征,进一步提高了声纹注册的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例1中提供的语音数据库创建方法的一流程图;

图2是图1中步骤s12的一具体实施方式的一流程图;

图3是图1中步骤s12的另一具体实施方式的一流程图;

图4是本发明实施例2中提供的语音数据库创建装置的一原理框图;

图5是本发明实施例3中提供的声纹注册方法的一流程图;

图6是本发明实施例3中一具体实施方式的一流程图;

图7是本发明实施例4中提供的声纹注册装置的一原理框图;

图8是本发明实施例6中提供的终端设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例1

图1示出本实施例中语音数据库创建方法的流程图。该语音数据库创建方法应用在各种终端设备或服务器中,用于创建语音数据库,以解决数据库处理效率较低的问题。如图1所示,该语音数据库创建方法包括如下步骤:

s11:获取原始语音数据,原始语音数据包括原始用户标识和语音采集时间。

其中,原始语音数据是指采集后未经处理的语音数据。原始用户标识是用于区别不同用户的标识,一个原始用户标识对应一唯一用户。在一个具体实施方式中,原始用户标识可以是用户手机号码、用户账号或身份证号等。语音采集时间是指原始语音数据采集的时间。

优选地,原始语音数据可以从采集有大量用户语音数据的数据库中获取。例如,部分企业会设立有客户服务热线,用户通过拨打这个客户服务热线来解决其在使用该企业的产品或服务的过程中遇到的问题,企业也会通过这个客户服务热线来对客户进行产品推广或回访等。通常来说,企业会对上述通话进行录音,并将录制的语音数据存储在一数据库中。或者,在一些应用程序中,用户之间或用户与客服之间进行语音交互时,应用程序的数据库会存储有用户的语音数据。

s12:对原始语音数据进行预处理,获取有效语音数据。

原始语音数据是采集后未经处理的数据,因此在原始语音数据中可能会包含一些无效、冗余的语音数据。例如,原始语音数据中语音时长达不到要求,原始语音数据中包括不属于用户本人的语音数据,原始语音数据的语音质量不符合要求等均为无效、冗余的语音数据。或者,在一个原始语音数据中会存在部分无效或者冗余的语音时段,这部分冗余或无效的语音时段的存在会对后续的语音数据处理过程带来不好的影响,因此需去除这部分冗余或无效的语音时段,其中,语音时段是原始语音数据中的一部分。通过对原始语音数据进行预处理,来获取有效语音数据,以提高后续语音数据的处理效率,以节省时间。

s13:获取有效语音数据对应的信噪比。

信噪比(signal-to-noiseratio,snr)是描述信号中有效成分与噪声成分的比例关系参数。信噪比越高说明噪音相对越少,通过获取有效语音数据的信噪比,可以直观地判断出有效语音数据中噪音的大小,从而获知有效语音数据的语音质量。具体地,可以通过计算的方式来获取有效语音数据对应的信噪比。

在采用计算的方式获取有效语音数据对应的信噪比时,其信噪比的计算公式可以为:snr=10·lg(ps/pn),其中,ps和pn分别代表有效成分和噪声成分的有效功率。可选地,也可以换算成电压幅度的比率关系,即信噪比的计算公式也可以表示为:snr=20·lg(vs/vn),其中,vs和vn分别代表有效成分电压和噪声成分电压的有效值。

在一个实施方式中,获取有效语音数据对应的信噪比,具体包括以下步骤:

首先,采用基音提取算法提取有效语音数据中的基音数据。基音数据即是有效语音数据中的正常语音数据,其和噪音数据相对。优选地,可以采用谱减法、维纳滤波法或者短时谱最小均方误差估计法从语音数据中提取基音数据。

然后,根据基音数据获取有效语音数据中的噪音数据。从语音数据中提取基音数据后,余下部分的语音数据就是语音数据中的噪声数据。

最后,根据基音数据以及噪音数据计算语音数据的信噪比。从有效语音数据中获得有效语音数据的基音数据和噪音数据后,即可根据基音数据以及噪音数据计算有效语音数据的信噪比。具体地,可以先计算基音数据及噪音数据的有效功率或者计算基音数据及噪音数据的电压幅值,再计算二者的比值,从而得到有效语音数据的信噪比。

在一个具体实施方式中,在获取有效语音数据对应的信噪比的步骤之后,还包括:去除信噪比低于信噪比阈值的有效语音数据。

在获取到有效语音数据的信噪比之后,可以对信噪比太低的有效语音数据进行去除处理,以减少数据量,起到缓解数据处理和存储的压力的作用。具体地,可以设定一个信噪比阈值,当有效语音数据的信噪比低于这个信噪比阈值时,说明该段有效语音数据的噪音是非常高的,故该段有效语音数据不适合作为一个用来进行声纹提取的语音数据。通过去除信噪比低于信噪比阈值的有效语音数据,减少数据量,以缓解数据处理和存储的压力,也可以减少后续的数据处理时间,提高处理效率。

s14:将有效语音数据存储在语音数据库中,并为语音数据库中的有效语音数据建立索引,索引包括原始用户标识、语音采集时间和信噪比。

其中,语音数据库是用来存储有效语音数据的数据库。将经过预处理和计算信噪比之后的有效语音数据存储在语音数据库中,并为每段有效语音数据建立索引,以提高后续利用该语音数据库进行数据处理的效率。而且,在声纹注册时通过查询索引的方式就可以直接定位到合适的有效语音数据,并从对应的有效语音数据中提取出声纹特征,可提高声纹特征的准确性。

具体地,索引包括原始用户标识、语音采集时间和信噪比。原始用户标识用于区别不同用户的有效语音数据。语音采集时间代表了语音的录制时间,一般来说,用户的声音会随着时间的迁移会有微小的变化。语音采集时间离当前时间越近,则代表该段有效语音数据和用户当前录制的语音是更为接近的,从而声纹特征也更为吻合。而通过信噪比可以直观地判断出有效语音数据的噪音大小,从而获知有效语音数据的语音质量。

在一个实施方式中,为语音数据库中的有效语音数据建立的索引为brin索引。

brin索引存储了表的连续数据块区间以及对应的数据取值范围,采用brin索引在节省系统空间上有巨大的优势,语音数据库中需要存储大量原始用户标识对应的有效语音数据,对数据库的存储空间要求较高,通过采用brin索引,可以省去大量的索引空间。

因此,通过语音数据库索引的建立,提高了数据库处理效率、也增加了声纹特征的准确性。而且,在声纹注册阶段,可以通过索引中的原始用户标识、语音采集时间和信噪比三者综合考虑,以利于快速定位到最合适的有效语音数据,并根据该有效语音数据的声纹特征来进行注册,大大减少了在声纹注册阶段形成声纹特征的时间,而且通过选择最合适的有效语音数据,也提高的声纹注册的准确性。

本发明实施例提供的语音数据库创建方法中,通过获取原始语音数据,为创建语音数据库提供数据来源。再对原始语音数据进行预处理,来获取有效语音数据,以提高后续的处理效率,节省数据处理时间。获取有效语音数据对应的信噪比,通过该信噪比,可以直观地判断出有效语音数据的噪音大小,从而获知有效语音数据的语音质量。最后将有效语音数据存储在语音数据库中,并为语音数据库中的有效语音数据建立索引,索引包括原始用户标识、语音采集时间和信噪比。该语音数据库创建方法通过对原始语音数据的预处理、计算有效语音数据的信噪比以及在创建语音数据库之后建立包括用户标识、语音采集时间和信噪比的索引,提高了数据库处理效率、也增加了声纹特征的准确性。此外,还可以方便后续声纹注册阶段快速定位到合适的有效语音数据。通过语音数据库在创建过程中的合理设置,提高了后续声纹注册阶段的声纹特征提取的准确性、大大减少了声纹注册的注册时间。

在一个具体实施方式中,对原始语音数据进行预处理,获取有效语音数据,具体包括如下步骤:对每一原始用户标识对应的原始语音数据进行过滤处理和静音去除处理,获取有效语音数据。

在同一原始用户标识对应的原始语音数据中,有可能存在少数不属于该原始用户标识对应的用户本人的原始语音数据(即他人使用的情况),此时该原始语音数据保存的就不是该原始用户标识对应的用户的语音数据,需要把这部分原始语音数据去除,以避免在后续基于原始语音数据提取声纹特征时出现偏差。

因此,对每一原始用户标识对应的原始语音数据进行过滤处理,即是从原始语音数据中查找出不属于该原始用户标识对应的用户本人的原始语音数据,并将这部分原始语音数据去除。具体地,可以采用聚类算法或一一对比和匹配的方式来查找出不属于用户本人的原始语音数据。

在一段原始语音数据中,有可能会存在部分时段中语音数据处于静音阶段,例如在通话过程中的等待时段。这部分时段对应的语音数据属于无效或冗余的语音数据,需要进行静音去除处理。

优选地,可以采用话音激活检测(vad,voiceactivitydetection)对原始语音数据进行检测,以识别出语音部分与非语音部分,非语音部分即为静音部分,将静音部分去除,以获取去除静音的原始语音数据。

话音激活检测,其目的是检测当前语音信号中是否包含话音信号存在,即对输入语音数据进行判断,将语音数据中的话音信号与各种背景噪声信号区分出来,分别对两种信号采用不同的处理方法。通过话音激活检测,识别出一段原始语音数据中的语音部分和静音部分,并对静音部分进行去除,以获取去除静音的原始语音数据。

可以理解地,对每一原始用户标识对应的原始语音数据进行过滤处理和静音去除处理的执行顺序是可以更换的,将经过过滤处理和静音去除处理后的语音数据称为有效语音数据。即可以先进行过滤处理之后再进行静音去除,也可以先进行静音去除之后再进行过滤处理。

在这个实施方式中,通过去除原始语音数据中不属于原始用户标识对应的用户本人的数据,提高了语音数据库中存储的数据的准确性。而对原始语音数据进行静音去除处理之后,降低了后续数据处理的处理时间,提高了处理效率。

在一个具体实施方式中,对每一原始用户标识对应的原始语音数据进行过滤处理,如图2所示,具体包括以下步骤:

s121:提取同一原始用户标识对应的原始语音数据的声纹特征;

基于原始用户标识,对同一原始用户标识对应的原始语音数据进行声纹特征提取。声纹特征是指原始语音数据中表征人的基本特征,例如基音的轮廓、共振峰的频率带宽以及轨迹、谱包络参数、听觉特性参数、线性预测洗漱及其派生参数或混合参数等。具体地,可以基于线性预测编码(lpc,linearpredictivecoding)或梅尔倒谱系数(mfcc,melfrequencycepstralcoefficient)进行声纹特征的提取。

s122:基于声纹特征,将同一原始用户标识对应的原始语音数据采用k-means聚类算法进行聚类分析,获取目标中心点。

其中,聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要分析方法。对原始语音数据采用k-means算法进行聚类分析,获取目标中心点。具体地,根据同一原始用户标识对应的原始语音数据的数量设定k值,并设定每个聚类簇的初始中心点。当所有点(原始语音数据)都分配完毕后,对这个聚类簇中的所有点重新计算(例如计算平均值)得到该簇的新的中心点。然后再通过迭代的方式进行分配中心点和更新聚类簇的中心点的步骤,直至聚类簇的中心点的变化很小,或者达到指定的迭代次数。将数量最多的点(原始语音数据)所对应的聚类簇的中心点作为目标中心点。

s123:采用距离算法,计算同一原始用户标识对应的每一原始语音数据与目标中心点的距离。

距离算法是指估算不同样本之间的相似性度量的算法。在一个实施方式中,可以采用曼哈顿距离、闵可夫斯基距离、余弦相似度或欧氏距离等算法来计算每一原始语音数据与目标中心点的距离。

在一个实施方式中,采用欧氏距离算法来计算每一原始语音数据与目标中心点的欧氏距离。

欧氏距离算法是指在m维空间中两个点之间的真实距离,或向量的自然长度(即该点到原点的距离)。任意两个n维向量a(xi1,xi2,...,xin)与b(xj1,xj2,...,xjn)的欧氏距离为基于每一原始语音数据的声纹特征,通过欧式距离算法计算每一原始语音数据与目标中心点的欧氏距离。

s124:去除同一原始用户标识对应的每一原始语音数据中与目标中心点的距离大于距离阈值的原始语音数据。

通过聚类分析之后,在同一原始用户标识对应的原始语音数据中,属于同一用户的原始语音数据会聚类在目标中心点的附近,这部分原始语音数据与目标中心点的距离是很小的。而不属于用户本人的原始语音数据会远离目标中心点,即这部分原始语音数据与目标中心点的距离是比较大的。因此通过设置一个合理的距离阈值,可以将同一原始用户标识对应的原始语音数据中不属于用户本人的原始语音数据筛选出来并进行去除,从而保证数据的准确性。

在这个实施方式中,将同一原始用户标识对应的原始语音数据采用聚类算法进行聚类分析,并计算同一原始用户标识对应的每一原始语音数据与聚类簇的目标中心点的距离,再去除距离大于距离阈值的原始语音数据。通过对错误的原始语音数据的去除,保证了数据的准确性,同时降低了数据量,也提高了数据处理效率。

在一个具体实施方式中,对每一原始用户标识对应的原始语音数据进行过滤处理,如图3所示,具体包括以下步骤:

s121’:提取同一原始用户标识对应的原始语音数据的声纹特征。

基于原始用户标识,对同一原始用户标识对应的原始语音数据进行声纹特征提取。具体地,可以基于线性预测编码(lpc,linearpredictivecoding)或梅尔倒谱系数(mfcc,melfrequencycepstralcoefficient)进行声纹特征的提取。

s122’:将同一用户标识中每一原始语音数据对应的声纹特征和同一用户标识中其余的原始语音数据对应的声纹特征进行一一对比和匹配,根据匹配结果,统计每一原始语音数据的匹配失败次数。

其中,匹配结果包括匹配成功和匹配失败两种结果。在同一用户标识对应的原始语音数据中,当存在不属于用户本人的原始语音数据时,该部分原始语音数据的声纹特征和属于用户本人的原始语音数据的声纹特征是不匹配的(即匹配失败)。因此,通过将同一用户标识中每一原始语音数据对应的声纹特征和同一用户标识中其余的原始语音数据对应的声纹特征进行一一对比和匹配,其中不属于用户本人的原始语音数据和属于用户本人的原始语音数据进行声纹特征对比时,匹配结果将是匹配失败。

s123’:当一段原始语音数据的匹配失败次数大于匹配阈值时,去除该原始语音数据。

当一段原始语音数据的匹配失败次数较多时,说明该段原始语音数据的声纹特征和大多数其他原始语音数据的声纹特征是不匹配的。如此,就可以判断出该段原始语音数据中存储的是不属于用户本人的原始语音数据。因此,可以预先设定一个匹配阈值,当一段原始语音数据的匹配失败次数大于该匹配阈值时,去除该原始语音数据,以保证了数据的准确性,同时降低了数据量,也提高了数据处理效率。

在一个具体实施方式中,对每一原始用户标识对应的原始语音数据进行过滤处理,还包括如下具体步骤:

判断同一原始用户标识对应的原始语音数据量是否大于或等于聚类阈值;若同一原始用户标识对应的原始语音数据量大于或等于聚类阈值,则执行步骤s121-s124;若同一原始用户标识对应的原始语音数据量小于聚类阈值,则执行步骤s121’-s123’。

对于聚类算法来说,其聚类分析的准确性和数据量是呈正相关的。当数据量不大时,聚类准确性有所降低,而且在数据量不大的情况下采用聚类算法进行处理,会增加计算复杂度。因此,可以设定一聚类阈值,该聚类阈值的具体数值可以根据算法特点和实际需求调整。优选地,该聚类阈值为10。当同一原始用户标识对应的原始语音数据量大于等于聚类阈值时,才采用步骤s121-s124的实施方式对原始语音数据进行过滤处理。而当数据量小于聚类阈值时,则采用步骤s121’-s123’对原始语音数据进行过滤处理。

在这个实施方式中,通过数据量的大小选择合适的处理算法对原始语音数据进行过滤处理,提高了数据处理的准确性。

应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

实施例2

图4示出与实施例1中语音数据库创建方法一一对应的语音数据库创建装置的原理框图。如图4所示,该语音数据库创建装置包括原始语音数据获取模块11、数据预处理模块12、信噪比获取模块13和语音数据库索引建立模块14。其中,原始语音数据获取模块11、数据预处理模块12、信噪比获取模块13和语音数据库索引建立模块14的实现功能与实施例1中语音数据库创建方法对应的步骤一一对应,为避免赘述,本实施例不一一详述。

原始语音数据获取模块11,用于获取原始语音数据,原始语音数据包括原始用户标识和语音采集时间。

数据预处理模块12,用于对原始语音数据进行预处理,获取有效语音数据。

信噪比获取模块13,用于获取有效语音数据对应的信噪比。

语音数据库索引建立模块14,用于将有效语音数据存储在语音数据库中,并为语音数据库中的有效语音数据建立索引,索引包括原始用户标识、语音采集时间和信噪比。

优选地,数据预处理模块12包括声纹特征提取单元121、聚类分析单元122、距离计算单元123、第一数据去除单元124。

声纹特征提取单元121,用于提取同一原始用户标识对应的原始语音数据的声纹特征。

聚类分析单元122,用于基于声纹特征,将同一原始用户标识对应的原始语音数据采用k-means聚类算法进行聚类分析,获取目标中心点。

距离计算单元123,用于采用距离算法,计算同一原始用户标识对应的每一原始语音数据与目标中心点的距离。

第一数据去除单元124,用于去除同一原始用户标识对应的每一原始语音数据中与目标中心点的距离大于距离阈值的原始语音数据。

优选地,数据预处理模块12还包括数据对比和匹配单元122’和第二数据去除单元123’。

数据对比和匹配单元122’,用于将同一用户标识中每一原始语音数据对应的声纹特征和同一用户标识中其余的原始语音数据对应的声纹特征进行一一对比和匹配,根据匹配结果,统计每一原始语音数据的匹配失败次数。

第二数据去除单元123’,用于在一段原始语音数据的匹配失败次数大于匹配阈值时,去除该原始语音数据。

优选地,数据预处理模块12还包括原始语音数据量判断单元120。

原始语音数据量判断单元120,用于判断同一原始用户标识对应的原始语音数据量是否大于或等于聚类阈值。

实施例3

图5示出本实施例中声纹注册方法的流程图。该声纹注册方法应用在各种终端设备和服务器中,用于进行声纹注册,以解决在声纹注册过程中耗时较长、声纹特征准确性不高的问题。如图5所示,该声纹注册方法包括如下步骤:

s21:获取声纹注册请求,声纹注册请求包括注册用户标识和当前时间。

其中,声纹注册请求是指用户提出的采用声纹特征进行注册的请求。注册用户标识用于标识提出声纹注册请求的用户的标识。在一个具体实施方式中,注册用户标识可以是用户手机号码、用户账号或身份证号。优选地,注册用户标识是和原始用户标识相对应的,例如,当原始用户标识为手机号码时,注册用户标识也为手机号码。当前时间是指获取到声纹注册请求时系统的当前时间。

s22:基于注册用户标识查询语音数据库,获取与注册用户标识相匹配的原始用户标识对应的目标索引,语音数据库是采用实施例1的语音数据库创建方法创建的语音数据库。

基于声纹注册请求中的注册用户标识,在语音数据库中进行查询,而语音数据库是采用实施例1的语音数据库创建方法创建的语音数据库。当一个索引中的原始用户标识与注册用户标识相匹配时,该索引即为目标索引。原始用户标识与注册用户标识相匹配是指原始用户标识和注册用户标识相同。具体地,通过对语音数据库中有效语音数据建立的索引进行查询,查询包括了与注册用户标识相匹配的原始用户标识的索引,获取目标索引。

s23:根据当前时间、目标索引的语音采集时间和信噪比,获取每一目标索引对应的综合指数。

其中,语音采集时间一般代表了语音的录制时间,用户的声音会随着时间的迁移有微小的变化。语音采集时间离当前时间越近,则代表该段有效语音数据和用户当前的语音是更接近的,从而声纹特征也更为吻合。而通过信噪比可以直观地判断出有效语音数据的噪音大小,信噪比越高,则有效语音数据的噪音越小,据此可以获知有效语音数据的语音质量。

基于当前时间,综合考虑语音采集时间和信噪比,可以获取每一目标索引对应的综合指数。

s24:选取综合指数最高的目标索引对应的有效语音数据,作为注册语音数据。

注册语音数据是指声纹特征与用户本人最吻合的有效语音数据。在目标索引中,目标索引对应的综合指数越高,从目标索引所对应的有效语音数据中获取的声纹特征与用户本人就更为吻合。因此,可以选取综合指数最高的目标索引对应的有效语音数据,作为注册语音数据,提高注册声纹的准确性。

在一个具体实施方式中,根据当前时间、目标索引的语音采集时间和信噪比,获取每一目标索引对应的综合指数,具体包括:根据当前时间、目标索引的语音采集时间和信噪比,采用综合指数计算公式计算每一目标索引对应的综合指数。该综合指数计算公式为:

综合指数=a*信噪比+(1-a)*[1/(当前时间-语音采集时间)];

其中,a为预设权重,且0≦a≦1。

在有效语音数据中,信噪比越高,该有效语音数据中噪音信号越少。而语音采集时间离当前时间越近,则代表该段有效语音数据和用户当前的语音是更接近的,从而声纹特征也是更为接近。因此,基于这两个因素,再根据实际应用场景的需求,为这两个因素配以预设权重,通过综合指数计算公式即可得到每一有效语音数据的综合指数。得到每一有效语音数据的综合指数之后,可以通过综合指数这一直观的数值来衡量每一有效语音数据,从而选择出最为合适的目标有效语音数据。

例如,可以设置预设权重a为0.7,此时综合指数计算公式为:综合指数=0.7*信噪比+0.3*[1/(当前时间-语音采集时间)]。在获取到任一声纹注册请求之后,根据该声纹注册请求中的注册用户标识查询获取存储在语音数据库中的有效语音数据,并依据该终端指数计算公式每一有效语音数据的综合指数。

s25:基于注册语音数据,获取对应的声纹特征作为注册声纹。

获取到注册语音数据之后,基于该注册语音数据,获取对应的声纹特征,作为注册声纹。

在一个具体实施方式中,可以预先提取出有效语音数据的声纹特征,并可使该有效语音特征的声纹特征与步骤s14中的索引关联,以便基于该索引快速搜索到对应的声纹特征。在声纹注册阶段,在获取注册语音数据之后,就可以直接获取该注册语音数据对应的声纹特征作为注册声纹,进一步减少了声纹注册的时间。

本发明实施例提供的声纹注册方法中,获取声纹注册请求,以触发声纹注册。再基于注册用户标识查询语音数据库,获取与注册用户标识相匹配的原始用户标识对应的目标索引,其中语音数据库是采用实施例1的语音数据库创建方法创建的语音数据库。根据当前时间、目标索引的语音采集时间和信噪比,获取每一目标索引对应的综合指数,通过目标索引即可获取对应的有效语音数据的综合指数。选取综合指数最高的目标索引对应的有效语音数据,作为注册语音数据,提高注册声纹的准确性。获取到注册语音数据之后,基于注册语音数据,获取对应的声纹特征作为注册声纹。该声纹注册方法采用实施例1中的语音数据库创建方法创建的语音数据库进行声纹注册,提高了声纹注册阶段声纹特征提取的准确性、减少了声纹注册的注册时间。声纹注册过程中基于目标索引来获取对应有效语音数据的综合指数,以利于快速定位到合适的有效语音数据,保证获取到和用户本人最为吻合的声纹特征,进一步提高了声纹注册的准确性。

在一个具体实施方式中,基于注册用户标识查询语音数据库,如图6所示,还包括如下步骤:

s221:若语音数据库中不存在与注册用户标识相匹配的原始用户标识,则发送语音录制请求。

在语音数据库中,可能不存在和注册用户标识相匹配的有效语音数据,此时通过发送语音录制请求,采用实时获取语音录制数据的方式来获取注册声纹。具体地,通过注册用户标识在语音数据库中的索引中查询,若该索引中不存在与注册用户标识相匹配的原始用户标识,则该语音数据库中不存在和该注册用户标识相匹配的有效语音数据,则发送语音录制请求。

s222:获取语音录制请求对应的语音录制数据。

发送语音录制请求之后,用户会根据提示录入其语音,录制语音录制数据,录制完毕之后,则获取该语音录制数据。

s223:从语音录制数据中提取对应的声纹特征作为注册声纹。

获取用户录制的语音录制数据之后,从该语音录制数据中提取对应的声纹特征作为注册声纹。此处,声纹特征是指原始语音数据中表征人的基本特征,例如基音的轮廓、共振峰的频率带宽以及轨迹、谱包络参数、听觉特性参数、线性预测洗漱及其派生参数或混合参数等,其提取方式可参照前述具体实施方式中的步骤s121,在此不作赘述。

在这个实施方式中,当语音数据库中不存在注册用户标识对应的有效语音数据时,采用实时录制语音数据的方式来获取注册声纹,避免该用户无法注册的情况出现,提高了声纹注册方法的完整性和合理性。

应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

实施例4

图7示出与实施例3中声纹注册方法一一对应的声纹注册装置的原理框图。如图7所示,该语音数据库创建装置包括声纹注册请求获取模块21、目标索引获取模块22、综合指数获取模块23、注册语音数据获取模块24和注册声纹获取模块25。其中,声纹注册请求获取模块21、目标索引获取模块22、综合指数获取模块23、注册语音数据获取模块24和注册声纹获取模块25的实现功能与实施例3中声纹注册方法对应的步骤一一对应,为避免赘述,本实施例不一一详述。

声纹注册请求获取模块21,用于获取声纹注册请求,声纹注册请求包括注册用户标识和当前时间。

目标索引获取模块22,用于基于注册用户标识查询语音数据库,获取与注册用户标识相对应的原始用户标识对应的目标索引,语音数据库是采用实施例1描述的语音数据库创建方法创建的语音数据库。

综合指数获取模块23,用于根据当前时间、目标索引的语音采集时间和信噪比,获取每一目标索引对应的综合指数。

注册语音数据获取模块24,用于选取综合指数最高的目标索引对应的有效语音数据,作为注册语音数据。

注册声纹获取模块25,用于基于注册语音数据,获取对应的声纹特征作为注册声纹。

优选地,目标索引获取模块22还包括语音录制请求发送单元221、语音录制数据获取单元222和注册声纹提取单元223。

语音录制请求发送单元221,用于在语音数据库中不存在与注册用户标识相匹配的原始用户标识,则发送语音录制请求。

语音录制数据获取单元222,用于获取语音录制请求对应的语音录制数据。

注册声纹提取单元223,用于从语音录制数据中提取对应的声纹特征作为注册声纹。

实施例5

本实施例提供一计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现实施例1中语音数据库创建方法,或者实现实施例3中声纹注册方法,为避免重复,这里不再赘述。或者,该计算机程序被处理器执行时实现实施例2中语音数据库创建装置中各模块/单元的功能,或者实现实施例4中声纹注册装置中各模块/单元的功能,为避免重复,这里不再赘述。

实施例6

图8是本发明一实施例提供的终端设备的示意图。如图8所示,该实施例的终端设备80包括:处理器81、存储器82以及存储在存储器82中并可在处理器81上运行的计算机程序83。处理器81执行计算机程序83时实现上述实施例1中语音数据库创建方法的步骤,例如图1所示的步骤s11至s14。或者,处理器81执行计算机程序83时实现实施例2中各模块/单元的功能,例如图4所示原始语音数据获取模块11、数据预处理模块12、信噪比获取模块13和语音数据库索引建立模块14的功能。或者,处理器81执行计算机程序83时实现上述实施例3中声纹注册方法的步骤,例如图5所示的步骤s21至s25。或者,处理器81执行计算机程序83时实现实施例4中各模块/单元的功能,例如图7所示声纹注册请求获取模块21、目标索引获取模块22、综合指数获取模块23、注册语音数据获取模块24和注册声纹获取模块25的功能。

示例性的,计算机程序83可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器82中,并由处理器81执行,以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序83在终端设备80中的执行过程。例如,计算机程序83可以被分割成图4所示的原始语音数据获取模块11、数据预处理模块12、信噪比获取模块13和语音数据库索引建立模块14,各模块具体功能如如实施例2所述,在此不一一赘述。或者,计算机程序83可以被分割成图6所示的声纹注册请求获取模块21、目标索引获取模块22、综合指数获取模块23、注册语音数据获取模块24和注册声纹获取模块25,各模块具体功能如如实施例4所述,在此不一一赘述。

终端设备80可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。终端设备可包括,但不仅限于,处理器81、存储器82。本领域技术人员可以理解,图8仅仅是终端设备80的示例,并不构成对终端设备80的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器81可以是中央处理单元(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器82可以是终端设备80的内部存储单元,例如终端设备80的硬盘或内存。存储器82也可以是终端设备80的外部存储设备,例如终端设备80上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,存储器82还可以既包括终端设备80的内部存储单元也包括外部存储设备。存储器82用于存储计算机程序以及终端设备所需的其他程序和数据。存储器82还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。

以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1