专利名称:一种集内说话者的识别方法
技术领域:
本发明涉及语音识别技术,具体涉及一种说话人识别技术和说话人拒识 方法。具体是一种在文本无关说话人识别过程中减少说话人误识并提高识别 速度的方法。
背景技术:
说话人识别是利用包含在说话人语音波形中特有的个体信息,根据说话 人所发的语音,自动识别说话人身份的过程。说话人识别按照对说话内容的 要求不同可以分为文本无关,文本有关和文本提示三种。文本无关是用户在 系统注册时不要求特定的语言和内容,而且验证和注册时也不需要相同内容 的语音,文本相关则要求验证语料与注册时提供的语料内容相一致,文本提 示中用户按照系统指定的内容进行。文本无关的说话人识别由于其安全性和 灵活性更加受人们重视,应用也更为广泛,目前的无本无关说话人识别系统 主要是利用说话人的训练语音训练得到一个描述其语音特征分布的高斯混合 模型,用输入语音在各个话者模型上的得分来判别说话人。但是真实的环境 中存在大量集外说话人,目前主要是通过比较输入语音在说话人模型上的最 高得分是否大于阈值的方式来判断输入语音是来自集内还是集外,这种方法 对集内外语音的区分能力不够,会产生大量的误识。误识的多少严重影响说 话人识别系统的实用性,因此需要研究减少说话人误识的方法,也就是集外 话者的拒识方法。
发明内容
为了克服现有的文本无关说话人识别技术中,误识较多的问题,本发明 提供一种集内说话者的识别方法。
本发明的一种集内说话者的识别方法的过程为
步骤A:对语音信号进行特征提取,获得特征信息,然后同时执行步骤 B和步骤C;
步骤B:采用集外易误识模型对步骤A获得的特征信息进行打分,获得 分数q,然后执行步骤D;步骤C:采用集内模型对步骤A获得的特征信息进行打分,获得分数p, 然后执行步骤D;
步骤D:判断步骤C获得的分数p是否大于步骤B获得的分数q,如果 判断结果为是,则执行步骤E;否则,放弃该特征信息,结束此次识别过程; 步骤E:将特征信息发送给集内说话人识别系统,获得所述特征信息所
对应的说话人。
所述集内模型是通过将集内全部说话人的训练语料作为训练数据训练获 得,该模型是高斯混合模型,它描述了集内说话人总的语音特征分布。
所述集外易误识模型是通过将集内所有说话人的误识数据集作为训练数 据训练获得,该模型是高斯混合模型,它描述了容易被误识为集内的语音特 征分布。
本发明首先采用集内模型和集外易误识模型分别对特征信息进行打分, 对于判定为集外语音信息的特征信息直接放弃识别,只对判定为集内语音信 息的特征信息进行说话人的识别,减少了语音识别系统的工作量,提高了语 音识别速度。
本发明在步骤E中获得所述特征信息所对应的说话人的方法为
步骤E21、分别采用集内每个说话人的语音模型对特征信息进行打分, 分别获得分数S1、 S2……Sn,然后执行步骤E22;
步骤E22、选出步骤E21获得的分数S1、S2……Sn分数中的最高分Si, 所述最高分Si对应第i个说话人,然后执行步骤E23;
步骤E23、判断步骤E22获得的最高分Si是否大于设定阈值q,如果 判断结果为是,则执行步骤E24,否则,放弃该特征信息,结束此次识别过 程;
步骤E24、采用第i个说话人的冒认者模型对特征信息进行打分,获得 分数R;然后执行步骤E25;
步骤E25、判断步骤E22获得的最高分Si是否大于步骤E24获得的分 数R,如果判断结果为是,则执行步骤E26,否则,放弃该特征信息,结束 此次识别过程;步骤E26、认定特征信息是第i个说话人的语音信息,结束此次识别过
程;
所述n为大于2的整数,i为大于O且小于等于n的整数。
所述第i个说话人的冒认者模型是指通过对被误识为第i个说话人的特 征信息的误识数据集进行训练获得,它描述冒认第i个说话人的语音特征信 息的模型。
艮口,在采用每个说话人的语音模型判定为对应说话人之后,再对特征信 息采用对应说话人的冒认者模型进行验证,提高了系统的判定准确率。
所述冒认者模型是根据由基准识别系统收集该系统容易误识为集内每一 个说话人的数据集,并对所述数据集进行训练获得描述该类型特征的冒认者 模型。该模型是高斯混合模型,它描述了容易被误识为某一说话人的语音特 征分布。
所述误识数据,是指一个语音信息被判定为某一个说话人,但所述语音 信息并不是该说话人的情况。
本发明通过收集说话人识别系统的误识数据集,并对所述数据集进行学 习获得容易被误识的集内说话人的语音信息特征的概率分布模型,通过对判 定为对应说话人的特征信息进行进一步验证,大大减少了误识的可能性,提 高了系统识别的准确性。
本发明的方法采用逐步细化的、减少说话人误识的方法,该方法不仅大 大减少了说话人误识,而且极大的提高了识别速度。
图1是现有集内说话人识别系统的工作流程图;图2是本发明的集内说 话人识别方法的流程图;图3是具体实施方式
二所述的步骤E中获得所述特 征信息所对应的说话人的方法的流程图;图4是具体实施方式
三所述的步骤 E中获得所述特征信息所对应的说话人的方法的流程图。
具体实施例方式
本实施方式所述的一种集内说话者的识别方法的过程为
步骤A:对语音信号进行特征提取,获得特征信息,然后同时执行步骤 B和步骤C;步骤B:采用集外易误识模型对步骤A获得的特征信息进行打分,获得 分数q,然后执行步骤D;
步骤C:采用集内模型对步骤A获得的特征信息进行打分,获得分数p, 然后执行步骤D;
步骤D:判断步骤C获得的分数p是否大于步骤B获得的分数q,如果
判断结果为是,则执行步骤e;否则,放弃该特征信息,结束此次识别过程;
步骤e:将特征信息发送给集内说话人识别系统,获得所述特征信息所 对应的说话人。
所述集内模型是通过将集内全部说话人的训练语料作为训练数据训练获 得,该模型是高斯混合模型,它描述了集内说话人总的语音特征分布。
所述集外易误识模型是通过将集内所有说话人的误识数据集作为训练数 据训练获得,该模型是高斯混合模型,它描述了容易被误识为集内的语音特 征分布。
步骤e中获得所述特征信息所对应的说话人的方法。可以采用现有的文 本无关说话人识别方法。
本实施方式所述的,采用某一个模型对特征信息进行打分,是指将所述 特征信息带入所述模型,进而获得相应的概率值,再根据所述概率值获得一 个分数值。所述分数值一般与所述概率值成正比。
本实施方式所述的高斯混合模型(GMM, Gaussian Mixture Model),是
一种概率统计模型,理论上高斯混合模型可以用无限多个高斯分布的线性加权 来拟合一个任意形式的分布。而对于某个说话人的语音特征信息, 一般认为其 满足一个特定的分布,所以本领域采用高斯混合模型来描述说话人的语音特征 信息的分布,也就是说每个说话人的语音特征信息对应一个高斯混合模型,对 于一个语音特征矢量,可以计算出其在该说话人对应的高斯混合模型上的概 率,进而判定是否是该说话人的语音信息
所述高斯分布函数为<formula>formula see original document page 7</formula>
其中x为特征矢量,a是高斯分布的均值向量,2是协方差矩阵,J是特征维数。当高斯分布的均值向量^和协方差矩阵i:固定后,高斯分布函数
也就固定,可以根据某一个特征矢量x计算获得概率值。
所述高斯混合模型,是K个高斯分布函数的线性加权,特征矢量A在该 模型上对应的概率为-:
《
* n IX,/々,、)
A=l ,
其中,w是第A个高斯分布的权值。
本实施方式中所述的通过对数据训练获得模型,是指根据一组数据,计 算得到高斯混合模型中各个高斯分量的均值和协方差矩阵,以及各个分量的 权值,使其能够最好的描述这些训练数据,进而获得一个高斯混合模型。一 般通过EM算法(期望最大化算法)来实现。
本实施方式中所述的特征信息,是指语音特征信息,可以采用目前常用 的Md倒谱系数MFCC来表示。所述特征信息的计算,是首先用FFT将时 域信号转化成频域信号,然后对所述频域信号的对数能量谱用依照Md刻度 分布的三角滤波器组进行巻积,最后对各个滤波器的输出构成的向量进行离 散余弦变换DCT,并取前N个系数作为特征信息。经常用到的MFCC有12 维,13维(加入F0能量),39维(13维MFCC加上其一阶差分和二阶差分)。
本实施方式所述的方法,是首先对提取的特征信息进行判断,只有当所 述特征信息被判定为集内的语音信息时,才交给说话人识别系统进行识别。 这样,减少了说话人识别系统的判断数据量,提高了语音识别速度。
具体实施方式
二本实施方式所述的一种集内说话者的识别方法,是对 步骤E中获得所述特征信息所对应的说话人的方法的进一步说明,它的具体 过程为
步骤E11:分别采用集内每个说话人的语音模型对特征信息进行打分,
分别获得分数S1、 S2……Sn,然后执行步骤E12;
步骤E12:选出步骤Ell获得分数S1、 S2……Sn分数中的最高分Si, 所述最高分Si对应第i个说话人,然后执行步骤E13;
步骤E13:判断步骤E12获得的最高分Si是否大于设定阈值i!,如果判 断结果为是,则执行步骤E14,否则,放弃该特征信息,结束此次识别过程;步骤E14:认定特征信息是第i个说话人的语音信息,结束此次识别过
程;
所述n为大于2的整数,i为大于O且小于等于n的整数。
所述集内每个说话人对应一个语音模型,所述语音模型是通过该说话人 的训练语料作为训练数据训练获得,该模型是高斯混合模型,它描述了该说 话人的语音特征分布。
具体实施方式
三本实施方式所述的一种集内说话者的识别方法中,提 供了另一种步骤E的实现方法,它的具体过程为-
步骤E21、分别采用集内每个说话人的语音模型对特征信息进行打分, 分别获得分数S1、 S2……Sn,然后执行步骤E22;
步骤E22、选出步骤E21获得的分数S1、 S2……Sn中的最高分Si,所 述最高分Si对应第i个说话人,然后执行步骤E23;
步骤E23、判断步骤E22获得的最高分Si是否大于设定阈值n,如果 判断结果为是,则执行步骤E24,否则,放弃该特征信息,结束此次识别过 程;
步骤E24、采用第i个说话人的冒认者模型对特征信息进行打分,获得 分数R;然后执行步骤E25;
步骤E25、判断步骤E22获得的最高分Si是否大于步骤E24获得的分 数R,如果判断结果为是,则执行步骤E26,否则,放弃该特征信息,结束 此次识别过程。
步骤E26、认定特征信息是第i个说话人的语音信息,结束此次识别过
程;
所述n为大于2的整数,i为大于O且小于等于n的整数。
所述第i个说话人的冒认者模型是指通过对被误识为第i个说话人的特 征信息的误识数据集进行训练获得,它描述冒认第i个说话人的语音特征信 息的模型。
所述冒认者模型,是通过对被误识为对应说话人的特征信息数据集进行 训练获得,它描述冒认该说话人的语音特征信息的高斯混合模型。它描述了容易被误识为某一个说话人的语音特征分布。
本实施方式中所述的集内所有说话人的误识数据集,是用基准说话人识 别系统采集大量集外的语音信息进行说话人识别,然后将系统判定为集内某 话者的语音收集起来形成一个集内所有说话人的误识数据集。所述误识数据 集是集外易误识模型和冒认者模型的训练数据。
本实施方式所述的集内说话者的识别方法中的集内说话人识别系统,是 在具体实施方式
二所述的集内说话人识别系统的基础上,增加了对判定结果 采用冒认者模型进行了进一步的验证的过程,即采用该说话人的冒认者模 型对所述特征信息进行进一步判定,提高了系统的判定准确率。
本实施方式通过收集说话人识别系统的误识数据集,并对所述数据集进 行学习获得容易被误识的集内说话人的语音信息特征的概率分布模型,通过 多层次识别,即先通过粗略判定是集内或集外数据,放弃一部分被识别的特 征信息,对于判定为集内的特征信息,现根据每个说话人的模型判定对应说 话人,然后再通过对应说话人的冒认者模型验证是否是对应说话人。本实施 方式通过对一个特征信息的三次判断最终获得判定结果,有效地减少了误识 的可能性,提高了系统识别准确率。
权利要求
1、一种集内说话者的识别方法,其特征在于它的识别过程为步骤A对语音信号进行特征提取,获得特征信息,然后同时执行步骤B和步骤C;步骤B采用集外易误识模型对步骤A获得的特征信息进行打分,获得分数q,然后执行步骤D;步骤C采用集内模型对步骤A获得的特征信息进行打分,获得分数p,然后执行步骤D;步骤D判断步骤C获得的分数p是否大于步骤B获得的分数q,如果判断结果为是,则执行步骤E;否则,放弃该特征信息,结束此次识别过程;步骤E将特征信息发送给集内说话人识别系统,获得所述特征信息所对应的说话人。
2、 根据权利要求l所述的一种集内说话者的识别方法,其特征在于, 所述集内模型是通过将集内全部说话人的训练语料作为训练数据训练获得, 该模型是高斯混合模型,它描述了集内说话人总的语音特征分布。
3、 根据权利要求l所述的一种集内说话者的识别方法,其特征在于,所述集外易误识模型是通过将集内所有说话人的误识数据集作为训练数据训 练获得,该模型是高斯混合模型,它描述了容易被误识为集内的语音特征分 布。
4、 根据权利要求l所述的一种集内说话者的识别方法,其特征在于,步骤E中获得所述特征信息所对应的说话人的方法为步骤E11: 分别采用集内每个说话人的语音模型对特征信息进行打分,分别获得分数S1、 S2……Sn,然后执行步骤E12;步骤E12:选出步骤Ell获得的分数S1、 S2 Sn中的最高分Si,所述最高分Si对应第i个说话人,然后执行步骤E13;步骤E13: 判断步骤E12获得的最高分Si是否大于设定阈值ri,如果 判断结果为是,则执行步骤E14,否则,放弃该特征信息,结束此次识别过 程;步骤E14: 认定特征信息是第i个说话人的语音信息,结束此次识别过程;所述n为大于2的整数,i为大于O且小于等于n的整数。
5、 根据权利要求4所述的一种集内说话者的识别方法,其特征在于, 所述集内每个说话人对应一个语音模型,所述语音模型是通过该说话人的训 练语料作为训练数据训练获得,该模型是高斯混合模型,它描述了该说话人 的语音特征分布。
6、 根据权利要求l所述的一种集内说话者的识别方法,其特征在于, 步骤E中获得所述特征信息所对应的说话人的方法为步骤E21、分别采用集内每个说话人的语音模型对特征信息进行打分, 分别获得分数S1、 S2……Sn,然后执行步骤E22;步骤E22、选出步骤E21获得的分数S1、 S2……Sn中的最高分Si,所 述最高分Si对应第i个说话人,然后执行步骤E23;步骤E23、判断步骤E22获得的最高分Si是否大于设定阈值n,如果 判断结果为是,则执行步骤E24,否则,放弃该特征信息,结束此次识别过 程;步骤E24、采用第i个说话人的冒认者模型对特征信息进行打分,获得 分数R;然后执行步骤E25;步骤E25、判断步骤E22获得的最高分Si是否大于步骤E24获得的分 数R,如果判断结果为是,则执行步骤E26,否则,放弃该特征信息,结束 此次识别过程。步骤E26、认定特征信息是第i个说话人的语音信息,结束此次识别过程;所述n为大于2的整数,i为大于O且小于等于n的整数。
7、 根据权利要求6所述的一种集内说话者的识别方法,其特征在于, 所述第i个说话人的冒认者模型是指通过对被误识为第i个说话人的特征信 息的误识数据集进行训练获得,它描述了冒认第i个说话人的语音特征信息 的模型。
全文摘要
一种集内说话者的识别方法,涉及语音识别技术领域。它解决了现有文本无关说话人识别技术中,误识较多的问题。本发明首先对提取的特征信息采用集内外辨识模块进行判断,将判定为集外说话人的特征信息放弃,只对判定为集内的特征信息进行具体说话人的判断,减少了说话人识别系统的工作量,提高了判断速度。本发明还对判定为某一说话人的特征信息,采用该说话人的冒认者模型作进一步验证判断,最终获得所述特征信息所对应的说话人信息。提高了特征信息识别的准确率。本发明的方法适用于语音识别技术领域。
文档编号G10L17/00GK101552004SQ200910072019
公开日2009年10月7日 申请日期2009年5月13日 优先权日2009年5月13日
发明者张光成, 韩纪庆 申请人:哈尔滨工业大学