一种减少文本无关说话人识别系统误识率的方法

文档序号:2835838阅读:458来源:国知局
专利名称:一种减少文本无关说话人识别系统误识率的方法
技术领域
本发明涉及一种减少说话人识别系统误识率的方法。
背景技术
说话人识别是利用包含在说话人语音波形中特有的个体信息来自动识别说话人身份的过程。说话人识别按照对说话内容的要求不同可以分为文本无关,文本有关和文本提示三种。文本无关是指用户在系统注册时不要求特定的语言和内容,而且验证和注册时也不需要相同内容的语音;文本相关则要求验证语料与注册时提供的语料内容相一致;文本提示中用户按照系统指定的内容进行。文本无关的说话人识别由于其安全性和灵活性更加受到人们的重视,应用也更为广泛。目前的文本无关说话人识别系统主要是利用说话人的训练语音训练得到一个描述其语音特征分布的混合高斯模型,用测试语音在各个说话人模型上的得分来判定说话人的身份。随着开集的识别中,集外用户规模的增大,误识率从原来的2. 9%也相继增大到5. 5%,而误识的多少严重影响说话人识别系统的实用性,因此需要研究减少说话人误识率的方法。

发明内容
本发明是要解决现有的文本无关说话人识别系统在开集测试中,随着集外用户增多,误识率增大的问题,而提供一种减少文本无关说话人识别系统误识率的方法。本发明的一种减少文本无关说话人识别系统误识率的方法按以下步骤进行步骤一、利用基准说话人识别系统闭集的训练数据得到每个已知的说话人的特征矢量的高斯混合模型及其正确识别时的阈值;步骤二、将闭集中的说话人按男性和女性分为两组,将每组的正确识别时的阈值按大小排列后,将阈值分段,每段做为一个小组;步骤三、将步骤二得到的每个小组中包含的说话人用一个符合高斯分布的模型来代替,得到男性组的每个小组的中心分布和女性组的每个小组的中心分布;步骤四、将步骤二得到的每个小组中每个说话人的正确识别时阈值的加权求和作为该小组的阈值;步骤五、在基准说话人识别系统的前端加入待测语音的特征矢量序列的辨识模块,判定出待测语音为男性或者女性声音后,将待测语音与同性别的小组的中心分布比较求出似然得分,再进行概率阈值的计算;步骤六、用步骤五得到的概率阈值更新待测语音的阈值,得到新的语音帧,进入识别系统进行识别。现有的说话人识别系统对所有的测试语音,都直接在提取特征矢量并计算在每个说话人模型上打分后直接通过固定阈值来进行识别结果接受或者拒绝的判定,而本发明是将闭集中的男生和女生分成两组,对每组按阈值进行分段,每段为一个小组,对小组进行计算,找到代表小组的高斯混合模型,得到小组的中心分布,对待测试语声音,先判定男女声,然后对待测试语音与各小组的中心分布的似然得分计算,求得概率阈值后再进行识别,这样降低了集外语音规模增大时带来的高误识率,本发明的新系统在集外语音规模增大时, 识别效果确实高于原系统,统计得出在虚警率为5%时,新系统的识别率比原系统提高了 2% 3%,本发明在原有的说话人系统上进行改进,与原说话人识别系统很好的结合,并且有效的降低了系统在开集情况下的误识率。本发明的一种减少说话人识别系统误识率的方法可用于文本无关说话人识别系统。


图1是具体实施方式
一中步骤五的概率阈值计算的框图;图2是具体实施方式
五的测试的虚警率与正确率关系曲线图,其中a为原系统的正确率与虚警率的关系;b为具体实施方式
五的方法的正确率与虚警率的关系。
具体实施例方式具体实施方式
一本实施方式的一种减少文本无关说话人识别系统误识率的方法按以下步骤进行步骤一、利用基准说话人识别系统闭集的训练数据得到每个已知的说话人的特征矢量的高斯混合模型及其正确识别时的阈值;步骤二、将闭集中的说话人按男性和女性分为两组,将每组的正确识别时的阈值按大小排列后,将阈值分段,每段做为一个小组;步骤三、将步骤二得到的每个小组中包含的说话人用一个符合高斯分布的模型来代替,得到男性组的每个小组的中心分布和女性组的每个小组的中心分布;步骤四、将步骤二得到的每个小组中每个说话人的正确识别时阈值的加权求和作为该小组的阈值;步骤五、在基准说话人识别系统的前端加入待测语音的特征矢量序列的辨识模块,判定出待测语音为男性或者女性声音后,将待测语音与同性别的小组的中心分布比较求出似然得分,再进行概率阈值的计算;步骤六、用步骤五得到的概率阈值更新待测语音的阈值,得到新的语音帧,进入识别系统进行识别。本实施方式中步骤一中高斯混合模型与正确识别时的阈值的计算方法为现有技术。本实施方式将闭集中的男生和女生分成两组,对每组按阈值进行分段,每段为一个小组,对小组进行计算,找到代表小组的高斯混合模型,得到小组的中心分布,对待测试语声音,先判定男女声,然后对待测试语音与各小组的中心分布的似然得分计算,求得概率阈值后再进行识别,这样降低了集外语音规模增大时带来的高误识率,本实施方式的新系统在集外语音规模增大时,识别效果确实高于原系统,统计得出在虚警率为5%时,新系统的识别率比原系统提高了 2% 3%,本实施方式的方法在原有的说话人系统上进行改进, 与原说话人识别系统很好的结合,并且有效的降低了系统在开集情况下的误识率。
具体实施方式
二 本实施方式与具体实施方式
一不同的是步骤三中高斯混合模型
5的计算按以下步骤进行a、小组中包含的说话人为R个,小组中第i个说话人的高斯分布为Ν( μ Σ ^,其中μ i表示第i个说话人的高斯分布的均值矢量,Σ i表示第i个说话人的高斯分布的对角
权利要求
1.一种减少文本无关说话人识别系统误识率的方法,其特征在于减少文本无关说话人识别系统误识率的方法按以下步骤进行步骤一、利用基准说话人识别系统闭集的训练数据得到每个已知的说话人的特征矢量的高斯混合模型及其正确识别时的阈值;步骤二、将闭集中的说话人按男性和女性分为两组,将每组的正确识别时的阈值按大小排列后,将阈值分段,每段做为一个小组;步骤三、将步骤二得到的每个小组中包含的说话人用一个符合高斯分布的模型来代替,得到男性组的每个小组的中心分布和女性组的每个小组的中心分布;步骤四、将步骤二得到的每个小组中每个说话人的正确识别时阈值的加权求和作为该小组的阈值;步骤五、在基准说话人识别系统的前端加入待测语音的特征矢量序列的辨识模块,判定出待测语音为男性或者女性声音后,将待测语音与同性别的小组的中心分布比较求出似然得分,再进行概率阈值的计算;步骤六、用步骤五得到的概率阈值更新待测语音的阈值,得到新的语音帧,进入识别系统进行识别。
2.根据权利要求1所述的一种减少文本无关说话人识别系统误识率的方法,其特征在于步骤三中高斯混合模型的计算按以下步骤进行步骤a、小组中包含的说话人为R个,小组中第i个说话人的高斯分布为Ν( μ Σ D, 其中μ i表示第i个说话人的高斯分布的均值矢量,Σ ,表示第i个说话人的高斯分布的对角协方差矩阵,其中i = 1,2,......,R,用PiGO表示Pi的第k维分量,用O2iGO表示Σ i的第k个对角元,Wi为高斯分布的权重,步骤b、按1^计算小组中在所有高斯分布上的权重之和《。;ieRy D W1U1 (k)步骤C、按从(幻=&¥计算小组的混合高斯模型的中心分布的均值矢量μ。的第k维分量步骤d、按σ2JQ = z^i ΛνΛ ‘ -A2㈦计算小组的混合高斯模型的中心分布的对> W.角协方差矩阵Σ C的第k个对角元;步骤e、确定该小组的高斯混合模型为Ν(μ。,Σ。),得到该小组的中心分布。
3.根据权利要求1或2所述的一种减少文本无关说话人识别系统误识率的方法,其特征在于步骤四中小组的阈值的计算方法如下小组中有L个高斯模型,每个高斯模型正确识别时的阈值分别为A1, λ 2,...,λ 则该小组混合高斯模型的阈值λ为
4.根据权利要求1或2所述的一种减少文本无关说话人识别系统误识率的方法,其特征在于步骤五中待测语音量的概率阈值λ χ计算方法如下与待测语音性别相同的组中的小组数为N,各小组的混合高斯模型的阈值为λ2,...,λ Ν,待测语音的特征矢量序列与N个小组中心分布的似然得分分别为C1, C2,. . .,CN,按人=..)计算该待测语音的概率阈值λχ。
全文摘要
一种减少文本无关说话人识别系统误识率的方法,它涉及一种减少说话人识别系统误识率的方法。本发明解决了现有的文本无关说话人识别系统在开集测试中误识率增大的问题。本方法利用基准说话人识别系统得到闭集中已知说话人的识别阈值,将闭集中说话人分成男女两组,再将每组用阈值分段的形式把男女两组都再分为多个小组,再找到每个小组的中心分布;在基准说话人识别系统的前端加入粗筛选模块,判定测试语音的性别之后,将待测语音与同性别的小组的中心分布比较,得到待测语音的概率阈值;再用该概率阈值的语音帧进行识别。本方法的识别正确率比原系统提高2%~3%,本方法可用于文本无关说话人识别系统。
文档编号G10L17/00GK102237089SQ20111023334
公开日2011年11月9日 申请日期2011年8月15日 优先权日2011年8月15日
发明者王秋雯, 韩纪庆 申请人:哈尔滨工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1