专利名称:一种基于声学特性的语音频率选择方法
技术领域:
本发明涉及文本相关说话人识别中位于前端的特征提取技术。
背景技术:
文本相关的说话人识别强调训练语音与对应的正确测试语音文本内容一致,并且当测试者与注册者不是同一人时拒绝测试者的登录。该方法通常被用于进行个人身份识另IJ,在安保要求高的公安司法、银行、机场等领域有着广泛的应用前景。文本相关的说话人识别使用的特征参数均为经典的声学特征,其中既包含了语音内容信息,也包含了人的个性特点。语音内容极大地影响了声学特征的空间分布,一定程度上会掩盖人的个性特点。当语音内容被盗听后,冒认者的模仿会对说话人识别造成障碍,因为相同的语音内容会影响判断的准确度。我们希望得到的是更多人的个性信息。
语言是由不同的音素组成的,这些音素通过相互连接组合,传递出人们想要表达的信息。音素产生的源头是人类的发音器官,器官本身的特点以及发音方式主宰了人声的特点和内容,这些特点最终会表现在输出的声音上。声道是人发音器官的主要组成部分之一,共振峰则是声道的一个重要的声学特性。共振峰表现在语谱图上是能量相对集中的部分,也就是像点密集(高亮)的区域。人类的声道虽然复杂,但实质上还是一个共振腔,共振峰是因为共振作用得到能量强化的谐振点。声门脉冲的谐波与共振峰频率相互作用,影响着语音的音质。共振峰的频率与元音之间存在特定的一一对应关系。这些共振峰以Fp F2为主,集中在低频部分。不管是什么人,他们发特定元音的共振峰频率是基本相同的(变化范围相对固定),仅在性别上会有频率差别(女性的发音频率比男性高)。换句话说,元音的共振峰位置是基本不变的,不因为说话人的不同而发生剧烈改动。传统的特征提取并不针对特定频率做出选择,模糊了语音内容与人的个性特征之间的区分性,给文本相关的说话人识别带来了一定的负面影响。
发明内容
本发明的主要目的在于提供一种新的语音频率选择方法,应用在前端声学特征提取层面,解决语音内容掩盖人的个性特征的问题,提高文本相关说话人识别系统在注册语音内容泄露时的可靠性。本发明实现快速,方法简便,可以用于多种涉及频域的声学特征提取过程,实际应用中便于移植,可以大大提高个人身份识别的可靠性。一种基于声学特性的语音频率选择方法的设计方法,其特征在于所述方法,包括如下步骤I)首先按照传统的涉及频域的声学特征提取方法对语音进行前期处理,以便进行后续分析。2)当涉及频域的声学特征处理方法将时域信号转变为频域信号后,对频率进行截取,保留更多人的个性特点部分,抛弃人与人之间没有特别区分性的元音所在频率部分。
3)对频率截取后的频域信号继续按传统涉及频域的特征提取方法提取声学特征。本发明设计了一种基于声学特性的语音频率选择方法。对于所有涉及频域的声学特征提取算法均适用,操作简单快速,在突出人的个性特点的同时也保留了一定的文本内容信息,有助于提高文本相关说话人识别的可靠性,而不至于因为语音内容泄露而影响安全。
具体实施例方式
I.全部使用程序语言,首先实现传统的涉及频域的声学特征提取,提取过程进行到频域变换为止,此时时域语音信号被变换到频域输出。2.然后加入本发明的基于声学特性的语音频率选择方法,截取出更能代表人的个性信息的频率部分,抛弃人与人之间没有特别区分性的元音所在频率部分,此时频域语音信号仅保留部分子频带信息。一般截取出的频率区间在I. 5kHz 6. 5kHz之间。 3.最后用截取过的频域语音信号继续进行传统的涉及频域的声学特征提取。
权利要求
1.当涉及频域的声学特征处理方法将时域信号转变为频域信号后,对频率进行截取,仅保留部分子频带,从而保留更多人的个性特点部分,抛弃人与人之间没有特别区分性的元音所在频率部分。
全文摘要
声学特征提取是文本相关说话人识别中的重要环节,为了兼顾文本相关说话人识别系统在注册语音内容泄露时的可靠性,可以引入本发明的基于声学特性的频率选择方法。该方法很好地解决了语音内容掩盖人的个性特征的问题,实现快速,方法简便,便于移植,可以用于多种涉及频域的声学特征提取过程。
文档编号G10L15/02GK102682764SQ20111006376
公开日2012年9月19日 申请日期2011年3月17日 优先权日2011年3月17日
发明者章钊 申请人:章钊