专利名称:自适应的语音变换处理方法
技术领域:
本发明涉及计算机语音信号处理领域,具体涉及语音变换处理方法。
背景技术:
影响语音感知的因素有很多,其中基频和共振峰是最为重要的两个因素。通过对基频和共振峰的调整,可以得到一种完全不同的声音,这就是所谓的语音变换,又叫音色变换、变音。
变音系统主要由三部分组成数据获取部分、数据处理部分和结果输出部分(如图1所示)。数据获取部分的功能是为数据处理部分提供原材料,也就是用户希望进行变换的内容。数据处理部分的功能是对输入数据进行加工,来达到某种变换的效果。结果输出部分的功能是,接收并输出数据处理部分加工过的数据。其中,数据处理部分是整个系统的核心。
现有的变音算法,主要对利用基频和共振峰等声学参数的声音变换方法做了阐述。但是,对于如何选取其参数来达到某种效果,并没有提及。而在实际应用中,变音效果直接受到设置参数的影响,甚至有时因为参数设置不合理,其效果会和需要的效果大相径庭。分析其原因,主要是没有对声源特征和目标特征进行分析,未能建立声源与目标之间的联系,缺乏自适应调整的功能。
本发明所要解决的技术问题不同声源(说话人)的变音效果,往往大相径庭,目前算法不能自动调整。
发明内容
鉴于现有算法存在的问题,本发明通过建立声源与目标特征之间的映射关系,使得不同说话人的声音可以自适应地变换到同一类变音效果。在原有算法的基础上,通过获取声源特征和目标特征的主要参数(如基频和共振峰),利用语音数据库的统计信息,建立源和目标之间的映射关系,增加了自适应处理部分,改善了声音变换的效果。
本发明提供的一种自适应的语音变换处理方法,包括步骤(a)建立多样本语音数据库;(b)分析多样本语音库中的语音数据,提取语音参数;规划并建立语音参数库,为数据处理阶段提供依据;(c)分析声源特征,获取不同个体的语音参数,将得到的这些参数作为衡量不同声音之间差异的依据;(d)利用语音参数库,建立声源特征和目标特征的映射关系;(e)根据映射系数,进行自适应调整。
其中所述语音参数包括基频、共振峰。
其中所述映射函数可以是线性的,也可以是非线性的。
本发明与现有技术相比的有益效果解决了不同声源(说话人)的变音效果差异过大,很多变音效果与需要的效果不一致的问题,使得变音技术更加适合应用。
图1为语音变换系统示意图;图2为本发明提供的自适应语音变换处理方法流程图。
具体实施例方式
实施中,主要有如下几个过程首先,分析多人多样本语音库中的语音数据,提取出基频、共振峰等参数。利用聚类等方法,将所有的样本根据划分特征的不同分为几类,比如按照性别可以分为男性和女性;按照音色可以分为低沉的、沙哑的、普通的、靓丽的;按照年龄可以分为老年的、中年的、青年的、少年的、儿童的。按照需要,规划并建立语音参数库,为数据处理阶段提供依据。
分析声源特征,获取不同个体的基频、共振峰等参数。不同个体的声音往往不同,得到的这些参数将作为衡量不同声音之间差异的依据。
利用语音参数库,建立声源特征和目标特征的映射关系,即k=f(PT,PS)(1)其中,k为一组映射系数,PT为一组目标特征参数,PS为一组声源特征参数,f为映射函数。映射函数可以选择线性的,也可以选择非线性的。
特征参数可以是基频,可以是共振峰,也可以两者都用,甚至扩充其他参数。下面,仅对单独利用基频和共振峰的情况进行说明,其他情况与此类似。
如果利用基频为特征参数,按照如下步骤构造映射函数。首先,从说话人连续语流中提取基频序列,设为PT。同时,利用第一步中的统计结果构造相应的基频序列PS。如果选用线性映射关系,例如,可以选取映射系数为k=f(PT,PS)=PT/PS。
如果利用共振峰为特征参数,按照如下步骤构造映射函数。首先,从说话人连续语流中,提取共振峰序列,选择前n个(一般3~5个)共振峰的位置,设为PT(1∶n)。同时,利用第一步中的统计结果,构造相应的共振峰序列PS(1∶n)。由于两个序列都是n维的,所以映射关系函数也需要设计为n维的。如果选用线性映射关系,也可以选取映射系数为简单的比例关系k(1∶n)=PT(1∶n)/PS(1∶n)。
根据映射系数,进行自适应调整。设t时刻通过映射获得的一组映射系数为k(t)=f[PT(t),PS],为了保障算法的稳定性,调整系数α(t)是根据t时刻以及t时刻之前的映射系数设计的,即α(t)=g[k(t),k(t-1),...,k(0)] (2)其中,g为调整系数计算函数。调整系数也可以表示为α(t)=h[k(t),α(t-1)] (3)这样只需要利用当前的映射系数k(t)和前一时刻的调整系数α(t-1)。对于0时刻,可以认为其前一时刻的调整系数没有影响,只与0时刻的映射系数有关,即α(0)=k(0) (4)例如,我们可以采用关系式(3),并定义函数h为h[k(t),α(t-1)]=βα(t-1)+(1-β)k(t)(5)其中,β为常数,并满足0≤β≤1。
数据流动示意图如图2所示,原始数据经过特征分析,获得的参数与参数库中的参数建立映射关系,获得最优的一组参数,利用这组参数和前一时刻的调整系数,计算当前时刻的调整系数,然后进行音色变换处理,获得的输出数据将更好地满足需要。
权利要求
1.一种自适应的语音变换处理方法,包括步骤(a)建立多样本语音数据库;(b)分析多样本语音库中的语音数据,提取语音参数;规划并建立语音参数库,为数据处理阶段提供依据;(c)分析声源特征,获取不同个体的语音参数,将得到的这些参数作为衡量不同声音之间差异的依据;(d)利用语音参数库,建立声源特征和目标特征的映射关系;(e)根据映射系数,进行自适应调整。
2.如权利要求1所述的语音变换处理方法,其中所述语音参数包括基频、共振峰。
3.如权利要求1所述的语音变换处理方法,其中所述映射函数可以是线性的,也可以是非线性的。
全文摘要
本发明提供一种自适应的语音变换处理方法,包括步骤(a)建立多样本语音数据库;(b)分析多样本语音库中的语音数据,提取语音参数;规划并建立语音参数库,为数据处理阶段提供依据;(c)分析声源特征,获取不同个体的语音参数,将得到的这些参数作为衡量不同声音之间差异的依据;(d)利用语音参数库,建立声源特征和目标特征的映射关系;(e)根据映射系数,进行自适应调整。通过获取声源特征和目标特征的主要参数(如基频和共振峰),建立声源与目标特征之间的映射关系,利用语音数据库的统计信息,使得不同说话人的声音可以自适应地变换到同一类变音效果,改善了声音变换的效果。
文档编号G10L13/00GK1811911SQ200510004910
公开日2006年8月2日 申请日期2005年1月28日 优先权日2005年1月28日
发明者陈明, 吕士楠, 张连毅, 武卫东, 李秀林 申请人:北京捷通华声语音技术有限公司