自适应的语音变换处理方法

文档序号：2820167阅读：270来源：国知局

专利名称：自适应的语音变换处理方法
技术领域：
本发明涉及计算机语音信号处理领域，具体涉及语音变换处理方法。
背景技术：
影响语音感知的因素有很多，其中基频和共振峰是最为重要的两个因素。通过对基频和共振峰的调整，可以得到一种完全不同的声音，这就是所谓的语音变换，又叫音色变换、变音。
变音系统主要由三部分组成数据获取部分、数据处理部分和结果输出部分(如图1所示)。数据获取部分的功能是为数据处理部分提供原材料，也就是用户希望进行变换的内容。数据处理部分的功能是对输入数据进行加工，来达到某种变换的效果。结果输出部分的功能是，接收并输出数据处理部分加工过的数据。其中，数据处理部分是整个系统的核心。
现有的变音算法，主要对利用基频和共振峰等声学参数的声音变换方法做了阐述。但是，对于如何选取其参数来达到某种效果，并没有提及。而在实际应用中，变音效果直接受到设置参数的影响，甚至有时因为参数设置不合理，其效果会和需要的效果大相径庭。分析其原因，主要是没有对声源特征和目标特征进行分析，未能建立声源与目标之间的联系，缺乏自适应调整的功能。
本发明所要解决的技术问题不同声源(说话人)的变音效果，往往大相径庭，目前算法不能自动调整。

发明内容
鉴于现有算法存在的问题，本发明通过建立声源与目标特征之间的映射关系，使得不同说话人的声音可以自适应地变换到同一类变音效果。在原有算法的基础上，通过获取声源特征和目标特征的主要参数(如基频和共振峰)，利用语音数据库的统计信息，建立源和目标之间的映射关系，增加了自适应处理部分，改善了声音变换的效果。
本发明提供的一种自适应的语音变换处理方法，包括步骤(a)建立多样本语音数据库；(b)分析多样本语音库中的语音数据，提取语音参数；规划并建立语音参数库，为数据处理阶段提供依据；(c)分析声源特征，获取不同个体的语音参数，将得到的这些参数作为衡量不同声音之间差异的依据；(d)利用语音参数库，建立声源特征和目标特征的映射关系；(e)根据映射系数，进行自适应调整。
其中所述语音参数包括基频、共振峰。
其中所述映射函数可以是线性的，也可以是非线性的。
本发明与现有技术相比的有益效果解决了不同声源(说话人)的变音效果差异过大，很多变音效果与需要的效果不一致的问题，使得变音技术更加适合应用。

图1为语音变换系统示意图；图2为本发明提供的自适应语音变换处理方法流程图。
具体实施例方式
实施中，主要有如下几个过程首先，分析多人多样本语音库中的语音数据，提取出基频、共振峰等参数。利用聚类等方法，将所有的样本根据划分特征的不同分为几类，比如按照性别可以分为男性和女性；按照音色可以分为低沉的、沙哑的、普通的、靓丽的；按照年龄可以分为老年的、中年的、青年的、少年的、儿童的。按照需要，规划并建立语音参数库，为数据处理阶段提供依据。
分析声源特征，获取不同个体的基频、共振峰等参数。不同个体的声音往往不同，得到的这些参数将作为衡量不同声音之间差异的依据。
利用语音参数库，建立声源特征和目标特征的映射关系，即k＝f(PT，PS)(1)其中，k为一组映射系数，PT为一组目标特征参数，PS为一组声源特征参数，f为映射函数。映射函数可以选择线性的，也可以选择非线性的。
特征参数可以是基频，可以是共振峰，也可以两者都用，甚至扩充其他参数。下面，仅对单独利用基频和共振峰的情况进行说明，其他情况与此类似。
如果利用基频为特征参数，按照如下步骤构造映射函数。首先，从说话人连续语流中提取基频序列，设为PT。同时，利用第一步中的统计结果构造相应的基频序列PS。如果选用线性映射关系，例如，可以选取映射系数为k＝f(PT，PS)＝PT/PS。
如果利用共振峰为特征参数，按照如下步骤构造映射函数。首先，从说话人连续语流中，提取共振峰序列，选择前n个(一般3～5个)共振峰的位置，设为PT(1∶n)。同时，利用第一步中的统计结果，构造相应的共振峰序列PS(1∶n)。由于两个序列都是n维的，所以映射关系函数也需要设计为n维的。如果选用线性映射关系，也可以选取映射系数为简单的比例关系k(1∶n)＝PT(1∶n)/PS(1∶n)。
根据映射系数，进行自适应调整。设t时刻通过映射获得的一组映射系数为k(t)＝f[PT(t)，PS]，为了保障算法的稳定性，调整系数α(t)是根据t时刻以及t时刻之前的映射系数设计的，即α(t)＝g[k(t)，k(t-1)，...，k(0)] (2)其中，g为调整系数计算函数。调整系数也可以表示为α(t)＝h[k(t)，α(t-1)] (3)这样只需要利用当前的映射系数k(t)和前一时刻的调整系数α(t-1)。对于0时刻，可以认为其前一时刻的调整系数没有影响，只与0时刻的映射系数有关，即α(0)＝k(0) (4)例如，我们可以采用关系式(3)，并定义函数h为h[k(t)，α(t-1)]＝βα(t-1)+(1-β)k(t)(5)其中，β为常数，并满足0≤β≤1。
数据流动示意图如图2所示，原始数据经过特征分析，获得的参数与参数库中的参数建立映射关系，获得最优的一组参数，利用这组参数和前一时刻的调整系数，计算当前时刻的调整系数，然后进行音色变换处理，获得的输出数据将更好地满足需要。
权利要求
1.一种自适应的语音变换处理方法，包括步骤(a)建立多样本语音数据库；(b)分析多样本语音库中的语音数据，提取语音参数；规划并建立语音参数库，为数据处理阶段提供依据；(c)分析声源特征，获取不同个体的语音参数，将得到的这些参数作为衡量不同声音之间差异的依据；(d)利用语音参数库，建立声源特征和目标特征的映射关系；(e)根据映射系数，进行自适应调整。
2.如权利要求1所述的语音变换处理方法，其中所述语音参数包括基频、共振峰。
3.如权利要求1所述的语音变换处理方法，其中所述映射函数可以是线性的，也可以是非线性的。
全文摘要
本发明提供一种自适应的语音变换处理方法，包括步骤(a)建立多样本语音数据库；(b)分析多样本语音库中的语音数据，提取语音参数；规划并建立语音参数库，为数据处理阶段提供依据；(c)分析声源特征，获取不同个体的语音参数，将得到的这些参数作为衡量不同声音之间差异的依据；(d)利用语音参数库，建立声源特征和目标特征的映射关系；(e)根据映射系数，进行自适应调整。通过获取声源特征和目标特征的主要参数(如基频和共振峰)，建立声源与目标特征之间的映射关系，利用语音数据库的统计信息，使得不同说话人的声音可以自适应地变换到同一类变音效果，改善了声音变换的效果。
文档编号G10L13/00GK1811911SQ200510004910
公开日2006年8月2日申请日期2005年1月28日优先权日2005年1月28日
发明者陈明, 吕士楠, 张连毅, 武卫东, 李秀林申请人:北京捷通华声语音技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈明;吕士楠;张连毅;武卫东;李秀林
技术所有人：北京捷通华声语音技术有限公司
我是此专利的发明人

上一篇：小音库语音合成方法
上一篇：音频编码装置和音频编码译码装置的制作方法