专利名称:一种基于简化自适应内插加权谱模型的语音转换及重构方法
技术领域:
本发明属于语音信号处理技术领域,涉及一种语音转换和重构模型,特别涉及一种基于自适应内插加权谱的语音转换及重构(STRAIGHT )模型。
背景技术:
语音参数化和重构是一个重要且具有一定挑战性的问题。其对应的语音分析-合成系统被广泛用于各种应用,如语音编码,转换等。在H. Kawahara, I.M. Katsuse, A. d.Cheveigne, “Restructuring speech representations using apitchadaptive time-frequency smoothing and an instantaneous-frequency-basedFOextraction:Possible role of a repetitive structure in sounds,,,J. SpeechCommunication, vol. 27, no. 3-4, pp. 187 - 207, April. 1999发表的文献中表明,基于自适应内插力口权谱的语音转换及重构(Speech Transformati on andRepresentation using AdaptiveInterpolation of weiGHTed spectrum, STRAIGHT)模型,抛弃了传统语音模型中声门、声道的构造,直接提取语音的功率谱,获得了高质量的语音合成效果。其逐渐成为目前主流的语音分析合成模型,广泛应用在语音合成、语音转换等各方面。其采用以VOCODER为原型的源滤波器的思想来表征语音信号,把语音信号看作激励信号通过时变线性滤波器后输出的结果。在分析得到各帧的语音功率谱后,对该功率谱进行时频域上的平滑处理,同时在时间轴和频率轴上进行过采样,保证合成阶段对语音的高质量重构。STRAIGHT模型本身也存在一些缺陷。STRAIGHT模型一开始是针对宽带语音合成提出的,其在多方面进行了较为精密的计算。如在非周期成分参数的提取过程中就包含相位弯曲映射,功率谱计算,功率谱上下边包络提取,上下边包络等价直角带宽(ERB)域计算,下边包络增强等一系列复杂的计算。因此,STRAIGHT模型的高计算量成为制约该模型进一步应用和发展的一个重要问题。
发明内容
本发明的目的是实现在保持合成语音质量基本不变的同时,使STRAIGHT模型输出参数种类个数的减少,减小STRAIGHT模型计算量,简化非周期成分参数的分析和输出。本发明的技术方案从以下方面考虑STRAIGHT模型是一种基于功率谱的语音模型。其平滑功率谱参数为一种经过时频域补偿后的功率谱,而非周期成分参数为对功率谱上下边包络处理后所提取的参数。从本质上说,两者都是原始功率谱的一种表现形式,存在一定相关性,因此可通过GMM模型构建两者的相关性,并最终达到从平滑功率谱参数中估计出非周期成分参数的目的。本发明的主要技术内容如下一种基于简化自适应内插加权谱模型的语音转换及重构方法,其特征在于,在分析部分省略了原STRAIGHT模型中的非周期成分参数提取模块,在合成部分增加非周期成分参数重构过程。所述的非周期成分参数重构过程,其包括美尔倒谱系数(MFCC)获取模块,高斯混合模型模块,美尔倒谱系数分类模块,平滑功率谱分类模块,非周期成分分类及其估计模块。所述的非周期成分参数重构过程,包含以下步骤(I)、训练阶段(la)、在美尔倒谱系数MFCC获取模块中输入平滑功率谱参数的训练集(Pi (W)}, T,获得对应的美尔倒谱MFCC系数集{MJ,其中Mi=DCT {1οδΦΡ (w)}, Φ为人类听
觉感知的权重函数,DCT {. }表示离散余弦变换,T为语音总帧数;(lb)、在高斯混合模型GMM模块中对MFCC系数集采用进行最大期望值EM算法训练,更新高斯混合模型GMM中各状态参数,直至参数稳定为止,并记录GMM中的各状态参数,备重构阶段使用;对于高斯混合模型GMM,设输入参数集为{Xi} = {MJ,I彡i彡T,设输入参数为χ的概率分布P (X)为
权利要求
1. 一种基于简化自适应内插加权谱模型的语音转换及重构方法,其特征在于,包括非周期成分参数重构过程,所述的非周期成分参数重构过程,包含以下步骤(I)、训练阶段(I a )、在美尔倒谱系数MFCC获取模块中输入平滑功率谱参数的训练集{P i (W)},T,获得对应的美尔倒谱MFCC系数集{MJ,其中Mi=DCTilogOPi (w)}, Φ为人类听觉感知的权重函数,DCT {. }表示离散余弦变换,T为语音总帧数;(lb)、在高斯混合模型GMM模块中对MFCC系数集采用进行最大期望值EM算法训练,更新高斯混合模型GMM中各状态参数,直至参数稳定为止,并记录高斯混合模型GMM中的各状态参数,备重构阶段使用;对于高斯混合模型GMM,设输入参数集为{Xi} = {Mj,I彡i彡T,设输入参数为X的概率分布P (X)为
全文摘要
本发明公开了一种基于简化自适应内插加权谱模型的语音转换及重构方法。在语音分析阶段省略了非周期成分的提取过程,从而简化并避免了非周期成分参数的输出。同时,在语音合成阶段又基于平滑功率谱参数建立高斯混合模型,对非周期成分参数进行估计和重构,从而满足原传统模型的输入参数要求。该简化模型与传统模型相比,其合成语音质量总体相当,在男声语音方面甚至更优于传统模型。此外,由于在分析阶段中省略了复杂的非周期成分提取过程,使得简化方法模型的计算量大为减小。
文档编号G10L13/00GK102930863SQ201210401029
公开日2013年2月13日 申请日期2012年10月19日 优先权日2012年10月19日
发明者汤一彬, 高远, 徐宁, 单鸣雷, 朱昌平, 蒋爱民, 韩庆邦, 殷澄 申请人:河海大学常州校区