专利名称:基于声学统计模型的单元挑选语音合成方法
技术领域:
本发明涉及波形拼接语音合成中的单元挑选方法,具体是通过设计、训练一 组声学统计模型来指导语音片断单元的挑选方法。
背景技术:
语音合成是实现自然高效的人机交互的一项重要技术。现今最为常见的语音 合成方法有两种, 一种是基于单元挑选与波形拼接的合成方法,另外一种是基于 声学统计模型的参数合成方法。
在传统的单元挑选算法中,目标代价与连接代价往往是通过计算单元间的上 下文属性的差异或者备选单元声学参数与预测目标之间的距离来实现的。这样造 成的结果是,代价函数的设计往往需要语种相关的语音学专家的参与,进行大量 的手工调试,使得系统构建的自动化程度收到限制;并且设计的代价函数难以保 证普适性,往往会产生合成效果不稳定的问题。
近十年来, 一种基于统计声学模型(主要是隐马尔柯夫模型,HiddenMarkov Model, H醒)的参数语音合成方法,得到了迅速的发展。这种方法分为训练和合 成两个阶段。在模型训练阶段,得到各音素在不同上下文环境下所对应的频谱和 基频参数的声学统计模型;在合成阶段,通过基于最大似然准则的参数生成方法, 来预测合成语音所需的频谱和韵律参数,最终经过参数合成器生成语音。整个系 统可以实现训练的自动化和语种的无关性,并且合成语音的连续性、稳定性和韵 律的自然度都相当高。但是由于参数合成器的限制,使得这种合成方法最终恢复 语音的音质往往不很理想。
发明的内容
本发明的目的就是将对声学参数统计建模的思想引入到单元挑选与波形拼 接合成的过程中;摆脱基于统计建模的参数合成对于合成器的依赖,提高合成语音音质;同时提高传统拼接合成方法的合成效果,并且可以实现系统的自动构建 和语种的无关性。
本发明是通过以下技术方案实现的
基于声学统计模型的单元挑选语音合成方法,该方法包括以下步骤实现 (1 )对于训练语料库,提取其频谱、基频、时长的声学特征; (2 )结合训练语料库中各句话的音段、韵律标注信息,训练各个音素在不同上 下文环境中,各种声学特征所对应的统计模型;
(3 )在合成时通过对输入文本进行文本分析,得到待合成句子中各音素对应的 各种声学特征的统计模型;
(4 )在单元挑选的过程中,以备选单元序列包含的声学参数相对于待合成句的 声学统计模型具有最大的似然值为准则,搜索最优的备选单元;
(5 )通过计算同一音素在两个不同上下文环境下对应的HMM模型之间的KLD距 离,来度量备选单元和目标单元上下文环境之间的差异程度,以此来进行合成单 元的预挑选;
(6 )最终通过对各个音素的最优备选单元的波形进行拼接,得到该句话的合成 语音。
基于声学统计模型的单元挑选语音合成方法,所述的上述步骤(1 )中在静 态参数的基础上加入了表征前后帧参数变化的动态参数。
基于声学统计模型的单元挑选语音合成方法,所述的上述步骤(1 )中使用 的频谱参数为美尔倒谱参数。
基于声学统计模型的单元挑选语音合成方法,所述的上述步骤(1 )中基频 参数为对数F0数值。
基于声学统计模型的单元挑选语音合成方法,所述的上述步骤(1 )中对于 其中的频谱参数部分采用连续概率分布HMM进行建模,而对于基频部分采用多空 间概率分布H丽进行建模。
基于声学统计模型的单元挑选语音合成方法,所述的上述步骤(2 )中所使 用的模型形式为隐马尔柯夫模型。
基于声学统计模型的单元挑选语音合成方法,所述的上述步骤(3 )中各种 声学特征的统计模型是经过文本分析后得到每个目标音素的上下文环境描述信
息,然后将这些信息输入模型聚类决策树而得到的。
基于声学统计模型的单元挑选语音合成方法,所述的上述步骤(4 )中满足
的似然值最大准则采用如下算法得到最优备选单元
<formula>formula see original document page 6</formula>
其中,"'为最优备选单元序列,其中^, ^和^分别为频谱、基频和时长模型 似然值的权值,输入的一句待合成语句中音素的个数为M第"个目标音素 (n-l,...,JV)在其所在的上下文环境下对应的频谱、基频、时长模型分别为为《,<
和《;对于音素"的某一个备选" ,其对应的频谱和基频特征向量序列参数记
为s(io-[《,,…,cf和-[p;..,/^]7 ,其中?;表示单元""的帧数,和/> ,,分 别表示单元 中第i帧对应的频谱和基频特征向量。
基于声学统计模型的单元挑选语音合成方法,所述式(1)可以改写成各个 备选音素的目标代价和相邻备选音素连接代价之和的形式,再使用维特比算法实 现最优单元序列的搜索。
基于声学统计模型的单元挑选语音合成方法,所述的上述步骤(5 )中计算 同一音素在两个不同上下文环境下对应的H固模型之间的KLD距离是通过以下算 式计算得出的
虹玲 ) = ^ .虹d(;^力+^ .虹d(;^ , )+^ '虹"(《,《)
其中《,^和《为备选单元在其上下文环境下所对库的频谱、基频和时长模型。
基于声学统计模型的单元挑选语音合成方法,所述的上述步骤(6 )中对各
个音素的最优备选单元采用了平移加窗叠加的方法进行波形拼接。
基于声学统计模型的单元挑选语音合成方法,所述的平移加窗叠加的方法
为首先通过对拼接处前后两帧进行平移以搜索波形相关系数最大时对应的平移 位置,然后对平移后的波形进行时域的加窗叠加以实现拼接处的平滑过渡。
本发明通过将对声学参数统计建模的思想引入到单元挑选与波形拼接合成 的过程中;摆脱基于统计建模的参数合成对于合成器的依赖,提高合成语音音质;
同时提高传统拼接合成方法的合成效果,并且可以实现系统的自动构建和语种的 无关性。在传统的基于统计建模的参数合成器系统中,因为统计建模的平滑作用 和合成器生成语音的质量,导致了合成语音质量较差。而传统波形拼接系统因为 不能充分利用统计建模思想和方法的能力,在合成语音的自然度上经常出现不自 然的跳动,但是因为采用真实的波形构成语音,合成语音音质较好。该发明利用 声学统计建模对数据建立了高度综合的统计模型,可以非常好的学习到自然语音 中的语音规律,同时结合基于概率模型的单元选择,使在语音合成单元搜索过程 中的很多权值可以自动化的进行设置,解决了系统自动构建以及不依赖语种进行 系统调试的问题。同时,采用自然的波形单元进行拼接,直接利用自然语音中的 细节语谱特征,不使用语音合成器,最后获得高质量的输出语音。
我们在一个28000句的中文女声音库上进行了系统建立的实验,对比了本发 明中提到的方法和传统的单元挑选与波形拼接合成方法。使用两种方法分别合成 11个语音合成典型应用领域内的各20句文本,由5名测听人员进行MOS分的评 分,最终的评测结果可以看出,在使用了基于统计声学模型的单元挑选方法后, 合成效果在所有领域内均有一致性的提升,平均的M0S分增加在0. 5分左右。
术语解释
语音合成(Text-To-Speech):又称为文语转化。它涉及声学、语言学、数字 信号处理、多媒体等多种学科,是中文信息处理领域的一项前沿技术。语音合成 技术解决的主要问题是如何将电子化文本的文字信息转化为能够播放的声音信 息。近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来 的,目的是让计算机能够产生高清晰度、高自然度的连续语音。
最大似然估计(Maximum Likelihood Estimation):假设随机变量X的分布
函数为F(jr,0),密度函数为p(X,e), P为参数,0 =(《".A)e€), A,…,X"来 源于分布族{尸(1"):^ },定义似然函数Z(e卜]1LP",e)是0 =(《,..A)
的函数,若^是丄(0的唯一最大值点,则称^为0的最大似然估计。
Kullback-Uibler距离(Kullback-Leibler Divergence, KU)):是用来表征 两个分布模型之间的差异性,假设Ai和^分别表示两个N维特征的统计模型,
它们之间的KLD可以使用D(XlyCt" LP(je!X)log,!, A进行计算,也可
尸
以定义对称形式的KLD为A(X ^0兰"(X
M +£> X脉
附图为基于统计声学模型的单元挑选合成方法流程图。
具体实施例方式
参见附图所示。基于声学统计模型的单元挑选语音合成方法,其实现方法包 括以下步骤
(1) . 提取训练语料库的声学特征
我们这里提取的声学特征包括各帧对应的频谱、基频特征参数,这里我们使 用的频谱参数为mel-c印strura参数,基频参数为对数FO数值,并且在静态参数
的基础上加入了表征前后帧参数变化的动态参数。以音素"第i帧的频谱特征、,, 为例,
、,.=[《,,Ac W (1) Ac ,=-0.5 —1+0X,,+1 (2) △2C .,=0.25c ,,—广0X,,+0.25c一 (3)
其中、为音素"第i帧频谱的静态特征。
(2) . 进行声学统计模型的训练
我们对于其中的频谱参数部分采用连续概率分布H丽进行建模,而对于基频 部分采用多空间概率分布HMM (MSD-HMM)进行建模。HMM中各状态的观测概率密 度函数均为单高斯正态分布,并且我们对所有H醒模型中的状态转移概率矩阵进 行了依赖单音素的绑定。此外,在上下文相关模型训练过程中,我们还使用决策 树来对频谱和基频H醒模型各状态的观测概率密度函数分别进行聚类,以保证最 终模型参数估计的鲁棒性,聚类决策树使用的问题集主要依据语料库中包含的音 段和韵律属性标注来进行设计。在频谱和基频参数的HMM模型训练完成以后,使 用用此模型对语料库中语音数据进行帧/状态的强制对齐,并且以对齐后得到的 音素切分结果为训练数据来训练音素时长的HMM模型,这里同样会使用基于决策 树的模型聚类策略。
(3) . 待合成句音素声学统计模型的决策
在合成时,对于输入文本首先经过文本分析,得到每个目标音素的上下文环 境描述信息,然后将这些信息输入模型聚类决策树,得到每个目标音素对应的频
谱、基频和时长模型《^和《。
(4) . 基于声学统计模型似然值准则的单元挑选
假设输入的一句待合成语句中音素的个数为M第"个目标音素("=A0在
其所在的上下文环境下对应的频谱、基频、时长模型分别为为《,^和《;对 于音素/7的某一个备选" ,其对应的频谱和基频特征向量序列参数记为
=f和=[&,…,p"r ,其中r 表示单元" 的帧数,&和&分
别表示单元" 中第i帧对应的频谱和基频特征向量;这里的特征向量除了各帧 声学参数对应的静态参数外,还包含依据相邻帧计算得到的动态特征;对于整句 话,我们记挑选得到的备选单元序列为"-[",,...,^]。最终,我们希望搜索得到的
最优备选单元序列"',满足以下的似然值最大准则
<formula>formula see original document page 9</formula>
其中R, ^和R分别为频谱、基频和时长模型似然值的权值。为了计算s("")和
/K"。)相对《和V似然值,我们需要考虑" 对于目标模型的所有可能的帧/状态分
配结果;出于简化计算的目的,这里我们使用音库中^的状态切分结果来作为唯
一的帧/状态对齐路径。在状态分配确定以后,我们可以得到备选单元" 的第i 帧对应的正态观测概率密度函数分别为, w(/^,s。和w ,《2),
则式(4)可以改写为
<formula>formula see original document page 10</formula>其中
丄丄(o,挑,Z) = log尸(o 15V (附,2))
<formula>formula see original document page 10</formula> (6)
式(5)中对于频谱和基频参数似然值的计算,依据备选音素时长和预测的目标时长 进行了规整;式(6)中D表示特征o的维数。考虑到各帧的声学特征&和&,.包含
有依赖于前后帧的动态参数,因此音素边界帧对应声学参数的似然值计算依赖相 邻的其他音素,我们也可以据此将式(5)改写成单元挑选算法中常用的连接代价和 目标代价和的形式
"* :argmin(l;rC0O+f;CC(""一,"")) (7) 其中rc(a )和cc",一, )分别代表单元的目标代价和单元,与" 之间的连接
代价,各自的计算如下
<formula>formula see original document page 10</formula><formula>formula see original document page 11</formula>
依据式(7) (9)对于目标代价和连接代价的定义,我们可以使用常用的Viterbi 搜索方法来进行最优单元序列的搜索。区别于传统的代价函数计算方法,这里的 连接代价和目标代价的计算均由声学统计模型基于最大似然准则导出。 (5). 基于Kullback-Leibler距离的单元预选
我们通过计算同一音素在两个不同上下文环境下对应的H固模型之间的KLD 距离,来度量备选单元和目标单元上下文环境之间的差异程度,从而达到单元预 选和提高运算效率的目的。对每个备选单元" 计算
) = ^ .m)(;i: , I:)+『p .虹d(;^ , )+R 'mx《,《)(io)
其中《,和《为备选单元在其上下文环境下所对应的频谱、基频和时长模型。
通过对每个目标音素的所有备选样本计算式(IO),可以得到使虹Z)(tO最小的《
个备选,再进入代价计算和Viterbi搜索。对于两个HMM模型之间的KLD里我们 使用两个其上限来估计,如式(ll)所示
顺;t,^i(顺附',",'力) ,£>(w 5,)||jv(w,i:,)) , (",,-a,,)i0g(a,,^,,))
(11)
其中s是HMM中的状态数;^(/ ^)和^(/^^,)分别表示模型;1和1中第i状态 的观测概率密度函数;&和5,,表示义和A的状态转移概率。因为在单元挑选过 程中目标单元和备选样本对应同一个单音素,并且我们在训练过程中的状态转移
概率矩阵是按照单音素绑定的,所以这里《,1=5,,式(11)也可以随之简化为<formula>formula see original document page 12</formula>
对每个状态,两个单高斯的正态分布之间的KLD可以使用通过式(13)进行计算<formula>formula see original document page 12</formula>
由于我们在模型训练过程中对于频谱、基频和时长模型各状态的输出概率密度函
数进行了基于决策树的聚类,因此所有的W(m,,2:,)和W械,&)均为已知的,式(13)
可以在模型训练完成之后独立于单元挑选过程离线计算,从而使得整个基于KLD 的单元预选过程可以较快的实现。
(6). 各音素最优备选波形的拼接。在单元挑选完成之后,我们会对挑选得到 的合成单元通过波形拼接的方法合成最终的语音。这里对于相邻音素边界处的波 形拼接,采用了平移加窗叠加的方法。首先通过对拼接处前后两帧进行平移以搜 索波形相关系数最大时对应的平移位置,然后对平移后的波形进行时域的加窗叠 加以实现拼接处的平滑过渡。
权利要求
1、基于声学统计模型的单元挑选语音合成方法,其特征在于包括以下步骤实现(1)对于训练语料库,提取其频谱、基频、时长的声学特征;(2)结合训练语料库中各句话的音段、韵律标注信息,训练各个音素在不同上下文环境中,各种声学特征所对应的统计模型;(3)在合成时通过对输入文本进行文本分析,得到待合成句子中各音素对应的各种声学特征的统计模型;(4)在单元挑选的过程中,以备选单元序列包含的声学参数相对于待合成句的声学统计模型具有最大的似然值为准则,搜索最优的备选单元;(5)通过计算同一音素在两个不同上下文环境下对应的HMM模型之间的KLD距离,来度量备选单元和目标单元上下文环境之间的差异程度,以此来进行合成单元的预挑选;(6)最终通过对各个音素的最优备选单元的波形进行拼接,得到该句话的合成语音。
2、 根据权利要求1所述的基于声学统计模型的单元挑选语音合成方法,其特征 在于所述的步骤(1 )中在静态参数的基础上加入了表征前后帧参数变化的动态 参数。
3、 根据权利要求1所述的基于声学统计模型的单元挑选语音合成方法,其特征 在于所述的步骤(1 )中使用的频谱参数为美尔倒谱参数。
4、 根据权利要求1所述的基于声学统计模型的单元挑选语音合成方法,其特征 在于所述的步骤(1 )中基频参数为对数F0数值。
5、 根据权利要求1所述的基于声学统计模型的单元挑选语音合成方法,其特征 在于所述的步骤(1 )中对于其中的频谱参数部分采用连续概率分布H画进行建 模,而对于基频部分采用多空间概率分布H丽进行建模。
6、 根据权利要求1所述的基于声学统计模型的单元挑选语音合成方法,其特征 在于所述的步骤(2 )中所使用的模型形式为隐马尔柯夫模型。
7、 根据权利要求1所述的基于声学统计模型的单元挑选语音合成方法,其特征 在于所述的步骤(3 )中各种声学特征的统计模型是经过文本分析后得到每个目 标音素的上下文环境描述信息,然后将这些信息输入模型聚类决策树而得到的。
8、 根据权利要求1所述的基于声学统计模型的单元挑选语音合成方法,其特征 在于所述的步骤(4 )中满足的似然值最大准则采用如下算法得到最优备选单<formula>formula see original document page 3</formula>其中,"'为最优备选单元序列,其中r, ^和^分别为频谱、基频和时长模型 似然值的权值,输入的一句待合成语句中音素的个数为m第"个目标音素 ( =在其所在的上下文环境下对应的频谱、基频、时长模型分别为为《,v和《;对于音素"的某一个备选" ,其对应的频谱和基频特征向量序列参数记 为=]T和=[《,,…,《y; ]r ,其中I表示单元" 的帧数,、和/V,分别表示单元 中第i帧对应的频谱和基频特征向量。
9、 根据权利要求8所述的基于声学统计模型的单元挑选语音合成方法,其特征 在于所述式(1)可以改写成各个备选音素的目标代价和相邻备选音素连接代价 之和的形式,再使用维特比算法实现最优单元序列的搜索。
10、 根据权利要求1所述的基于声学统计模型的单元挑选语音合成方法,其特征 在于所述的步骤(5 )中计算同一音素在两个不同上下文环境下对应的H醒模型 之间的KLD距离是通过以下算式计算得出的<formula>formula see original document page 3</formula>其中》,々和《为备选单元在其上下文环境下所对应的频谱、基频和时长模型。
11、 根据权利要求1所述的基于声学统计模型的单元挑选语音合成方法,其特征在于所述的步骤(6 )中对各个音素的最优备选单元采用了平移加窗叠加的方法进行波形拼接。
12、 根据权利要求ll所述的基于声学统计模型的单元挑选语音合成方法,其特 征在于所述的平移加窗叠加的方法为首先通过对拼接处前后两帧进行平移以搜索波形相关系数最大时对应的平移位置,然后对平移后的波形进行时域的加窗叠 加以实现拼接处的平滑过渡。
全文摘要
本发明涉及基于声学统计模型的单元挑选语音合成方法,其方法包括提取训练语料库各声学特征;结合训练语料库中各句话的音段、韵律等标注信息,训练各种声学特征所对应的统计模型,在合成时通过对输入文本进行文本分析,得到待合成句子中各音素对应的各种声学特征的统计模型。以备选单元序列包含的声学参数相对于待合成句的声学统计模型具有最大的似然值为准则,搜索最优的备选单元;使用声学统计模型间的KLD来实现合成单元的快速预挑选;最终通过对各个音素的最优备选单元的波形进行平滑和拼接,得到该句话的合成语音。本发明提高合成语音音质;同时提高传统拼接合成方法的合成效果,并且可以实现系统的自动构建和语种的无关性。
文档编号G10L13/02GK101178896SQ200710191078
公开日2008年5月14日 申请日期2007年12月6日 优先权日2007年12月6日
发明者凌震华, 刘庆峰, 吴晓如, 王仁华, 郁 胡, 胡国平 申请人:安徽科大讯飞信息科技股份有限公司