基于组块分析的韵律短语预测方法

文档序号：2829490阅读：314来源：国知局

专利名称：基于组块分析的韵律短语预测方法
技术领域：
本发明总的来说涉及一种语音合成中韵律短语预测方法，尤指一种利用组块分析结果预测韵律短语的方法。
背景技术：
准确地从文本预测韵律短语停顿的位置是语音合成中至关重要的一步，正确的短语边界会使合成出来的语音自然流畅，短语边界还会影响后面的基频曲线和时长等预测模块。虽然，在这个领域已经有很多的研究工作，短语预测还有很多问题至今没有很好的解决。
该领域中，以往的研究已经引入了很多方法。基于对语言学特征的详细分析，利用CART模型预测英语的短语边界，也有很多研究者将该方法引入中文的韵律短语预测。Paul Taylor和Alan W.Black引入HMM作为韵律短语的预测框架。Ostendorf和Veilleux提出了层级统计模型描述韵律结构。几乎所有的人都认为语法约束和韵律短语的长度约束在韵律短语的产生过程中起着最为重要的作用，句法结构制约着韵律结构，韵律单元不应破坏很多句法及语义成分；另外，韵律短语趋于在整句话的节律上达到某种平衡。实际上，很难准确的获得中文的完全句法分析。在过去的研究中，短语的长度信息多被用作一个独立的参数，短语长度之间的关系以及在整个句子中的分配都没有得到很好的描述。因此，针对这些问题，需要一个新的韵律短语预测的模型以提高韵律短语预测的准确性。

发明内容
为了解决韵律短语预测的准确低的技术问题，本发明目的是更新的韵律短语预测的模型以提高韵律短语预测的准确性，提供一种利用组块分析结果进行韵律短语预测的方法，该方法可使合成结果获得较好的自然度。
为了实现上述目的，根据本发明，在该方法中，引入浅层句法分析单元，组块，作为韵律短语预测的主要语言学特征，建立了语言学约束模型，其包括组块合并模型和韵律必停点的预测模型。同时引入n元的方法来描述韵律短语长度分布的关系，建立了节律平衡模型。为了很好的融合组块合并模型和韵律必停点的预测模型这两个模块，我们使用了k候选方法首先基于语言学约束模型，生成k种可能的韵律短语结构；然后利用短语长度模型从中选择长度分配最优的一组短语结构。
根据本发明提出的基于组块分析的韵律短语预测方法，是将组块作为韵律短语预测的基本单元，包括步骤选择合适的组块规范作为韵律短语预测的基本分析单元；生成训练组块合并模型；训练生成韵律短语边界必停点的预测模型；训练生成韵律短语的节律平衡模型；基于组块合并模型、韵律短语必停点的预测模型、节律平衡约束模型执行生成韵律短语。
根据本发明所述的基于组块分析的韵律短语预测方法，该方法主要训练步骤包括，创建韵律短语标注语料库，利用组块分析器从文本生成组块信息，利用韵律短语语料库估计组块合并模型，利用韵律短语语料库训练支持向量机识别器，得到韵律短语的必停点的预测器，利用韵律短语语料库训练节律平衡模型；优选地，所述将组块作为韵律短语预测的基本分析单元是生成组块定义信息；生成组块长度信息定义。
优选地，所述生成组块合并模型是训练生成组块在韵律短语中连接的概率；训练生成组块合并概率阈值。
优选地，所述生成韵律短语边界的必停点的预测模型是基于支持向量机识别器的预测模型，生成词性和位置信息特征。
优选地，所述生成节律的平衡模型的步骤包括在韵律短语语料库中，将各个韵律短语的长度替代各个韵律短语的位置；以韵律短语长度为单位组成的语料，训练生成三元、二元模型。
优选地，所述将组块合并模型，韵律短语必停点的预测模型，长度约束模型执行生成韵律短语的步骤包括基于组块支持向量机识别器的识别结果，利用组块合并模型，合并组块，确定韵律的不停顿点及停顿点；基于韵律停顿点，利用支持向量机识别器确定韵律必停顿的位置；基于韵律短语的节律平衡模型寻找余下的韵律短语边界。
优选地，所述生成韵律短语是将韵律词边界确定为不停顿点、必须停顿的位置、及余下的可停可不停的位置；将可停可不停的位置置为停或者不停，生成k种可能的停顿方式；从这k种可能的停顿方式中，选出最有可能的停顿方式。
优选地，所述组块定义包括名词组块，形容词组块，动词组块，介词组块。
优选地，组块规范是选择每个组块的适当长度，组块规范包括每种组块类型的具体定义及如何标注生成语料。选择一个组块长度定义较小的组块规范。
优选地，所述节律平衡模型描述韵律短语长度分布关系，生成k种可能的韵律短语结构；利用所述的短语长度，选择长度分配最优的一组短语结构。
以下结合附图对所采用的优选实施例作详细描述，其中

图1是本发明基于组块分析的韵律短语预测的模型训练图2是本发明基于组块分析的韵律短语预测执行过程示意图具体实施方式
根据本发明，图1基于组块分析的韵律短语预测的模型训练，具体地训练步骤包括准备韵律短语语料库、训练生成组块合并模型、训练生成支持向量机识别器、训练生成节律平衡模型。
根据本发明，图2基于组块分析的韵律短语预测执行过程示意图，具体地执行过程步骤包括文本、组块分析、组块合并模型、支持向量机识别器、生成韵律短语停顿模式的K种候选、节律平衡模型、韵律短语边界。
下面结合附图来说明本发明的优选实施例。
根据本发明图1所示训练步骤创建韵律短语标注语料库，利用组块分析器从文本生成组块信息，利用韵律短语语料库估计组块合并模型，利用韵律短语语料库训练支持向量机识别器，得到韵律短语的必停点的预测器，利用韵律短语语料库训练节律平衡模型；根据本发明图2所示执行过程步骤利用组块合并模型确定不可停顿的地方，利用支持向量机识别器确定韵律短语的必停点，利用韵律短语的节律平衡模型寻找余下的韵律短语边界。
下面根据本发明从六个方面叙述优选实施例1.准备韵律短语标注语料库，2.训练得到组块合并模型，3.训练生成韵律短语边界必停点的预测模型，4.训练节律平衡模型，5.训练n元(N-gram)模型，6.系统实现。
1.准备韵律短语标注语料库根据本发明，所述文本选用一个标注有韵律词及韵律短语边界信息的文本语料库。要求，标注韵律短语边界一定是要从感知上能感觉到明显的停顿的。
例如标注实例|他又走过去|在茶壶里|放了|薄荷叶和糖|。
其中，‘|’表示韵律短语的位置。
2.训练得到组块合并模型包括组块分析单元，训练生成组块在韵律短语中连接概率，训练生成组块合并概率的阈值。
根据本发明所述将组块作为韵律短语预测的基本分析单元生成组块定义信息，将按组块定义要求包括基本的几个类型，名词组块NP，形容词组块ADJP，动词组块VP，介词组块PP。
具体地，所述组块组块规范包括每种组块类型的具体定义及如何标注生成语料，是选择一个组块长度定义较小的组块规范，其中组块长度要求不能超过5个汉字。
根据本发明所述生成组块合并模型，是训练生成组块在韵律短语中连接的概率即将所述组块定义按类型分为当前组块类型C0，后续组块类型C1；即将所述组块定义按长度分为当前组块长度len0和后续组块长度len1；训练生成组块定义在韵律短语中连接当前组块C0和后续组块C1长度的概率为概率估计对象为P(J0＝0|C0，C1)，P(J0＝0|len0，len1) (1)公式(1)中当前组块C0和后续组块C1的连接类型为J0；当J0等于0时，代表着当前组块C0和后续组块C1合并在一起。概率P(J0＝0|len0，len1)是用来描述组块的长度对组块之间的合并的影响。
所述概率估计对象参数P(j|C0，C1)及P(j|len0，len1)采用极大似然估计法(MLE)从训练语料中估计P(j|C0,C1)=count(j,C0,C1)count(C0,C1)---(2)]]>P(j|len0,len1)=count(j,len0,len1)count(len0,len1)---(3)]]>这里公式(2)和(3)中，count(j，C0，C1)为j，C0和C1在训练语料中同时出现的频度；count(C0，C1)为C0和C1在训练语料中同时出现的频度；count(j，len0，len1)为j、len0和len1在训练语料中同时出现的频度。
根据本发明，所述训练生成组块合并概率的阈值η为公式(4)P(J0＝0|C0，C1)·P(J0＝0|len0，len1)＞η(4)基于以上执行过程的系统如图2所示及一个开发语料集如图1所示的韵律短语语料库调整η的值，使其在0到1之间取值，取参数η使得该系统在开发语料集上的整个韵律短语边界识别的调和平均值(f-score)最高。
3.训练生成韵律短语边界必停点的预测模型训练韵律短语必停点的预测模型，可分为以下步骤利用选择支持向量机识别器为该模型的预测模型；用词性和位置信息等作为主要的特征；用标注好韵律短语的语料作为训练语料该支持向量机识别器。
选择特征时，以词法特征，如词性、位置信息、词的长度信息，为主要的考察对像，这里我们没有将组块的类型作为特征；最终选择的特征向量为x＝(p-2，l-2，t-2，p-1，l-1，t-1，p0，l0，p1，l1，p2，l2，d_s，d_e) (5)公式(5)中，该向量中，p表示POS(词性)；l表示词长；t表示是否为韵律短语边界；下标表示在窗口中的位置，0表示当前的判别位置；待判断边界在句子中到句首和句尾的距离分别用d_s和d_e来表示。利用该方法预测的边界被假设为句子中应当成为韵律短语边界。经过组块合并和最可能的韵律短语边界预测后，剩下的就是潜在的韵律短语边界。
4.训练节律平衡模型根据本发明所述概率估计对象，假设一个语句包含n个韵律短语，那么该语句的韵律短语长度分配的概率可以表示为
P(Lp1,Lp2,···,Lpn)]]>≈P(Lp1)P(Lp2|Lp1)Πi=3nP(Lpi|Lpi-1,Li-2)---(6)]]>公式(6)中，Lpi表示第i个韵律短语的长度。我们假设了短语之间的马尔可夫性，这样就可以用一个n元模型描述韵律短语长度之间的关系。
这样，每一个可能的韵律短语分配都可以用一个n元模型来计算其概率。
根据本发明所述生成韵律短语的节律平衡模型，可分为以下步骤，如图1所示在韵律短语语料库中，将各个韵律短语的长度替代该各个韵律短语的位置。这样，将生成也全部由韵律短语的长度构成的一个库。
以韵律短语长度Lpi为单位组成的语料，训练生成三元、二元模型。
5.训练n元模型根据本发明，基于图1所述的训练短语语料库，采用极大似然估计法(MLE)从训练短语语料库中估计P(Lpi|Lpi-1)=count(Lpi,Lpi-1)count(Lpi-1)---(7)]]>P(Lpi|Lpi-1,Lpi-2)=count(Lpi,Lpi-1,Lpi-2)count(Lpi-1,Lpi-2)---(8)]]>这里公式(7)和(8)中，count(Lpi，Lpi-1)为Lpi和Lpi-1在训练语料中同时出现的频度；count(Lpi-1)为Lpi-1在训练语料中同时出现的频度；count(Lpi，Lpi-1，Lpi-2)为Lpi、Lpi-1和Lpi-1在训练语料中同时出现的频度。
6.系统实现如图2所示基于组块合并模型、韵律短语的必停点的预测模型和节律平衡模型执行生成韵律短语边界。
具体地，基于组块支持向量机识别器的识别结果，利用组块合并模型，合并组块，确定韵律的不可停顿点及可停顿点。
具体地，基于韵律的可停顿点，利用支持向量机识别器确定韵律的必须停顿的位置。
基于以上具体的两个步骤，将韵律词边界确定为不可停顿点，必停顿点，及余下的可停也可不停的位置；将可停可不停的位置置为停或者不停，生成k种可能的停顿方式；然后，利用下式计算节律最优的韵律短语分配为argmaxiP(Ui)]]>=argmaxiP(Lp1,Lp2,···,Lpn)---(9)]]>从这k种可能的停顿方式中，选出节律平衡最优的停顿方式如公式(9)。
本发明提出了一种新的韵律短语预测方法，基于组块分析的结果分析生成韵律短语边界，取得了准确的预测结果。本发明的方法，由于韵律停顿极少出现在组块内部及一些组块之间，本发明还设计了组块合并模型，以确定句子中不能停顿的位置。同时，句中还有一些极有可能停顿的地方，我们称为必停点。支持向量机识别器被用来判别必停点，这也是由于支持向量机的高的识别率的原因。确定了不能停顿的位置及必须停顿的位置，余下的词边界就是可停可不停的位置。这些位置的停顿与否取决于是否能使整个句子在节律上平衡。为此，我们又提出了节律平衡模型，以确定节律上最优的韵律短语分配方式。使用该方法，由于确定了不能停顿点，使停顿出错的几率大大降低，同时，由于使用了节律平衡模型，又极大地提高了韵律短语边界预测的准确率和召回率，使得合成结果保持较好的自然度和可懂度。
权利要求
1.一种基于组块分析的韵律短语预测方法，其特征在于用于语音合成系统中文本分析的韵律短语预测，将系统接收到的或输入的任意文字串转换成带有韵律短语停顿标注的文字形式，将组块作为韵律短语预测的基本单元，步骤包括选择合适的组块规范作为韵律短语预测的基本分析单元；训练生成组块合并模型；训练生成韵律短语边界必停点的预测模型；训练生成韵律短语的节律平衡模型；基于组块合并模型、韵律短语必停点的预测模型、长度约束模型执行生成韵律短语。
2.根据权利要求1所述的基于组块分析的韵律短语预测方法，其特征在于训练生成步骤包括，创建韵律短语标注语料库，利用组块分析器从文本生成组块信息；利用韵律短语语料库估计组块合并模型；利用韵律短语语料库训练支持向量机识别器，得到韵律短语的必停点的预测器；利用韵律短语语料库训练节律平衡模型。
3.根据权利要求1所述的基于组块分析的韵律短语预测方法，其特征在于所述组块作为韵律短语预测的基本分析单元步骤包括生成组块定义信息；生成组块长度信息定义。
4.根据权利要求1或2所述的基于组块分析的韵律短语预测方法，其特征在于所述生成组块合并模型步骤包括训练生成组块在韵律短语中连接概率；训练生成组块合并概率阈值。
5.根据权利要求1所述的基于组块分析的韵律短语预测方法，其特征在于所述生成韵律短语边界的必停点的预测模型步骤包括基于支持向量机识别器的预测模型，生成词性和位置信息特征。
6.根据权利要求1所述的基于组块分析的韵律短语预测方法，其特征在于所述生成节律的平衡模型步骤包括将各个韵律短语的长度替代各个韵律短语的位置；以韵律短语长度为单位组成的语料，训练生成三元、二元模型。
7.根据权利要求1所述的基于组块分析的韵律短语预测方法，其特征在于所述执行生成韵律短语的步骤包括a.利用组块合并模型，合并组块，确定韵律的不可停顿点及可停顿点；b.基于韵律的可停顿点，利用支持向量机识别器确定韵律的必停顿的位置；c.利用韵律短语的节律平衡模型寻找余下的韵律短语边界。
8.根据权利要求7所述的基于组块分析的韵律短语预测方法，其特征在于，所述生成韵律短语步骤包括将韵律词边界确定为不可停顿点、必须停顿的位置、及余下的可停可不停的位置；将可停可不停的位置置为停或者不停，生成k种可能的停顿方式；从这k种可能的停顿方式中，选出最有可能的停顿方式。
9.根据权利要求3所述的基于组块分析的韵律短语预测方法，其特征在于所述组块定义步骤包括组块的定义要求包括名词组块、形容词组块、动词组块、介词组块；选择一个组块长度定义较小的组块规范。
10.根据权利要求1所述的基于组块分析的韵律短语预测方法，其特征在于，所述节律平衡模型描述韵律短语长度分布关系，生成k种可能的韵律短语结构；利用所述的短语长度，选择长度分配最优的一组短语结构。
全文摘要
本发明涉及一种基于组块分析的韵律短语预测方法，用于语音合成系统韵律短语的预测，将系统接收或输入的任意文字串转换成带有韵律短语停顿标注的文字形式，将组块作为韵律短语预测的基本单元，训练生成组块合并模型；训练生成韵律短语边界必停点的预测模型；训练生成韵律短语的节律平衡模型；基于组块合并模型、韵律短语必停点的预测模型、长度约束模型执行生成韵律短语。创建韵律短语标注语料库，用组块从文本生成组块，利用韵律短语语料库估计组块合并模型、训练支持向量机识别器，得到韵律短语的必停点的预测器，利用韵律短语语料库训练节律平衡模型。本发明提高了韵律短语边界预测的准确率和召回率，使得合成结果保持较好的自然度和可懂度。
文档编号G10L13/00GK101051458SQ20061007310
公开日2007年10月10日申请日期2006年4月4日优先权日2006年4月4日
发明者陶建华, 董宏辉申请人:中国科学院自动化研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陶建华;董宏辉
技术所有人：中国科学院自动化研究所
我是此专利的发明人

上一篇：说话人认证的验证方法及装置的制作方法
上一篇：具有立体声残响功能的移动通信终端的制作方法