语音合成中预测基频帧的方法及系统的制作方法
【技术领域】
[0001]本发明涉及语音合成领域,特指一种语音合成中预测基频帧的方法及系统。
【背景技术】
[0002]语音合成是指将输入的文本信息转化为声音的系统,语音合成系统分为两个模块,前端处理模块和后端模块。在前端中对文本进行分析,输出带有发音以及分词、词性等和韵律停顿相关的信息。后端模块利用前端模块的输出信息和原始语音提出的特征,分别训练倒谱模型,基频模型和时长模型。
[0003]为了描述方便,含有基频信息的语音特征帧称之为基频帧,不含基频信息的语音特征帧称之为非基频帧。在合成时,合成系统的后端模块中需要对当前语音特征帧(帧长一般为5ms)是否是基频帧做出预测。基频帧其预测的数值接近于1,非基频帧其预测的数值接近于O。现有的做法是采取固定的阈值判断,典型的阈值为0.5,预测值高于阈值0.5,系统判断为基频帧,预测值低于阈值0.5,系统判断为非基频帧。
[0004]这种判断方式,在两个音素的边界点处的准确率较低,而将基频帧误判为非基频帧会导致相应的语音听起来不连续和沙哑,合成系统语音的自然度较差,效果不佳。
【发明内容】
[0005]本发明的目的在于克服现有技术的缺陷,提供一种语音合成中预测基频帧的方法及系统,解决现有技术中基频帧的判断准确率低,使得合成后的语音存在发音不连续、沙哑、和自然度较差的问题。
[0006]实现上述目的的技术方案是:
[0007]本发明一种语音合成中预测基频帧的方法,包括:
[0008]输入待合成语音的文本信息;
[0009]将所述文本信息转化为语音特征帧序列;
[0010]预测所述语音特征帧序列中的每一语音特征帧是否为基频帧,以形成基频预测结果;
[0011 ]将所述文本信息转化为音素信息序列;
[0012]判断所述音素信息序列中每一音素是否为含基频信息音素,以形成辅助信息,每一音素对应多个语音特征帧;以及
[0013]将所述音素信息序列与所述语音特征帧序列相对应,并根据所述辅助信息修正所述基频预测结果以形成语音特征帧是否含有基频信息的结果。
[0014]本发明从输入的文本信息中提取音素信息,利用音素信息是否带基频作为辅助信息,对基频预测结果进行修正,实现提高基频帧预测的准确率,进而提高合成后的语音的自然度,优化声音效果。
[0015]本发明语音合成中预测基频帧的方法的进一步改进在于,预测所述语音特征帧序列中的每一语音特征帧是否为基频帧,以形成基频预测结果,包括:
[0016]计算每一语音特征帧是否为基频帧的概率,形成对应所述语音特征帧序列的概率序列;
[0017]设定预测阈值,将所述概率序列中高于所述预测阈值的概率所对应的语音特征帧判断为基频帧,将所述概率序列中低于所述预测阈值的概率所对应的语音特征帧判断为非基频帧,从而形成了对应所述语音特征帧序列的所述基频预测结果。
[0018]本发明语音合成中预测基频帧的方法的进一步改进在于,判断所述音素信息序列中每一音素是否为含基频信息音素,以形成辅助信息,包括:
[0019]将语言中的所有音素以是否带基频进行分类,形成含基频信息音素集合和无基频信息音素集合;
[0020]将所述音素信息序列中的每一音素与所述含基频信息音素集合和无基频信息音素集合进行比对,以得出所述音素是否为含基频信息音素,进而形成对应所述音素信息序列的辅助信息。
[0021]本发明语音合成中预测基频帧的方法的进一步改进在于,根据所述辅助信息修正所述基频预测结果以形成基频识别结果,包括:
[0022]获取所述辅助信息中的所有含基频信息音素;
[0023]获取所有含基频信息音素所对应的语音特征帧,对所获取的语音特征帧中为非基频帧的语音特征帧进行修正。
[0024]本发明语音合成中预测基频帧的方法的进一步改进在于,获取所有含基频信息音素所对应的语音特征帧,对所获取的语音特征帧中为非基频帧的语音特征帧进行修正,包括:
[0025]对每一含基频信息音素对应的语音特征帧所形成的语音特征帧范围进行位置划分,划分为前部位置、中部位置、以及后部位置;
[0026]判断当前的语音特征帧在对应的语音特征帧范围内的位置,若当前的语音特征帧在所述中部位置,则对当前的语音特征帧的基频预测结果不进行修正;
[0027]若当前的语音特征帧在所述前部位置,且在音素信息序列中与当前的语音特征帧所在的音素相邻的前一音素为含基频信息音素,则将当前语音特征帧修正为基频帧;
[0028]若当前的语音特征帧在所述后部位置,且在音素信息序列中与当前的语音特征帧所在的音素相邻的后一音素为含基频信息音素,则将当前语音特征帧修正为基频帧。
[0029]本发明还提供了一种语音合成中预测基频帧的系统,包括:
[0030]文本输入模块,用于输入待合成语音的文本信息;
[0031]预测判断模块,与所述文本输入模块连接,用于将所述文本信息转化为语音特征帧序列,并预测所述语音特征帧序列中的每一语音特征帧是否为基频帧,以形成基频预测结果;
[0032]音素判断模块,与所述文本输入模块连接,用于将所述文本信息转化为音素信息序列,并判断所述音素信息序列中每一音素是否为含基频信息音素,以形成辅助信息;以及
[0033]基频修正模块,与所述预测判断模块和所述音素判断模块连接,用于将所述音素信息序列中的音素和所述语音特征帧序列中的语音特征帧相对应,并根据所述辅助信息修正所述基频预测结果以形成语音特征帧是否含有基频信息的结果,每一音素对应多个语音特征帧。
[0034]本发明语音合成中预测基频帧的系统的进一步改进在于,所述预测判断模块中包括有计算子模块、存储子模块、以及判断子模块;
[0035]所述计算子模块用于将所述文本信息转化为语音特征帧序列,并计算每一语音特征帧是否为基频帧的概率以形成概率序列;
[0036]所述存储子模块内存储有设定的预测阈值;
[0037]所述判断子模块与所述计算子模块和所述存储子模块连接,用于比较对应所述语音特征帧的所述概率与所述预测阈值的大小,当所述语音特征帧对应的所述概率大于所述预测阈值时,判断所述语音特征帧为基频帧,当所述语音特征帧对应的概率小于所述预测阈值时,判断所述语音特征帧为非基频帧,以形成所述基频预测结果。
[0038]本发明语音合成中预测基频帧的系统的进一步改进在于,所述音素判断模块中包括有含基频信息音素集合表、无基频信息音素集合表、以及音素处理子模块;
[0039]所述含基频信息音素集合表中存储有语言中所有带基频的音素;
[0040]所述无基频信息音素集合表中存储有语言中所有不带基频的音素;
[0041]所述音素处理子模块与所述含基频信息音素集合表和所述无基频信息音素集合表连接,用于将所述文本信息转化为音素信息序列,并将所述音素信息序列中的每一音素与所述含基频信息音素集合表和所述无基频信息音素集合表进行比对,若所述音素信息序列中的音素在所述含基频信息音素集合表中,则判断为含基频信息音素,若所述音素信息序列中的音素在所述无基频信息音素集合表中,则判断为无基频信