一种基于音素的中文语音合成系统的制作方法

文档序号:16092279发布日期:2018-11-27 23:09阅读:来源:国知局

技术特征:

1.一种基于音素的中文语音合成方法,其特征在于,包括如下步骤:

步骤1,对文本与音频进行预处理;

步骤2,构造音素集,将常用汉字、词转化为对应的音素组合,做成映射,使每个字词都有可以参照的音素组合;

步骤3,利用one-hot将音素序列转化为字ID,再将字ID训练生成转词向量,经过encoder,将文本序列特征转换为内部学习表征,再经过decoder,生成频谱序列特征;

步骤4,结合频谱序列与音频的语音信息,由声码器合成语音;

步骤5,合成的音频分别去除尾部静音,按一定顺序将音频进行拼接。

2.如权利要求1所述的一种基于音素的中文语音合成方法,其特征在于:所述步骤1中,把文本先分词,再转化成音素组合形式,将音频文件去除首尾部分的静音,输出为.npy文件,然后再在训练时将.npy文件采用队列的形式,一次读入一个batch的数据传给GPU。

3.如权利要求2所述的一种基于音素的中文语音合成方法,其特征在于:所述步骤2中,构造音素集,音素集是由23个声母、39个韵母以及声调构成,是所有汉字音素表示的集合,在语料库中(语料库分为文本数据库与语音数据库),将文本数据库参照音素集将文本转化为音素组合形式,具体是将中文汉字转化为由声、韵母及声调的组合形式。

4.如权利要求3所述的一种基于音素的中文语音合成方法,其特征在于:所述步骤3中,将转化了的音素序列生成对应的字ID,通过character embeddings训练生成词向量,并将词向量带入到Seq2Seq结构(基于encoder-decoder的Seq2Seq的结构)生成频谱序列。

5.如权利要求4所述的一种基于音素的中文语音合成方法,其特征在于:所述步骤4中,通过基于encoder-decoder的Seq2Seq模型输出序列以及提取的音频信号来预测功率谱幅度值,再结合Griffin_Lim相位重构算法获取最优相位,生成waveform,即语音。

6.如权利要求5所述的一种基于音素的中文语音合成方法,其特征在于,所述步骤5中,开多线程进行并行运算,将合成后的音频利用ffmpeg音频处理工具,去除尾部静音,再将去除静音的音频拼接起来;模型合成的音频格式为wav格式,利用ffmpeg工具去除wav格式音频的静音,再将处理后的音频按顺序合并起来,最后统一将wav格式转化为mp3格式。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1