一种基于音素的中文语音合成系统的制作方法

文档序号：16092279发布日期：2018-11-27 23:09阅读：来源：国知局

技术特征：

1.一种基于音素的中文语音合成方法，其特征在于，包括如下步骤：

步骤1，对文本与音频进行预处理；

步骤2，构造音素集，将常用汉字、词转化为对应的音素组合，做成映射，使每个字词都有可以参照的音素组合；

步骤3，利用one-hot将音素序列转化为字ID，再将字ID训练生成转词向量，经过encoder，将文本序列特征转换为内部学习表征，再经过decoder，生成频谱序列特征；

步骤4，结合频谱序列与音频的语音信息，由声码器合成语音；

步骤5，合成的音频分别去除尾部静音，按一定顺序将音频进行拼接。

2.如权利要求1所述的一种基于音素的中文语音合成方法，其特征在于：所述步骤1中，把文本先分词，再转化成音素组合形式，将音频文件去除首尾部分的静音，输出为.npy文件，然后再在训练时将.npy文件采用队列的形式，一次读入一个batch的数据传给GPU。

3.如权利要求2所述的一种基于音素的中文语音合成方法，其特征在于：所述步骤2中，构造音素集，音素集是由23个声母、39个韵母以及声调构成，是所有汉字音素表示的集合，在语料库中(语料库分为文本数据库与语音数据库)，将文本数据库参照音素集将文本转化为音素组合形式，具体是将中文汉字转化为由声、韵母及声调的组合形式。

4.如权利要求3所述的一种基于音素的中文语音合成方法，其特征在于：所述步骤3中，将转化了的音素序列生成对应的字ID,通过character embeddings训练生成词向量，并将词向量带入到Seq2Seq结构(基于encoder-decoder的Seq2Seq的结构)生成频谱序列。

5.如权利要求4所述的一种基于音素的中文语音合成方法，其特征在于：所述步骤4中，通过基于encoder-decoder的Seq2Seq模型输出序列以及提取的音频信号来预测功率谱幅度值，再结合Griffin_Lim相位重构算法获取最优相位，生成waveform，即语音。

6.如权利要求5所述的一种基于音素的中文语音合成方法，其特征在于，所述步骤5中，开多线程进行并行运算，将合成后的音频利用ffmpeg音频处理工具，去除尾部静音，再将去除静音的音频拼接起来；模型合成的音频格式为wav格式，利用ffmpeg工具去除wav格式音频的静音，再将处理后的音频按顺序合并起来，最后统一将wav格式转化为mp3格式。

完整全部详细技术资料下载

当前第2页1 2 3