语音合成方法、装置、存储介质及电子设备与流程

文档序号：23806141发布日期：2021-02-03 09:29阅读：来源：国知局

技术特征：
1.一种语音合成方法，其特征在于，所述方法包括：获取带有目标音色标签的待合成文本，所述目标音色标签为第一发音人的音色标签或者第二发音人的音色标签；将所述待合成文本输入语音合成模型，以得到所述待合成文本对应的音频信息，所述语音合成模型的训练样本包括标注有重音词的第一样本文本和所述第一发音人对所述第一样本文本的第一样本音频，以及未标注重音词的第二样本文本和所述第二发音人对所述第二样本文本的第二样本音频；所述语音合成模型用于确定所述待合成文本中的重音词，并根据所述重音词以及所述目标音色标签生成所述待合成文本对应的音频信息。2.根据权利要求1所述的方法，其特征在于，所述语音合成模型通过如下方式生成所述待合成文本对应的音频信息：确定所述待合成文本对应的音素序列；根据所述重音词，确定音素级别的重音标签；根据所述音素序列、所述重音标签和所述目标音色标签，生成所述待合成文本对应的音频信息。3.根据权利要求2所述的方法，其特征在于，所述根据所述音素序列、所述重音标签和所述目标音色标签，生成所述待合成文本对应的音频信息，包括：将所述音素序列进行向量化，以得到音素向量；将所述重音标签进行向量化，以得到重音标签向量；将所述目标音色标签进行向量化，以得到音色标签向量；根据所述音素向量、所述重音标签向量和所述音色标签向量，确定目标音素向量；根据所述目标音素向量确定梅尔频谱；将所述梅尔频谱输入声码器，以得到所述待合成文本对应的音频信息。4.根据权利要求3所述的方法，其特征在于，根据所述目标音素向量确定梅尔频谱，包括：将所述目标音素向量输入编码器，并将所述编码器输出的向量输入译码器，以得到对应的梅尔频谱，其中，所述编码器用于确定输入向量对应的音素序列中每一音素的发音信息，所述译码器用于根据输入向量对应的每一音素的发音信息进行转换处理，以得到所述每一音素对应的梅尔频谱。5.根据权利要求3所述的方法，其特征在于，所述根据所述音素向量、所述重音标签向量和所述音色标签向量，确定目标音素向量，包括：将所述音素向量输入编码器，并根据所述编码器输出的向量、所述重音标签向量和所述音色标签向量，确定所述目标音素向量；所述根据所述目标音素向量确定梅尔频谱，包括：将所述目标音素向量输入译码器，以得到所述梅尔频谱；其中，所述编码器用于确定输入向量对应的音素序列中每一音素的发音信息，所述译码器用于根据输入向量对应的每一音素的发音信息进行转换处理，以得到所述每一音素对应的梅尔频谱。6.根据权利要求1-5任一项所述的方法，其特征在于，所述语音合成模型包括重音识别
模块，所述语音合成模型的训练步骤包括：通过所述重音识别模块生成所述第二样本文本对应的重音标签；将所述第一样本文本和所述第二样本文本依次作为目标样本文本，对所述目标样本文本对应的音素序列进行向量化，以得到音素级别的样本音素向量；对所述目标样本文本对应的重音标签进行向量化，以得到样本重音标签向量；对所述目标样本文本对应的音色标签进行向量化，以得到样本音色标签向量；根据所述样本音素向量、所述样本重音标签向量和所述样本音色标签向量，确定目标样本音素向量；根据所述目标样本音素向量确定样本梅尔频谱；根据所述样本梅尔频谱与所述目标样本文本对应的样本音频的实际梅尔频谱计算第一损失函数；通过所述第一损失函数调整所述语音合成模型的参数。7.根据权利要求6所述的方法，其特征在于，所述训练步骤还进一步包括：生成所述第一样本文本对应的词向量序列，并根据所述第一样本文本标注的所述重音词，生成所述第一样本文本对应的样本重音标签；将所述词向量序列输入所述重音识别模块，并根据所述重音识别模块的输出结果与所述样本重音标签计算第二损失函数；所述通过所述第一损失函数调整所述语音合成模型的参数，包括：通过所述第一损失函数和所述第二损失函数调整所述语音合成模型的参数。8.根据权利要求7所述的方法，其特征在于，所述通过所述第一损失函数和所述第二损失函数调整所述语音合成模型的参数包括：通过在训练过程中自适应变化的权重值将所述第一损失函数和所述第二损失函数进行加权求和，以得到目标损失函数；根据所述目标损失函数调整所述语音合成模型的参数。9.根据权利要求6所述的方法，其特征在于，所述确定所述待合成文本中的重音词，包括：确定所述待合成文本中是否标注有重音词；若所述待合成文本中未标注有重音词，则通过所述重音识别模块识别所述待合成文本中的重音词；若所述待合成文本中标注有重音词，则根据所述重音词对应的标注信息，确定所述待合成文本中的重音词。10.一种语音合成装置，其特征在于，所述装置包括：获取模块，用于获取带有目标音色标签的待合成文本，所述目标音色标签为第一发音人的音色标签或者第二发音人的音色标签；合成模块，用于将所述待合成文本输入语音合成模型，以得到所述待合成文本对应的音频信息；其中，所述语音合成模型的训练样本包括标注有重音词的第一样本文本和所述第一发音人对所述第一样本文本的第一样本音频，以及未标注重音词的第二样本文本和所述第二发音人对所述第二样本文本的第二样本音频；所述语音合成模型用于确定所述待合成文本中的重音词，并根据所述重音词以及所述目标音色标签生成所述待合成文本对应的音频信息。
11.一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理装置执行时实现权利要求1-9中任一项所述方法的步骤。12.一种电子设备，其特征在于，包括：存储装置，其上存储有计算机程序；处理装置，用于执行所述存储装置中的所述计算机程序，以实现权利要求1-9中任一项所述方法的步骤。

完整全部详细技术资料下载

当前第2页1 2 3