口音转换方法及装置、电子设备与流程

文档序号：14571877发布日期：2018-06-01 22:43阅读：来源：国知局

技术特征：

1.一种口音转换方法，其特征在于，所述方法包括：

获取具有第一口音的源语音数据；

获取所述源语音数据对应的源语音特征向量；

调用特征转换模型，将所述源语音特征向量转换成目标语音特征向量；

基于所述目标语音特征向量合成具有第二口音的目标语音数据。

2.根据权利要求1所述的口音转换方法，其特征在于，所述源语音特征向量包括以下至少一个：所述源语音数据的基频特征向量、语速特征向量、能量特征向量和频谱特征向量。

3.根据权利要求2所述的口音转换方法，其特征在于，所述源语音特征向量包括所述源语音数据的基频特征向量，所述获取所述源语音数据对应的源语音特征向量包括：

利用自相关方法获取所述源语音数据的基频特征向量。

4.根据权利要求2所述的口音转换方法，其特征在于，所述源语音特征向量包括所述源语音数据的语速特征向量，所述获取所述源语音数据对应的源语音特征向量包括：

利用可视化语音工具获取所述源语音数据中音节的边界；

根据所述边界确定所述源

语音数据的时长和包含词语的数量；

根据所述时长和所述数量获取所述源语音数据的语速特征向量。

5.根据权利要求2所述的口音转换方法，其特征在于，所述源语音特征向量包括能量特征向量和频谱特征向量，所述获取所述源语音数据对应的源语音特征向量包括：

利用线性预测编码LPC对所述源语音数据进行编码，得到所述LPC的系数

获取所述系数的倒谱，得到线性预测倒谱系数C_n；所述C_n作为所述源语音数据的能量特征向量和频谱特征向量。

6.根据权利要求2所述的口音转换方法，其特征在于，所述源语音特征向量包括能量特征向量和频谱特征向量，所述获取所述源语音数据对应的源语音特征向量包括：

基于所述源语音数据的频率，根据梅尔公式获取所述源语音数据对应的能量包络谱；

将所述能量包络谱输入梅尔滤波器组，得到梅尔频率刻度；

对所述梅尔频率刻度进行对数变换和离散余弦变换，得到梅尔频率倒谱系数MFCC；所述MFCC作为所述源语音数据的能量特征向量和频谱特征向量。

7.根据权利要求1所述的口音转换方法，其特征在于，所述方法还包括：

获取设定数量的样本语音数据对；所述样本语音数据对包括分别采用第一口音和第二口音朗读同一内容后得到的语音数据；

利用所述样本语音数据训练初始的特征转换模型，直至满足终止条件时停止训练，得到训练后的特征转换模型；

其中，所述终止条件包括：初始的特征转换模型输出的语音特征向量和所述第二口音的语音数据对应的语音特征向量之间的损失值，小于或者等于损失值阈值。

8.一种口音转换装置，其特征在于，所述装置包括：

源语音数据获取模块，用于获取具有第一口音的源语音数据；

源特征向量获取模块，用于获取所述源语音数据对应的源语音特征向量；

目标特征向量获取模块，用于调用特征转换模型，将所述源语音特征向量转换成目标语音特征向量；

目标语音合成模块，用于基于所述目标语音特征向量合成具有第二口音的目标语音数据。

9.根据权利要求8所述的口音转换装置，其特征在于，所述源特征向量获取模块获取的源语音特征向量包括以下至少一个：所述源语音数据的基频特征向量、语速特征向量、能量特征向量和频谱特征向量。

10.根据权利要求9所述的口音转换装置，其特征在于，所述源特征向量获取模块获取的源语音特征向量包括所述源语音数据的基频特征向量，所述装置包括：

所述源特征向量获取模块用于利用自相关方法获取所述源语音数据的基频特征向量。

11.根据权利要求9所述的口音转换装置，其特征在于，所述源特征向量获取模块获取的源语音特征向量包括所述源语音数据的语速特征向量，所述源特征向量获取模块包括：

音节边界获取单元，用于利用可视化语音工具获取所述源语音数据中音节的边界；

时长词数获取单元，用于根据所述边界确定所述源语音数据的时长和包含词语的数量；

语速特征向量获取单元，用于根据所述时长和所述数量获取所述源语音数据的语速特征向量。

12.根据权利要求9所述的口音转换装置，其特征在于，所述源特征向量获取模块获取的源语音特征向量包括能量特征向量和频谱特征向量，所述源特征向量获取模块包括：

LPC系数获取单元，用于利用线性预测编码LPC对所述源语音数据进行编码，得到所述LPC的系数

特征向量获取单元，用于获取所述系数的倒谱，得到线性预测倒谱系数C_n；所述C_n作为所述源语音数据的能量特征向量和频谱特征向量。

13.根据权利要求9所述的口音转换装置，其特征在于，所述源特征向量获取模块获取的源语音特征向量包括能量特征向量和频谱特征向量，所述源特征向量获取模块包括：

包络谱获取单元，用于基于所述源语音数据的频率，根据梅尔公式获取所述源语音数据对应的能量包络谱；

刻度获取单元，用于将所述能量包络谱输入梅尔滤波器组，得到梅尔频率刻度；

MFCC获取单元，用于对所述梅尔频率刻度进行对数变换和离散余弦变换，得到梅尔频率倒谱系数MFCC；所述MFCC作为所述源语音数据的能量特征向量和频谱特征向量。

14.根据权利要求8所述的口音转换装置，其特征在于，所述装置还包括：

样本数据对获取模块，用于获取设定数量的样本语音数据对；所述样本语音数据对包括分别采用第一口音和第二口音朗读同一内容后得到的语音数据；

转换模型训练模块，用于利用所述样本语音数据训练初始的特征转换模型，直至满足终止条件时停止训练，得到训练后的特征转换模型；

15.一种电子设备，其特征在于，所述电子设备包括：

受话器；

扬声器；

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述存储器中可执行指令以实现权利要求1～7中任一项所述方法的步骤。

完整全部详细技术资料下载

当前第2页1 2 3