一种声音转换方法及装置的制造方法
【技术领域】
[0001] 本发明涉及语音信号处理技术领域,具体涉及一种声音转换方法及装置。
【背景技术】
[0002] 在日常的生活交流中,一个人的声音往往就是他的身份名片,听到自己熟悉人的 声音后,就可辨认出这个人。声音转换技术由于可以将一个发音人的声音转换为另一个发 音人的声音,使人听起来像是另一个人的发音,有着广泛的应用前景,如用户可以将自己的 声音转换成自己喜欢的明星的声音,或转换成用户自己熟悉人的声音。
[0003] 现有的声音转换方法一般是将待转换语音数据进行语音识别,得到识别文本后, 利用目标发音人合成模型对所述识别文本进行语音合成,从而得到目标发音人音色的合成 语音数据。这种方法对识别文本进行语音合成时,容易出现合成的语音数据与待转换语音 数据的时长不一致的情况,从而使合成语音听起来较机械,韵律感差,大大降低了合成语音 的自然度。
【发明内容】
[0004] 本发明提供一种声音转换方法及装置,以使转换后的语音数据的时长与待转换语 音数据的时长一致,提高合成语音的自然度。
[0005] 为此,本发明提供如下技术方案:
[0006] 一种声音转换方法,包括:
[0007] 接收待转换语音数据;
[0008] 对所述待转换语音数据进行语音识别,得到识别结果及所述识别结果的时长信 息;
[0009] 获取目标发音人的语音合成模型;
[0010] 利用所述语音合成模型及所述时长信息生成语音合成参数;
[0011] 利用所述语音合成参数对所述识别结果进行语音合成,得到目标发音人音色合成 语音数据。
[0012] 优选地,所述对所述待转换语音数据进行语音识别,得到识别结果及所述识别结 果的时长信息包括:
[0013] 利用预先训练的声学模型及语言模型构建解码网络;
[0014] 提取所述待转换语音数据的特征参数;
[0015] 基于所述解码网络及所述特征参数对所述待转换语音数据进行解码,得到最优解 码路径对应的文本序列及所述文本序列中各字和/或词的时长信息。
[0016] 优选地,所述对所述待转换语音数据进行语音识别,得到识别结果及所述识别结 果的时长信息包括:
[0017] 利用预先训练的声学模型及语言模型构建解码网络;
[0018] 提取所述待转换语音数据的特征参数;
[0019] 基于所述解码网络及所述特征参数对所述待转换语音数据进行解码,得到最优解 码路径对应的语法单元序列及所述语法单元序列中各语法单元的时长信息。
[0020] 优选地,所述获取目标发音人的语音合成模型包括:
[0021] 向用户展现可选的目标发音人信息,并根据用户的选择确定目标发音人,然后获 取所述目标发音人的语音合成模型;或者
[0022] 接收用户提供的目标发音人语音数据,并利用所述目标发音人语音数据训练得到 目标发音人的语音合成模型。
[0023] 优选地,所述目标发音人合成模型包括:时长合成模型、基频合成模型、频谱合成 丰旲型;
[0024] 所述利用所述语音合成模型及所述时长信息生成语音合成参数包括:
[0025] 利用所述时长信息及所述时长合成模型生成每个语法单元每个状态的时长合成 参数;
[0026] 利用目标发音人基频合成模型生成基频合成参数;
[0027] 利用目标发音人频谱合成模型生成频谱合成参数。
[0028] -种声音转换装置,包括:
[0029] 接收模块,用于接收待转换语音数据;
[0030] 语音识别模块,用于对所述待转换语音数据进行语音识别,得到识别结果及所述 识别结果的时长信息;
[0031] 模型获取模块,用于获取目标发音人的语音合成模型;
[0032] 合成参数生成模块,用于利用所述语音合成模型及所述时长信息生成语音合成参 数;
[0033] 语音合成模块,用于利用所述语音合成参数对所述识别结果进行语音合成,得到 目标发音人音色合成语音数据。
[0034] 优选地,所述语音识别模块包括:
[0035] 第一解码网络构建单元,用于利用预先训练的声学模型及语言模型构建解码网 络;
[0036] 特征提取单元,用于提取所述待转换语音数据的特征参数;
[0037] 第一解码单元,用于基于所述解码网络及所述特征参数对所述待转换语音数据进 行解码,得到最优解码路径对应的文本序列及所述文本序列中各字和/或词的时长信息。
[0038] 优选地,所述语音识别模块包括:
[0039] 第二解码网络构建单元,用于利用预先训练的声学模型及语言模型构建解码网 络;
[0040] 特征提取单元,用于提取所述待转换语音数据的特征参数;
[0041] 第二解码单元,用于基于所述解码网络及所述特征参数对所述待转换语音数据进 行解码,得到最优解码路径对应的语法单元序列及所述语法单元序列中各语法单元的时长 fg息。
[0042] 优选地,所述模型获取模块包括:
[0043] 展现单元,用于向用户展现可选的目标发音人信息;
[0044]目标发音人确定单元,用于根据用户的选择确定目标发音人;
[0045] 模型获取单元,用于获取所述目标发音人的语音合成模型;
[0046] 或者,所述目标发音人确定模块包括:
[0047] 接收单元,用于接收用户提供的目标发音人语音数据;
[0048] 模型训练单元,用于利用所述目标发音人语音数据训练得到目标发音人的语音合 成模型。
[0049] 优选地,所述目标发音人合成模型包括:时长合成模型、基频合成模型、频谱合成 模型;
[0050] 所述合成参数生成模块包括:
[0051] 时长合成参数生成单元,用于利用所述时长信息及所述时长合成模型生成每个语 法单元每个状态的时长合成参数;
[0052] 基频合成参数生成单元,用于利用目标发音人基频合成模型生成基频合成参数;
[0053] 频谱合成参数生成单元,用于利用目标发音人频谱合成模型生成频谱合成参数。
[0054] 本发明实施例提供的声音转换方法及装置,首先接收待转换语音数据,然后对待 转换语音数据进行语音识别,得到识别结果及其时长信息,最后利用目标发音人的语音合 成模型及所述时长信息生成语音合成参数,利用该语音合成参数对所述识别结果进行语音 合成,得到目标发音人音色合成语音数据。该方法及装置对待转换语音数据进行语音识别 时,不仅获取识别结果,而且还要获取该识别结果的时长信息,利用该时长信息生成目标发 音人的语音合成参数,有效保证了合成语音数据的时长与待转换语音数据的时长一致,提 高了转换后语音的自然度。
【附图说明】
[0055] 为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一 些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0056]图1是本发明实施例声音转换方法的一种流程图;
[0057]图2是本发明实施例声音