一种语音合成方法和装置的制造方法
【技术领域】
[0001]本发明实施例涉及文语转换技术领域,尤其涉及一种语音合成方法和装置。
【背景技术】
[0002]语音合成,又称文语转换技术,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是中文信息处理领域的一项前沿技术。
[0003]图1为现有技术中语音合成方法的流程示意图,如图1所示,语音合成系统的处理过程一般如下:首先,对输入文本进行文本预处理、分词、词性标注和注音等一系列处理后,然后进行韵律层级预测,再利用声学模型,生成目标声学参数序列,通过声码器生成语音,或者利用单元挑选技术从发音人录音数据制作的音库中挑选合适的片段,生成语音。而现有技术中声学模型的训练一般需要设计一定数量的录音文本语料,以满足音子覆盖、韵律覆盖等要求。其次,挑选合适的发音人,发音人根据录音文本语料录制语音数据,然后进行文本、拼音、韵律、单元边界的标注,并将标注好的数据用于模型训练、音库生成。
[0004]但是现有的语音合成系统,对用户录音数据的数量和质量都有较高的要求,如果想生成某个特定说话人的数据,需要进行大量的录音和数据加工,消耗大量的时间和精力。对于普通用户来说,如果想用自己的声音合成出语音,往往是不切实际的。语音合成数据制作的专业性和复杂性,与用户对个性化声音的强烈渴求之间,存在很大的矛盾。
【发明内容】
[0005]本发明提供一种语音合成方法和装置,以实现在个性化语音合成过程中,降低对用户录音数据的规模要求。
[0006]第一方面,本发明实施例提供了一种语音合成方法,包括:
[0007]获取目标用户语音数据;
[0008]根据所述目标用户语音数据以及预设基准声学模型,训练目标用户声学模型。
[0009]第二方面,本发明实施例还提供了一种语音合成装置,包括:
[0010]目标用户语音数据获取模块,用于获取目标用户语音数据;
[0011]目标用户声学模型训练模块,用于根据所述目标用户语音数据以及预设基准声学模型,训练目标用户声学模型。
[0012]本发明通过获取目标用户语音数据,并根据所述目标用户语音数据以及预设基准声学模型,训练目标用户声学模型,该目标声学模型的训练,仅需少量的目标用户语音数据,利用已有的预设基准声学模型训练获得符合目标用户语音特点的目标用户声学模型,即可以利用少量的语音数据就可实现个性化声学模型的训练,降低对用户录音数据的规模要求,提升了用户体验。
【附图说明】
[0013]图1为现有技术中语音合成方法的流程示意图;
[0014]图2为本发明实施例一提供的一种语音合成方法的流程图;
[0015]图3为本发明实施例二提供的一种语音合成方法的流程示意图;
[0016]图4为本发明实施例三提供的一种语音合成方法的流程示意图;
[0017]图5为本发明实施例四提供的一种语音合成装置的结构示意图。
【具体实施方式】
[0018]下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
[0019]实施例一
[0020]图2为本发明实施例一提供的一种语音合成方法的流程图,本实施例可适用于个性化声学模型训练的情况,该方法主要通过计算机设备中的语音合成装置来执行,所述计算机设备包括但不限于以下中的至少一个:用户设备和网络设备。用户设备包括但便于计算机、智能手机和平板电脑等。网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或给予云计算的由大量计算机或网络服务器构成的云。如图2所示,所述方法具体包括如下操作:
[0021]S110、获取目标用户语音数据;
[0022]所述目标用户语音数据包含目标用户的语音特点,一般情况下,首先根据音子覆盖以及韵律覆盖等指标,预先设计录音文本,并提供给目标用户进行朗读,以获得所述目标用户语音数据。在设计录音文本时,例如汉语文本,优选的,设置所述录音文本包含全部的声韵母,以提高后续模型训练的准确度。需要说明的是,本发明可以直接由用户设备录制目标用户语音数据,并执行后续操作,还可以由用户设备录制目标用户语音数据后,并发送网络设备,由网络设备执行后续操作。进一步的,在录制目标用户语音数据时,优选的,将所述目标用户语音数据进行实时保存,若目标用户不能一次性完成全部目标用户语音数据的录制,可保留当前录制的目标用户语音数据,并在下次录制时,继续完成剩余未录制的目标用户语音数据。
[0023]S120、根据所述目标用户语音数据以及预设基准声学模型,训练目标用户声学模型。
[0024]该操作采用目标用户语音数据,在预设基准声学模型基础上,训练目标用户声学模型,使预设声学模型自适应更新为目标用户声学模型。
[0025]可选的,设置预设基准声学模型所对应的发音人为非目标用户,且所述预设基准声学模型是根据非目标用户的语音数据训练获得。预设基准声学模型,一般是利用大规模非目标用户的录音数据,通过神经网络训练获得,所述预设基准声学模型具有较好的音子覆盖和韵律覆盖能力,能够描述多种语音现象。因此,预设基准声学模型已构建好模型的框架结构,例如多层神经网络结构以及神经元连接关系等,因此在训练目标用户声学模型时,仅需获取少量目标用户语音数据,在上述预设基准声学模型基础上,自适应训练更新即可获得目标用户声学模型,使目标用户声学模型对应的发音人为目标用户。举例而言,例如已有用户A的声学模型,若想获得用户B、C、D等的声学模型,现有技术需要分别再重新获取大规模用户B、C、D等的语音数据进行重复训练,以获得用户B、C、D等的声学模型。而本发明在用户A的声学模型基础上,仅需获得少量用户B、C、D等的语音数据,分别进行自适应更新训练,从而获得用户B、C、D等的声学模型。
[0026]本发明实施例通过获取目标用户语音数据,并根据所述目标用户语音数据以及预设基准声学模型,训练目标用户声学模型,该目标声学模型的训练,大大降低了对用户语音数据的规模要求,例如可以从几千句的规模降低到几百句甚至几十句,即可以利用少量的用户语音数据就可实现个性化声学模型的训练,实现了用户个性化语音需求,提升了用户体验。
[0027]实施例二
[0028]图3为本发明实施例二提供的一种语音合成方法的流程示意图,如图3所示,所述方法具体包括:
[0029]S210、获取目标用户语音数据;
[0030]该操作与上述实施例一中的操作S110类似,本实施例在此不再赘述。
[0031]S220、对所述目标用户语音数据进行语音标注,以获得所述目标用户语音数据对应的文本上下文信息;
[0032]其中,所述语音标注包括:对所述目标用户语音数据的音节和音子切分标注、重音和语调标注、韵律标注、边界和词性标注等。汉语中一个汉字代表一个音节,声韵母为音子,韵律一般包括韵律词、韵律短语和语调短语三个层级。一个或者多个韵律词构成了韵律短语,然后一个或者多个韵律短语组成了语调短语。边界标注包括韵律词边界、韵律短语