1.本技术涉及语音处理领域,尤其涉及一种语音合成模型的训练方法、装置、电子设备及存储介质。
背景技术:2.当前在个性化语音合成系统中,用户针对指定文本录几十句到一百句等少量的语音,然后将语音和文本对送到语音合成系统中进行个性化模型训练,从而实现声音复刻。
3.在实现本发明的过程中,发明人发现用户在按照指定文本时,录音风格很随意,经常出现断断续续,不连贯等问题,但是文本在该处并没有显式的停顿符号等,这就会导致文本和语音的韵律并不对齐,从而导致训练模型合成出来的声音会出现韵律感很差。
技术实现要素:4.为了解决上述技术问题或者至少部分地解决上述技术问题,本技术提供了一种语音合成模型的训练方法、装置、电子设备及存储介质。
5.根据本技术实施例的一个方面,提供了一种语音合成模型的训练方法,包括:
6.获取待处理的初始文本,并检测所述初始文本携带的字符,得到所述初始文本对应的初始韵律结构;
7.获取所述初始文本对应的目标个性化语音,并确定所述目标个性化语音所包括每一个音素的对齐结果;
8.利用所述对齐结果修正所述初始文本对应的初始韵律结构,得到目标韵律结构,并基于所述目标音律结构生成目标文本;
9.基于所述目标文本的目标韵律结构以及所述目标个性化语音训练预设神经网络模型,得到语音合成模型。
10.进一步的,所述检测所述初始文本携带的字符,得到所述初始文本对应的初始韵律结构,包括:
11.提取所述初始文本所携带的每一个字符;
12.利用预设单词库对所述初始文本中每个字符以及相邻字符进行检测,得到所述初始文本中的至少一个词组,以及每个词组对应的目标拼音信息;
13.检测所述初始文本对应的目标情绪类别:
14.利用预设韵律检测模型基于所述目标拼音信息以及所述目标情绪类别确定所述初始文本对应的初始韵律结构。
15.进一步的,在提取所述初始文本所携带的每一个字符之前,所述方法还包括:
16.检测所述初始文本对应的文本特征,并利用所述文本特征确定所述初始文本包含的语种信息;
17.在所述初始文本包含至少两种语种况下,对所述初始文本进行编译处理,得到目标语种的初始文本,其中所述目标语种为至少两种语种中的任意一种。
18.进一步的,所述确定所述目标个性化语音所包括每一个音素的对齐结果,包括:
19.检测所述初始文本,得到所述初始文本对应的候选音素,并基于所述候选音素生成候选音素序列;
20.获取所述目标个性化语音对应的音素序列;
21.将所述候选音素序列中的候选音素与所述音素序列中的音素进行对齐,得到所述目标个性化语音所包括的每一个音素的对齐结果。
22.进一步的,所述基于所述候选音素生成候选音素序列,包括:
23.获取所述初始文本中的至少一个词组,并确定所述词组对应的音素组合;
24.获取所述词组在所述初始文本中的位置信息,并根据所述位置信息对所述音素组合进行排序,得到所述候选音素序列。
25.进一步的,所述利用所述对齐结果修正所述初始文本对应的初始韵律结构,得到目标韵律结构,包括:
26.基于每个音素对应的对齐结果确定所述目标个性化语音当前存在的静音段音素,以及所述静音段音素对应的时间信息;
27.利用所述静音段音素以及所述静音段音素对应的时间信息修正所述初始文本对应的初始韵律结构,得到所述目标韵律结构。
28.进一步的,所述基于所述目标文本的目标韵律结构以及所述目标个性化语音训练预设神经网络模型,得到语音合成模型,包括:
29.基于所述目标文本包含的字符生成字符序列样本;
30.将所述目标韵律结构确定为所述字符序列样本对应的标注信息;
31.将携带所述标注信息的字符序列样本以及所述目标个性化语音输入预设神经网络模型,以使所述预设神经网络模型学习所述字符序列序列中字符与目标韵律结构之间的关系,基于所述字符序列样本得到预测韵律结构,并利用预测音律结构与所述字符序列样本生成合成语音,在所述合成语音与所述目标个性化语音相匹配的情况下,得到语音合成模型。
32.根据本技术实施例的另一个方面,还提供了一种语音合成模型的训练装置,包括:
33.获取模块,用于获取待处理的初始文本,并检测所述初始文本携带的字符,得到所述初始文本对应的初始韵律结构;
34.检测模块,用于获取所述初始文本对应的目标个性化语音,并确定所述目标个性化语音所包括每一个音素的对齐结果;
35.处理模块,用于利用所述对齐结果修正所述初始文本对应的初始韵律结构,得到目标韵律结构,并基于所述目标音律结构生成目标文本;
36.合成模块,用于基于所述目标文本的目标韵律结构以及所述目标个性化语音训练预设神经网络模型,得到语音合成模型。
37.根据本技术实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,程序运行时执行上述的步骤。
38.根据本技术实施例的另一方面,还提供了一种电子装置,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;其中:存储器,用于存放计算机程序;处理器,用于通过运行存储器上所存放的程序来执行上
述方法中的步骤。
39.本技术实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述方法中的步骤。
40.本技术实施例提供的上述技术方案与现有技术相比具有如下优点:本技术实施例提供的方法对个性化语音进行对齐,并通过对齐结果对初始韵律结构中不连贯的部分进行修正,通过目标文本保证录音和文本的韵律结构一致。保证利用修正后的韵律结构生成目标文本训练得到的语音合成模型,具有更好的语音合成效果,以及具有更高的鲁棒性。
附图说明
41.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
42.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
43.图1为本技术实施例提供的一种语音合成模型的训练方法的流程图;
44.图2为本技术实施例提供的一种语音合成模型的训练装置的框图;
45.图3为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
46.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术的一部分实施例,而不是全部的实施例,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
47.需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个类似的实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
48.本技术实施例提供了一种语音合成模型的训练方法、装置、电子设备及存储介质。本发明实施例所提供的方法可以应用于任意需要的电子设备,例如,可以为服务器、终端等电子设备,在此不做具体限定,为描述方便,后续简称为电子设备。
49.根据本技术实施例的一方面,提供了一种语音合成模型的训练方法的方法实施例,图1为本技术实施例提供的一种语音合成模型的训练方法的流程图,如图1所示,该方法包括:
50.步骤s11,获取待处理的初始文本,并检测初始文本携带的字符,得到初始文本对应的初始韵律结构。
51.本技术实施例提供的方法应用于能够进行音频处理的智能设备,例如手机、电脑、ipad等等。待处理的初始文本可以是用户上传至智能设备的新闻文稿或者配音文稿等等。
52.在本技术实施例中,智能设备获取到初始文本后,会对初始文本进行检测,以确定初始文本对应的语种。具体的,通过文本检测模型检测初始文本对应的文本特征,利用文本特征确定初始文本包含的语种信息。在初始文本只包含一种语种况下,则直接检测初始文本的韵律结构。
53.如果初始文本包含至少两种语种况下,则对初始文本进行编译处理,得到目标语种的初始文本,其中目标语种为至少两种语种中的任意一种。例如:初始文本包含的语种有汉语和英语,则将初始文本中的英语部分编译成汉语。通过对初始文本的语种进行统一,便于后续确定初始文本的韵律结构。
54.需要说明的是,韵律结构可以理解为节律、音律、非线性特征等。韵律结构划分是语音合成系统的重要组成部分,这是因为人们进行口语交流时往往不会按照分词的结果进行停顿。因此准确的检测文本的韵律边界位置以及结构,是语音合成中的重要环节,它是合成自然、流畅的输出语音的重要前提和保证。
55.在本技术实施例中,检测初始文本携带的字符,得到初始文本对应的初始韵律结构,包括以下步骤a1-a4:
56.步骤a1,提取初始文本所携带的每一个字符。
57.步骤a2,利用预设单词库对初始文本中每个字符以及相邻字符进行检测,得到初始文本中的至少一个词组,以及每个词组对应的目标拼音信息。
58.在本技术实施例中,为了对每个词组进行准确的韵律结构划分,需要得到初始文本中各个词组的拼音信息,通过拼音信息能够得到汉字对应的声母、韵母,从而与边界处的声学参数进行匹配,能够反应韵律边界处的声学表现。
59.步骤a3,检测初始文本对应的目标情绪类别。
60.在本技术实施例中,首先确定初始文本所包含的至少一个语句,然后利用情绪识别模型对初始文本中的各个语句进行检测,得到初始文本中各个语句对应的目标情绪类别。
61.需要说明的是,在使用拼音信息确定韵律结构的基础上,为了使得到的韵律结构准确,增加了情绪类别的判断,利用情绪类别结合拼音信息能够使得韵律结构更加丰富。
62.步骤a4,利用预设韵律检测模型基于目标拼音信息以及目标情绪类别确定初始文本对应的初始韵律结构。
63.在本技术实施例中,通过预先训练的韵律检测模型对目标拼音信息以及目标情绪类别进行分析,得到初始文本对应的初始韵律结构,初始韵律结构包括:标记有韵律信息的词组序列。其中,韵律检测模型的训练方法如下:
64.首先获得训练文本样本,同时还需要获取训练文本样本中的标记信息,标记信息包括:拼音样本、情绪样本以及韵律信息样本。韵律信息样本包括:韵律词、语调短语、语法词等。具体的,获得训练文本样本后,先根据训练文本样本的语义内容获得该训练文本样本的韵律信息,以及韵律信息在训练文本样本中的位置,再将标记信息标记到训练文本样本。
65.然后将具有标记信息的训练文本样本输入预设模型,对预设模型进行训练;预设模型可以是基于支持向量机(svm)、循环神经网络(rnn)的深度学习方法等建立的神经网络
模型。将经过多次训练后的预设模型确定为韵律预测模型;多次训练后,直至预设模型对训练文本样本进行韵律检测能够得到准确的韵律信息,以能够对文本准确预测韵律信息的预设模型作为韵律预测模型。
66.在本发明实施例中,通过预先训练韵律结构预测模型,用于对语种字符库中的每一字符串进行韵律结构划分,从而保证后续在对语音合成步骤过程中所生成的合成语音的较好的自然度和流畅度。
67.步骤s12,获取初始文本对应的目标个性化语音,并确定目标个性化语音所包括每一个音素的对齐结果。
68.在本技术实施例中,初始文本对应的目标个性化语音可以是用户预先根据初始文本进行录制的音频。
69.在本技术实施例中,确定目标个性化语音所包括每一个音素的对齐结果,包括以下步骤b1-b3:
70.步骤b1,检测初始文本,得到初始文本对应的候选音素,并基于候选音素生成候选音素序列。
71.在本技术实施例中,基于候选音素生成候选音素序列,包括以下步骤b101-b102:
72.步骤b101,获取初始文本中的至少一个词组,并确定词组对应的音素组合。
73.步骤b102,获取词组在初始文本中的位置信息,并根据位置信息对音素组合进行排序,得到候选音素序列。
74.在本技术实施例中,候选音素指的是配音文本对应的每一个发音动作,候选因素集合则指的是配音文本对应的所有发音动作。例如:词组可以为“你们”,则候选音素为“n”,“i”,“m”,“e”,“n”,那么,候选因素集合包括:“n,i,m,e及n”。
75.步骤b2,获取目标个性化语音对应的音素序列。
76.步骤b3,将候选音素序列中的候选音素与音素序列中的音素进行对齐,得到目标个性化语音所包括的每一个音素的对齐结果。
77.在本技术实施例中,在得到初始文本对应的候选音素序列后,再利用目标个性化语音对应的音素序列与候选音素序列对齐,得到目标个性化语音所包括的每一个音素的对齐结果。例如:目标个性化语音为“唉,你们”的语音,则音素序列为:“a,i,n,i,m,e及n”。将候选因素集合“n,i,m,e及n”与候选因素集合包括:“n,i,m,e及n”进行对比,从而得到目标个性化语音所包括的每一个音素的对齐结果,对齐结果包括静音段音素的时间信息。
78.步骤s13,利用对齐结果修正初始文本对应的初始韵律结构,得到目标韵律结构,并基于目标音律结构生成目标文本。
79.在本技术实施例中,利用对齐结果修正初始文本对应的初始韵律结构,得到目标韵律结构,包括以下步骤c1-c2:
80.步骤c2,基于每个音素对应的对齐结果确定目标个性化语音当前存在的静音段音素,以及静音段音素对应的时间信息。
81.步骤c3,利用静音段音素以及静音段音素对应的时间信息修正初始文本对应的初始韵律结构,得到目标韵律结构。
82.在本技术实施例中,通过每个音素对应的对齐结果能够确定目标个性化语音当前存在的静音段音素,以及静音段音素对应的时间信息。例如:假设每个音素的时间长度为1
秒,音素序列“a,i,/,/,/,n,i,m,e及n”的时间长度为10秒。候选因素集合的时间长度为7秒“n,i,m,e及n”,由此可以确定静音段音素,以及静音段音素对应的时间信息为第3秒初至第5秒末,时间长度为3秒。
83.在本技术实施例中,然后利用静音段音素以及静音段音素对应的时间信息修正初始文本对应的初始韵律结构,得到目标韵律结构,并利用目标韵律结构生成目标文本,目标文本中携带静音段。
84.步骤s14,基于所述目标文本的目标韵律结构以及所述目标个性化语音训练预设神经网络模型,得到语音合成模型。
85.在本技术实施例中,基于所述目标文本的目标韵律结构以及所述目标个性化语音训练预设神经网络模型,得到语音合成模型,包括以下步骤d1-d3:
86.步骤d1,基于目标文本包含的字符生成字符序列样本,字符序列样本中包括至少一个由字符构成的词组;
87.步骤d2,将目标韵律结构确定为字符序列样本对应的标注信息;
88.步骤d3,将携带标注信息的字符序列样本以及目标个性化语音输入预设神经网络模型,以使预设神经网络模型学习字符序列序列中字符与目标韵律结构之间的关系,基于字符序列样本得到预测韵律结构,并利用预测音律结构与字符序列样本生成合成语音,在合成语音与目标个性化语音相匹配的情况下,得到语音合成模型。
89.本技术实施例提供的方法对个性化语音进行对齐,并通过对齐结果对初始韵律结构中不连贯的部分进行修正,通过目标文本保证录音和文本的韵律结构一致。保证利用修正后的韵律结构生成目标文本训练得到的语音合成模型,具有更好的语音合成效果,以及具有更高的鲁棒性。
90.具体的,在语音合成的过程中,获取输入文本,并获取输入文本对应的字符序列,利用语音合成模型对字符序列进行韵律结构预测,预测出输入文本的韵律结构;根据韵律结构和字符序列中的词组,合成输入文本对应的语音。
91.本技术实施例提供的方法,通过对个性化语音进行对齐,将出现不连贯的地方,反过来修正文本的韵律结构,保证录音和文本的韵律结构一致,提升个性化模型的合成效果和鲁棒性。
92.图2为本技术实施例提供的一种语音合成模型的训练装置的框图,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图2所示,该装置包括:
93.获取模块21,用于获取待处理的初始文本,并检测初始文本携带的字符,得到初始文本对应的初始韵律结构;
94.检测模块22,用于获取初始文本对应的目标个性化语音,并确定目标个性化语音所包括每一个音素的对齐结果;
95.处理模块23,用于利用对齐结果修正初始文本对应的初始韵律结构,得到目标韵律结构,并基于目标音律结构生成目标文本;
96.合成模块24,用于基于所述目标文本的目标韵律结构以及所述目标个性化语音训练预设神经网络模型,得到语音合成模型。
97.在本技术实施例中,获取模块21,用于提取初始文本所携带的每一个字符;利用预设单词库对初始文本中每个字符以及相邻字符进行检测,得到初始文本中的至少一个词
integrated circuit,简称asic)、现场可编程门阵列(field-programmable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
110.在本技术提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的语音合成模型的训练方法。
111.在本技术提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的语音合成模型的训练方法。
112.在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本技术实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solid state disk)等。
113.以上所述仅为本技术的较佳实施例而已,并非用于限定本技术的保护范围。凡在本技术的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本技术的保护范围内。
114.以上所述仅是本技术的具体实施方式,使本领域技术人员能够理解或实现本技术。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。