基于人工智能的文言文语音合成方法、装置、设备及介质与流程

文档序号：32010093发布日期：2022-11-02 17:37阅读：50来源：国知局

1.本发明适用于人工智能领域，尤其涉及一种基于人工智能的文言文语音合成方法、装置、设备及介质。

背景技术：

2.语音合成是一种将文本信息转换为语音信息的技术，文言文作为一种字少意深、音单义广、注重典故的文本内容，具备较高的韵律感。
3.目前主流的语音合成技术以字或者以法语词为切分单位对文本进行切分，并根据切分结果生成对应语音，但文言文文本骈骊对仗、音律工整，具备较高的韵律感，以字或者以法语词为切分单位合成的语音，大大降低了文言文合成语音的韵律性。
4.因此，在语音合成技术领域，如何提升文言文合成语音的韵律性成为亟待解决的问题。

技术实现要素：

5.有鉴于此，本发明实施例提供了一种基于人工智能的文言文语音合成方法、装置、设备及介质，以解决文言文合成语音的韵律性较低的问题。
6.第一方面，本发明实施例提供一种基于人工智能的文言文语音合成方法，所述文言文语音合成方法包括：
7.获取待合成语音的文言文序列，将所述文言文序列输入至训练好的韵律层级预测模型，得到所述文言文序列的n个韵律层级特征向量，所述韵律层级包括音素级别、字级别和词级别，n为大于1的整数；
8.将所述文言文序列和所述n个韵律层级特征向量输入至训练好的分词模型中，得到与n个韵律层级特征向量对应的n个分词组合，所述分词组合包括音素组合、字组合和词组合；
9.将所述n个韵律层级特征向量和所述n个分词组合输入至训练好的韵律情感预测模型，得到所述文言文序列的韵律情感向量；
10.将所述文言文序列输入至训练好的音节转换模型中，得到音节序列；
11.将所述韵律情感向量和所述音节序列输入至训练好的语音合成模型中，得到文言文合成语音。
12.第二方面，本发明实施例提供一种基于人工智能的文言文语音合成装置，所述文言文语音合成装置包括：
13.韵律层级确定模块，用于获取待合成语音的文言文序列，将所述文言文序列输入至训练好的韵律层级预测模型，得到所述文言文序列的n个韵律层级特征向量，所述韵律层级包括音素级别、字级别和词级别，n为大于1的整数；
14.分词组合确定模块，用于将所述文言文序列和所述n个韵律层级特征向量输入至训练好的分词模型中，得到与n个韵律层级特征向量对应的n个分词组合，所述分词组合包
括音素组合、字组合和词组合；
15.韵律情感向量确定模块，用于将所述n个韵律层级特征向量和所述n个分词组合输入至训练好的韵律情感预测模型，得到所述文言文序列的韵律情感向量；
16.音节序列确定模块，用于将所述文言文序列输入至训练好的音节转换模型中，得到音节序列；
17.文言文语音合成模块，用于将所述韵律情感向量和所述音节序列输入至训练好的语音合成模型中，得到文言文合成语音。
18.第三方面，本发明实施例提供一种计算机设备，所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的文言文语音合成方法。
19.第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的文言文语音合成方法。
20.本发明实施例与现有技术相比存在的有益效果是：通过将文言文序列输入至训练好的韵律层级预测模型，得到n个韵律层级特征向量，然后将文言文序列和n个韵律层级特征向量输入至训练好的分词模型中，得到对应的n个分词组合，将n个韵律层级特征向量和n个分词组合输入至训练好的韵律情感预测模型，得到文言文序列的韵律情感向量，将文言文序列输入至训练好的音节转换模型中，得到音节序列，最终将韵律情感向量和音节序列输入至训练好的语音合成模型中，得到文言文合成语音，根据文言文序列的韵律层级进行文言文序列的切分，保证了切分结果的自然性和准确性，提升了文言文合成语音的韵律性。
附图说明
21.为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
22.图1是本发明实施例一提供的一种基于人工智能的文言文语音合成方法的一应用环境示意图；
23.图2是本发明实施例一提供的一种基于人工智能的文言文语音合成方法的流程示意图；
24.图3是本发明实施例二提供的一种基于人工智能的文言文语音合成装置的结构示意图；
25.图4是本发明实施例三提供的一种计算机设备的结构示意图。
具体实施方式
26.以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。
27.应当理解，当在本发明说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
28.还应当理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。
29.如在本发明说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
[0030]
另外，在本发明说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。
[0031]
在本发明说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本发明的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。
[0032]
本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
[0033]
应理解，以下实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。
[0034]
为了说明本发明的技术方案，下面通过具体实施例来进行说明。
[0035]
本发明实施例一提供的一种基于人工智能的文言文语音合成方法，可应用在如图1的应用环境中，其中，客户端与服务端进行通信。其中，客户端包括但不限于掌上电脑、桌上型计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，umpc)、上网本、云端计算机设备、个人数字助理(personal digital assistant，pda)等计算机设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
[0036]
参见图2，是本发明实施例一提供的一种基于人工智能的文言文语音合成方法的流程示意图，上述文言文语音合成方法可以应用于图1中的客户端，该文言文语音合成方法可以包括以下步骤：
[0037]
步骤s201，获取待合成语音的文言文序列，将文言文序列输入至训练好的韵律层级预测模型，得到文言文序列的n个韵律层级特征向量。
[0038]
其中，文言文作为一种字少意深、音单义广、注重典故的文本内容，骈骊对仗、音律工整，具备较高的韵律感，在文言文语音合成技术中，为了提高生成的文言文语音的自然性、流畅性和韵律性，需要按照文言文序列本身的韵律感，将待合成语音的文言文序列切分为多个文本单位。
[0039]
其中，韵律层级包括音素级别、字级别和词级别，对于待合成语音的文言文序列，可按照不同的韵律层级规则对文言文序列进行韵律标注，以得到对应的韵律层级特征向量，例如，采用#作为韵律标识，当文言文序列为“长风破浪会有时”，即“changfengpolanghui you shi”时，按照音素级别对文言文序列进行韵律标注，即可得到韵律层级标注结果为“chang f eng#p o l ang hui#y oush i”，按照字级别对文言文序列进行韵律标注，即可得到韵律层级标注结果为“changfeng#polanghui#you shi”，按照词级别对文言文序列进行韵律标注，即可得到韵律层级标注结果为“《changfeng》#《polang》《hui》#《you shi》”，进一步地，对韵律层级标注结果进行特征提取，即可得到文言文序列对应的韵律层级特征向量。
[0040]
由于人工进行韵律标注的工作量大且准确率低，因此，本实施例采用人工标注的训练样本对韵律层级预测模型进行训练，根据训练好的韵律层级预测模型直接对待合成语音的文言文序列进行特征提取，以得到文言文序列的n个韵律层级特征向量。
[0041]
具体地，将获取的待合成语音的文言文序列输入至训练好的韵律层级预测模型，提取文言文序列的特征，以输出文言文序列的n个韵律层级特征向量，其中，n为大于1的整数。
[0042]
可选的是，韵律层级预测模型包括第一编码器和第一解码器，以文言文样本序列为训练样本，以文言文样本序列的n个实际韵律层级特征向量作为训练标签，对韵律层级预测模型进行训练。
[0043]
其中，文言文样本序列的n个实际韵律层级特征向量，是由对文言文样本序列进行各个韵律层级的判断后，将韵律层级判断结果通过词向量技术转换为特征向量得到的，得到训练样本中所有文言文样本序列的实际韵律层级特征向量，作为韵律层级预测模型在训练过程中的参数优化基础，以提高该韵律层级预测模型提取的韵律层级特征向量的准确度。
[0044]
可选的是，韵律层级预测模型的训练过程包括：
[0045]
将文言文样本序列输入至第一编码器进行特征提取，得到样本文本特征向量；
[0046]
对样本文本特征向量进行高斯采样，得到样本文本特征采样结果，并将样本文本特征采样结果输入至第一解码器进行重构，在第一解码器的n个输出层分别输出文言文样本序列的n个韵律层级特征向量；
[0047]
根据文言文样本序列的n个韵律层级特征向量和n个实际韵律层级特征向量计算第一损失函数，根据梯度下降法反向修正第一编码器和第一解码器的参数，直至第一损失函数收敛，得到训练好的韵律层级预测模型。
[0048]
其中，韵律层级预测模型的训练样本为大量的文言文样本序列，将各个文言文样本序列分别输入至第一编码器进行特征提取，得到样本文本特征向量，并对样本文本特征向量进行高斯采样，得到样本文本特征采样结果，通过将样本文本特征采样结果输入至第一解码器进行重构，在第一解码器的n个输出层分别输出文言文样本序列的n个韵律层级特征向量，其中，韵律层级包括音素级别、字级别和词级别，因此，即可对应得到文言文样本序列的音素特征向量、字特征向量和词特征向量。
[0049]
同时，为了提升该韵律层级预测模型提取的韵律层级特征向量的准确度，根据获得的n个韵律层级特征向量和n个实际韵律层级特征向量之间的差异计算第一损失函数，其
中，第一损失函数越小，说明提取的n个韵律层级特征向量的准确度越高，反之，第一损失函数越大，说明提取的n个韵律层级特征向量的准确度越低，需要根据梯度下降法反向修正第一编码器和第一解码器的参数，直至第一损失函数收敛，以提高该韵律层级预测模型的特征提取准确度，最终得到训练好的韵律层级预测模型。
[0050]
可选的是，根据文言文样本序列的n个韵律层级特征向量和n个实际韵律层级特征向量计算第一损失函数包括：
[0051]
计算各个韵律层级特征向量与对应的实际韵律层级特征向量之间的相似度；
[0052]
比较各个韵律层级特征向量的韵律层级和对应的各个实际韵律层级特征向量的韵律层级是否一致；
[0053]
若比较结果为一致，设置各个韵律层级特征向量的重置相似度为各个相似度；
[0054]
若比较结果为不一致，设置各个韵律层级特征向量的重置相似度为0；
[0055]
计算n个重置相似度和预设的相似度阈值之间的n个差值，将n个差值的和记为第一损失函数。
[0056]
其中，文言文样本序列的n个韵律层级特征向量和n个实际韵律层级之间的差异越小，对应的第一损失函数越小，因此，首先计算各个韵律层级特征向量与对应的实际韵律层级特征向量之间的相似度，其中，相似度计算方法可根据实际情况进行设定，例如，余弦相似度、皮尔逊相关系数、曼哈顿距离和欧式距离，然后比较各个韵律层级特征向量和对应的各个实际韵律层级特征向量的韵律层级是否一致，若比较结果为一致，则文言文样本序列的n个韵律层级特征向量和n个实际韵律层级特征向量之间的差异，可根据各个韵律层级特征向量与对应的实际韵律层级特征向量之间的相似度进行表征，通过设置各个韵律层级特征向量的重置相似度为各个相似度，来计算n个重置相似度和预设的相似度阈值之间的n个差值，并将n个差值的和记为第一损失函数；若比较结果为不一致，则通过设置各个韵律层级特征向量的重置相似度为0，计算n个重置相似度和预设的相似度阈值之间的n个差值，并将n个差值的和记为第一损失函数。其中，相似度阈值可根据实际情况进行设定，本实施例中设定相似度阈值为1。
[0057]
举例说明，在韵律层级预测模型的训练过程中，为了提升该韵律层级预测模型的特征提取准确度，对于文言文样本序列的n个韵律层级特征向量，将其中第i(i＝1，2，
…
，n)个韵律层级特征向量记为yi，对于文言文样本序列的n个实际韵律层级特征向量，将其中与第i个韵律层级特征向量对应的第i个实际韵律层级特征向量记为si，则计算第i个韵律层级特征向量和第i个实际韵律层级特征向量之间的余弦相似度，作为第i个相似度xi：
[0058][0059]
式中，yi为第i个韵律层级特征向量，si为第i个实际韵律层级特征向量。
[0060]
然后，比较第i个韵律层级特征向量和第i个实际韵律层级特征向量的韵律层级是否一致，若比较结果为一致，设置第i个韵律层级特征向量的重置相似度ci为第i个相似度xi，即ci＝xi；若比较结果为不一致，设置第i个韵律层级特征向量的重置相似度ci为0，即ci＝0。
[0061]
根据实际情况预设相似度阈值c0为1，计算第i个韵律层级特征向量的重置相似度ci和预设的相似度阈值c0之间的差值，并记为zi，则第i个韵律层级特征向量对应的差值zi为：
[0062]
zi＝c
0-ci[0063]
式中，c0为预设的相似度阈值，ci为第i个韵律层级特征向量的重置相似度。
[0064]
通过计算得到n个韵律层级特征向量对应的差值z1，z2，
…
，zn，则将n个差值相加即可得到第一损失函数loss1：
[0065][0066]
式中，n为差值总数量，zi为第i个韵律层级特征向量对应的差值。
[0067]
步骤s202，将文言文序列和n个韵律层级特征向量输入至训练好的分词模型中，得到与n个韵律层级特征向量对应的n个分词组合。
[0068]
其中，韵律层级包括音素级别、字级别和词级别，对应地，分词组合包括音素组合、字组合和词组合。
[0069]
当根据不同的切分规则对同样的文言文序列进行切分时，可以得到不同层级的文本切分结果，其中，音素组合是按照音素切分规则对文言文序列进行切分后，得到的文本切分结果，字组合是按照字切分规则对文言文序列进行切分后，得到的文本切分结果，词组合是按照词切分规则对文言文序列进行切分后，得到的文本切分结果。例如，当文言文序列为“长风破浪会有时”，即“changfengpolanghui you shi”时，音素组合为“chang f eng p o l ang h uiy oush i”，字组合为“changfengpolanghuiyou shi”，词组合为“《changfeng》《polang》《hui》《you shi》”。
[0070]
对于待合成语音的文言文序列，通过训练好的韵律层级预测模型得到了对应的n个韵律层级特征向量，进一步地，获得该n个韵律层级特征向量对应的n个分词组合，即可基于文言文序列蕴含的韵律结构对文言文序列进行切分，以提升后续合成语音的韵律性。
[0071]
具体地，将待合成语音的文言文序列和对应的n个韵律层级特征向量输入至训练好的分词模型中，以输出与n个韵律层级特征向量对应的n个分词组合。
[0072]
可选的是，分词模型包括第三编码器和第三解码器，以文言文样本序列和对应的n个韵律层级特征向量为训练样本，以文言文样本序列的n个实际分词组合作为训练标签，对分词模型进行训练。
[0073]
其中，文言文样本序列的n个实际分词组合，是对文言文样本序列按照不同层级的切分规则切分后得到的文本切分结果，作为分词模型在训练过程中的参数优化基础，以提高该分词模型得到的分词组合的准确度。
[0074]
可选的是，分词模型的训练过程包括：
[0075]
将文言文样本序列和对应的n个韵律层级特征向量输入至第三编码器进行特征提取，得到样本切分特征向量；
[0076]
对样本切分特征向量进行高斯采样，得到样本切分特征采样结果，并将样本切分特征采样结果输入至第三解码器进行重构，在第三解码器的n个输出层分别输出文言文样本序列的n个样本分词组合；
[0077]
根据文言文样本序列的n个样本分词组合和n个实际分词组合计算第三损失函数，根据梯度下降法反向修正第三编码器和第三解码器的参数，直至第三损失函数收敛，得到训练好的分词模型。
[0078]
其中，分词模型的训练样本为大量的文言文样本序列和对应的n个韵律层级特征向量，得到的样本分词组合包括音素组合、字组合和词组合。同时，为了提升该分词模型的分词准确度，根据文言文样本序列的n个样本分词组合和n个实际分词组合计算第三损失函数，其中，第三损失函数越小，说明得到的n个样本分词组合的准确度越高，反之，第三损失函数越大，说明得到的n个样本分词组合的准确度越低，需要根据梯度下降法反向修正第三编码器和第三解码器的参数，直至第三损失函数收敛，得到训练好的分词模型。
[0079]
可选的是，根据文言文样本序列的n个样本分词组合和n个实际分词组合计算第三损失函数包括：
[0080]
根据词向量技术将n个样本分词组合转换为n个样本分词向量，将n个实际分词组合转换为n个实际分词向量；
[0081]
分别计算各个样本分词向量和各个实际分词向量之间的分词相似度；
[0082]
计算n个分词相似度和预设的分词相似度阈值之间的n个分词差值，将n个分词差值的和记为第三损失函数。
[0083]
其中，词向量技术将文本表示成一系列能够表达文本语义的向量，例如，word2vec(一种词向量模型)，各个样本分词向量和各个实际分词向量之间的分词相似度越小，该分词模型的分词准确度越高，即第三损失函数越小，因此，根据词向量技术将n个样本分词组合转换为n个样本分词向量，将n个实际分词组合转换为n个实际分词向量后，分别计算各个样本分词向量和各个实际分词向量之间的分词相似度，并将n个分词相似度和预设的分词相似度阈值之间的n个分词差值之和记为第三损失函数，用于反向修正第三编码器和第三解码器的参数，直至第三损失函数收敛，得到训练好的分词模型。
[0084]
举例说明，在分词模型的训练过程中，为了提升该分词模型对文言文序列的切分准确率，根据word2vec技术将n个样本分词组合转换为n个样本分词向量，将n个实际分词组合转换为n个实际分词向量，并将其中第i个样本分词向量记为fi，将第i个实际分词向量记为ji，则计算第i个样本分词向量和第i个实际分词向量之间的余弦相似度，作为第i个分词相似度di：
[0085][0086]
式中，fi为第i个样本分词向量，ji为第i个实际分词向量。
[0087]
根据实际情况预设分词相似度阈值为d0＝1，计算第i个分词相似度di和预设的分词相似度阈值d0之间的差值，并记为δdi，则第i个样本分词组合对应的分词损失δdi为：
[0088]
δdi＝d
0-di[0089]
式中，d0为预设的分词相似度阈值，di为第i个分词相似度。
[0090]
通过计算得到n个分词损失δd1，δd2，
…
，δdn，则将n个分词损失相加即可得到第三损失函数loss3：
[0091][0092]
式中，n为分词损失总数量，δdi为第i个分词损失。
[0093]
步骤s203，将n个韵律层级特征向量和n个分词组合输入至训练好的韵律情感预测
模型，得到文言文序列的韵律情感向量。
[0094]
其中，同一个文言文序列的n个韵律层级特征向量和n个分词组合一一对应，用来确定该文言文序列的韵律层级，以及各个韵律层级对应的不同切分结果，更全面地表征该文言文序列所蕴含的韵律情感。因此，将n个韵律层级特征向量和n个分词组合输入至训练好的韵律情感预测模型，最终输出文言文序列的韵律情感向量。
[0095]
可选的是，n个韵律层级特征向量和n个分词组合输入至训练好的韵律情感预测模型包括：
[0096]
根据词向量技术将n个分词组合转换为n个分词向量；
[0097]
根据n个韵律层级特征向量和对应的n个分词向量得到n个向量组合；
[0098]
将基于n个向量组合得到的向量组合序列输入至训练好的韵律情感预测模型。
[0099]
其中，分词组合为文言文序列中的部分文本内容，因此，首先根据词向量技术将n个分词组合转换为n个分词向量，并根据韵律层级特征向量和对应的分词向量得到对应的向量组合，以得到n个向量组合，将基于n个向量组合得到的向量组合序列，作为训练好的韵律情感预测模型的输入量，以输出对应文言文序列的韵律情感向量，用于表征文言文序列中蕴含的韵律情感。
[0100]
其中，韵律情感，例如，平、仄、疏、密、急、缓，将文言文序列中蕴含的韵律情感按照顺序组成对应的韵律情感序列，即可根据词向量技术将韵律情感序列准换成韵律情感向量。
[0101]
可选的是，韵律情感预测模型包括第二编码器和第二解码器，以样本韵律层级特征向量和对应的样本分词组合得到的样本向量组合序列为训练样本，以文言文样本序列的实际韵律情感向量作为训练标签，对韵律情感预测模型进行训练。
[0102]
其中，文言文样本序列的实际韵律情感向量，是通过人工对文言文样本进行实际韵律情感标注后，将实际韵律情感序列通过词向量技术转换成向量后得到的，作为韵律情感预测模型在训练过程中的参数优化基础，以提高该韵律情感预测模型得到的韵律情感向量的准确度。
[0103]
可选的是，韵律情感预测模型的训练过程包括：
[0104]
将样本韵律层级特征向量和对应的样本分词组合得到的样本向量组合序列输入至第二编码器进行特征提取，得到样本韵律情感特征向量；
[0105]
对样本韵律情感特征向量进行高斯采样，得到样本韵律情感特征采样结果，并将样本韵律情感特征采样结果输入至第二解码器进行重构，输出文言文样本序列的样本韵律情感向量；
[0106]
根据文言文样本序列的样本韵律情感向量和实际韵律情感向量计算第二损失函数，根据梯度下降法反向修正第二编码器和第二解码器的参数，直至第二损失函数收敛，得到训练好的韵律情感预测模型。
[0107]
其中，韵律情感预测模型的训练样本为大量的样本韵律层级特征向量和对应的样本分词组合得到的样本向量组合序列，同时，为了提升韵律情感向量的准确度，根据文言文样本序列的样本韵律情感向量和实际韵律情感向量之间的向量相似度计算第二损失函数，其中，向量相似度越小，第二损失函数越小，说明得到的样本韵律情感向量的准确度越高，反之，向量相似度越大，第二损失函数越大，说明得到的样本韵律情感向量的准确度越低，
需要根据梯度下降法反向修正第二编码器和第二解码器的参数，直至第二损失函数收敛，得到训练好的韵律情感预测模型。
[0108]
步骤s204，将文言文序列输入至训练好的音节转换模型中，得到音节序列。
[0109]
其中，文言文序列的音节序列是文言文语音的生成基础，因此，将文言文序列输入至训练好的音节转换模型中，得到音节序列，以实现文言文序列到文言文语音的转换。
[0110]
可选的是，音节转换模型包括第四编码器和第四解码器，以文言文样本序列为训练样本，以文言文样本序列的实际音节序列作为训练标签，对分词模型进行训练。
[0111]
其中，文言文样本序列的实际音节序列，是通过人工对文言文序列进行音节标注后得到的，作为音节转换模型在训练过程中的参数优化基础，以提高该音节转换模型得到的音节序列的准确度。
[0112]
可选的是，音节转换模型的训练过程包括：
[0113]
将文言文样本序列输入至第四编码器进行特征提取，得到样本音节特征向量；
[0114]
对样本音节特征向量进行高斯采样，得到样本音节特征采样结果，并将样本音节特征采样结果输入至第四解码器进行重构，输出文言文样本序列的样本音节序列；
[0115]
根据文言文样本序列的样本音节序列和实际音节序列计算第四损失函数，根据梯度下降法反向修正第四编码器和第四解码器的参数，直至第四损失函数收敛，得到训练好的音节转换模型。
[0116]
其中，音节转换模型的训练样本为大量的文言文样本序列，同时，为了提升音节序列的准确度，根据文言文样本序列的样本音节序列和实际音节序列之间的序列相似度计算第四损失函数，其中，序列相似度越小，第四损失函数越小，说明得到的样本音节序列的准确度越高，反之，序列相似度越大，第四损失函数越大，说明得到的样本音节序列的准确度越低，需要根据梯度下降法反向修正第四编码器和第四解码器的参数，直至第四损失函数收敛，得到训练好的音节转换模型。
[0117]
步骤s205，将韵律情感向量和音节序列输入至训练好的语音合成模型中，得到文言文合成语音。
[0118]
其中，韵律情感向量用来表征文言文序列中蕴含的韵律情感特征，音节序列用来表征文言文序列的音节特征，通过将韵律情感向量和音节序列输入至训练好的语音合成模型中，即可得到符合韵律情感的文言文合成语音，大大提高了文言文合成语音的韵律性。
[0119]
可选的是，语音合成模型包括语音特征预测子模型和声码器：
[0120]
语音特征预测子模型用于输入韵律情感向量和音节序列，输出语音特征预测值；
[0121]
声码器用于输入语音特征预测值，输出文言文合成语音。
[0122]
其中，语音特征预测子模型用于对韵律情感向量和音节序列进行特征提取，得到语音特征预测值，例如tacotron2(一种语音生成模型)；声码器用于对语音特征预测值进行特征提取，得到文言文合成语音，例如waveglow(一种语音生成模型)。其中，tacotron2和waveglow的结构和训练过程为现有技术，在此不再赘述。
[0123]
本发明实施例通过将文言文序列输入至训练好的韵律层级预测模型，得到文言文序列n个韵律层级特征向量，然后将文言文序列和n个韵律层级特征向量输入至训练好的分词模型中，得到与n个韵律层级特征向量对应的n个分词组合，并将n个韵律层级特征向量和n个分词组合输入至训练好的韵律情感预测模型，得到文言文序列的韵律情感向量，进而将
文言文序列输入至训练好的音节转换模型中，得到音节序列，最终将韵律情感向量和音节序列输入至训练好的语音合成模型中，得到文言文合成语音，通过根据文言文序列的韵律层级进行文言文序列的切分，保证了切分结果的自然性和准确性，提升了文言文合成语音的韵律性。
[0124]
对应于上文实施例的文言文语音合成方法，图3给出了本发明实施例二提供的基于人工智能的文言文语音合成装置的结构框图，为了便于说明，仅示出了与本发明实施例相关的部分。
[0125]
参见图3，该文言文语音合成装置包括：
[0126]
韵律层级确定模块31，用于获取待合成语音的文言文序列，将文言文序列输入至训练好的韵律层级预测模型，得到文言文序列的n个韵律层级特征向量，韵律层级包括音素级别、字级别和词级别，n为大于1的整数；
[0127]
分词组合确定模块32，用于将文言文序列和n个韵律层级特征向量输入至训练好的分词模型中，得到与n个韵律层级特征向量对应的n个分词组合；
[0128]
韵律情感向量确定模块33，用于将n个韵律层级特征向量和n个分词组合输入至训练好的韵律情感预测模型，得到文言文序列的韵律情感向量；
[0129]
音节序列确定模块34，用于将文言文序列输入至训练好的音节转换模型中，得到音节序列；
[0130]
文言文语音合成模块35，用于将韵律情感向量和所述音节序列输入至训练好的语音合成模型中，得到文言文合成语音。
[0131]
可选的是，上述韵律层级确定模块31包括：
[0132]
第一模型训练子模块，用于确定韵律层级预测模型包括第一编码器和第一解码器，以文言文样本序列为训练样本，以文言文样本序列的n个实际韵律层级特征向量作为训练标签，对韵律层级预测模型进行训练。
[0133]
可选的是，上述第一模型训练子模块包括：
[0134]
样本文本特征向量确定单元，用于将文言文样本序列输入至第一编码器进行特征提取，得到样本文本特征向量；
[0135]
韵律层级确定单元，用于对样本文本特征向量进行高斯采样，得到样本文本特征采样结果，并将样本文本特征采样结果输入至第一解码器进行重构，在第一解码器的n个输出层分别输出文言文样本序列的n个韵律层级特征向量；
[0136]
参数修正单元，用于根据文言文样本序列的n个韵律层级特征向量和n个实际韵律层级特征向量计算第一损失函数，根据梯度下降法反向修正第一编码器和第一解码器的参数，直至第一损失函数收敛，得到训练好的韵律层级预测模型。
[0137]
可选的是，上述参数修正单元包括：
[0138]
相似度计算子单元，用于计算各个韵律层级特征向量与对应的实际韵律层级特征向量之间的相似度；
[0139]
韵律层级比较子单元，用于比较各个韵律层级特征向量的韵律层级和对应的各个实际韵律层级特征向量的韵律层级是否一致；
[0140]
相似度重置子单元，用于若比较结果为一致，设置各个韵律层级特征向量的重置相似度为各个相似度；若比较结果为不一致，设置各个韵律层级特征向量的重置相似度为
0；
[0141]
第一损失函数计算子单元，用于计算n个重置相似度和预设的相似度阈值之间的n个差值，将n个差值的和记为第一损失函数。
[0142]
可选的是，上述韵律情感向量确定模块33包括：
[0143]
向量转换子模块，用于根据词向量技术将n个分词组合转换为n个分词向量；
[0144]
向量组合确定子模块，用于根据n个韵律层级特征向量和对应的n个分词向量得到n个向量组合；
[0145]
模型输入子模块，用于将基于n个向量组合得到的向量组合序列输入至训练好的韵律情感预测模型。
[0146]
第二模型训练子模块，用于确定韵律情感预测模型包括第二编码器和第二解码器，以样本韵律层级和对应的样本分词组合得到的样本向量组合序列为训练样本，以文言文样本序列的实际韵律情感向量作为训练标签，对韵律情感预测模型进行训练。
[0147]
可选的是，上述文言文语音合成模块35包括：
[0148]
特征预测值确定子模块，用于确定语音特征预测子模型用于输入韵律情感向量和音节序列，输出语音特征预测值；
[0149]
文言文语音合成子模块，用于确定声码器用于输入语音特征预测值，输出文言文合成语音。
[0150]
需要说明的是，上述模块之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。
[0151]
图4为本发明实施例三提供的一种计算机设备的结构示意图。如图4所示，该实施例的计算机设备包括：至少一个处理器(图4中仅示出一个)、存储器以及存储在存储器中并可在至少一个处理器上运行的计算机程序，处理器执行计算机程序时实现上述任意各个文言文语音合成方法实施例中的步骤。
[0152]
该计算机设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，图4仅仅是计算机设备的举例，并不构成对计算机设备的限定，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括网络接口、显示屏和输入装置等。
[0153]
所称处理器可以是cpu，该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field-programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0154]
存储器包括可读存储介质、内存储器等，其中，内存储器可以是计算机设备的内存，内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。可读存储介质可以是计算机设备的硬盘，在另一些实施例中也可以是计算机设备的外部存储设备，例如，计算机设备上配备的插接式硬盘、智能存储卡(smart media card，smc)、安全数字(secure digital，sd)卡、闪存卡(flash card)等。进一步地，存储器还可以既包括计算机设备的内部存储单元也包括外部存储设备。存储器用于存储操作系统、应用程序、引导装载
程序(bootloader)、数据以及其他程序等，该其他程序如计算机程序的程序代码等。存储器还可以用于暂时地存储已经输出或者将要输出的数据。
[0155]
所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。上述装置中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质至少可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、计算机存储器、只读存储器(read-only memory，rom)、随机存取存储器(random access memory，ram)、电载波信号、电信信号以及软件分发介质。例如u盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。
[0156]
本发明实现上述实施例方法中的全部或部分流程，也可以通过一种计算机程序产品来完成，当计算机程序产品在计算机设备上运行时，使得计算机设备执行时实现可实现上述方法实施例中的步骤。
[0157]
在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。
[0158]
本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。
[0159]
在本发明所提供的实施例中，应该理解到，所揭露的装置/计算机设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/计算机设备实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。
[0160]
作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0161]
以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张旭龙王健宗
技术所有人：平安科技（深圳）有限公司
我是此专利的发明人

上一篇：一种虚拟电厂用高效散热的站端接入设备的制作方法
上一篇：一种心内科患者锻炼设备的制作方法