一种英语语音合成方法及系统与流程

文档序号：31868362发布日期：2022-10-21 16:17阅读：108来源：国知局

1.本发明涉及语音合成领域，具体涉及一种英语语音合成方法及系统。

背景技术：

2.语音合成是将输入的文本转换为标准流畅的人类语音的任务。语音合成系统的质量评价一般分为以下几个方面，自然度，鲁棒性以及生成语音的准确性。
3.传统的语音合成技术包括拼接法以及统计参数法。其中，拼接法通过事先录制好大量的语音，合成时根据文本内容选取大量的基本单元连接成流畅的语音，然而这种方法对录制的语音有较高覆盖率的要求，所建立的数据库也较为庞大，实际在设备上使用时往往会受到设备容量的限制；统计参数法则是根据统计模型来建立文本特征到声学特征的映射，再用这些声学特征还原成波形，此类方法不需要事先录制语音，但是合成语音的质量偏低。这些传统方法都是基于声学特征的分析以及合成来实现，这些方法由于具备鲁棒性强以及准确性强的特点，在工业界被较为广泛地使用。然而，这些方法共通的缺点是合成的语音在自然度上缺陷较大。
4.现有的英语语音合成模型存在以下问题：首先，缺乏对英语文本进行前端处理，导致文本中部分内容无法正确发音；其次，声学模型部分仍采用传统的合成技术，较低的自然度和复杂的合成流程已不满足现有需求；最后，声码器部分仍采用传统的声码器或者合成效率低的模型，在质量和性能上也难以满足需求。

技术实现要素：

5.因此，为了克服现有的英语语音合成模型无法准确的完成英文文本对应的正确发音，且效率低的缺陷，本发明提供一种英语语音合成方法及系统。
6.为达到上述目的，本发明提供如下技术方案：
7.第一方面，本发明实施例提供一种英语语音合成方法，包括:
8.将输入的英文文本分别进行数字处理、缩写处理和专有名词处理；
9.将处理后的英文文本中的英文字母和/音素到声学模型中得到英文文本对应的频谱特征，所述声学模型中包括与英文文本输入类型相同维度的embedding模块；
10.将所述频谱特征输入到声码器中，将所述频谱特征映射为语音。
11.优选地，对英文文本进行数字处理的过程，包括：将英文的数字读法划分为数字读法、数值读法和特殊读法，针对数字读法、数值读法设置相应的规则表进行匹配，如果匹配到数字后有表征单位的词，将数字串按照数值读法进行处理；如果匹配到数字前有表征内容属性的词或者是数字单独出现时，将数字串按照数值读法进行处理；针对特殊读法设置预设映射表，当匹配预设特殊表达词，包括：日期，电台，时间时通过查表的方式，找出特殊表达词对应的特殊读法。
12.优选地，所述对英文文本进行缩写处理的过程，包括：建立映射表，将缩写与对应的全拼对应起来，当检测到获取的文本中包含缩写时，通过查表得到的对应的全拼将缩写
进行替换。
13.优选地，所述对英文文本进行专有名词处理的过程，包括：建立预设专有名词映射表，将专有名词映射为对应发音的音素。
14.优选地，对所述声学模型训练的过程，包括：
15.训练时采用的英文数据集只有英文单词，没有音素，遍历输入的英文文本中每个句子里的单词，以预设的概率随机将句子中的单词替换为对应的音素，embedding模块将数据中由字母和音素组成的序列转为对应的向量进行后续的运算，来训练序列到序列带注意力机制的生成模型，得到的训练好的英文声学模型具备同时处理三种输入方式的能力。
16.优选地，所述声学模型采用序列到序列带注意力机制的生成模型tacotron 2，声码器采用基于流的生成模型waveglow。
17.优选地，所述声学模型采用按预设压缩比例进行压缩后的序列到序列带注意力机制的生成模型tacotron 2，声码器采用基于流的生成模型squeeze_wave。
18.优选地，所述tacotron2包括编码器encoder、解码器decoder及注意力模块attention，其中，编码器encoder包括：1层嵌入层、3层卷积层，1层双向长短期记忆层；解码器decoder包括：2层全连接层，2层单向长短期记忆层，1层映射层以及5层卷积层，将编码器encoder、解码器decoder中的卷积层的filter数量和lstm以及全连接层的hidden units数量压缩到原来的50％作为声学模型的网络结构。
19.第二方面，本发明实施例提供一种英语语音合成系统，包括：
20.英语前端处理模块，用于将输入的英文文本分别进行数字处理、缩写处理和专有名词处理；
21.声学模型模块，用于将处理后的英文文本中的英文字母和/音素到声学模型中得到英文文本对应的频谱特征，所述声学模型中包括与英文文本输入类型相同维度的embedding模块；
22.声码器模块，用于将所述频谱特征输入到声码器中，将所述频谱特征映射为语音。
23.第三方面，本发明实施例提供一种计算机设备，包括：至少一个处理器，以及与至少一个处理器通信连接的存储器，其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器执行本发明实施例第一方面所述的英语语音合成方法。
24.第六方面，本发明实施例提供一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，计算机指令用于使计算机执行第一方面所述的英语语音合成方法。。
25.本发明技术方案，具有如下优点：
26.本发明实施例提供的英语语音合成方法及系统，将输入的英文文本分别进行数字处理、缩写处理和专有名词处理；将处理后的英文文本中的英文字母和/音素到声学模型中得到英文文本对应的频谱特征，声学模型中包括与英文文本输入类型相同维度的embedding模块；将频谱特征输入到声码器中，将频谱特征映射为语音。本发明实施例通过用户输入的英文文本进行前端处理，提高了后续和成的准确率，针对端对端和移动端不同的应用场景，选取不同的声学模型和声码器的组合，能够满足对应的需求，提升英语语音合成的准确性，自然度以及合成效率。
等，模型同时具备以音素为输入和英文字母为输入的能力，因此可以降低模型合成语音出错的几率。
40.通过用户输入的英文文本进行前端处理，提高了后续和成的准确率。
41.步骤s2:将处理后的英文文本中的英文字母和/音素到声学模型中得到英文文本对应的频谱特征，所述声学模型中包括与英文文本输入类型相同维度的embedding模块。
42.本发明实施例中的声学模型编码器中包括了embedding模块等，在本发明实施例中提出的英语语音合成方法中，输入文本主要由英文字母和/或音素组成。其中，英文字母包括了26的字母，音素包括了cmu dict中出现的全部音素，根据文本中这些输入的种类设计了同样维度的embedding模块，以此在模型中使用对应的字向量来代表不同的字符。
43.为了使得声学模型同时处理三种输入方式进行合成的能力，本发明实施例提出了新的英文声学模型训练策略，训练的过程包括：
44.训练时采用的英文数据集只有英文单词，没有音素，遍历输入的英文文本中每个句子里的单词，以预设的概率(例如是50％)随机将句子中的单词替换为对应的音素(映射表为cmu dict，若单词为多音词则不进行替换，以此保证训练数据的可靠性))，embedding模块将数据中由字母和音素组成的序列转为对应的向量进行后续的运算，来训练序列到序列带注意力机制的生成模型，得到的训练好的英文声学模型具备同时处理三种输入方式的能力。
45.步骤s3:将所述频谱特征输入到声码器中，将所述频谱特征映射为语音。
46.本发明实施例中采用是基于流的生成模型，可以将频谱特征映射为高质量的语音。
47.在一具体实施例中，如果是针对端对端的英语语音合成，声学模型采用序列到序列带注意力机制的生成模型tacotron 2，声码器采用基于流的生成模型waveglow。tacotron 2是序列到序列带注意力机制的生成模型，实现了从文本到频谱特征的建模，经大量实验证明，此模型可以学习到文本到频谱之间的对齐，生成自然度高同时富有韵律的语音，符合现代语音合成对自然度的要求。waveglow是基于流的生成模型，可以将频谱特征映射为高质量的语音。与wavenet等神经网络声码器相比，waveglow具有非自回归的特点，从而拥有较高推理效率，可以满足实际生产环境中高并发的需求。
48.在一具体实施例中，如果是针对移动端的英语语音合成，由于移动端资源有限，所以需要对模型进行压缩，为了可以在移动端设备使用tacotron2模块，本发明实施例对模型的通道数进行了不同程度地裁剪，使得模型的计算量、参数量大大降低。为了提高自回归的推理效率，采取每一次解码多帧的策略，成倍地提高在移动端的推理速度，且几乎不损失声音质量，得益于以上两种策略，tacotron2模型可以在移动端设备进行低延迟的推理。
49.tacotron2模型包括：编码器encoder、解码器decoder及注意力模块attention，其中，编码器encoder包括：1层嵌入层、3层卷积层，1层双向长短期记忆层；解码器decoder包括：2层全连接层，2层单向长短期记忆层，1层映射层以及5层卷积层，在实际试验过程中，分别将encoder、decoder部分的卷积层filter数量减少为75％、50％、25％，以及将encoder、decoder部分lstm以及全连接层的hidden units数量减少为75％、50％、25％。最后实验得出，全部裁剪为50％得到的效果以及性能是最适合的移动端的参数。
[0050] 100％75％50％25％
encoder cnn512384256128encoder lstm512384256128decoder fc25619212864decoder lstm1024786512256decoder cnn512384256128
[0051]
因此，最终将编码器encoder、解码器decoder中的卷积层的filter数量和lstm以及全连接层的hidden units数量压缩到原来的50％作为声学模型的网络结构。
[0052]
移动端的声码器采用了squeeze_wave，squeeze_wave是基于流的生成模型，可以将频谱特征映射为高质量的语音。squeeze_wave是对waveglow进行了模型参数以及计算量的分析，采取了更高效的运算单元，所以在几乎不损失声音质量的前提下，大大降低了模型的参数量、计算量，使得其在移动端设备的实时性很高。与wavenet等神经网络声码器相比，squeeze_wave具有非自回归的特点，从而拥有较高推理效率，可以满足在移动端设备对实时率的要求。
[0053]
本发明实施例提供的英语语音合成方法，通过用户输入的英文文本进行前端处理，提高了后续和成的准确率，针对端对端和移动端不同的应用场景，选取了不同的声学模型和声码器的组合，能够满足对应的需求，提升英语语音合成的准确性，自然度以及合成效率。
[0054]
实施例2
[0055]
本发明实施例提供一种英语语音合成系统，如图2所示，包括：
[0056]
英语前端处理模块1，用于将输入的英文文本分别进行数字处理、缩写处理和专有名词处理；经过英语前端处理模块的处理，后续模块生成错误语音次数将会大大减少。此模块执行实施例1中的步骤1所描述的方法，在此不再赘述。
[0057]
声学模型模块2，用于将处理后的英文文本中的英文字母和/音素到声学模型中得到英文文本对应的频谱特征，所述声学模型中包括与英文文本输入类型相同维度的embedding模块；此模块执行实施例1中的步骤s2所描述的方法，在此不再赘述。
[0058]
声码器模块3，用于将所述频谱特征输入到声码器中，将所述频谱特征映射为语音；此模块执行实施例1中的步骤s3所描述的方法，在此不再赘述。
[0059]
本发明实施例提供的英语语音合成系统，通过设置英语前端处理模块提升了合成的准确率，通过声学模型模块提升了合成的自然度，通过声码器模块则提升了合成的效率。相比现有的系统，本发明实施例提供的系统兼具准确率高，自然度高，合成效率高的优点，可以满足不能情景下的使用需求。
[0060]
实施例3
[0061]
本发明实施例提供一种计算机设备，如图3所示，包括：至少一个处理器401，例如cpu(central processing unit，中央处理器)，至少一个通信接口403，存储器404，至少一个通信总线402。其中，通信总线402用于实现这些组件之间的连接通信。其中，通信接口403可以包括显示屏(display)、键盘(keyboard)，可选通信接口403还可以包括标准的有线接口、无线接口。存储器404可以是高速ram存储器(ramdom access memory，易挥发性随机存取存储器)，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器404可选的还可以是至少一个位于远离前述处理器401的存储装置。其中处理器
401可以执行实施例1所述的方法。存储器404中存储一组程序代码，且处理器401调用存储器404中存储的程序代码，以用于执行实施例1的英语语音合成方法。
[0062]
其中，通信总线402可以是外设部件互连标准(peripheral component interconnect，简称pci)总线或扩展工业标准结构(extended industry standard architecture，简称eisa)总线等。通信总线402可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一条线表示，但并不表示仅有一根总线或一种类型的总线。
[0063]
其中，存储器404可以包括易失性存储器(英文：volatile memory)，例如随机存取存储器(英文：random-access memory，缩写：ram)；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)，硬盘(英文：hard disk drive，缩写：hdd)或固降硬盘(英文：solid-state drive，缩写：ssd)；存储器404还可以包括上述种类的存储器的组合。其中，处理器401可以是中央处理器(英文：central processing unit，缩写：cpu)，网络处理器(英文：network processor，缩写：np)或者cpu和np的组合。
[0064]
其中，处理器401还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文：application-specific integrated circuit，缩写：asic)，可编程逻辑器件(英文：programmable logic device，缩写：pld)或其组合。上述pld可以是复杂可编程逻辑器件(英文：complex programmable logic device，缩写：cpld)，现场可编程逻辑门阵列(英文：field-programmable gate array，缩写：fpga)，通用阵列逻辑(英文：generic array logic,缩写：gal)或其任意组合。可选地，存储器404还用于存储程序指令。处理器401可以调用程序指令，实现如本技术执行实施例1的英语语音合成方法。
[0065]
本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机可执行指令，该计算机可执行指令可执行实施例1的英语语音合成方法。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(read-only memory，rom)、随机存储记忆体(random access memory，ram)、快闪存储器(flash memory)、硬盘(hard disk drive，缩写：hdd)或固降硬盘(solid-state drive，ssd)等；所述存储介质还可以包括上述种类的存储器的组合。
[0066]
显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：潘劲松龚科
技术所有人：暗物智能科技(广州)有限公司
我是此专利的发明人

上一篇：用于轨道交通的广播系统的测试系统及测试方法与流程
上一篇：一种豪萨语语音合成方法及系统与流程