一种语料库处理方法、装置及语音合成系统的制作方法
【专利摘要】本发明公开了一种语料库处理方法、装置及语音合成系统。其中该方法包括:采集所有领域的语句,获得第一海量文本;对所述第一海量文本进行语音合成,记录语音合成过程从原始语料库选取的预选单元的编号;统计原始语料库中每个预选单元的使用次数,从所述原始语料库中裁减掉语音合成过程中使用次数低于第一预设阈值的预选单元,得到第一语料库。本发明通过利用设计文本和相关算法检查语料库节点的覆盖情况,对于语料库中没有被挑选或挑选次数极少的节点进行删除,降低决策树和语料库的规模形成特定语料库,从而能够在保证合成效果的前提下提高语音合成效率。
【专利说明】一种语料库处理方法、装置及语音合成系统
【技术领域】
[0001] 本发明涉及语音合成【技术领域】,尤其涉及一种语料库处理方法、装置及语音合成 系统。
【背景技术】
[0002] 语音合成(Text To Speech,TTS)技术能够自动将任意文字实时转换为连续的自 然语音,是语音信息服务的高效便捷手段,非常符合信息时代海量数据、动态更新和个性化 查询的需求。
[0003] 基于单元选择的语音合成技术由于采用真人的发音片段作为语音合成的单元,所 以能够产生很高音质的合成语音,是目前应用比较成功的语音合成方法。在此基础上,为了 提高语音合成的自然度和可懂度,发展出了基于语料库的语音合成,代表了语音合成的最 商水平。
[0004] 在这种方法中,语音合成问题就转化为对语料库获取、标注、索引和搜索。为了得 到自然的合成语音,往往需要大量语音(在实际使用的GB级语料库中,会有几个至十几个 小时的语音)。在这样超大规模的音库中进行合成所必需的存储、加载和搜索比较耗时,因 此,大语料合成系统对硬件的要求较高。
[0005] 如果能在保证合成质量的前提下适当减小语料库,将使得大语料库合成方法具有 更好的适应性;如果能更进一步,在任何应用环境下给出大小合适的音库,将使得语料库合 成方法具有可伸缩性,这些都涉及到语音库去冗余或称语料库的裁剪问题。
[0006] 现有语料库的裁剪方法主要是利用了最大匹配技术和迭代的方法,通过最大匹配 技术找出在训练语料库中匹配程度最大的单元,根据统计原理从中得出使用次数最大的单 元,并把该单元添加到基础语料库中,循环迭代得到最终优化后的语料库。
[0007] 现有技术主要存在以下缺陷:
[0008] (1)通过最大匹配技术得到的单元可能不是使用次数最多的单元,这样语料库中 保存的单元不是最优的单元组合,而使用频度较高的单元可能会达不到匹配的要求而被裁 剪掉,还存在着大量其他因素的影响,这样就会导致合成效果达不到最好。
[0009] (2)通过迭代方法在训练语料库中得到最优的单元,实际操作过程中无法设置有 效的迭代门限和迭代次数,在保证合成效果可接受的情况下,也就无法有效控制裁剪的规 模和设计合理的裁剪策略,从而导致语言模型的规模和裁剪后的合成效果无法得到保证。
【发明内容】
[0010] 为了解决现有技术中语音合成效率较低、合成效果差的技术问题,本发明提出一 种语料库处理方法、装置及语音合成系统。
[0011] 本发明的一个方面,提供一种语料库处理方法,包括:
[0012] 采集所有领域的语句,获得第一海量文本;
[0013] 对所述第一海量文本进行语音合成,记录语音合成过程从原始语料库选取的预选 单元的编号;
[0014] 统计原始语料库中每个预选单元的使用次数,从所述原始语料库中裁减掉语音合 成过程中使用次数低于第一预设阈值的预选单元,得到第一语料库。
[0015] 本发明的另一个方面,提供一种语料库处理装置,包括:
[0016] 采集模块,用于采集所有领域的语句,获得第一海量文本;
[0017] 第一语音合成模块,用于对所述第一海量文本进行语音合成;
[0018] 第一记录模块,用于记录语音合成过程从原始语料库选取的预选单元的编号;
[0019] 第一统计模块,用于统计原始语料库中每个预选单元的使用次数;
[0020] 第一裁剪模块,用于从所述原始语料库中裁减掉语音合成过程中使用次数低于第 一预设阈值的预选单元,得到第一语料库。
[0021] 本发明的另一个方面,提供一种语音合成系统,包括:存储装置,如权利要求5或6 所述的语料库处理装置,合成处理装置,
[0022] 所述存储装置,用于存储原始语料库,存储经所述语料库处理装置处理后得到的 第一语料库;
[0023] 所述语料库处理装置,用于采集所有领域的语句,获得第一海量文本;对所述第一 海量文本进行语音合成,记录语音合成过程从原始语料库选取的预选单元的编号;统计原 始语料库中每个预选单元的使用次数,从所述原始语料库中裁减掉语音合成过程中使用次 数低于第一预设阈值的预选单元,得到第一语料库;
[0024] 合成处理装置,用于对需要进行语音合成的文本进行韵律分析,得到韵律信息;解 析韵律信息,从所述存储装置的第一语料库中选取预选单元;对所述预选单元进行拼接后 得到合成语音。
[0025] 本发明的语料库处理方法、装置及语音合成系统,通过利用设计文本和相关算法 检查语料库节点的覆盖情况,对于语料库中没有被挑选或挑选次数极少的节点进行删除, 降低决策树和语料库的规模形成特定语料库,从而能够在保证合成效果的前提下提高语音 合成效率。
【专利附图】
【附图说明】
[0026] 图1是本发明语料库处理方法实施例的流程图;
[0027] 图2是本发明语料库处理方法另一实施例的流程图;
[0028] 图3是本发明每个结点下预选单元的示意图;
[0029] 图4是本发明裁剪后每个结点下预选单元的示意图;
[0030] 图5是本发明语料库处理装置实施例的结构图;
[0031] 图6是本发明语音合成系统实施例的结构图。
【具体实施方式】
[0032] 以下结合附图对本发明进行详细说明。
[0033] 目前,语音合成主要采用基于波形的拼接技术,根据输入文本分析得到的韵律信 息,从预先录制和标注好的语料库中挑选合适的预选单元(每个预选单元用一个编号标 识),进行少量的调整(也可以不进行调整),然后拼接得到最终的合成语音。由于最终合成 语音中的预选单元都是直接从音库中复制过来的,其最大的优势就是在于保持了原始发音 人的音质。
[0034] 语音合成的主要流程包括:
[0035] A、首先通过韵律分析工具对输入文本进行处理,得到相应的韵律信息;
[0036] B、解析韵律信息,从预先录制和标注好的语料库中挑选合适的预选单元;
[0037] C、对预选单元进行代价计算,挑选出适合合成的单元,将这些单元拼接在一起,得 到最终的合成语音。
[0038] 本发明通过利用设计文本和相关算法检查语料库节点的覆盖情况,对于语料库中 没有被挑选或挑选次数极少的节点进行删除,降低决策树和语料库的规模形成特定语料 库,从而能够在保证合成效果的前提下提高语音合成效率。
[0039] 本发明中设计了两种文本:包括所有领域语句的第一海量文本及在预先设定的领 域中选择使用频率高于预设阈值的语句组成的第二海量文本,分别利用这两种文本对原始 语料库进行裁剪处理。
[0040] 如图1所示,本发明语料库处理方法实施例包括以下步骤:
[0041] 步骤102,采集所有领域的语句,获得第一海量文本;
[0042] 步骤104,对第一海量文本进行语音合成,具体包括:将第一海量文本中的文字信 息转换为韵律信息;解析韵律信息,根据韵律信息从原始语料库中挑选预选单元;将所述 预选单元拼接在一起,合成语音;
[0043] 步骤106,记录语音合成过程从原始语料库选取的预选单元的编号;
[0044] 步骤108,统计原始语料库中每个预选单元的使用次数;
[0045] 步骤110,从原始语料库中裁减掉语音合成过程中使用次数低于第一预设阈值的 预选单元,得到第一语料库。
[0046] 上述方法实施例,通过对原始语料库中未使用过或使用次数极少的预选单元进行 删除,降低语料库的规模,提高语料库中预选单元的有效性,从而能够在保证合成效果的前 提下提商合成效率。
[0047] 另外,由于上述原始语料库和第一语料库包含了所有领域的语句对应的预选单 元,如果只是针对某个领域的文本进行语音合成,采用上述原始语料库或第一语料库,合成 的效率仍然较低。因此,可以将第一语料库根据用户设定的领域做进一步的裁剪。
[0048] 如图2所示,本发明语料库处理方法实施例进一步包括以下步骤:
[0049] 步骤202,对第一语料库进行模型训练,得到第一语料库的决策树;
[0050] 构建新的决策树后,可以调整预选单元挑选时的回溯深度,提高决策树的聚合程 度,在达到音库裁剪要求的情况下,最大程度保证决策树的有效性。不同的回溯深度对应的 预选结果个数如下表1所示:
[0051] 表 1
[0052]
【权利要求】
1. 一种语料库处理方法,其特征在于,包括: 采集所有领域的语句,获得第一海量文本; 对所述第一海量文本进行语音合成,记录语音合成过程从原始语料库选取的预选单元 的编号; 统计原始语料库中每个预选单元的使用次数,从所述原始语料库中裁减掉语音合成过 程中使用次数低于第一预设阈值的预选单元,得到第一语料库。
2. 根据权利要求1所述的方法,其特征在于,还包括: 对所述第一语料库进行模型训练,得到所述第一语料库的决策树; 选择预设领域中使用频率高于第二预设阈值的语句,获得第二海量文本; 对所述第二海量文本进行语音合成,记录语音合成过程从第一语料库选取的预选单元 的编号; 统计第一语料库中每个预选单元的使用次数,根据预先设定的决策树中每个结点下预 选单元的保留个数,保留每个结点下使用次数较高的预设单元,裁减掉其他预设单元,得到 针对所述预设领域的第二语料库。
3. 根据权利要求2所述的方法,其特征在于,对所述第一海量文本或第二海量文本进 行语音合成包括: 将所述第一海量文本中或第二海量文本的文字信息转换为韵律信息; 解析所述韵律信息,根据所述韵律信息从所述原始语料库中挑选预选单元; 将所述预选单元拼接在一起,合成语音。
4. 根据权利要求2所述的方法,其特征在于,还包括: 当相邻结点下预选单元的个数之和小于或等于所述保留个数,将所述相邻结点的预选 单元合并。
5. -种语料库处理装置,其特征在于,包括: 采集模块,用于采集所有领域的语句,获得第一海量文本; 第一语音合成模块,用于对所述第一海量文本进行语音合成; 第一记录模块,用于记录语音合成过程从原始语料库选取的预选单元的编号; 第一统计模块,用于统计原始语料库中每个预选单元的使用次数; 第一裁剪模块,用于从所述原始语料库中裁减掉语音合成过程中使用次数低于第一预 设阈值的预选单元,得到第一语料库。
6. 根据权利要求5所述的装置,其特征在于,还包括: 决策树生成模块,用于对所述第一语料库进行模型训练,得到所述第一语料库的决策 树; 选择模块,用于选择预设领域中使用频率高于第二预设阈值的语句,获得第二海量文 本; 第二语音合成模块,用于对所述第二海量文本进行语音合成; 第二记录模块,用于记录语音合成过程从第一语料库选取的预选单元的编号; 第二统计模块,用于统计第一语料库中每个预选单元的使用次数; 第二裁剪模块,用于根据预先设定的决策树中每个结点下预选单元的保留个数,保留 每个结点下使用次数较高的预设单元,裁减掉其他预设单元,得到针对所述预设领域的第 二语料库。
7. -种语音合成系统,其特征在于,包括:存储装置,如权利要求5或6所述的语料库 处理装置,合成处理装置, 所述存储装置,用于存储原始语料库,存储经所述语料库处理装置处理后得到的第一 语料库; 所述语料库处理装置,用于采集所有领域的语句,获得第一海量文本;对所述第一海量 文本进行语音合成,记录语音合成过程从原始语料库选取的预选单元的编号;统计原始语 料库中每个预选单元的使用次数,从所述原始语料库中裁减掉语音合成过程中使用次数低 于第一预设阈值的预选单元,得到第一语料库; 合成处理装置,用于对需要进行语音合成的文本进行韵律分析,得到韵律信息;解析韵 律信息,从所述存储装置的第一语料库中选取预选单元;对所述预选单元进行拼接后得到 合成语音。
8. 根据权利要求7所述的系统,其特征在于,所述语料库处理装置,还用于对所述第一 语料库进行模型训练,得到所述第一语料库的决策树;选择预设领域中使用频率高于第二 预设阈值的语句,获得第二海量文本;对所述第二海量文本进行语音合成,记录语音合成过 程从第一语料库选取的预选单元的编号;统计第一语料库中每个预选单元的使用次数,根 据预先设定的决策树中每个结点下预选单元的保留个数,保留每个结点下使用次数较高的 预设单元,裁减掉其他预设单元,得到针对所述预设领域的第二语料库; 所述存储装置,用于存储针对所述预设领域的第二语料库; 合成处理装置,用于在进行所述预设领域的文本的语音合成时,从所述存储装置的第 二语料库中选取预选单元。
【文档编号】G10L13/06GK104103268SQ201310115665
【公开日】2014年10月15日 申请日期:2013年4月3日 优先权日:2013年4月3日
【发明者】赵黎, 万鹏, 周崎, 王韬, 朱玉成, 金文龙, 柯晓岚, 黄达志, 吴晓如, 赵志伟 申请人:中国移动通信集团安徽有限公司