基于人工智能的字母音素转换模型生成方法及装置的制造方法

文档序号:9826926阅读:1459来源:国知局
基于人工智能的字母音素转换模型生成方法及装置的制造方法
【技术领域】
[0001] 本申请涉及人工智能技术领域,尤其涉及一种基于人工智能的字母音素转换模型 生成方法及装置。
【背景技术】
[0002] 人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、 延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算 机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式 做出反应的智能机器,该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专 家系统等。其中,人工智能最重要的方面就是语音识别技术。
[0003 ]字母到音素的转换模型(grapheme-to-phoneme,g2p)是英文语音合成中十分重要 的处理模块,用于对接收到的单词中的字母转换成对应音素。现有技术中,通过深度神经网 络技术来训练g2p模型,能够得到比基于统计语言模型更好的应用效果。
[0004] 由于g2p模型的目标是将单词转换成对应的音素序列,而实际存在的单词数量也 是相对固定的,也就是10万个单词左右。但是,g2p训练模型所需的数据量是相对固定的。通 过深度神经网络来训练g2p模型的过程完全不同于声学模型的训练,具体如下:
[0005] 通过神经网络训练声学模型时,由于可以不断地增加训练数据,因此神经网络的 层数以及每一层的单元数可以不断增大,以此带来更好的性能。但对于g2p模型的训练来 讲,如果增大网络层数以及每一层的单元数,但训练数据量还是相对不变的话,很容易造成 过拟合现象的发生。所谓过拟合现象就是指,训练出来的g2p模型在训练数据上表现很好, 但在测试数据上却表现得不如训练数据那样好。
[0006] 然而,如果选择一个较小的网络来训练g2p模型,可以得到一个性能相对可以接受 的g2p模型,但这样的网络的层数以及每一层的单元数都会相对较小,不如深层神经网络那 样拥有更强的学习能力和泛化能力。

【发明内容】

[0007] 本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
[0008] 为此,本申请的第一个目的在于提出一种基于人工智能的字母音素转换模型生成 方法,该方法应用节点动态隐藏的深度神经网络训练数据,生成字母音素转换模型,提高了 字母音素转换模型的学习能力和泛化能力,避免了过拟合现象。
[0009] 本申请的第二个目的在于提出一种基于人工智能的字母音素转换模型生成装置。
[0010] 为达上述目的,本申请第一方面实施例提出了一种基于人工智能的字母音素转换 模型生成方法,包括:在应用神经网络对训练数据中的每个单词进行字母音素转换训练的 过程中,按照预设的节点比例对所述神经网络的隐层节点进行随机筛选,获取用于训练每 个单词的保留节点;应用与所述保留节点对应的子神经网络训练对应的单词,更新所述子 神经网络各保留节点的相关权重;对所有子神经网络各保留节点的相关权重进行均值处 理,生成字母音素转换模型。
[0011] 本申请实施例的基于人工智能的字母音素转换模型生成方法,通过在应用神经网 络对训练数据中的每个单词进行字母音素转换训练的过程中,按照预设的节点比例对所述 神经网络的隐层节点进行随机筛选,获取用于训练每个单词的保留节点;应用与所述保留 节点对应的子神经网络训练对应的单词,更新所述子神经网络各保留节点的相关权重;对 所有子神经网络各保留节点的相关权重进行均值处理,生成字母音素转换模型。由此,实现 了应用节点动态隐藏的深度神经网络训练数据,生成字母音素转换模型,提高了字母音素 转换模型的学习能力和泛化能力,并且避免了过拟合现象。
[0012] 为达上述目的,本申请第二方面实施例提出了一种基于人工智能的字母音素转换 模型生成装置,包括:处理模块,用于在应用神经网络对训练数据中的每个单词进行字母音 素转换训练的过程中,按照预设的节点比例对所述神经网络的隐层节点进行随机筛选,获 取用于训练每个单词的保留节点;训练模块,用于应用与所述保留节点对应的子神经网络 训练对应的单词,更新所述子神经网络各保留节点的相关权重;生成模块,用于对所有子神 经网络各保留节点的相关权重进行均值处理,生成字母音素转换模型。
[0013] 本申请实施例的基于人工智能的字母音素转换模型生成装置,通过在应用神经网 络对训练数据中的每个单词进行字母音素转换训练的过程中,按照预设的节点比例对所述 神经网络的隐层节点进行随机筛选,获取用于训练每个单词的保留节点;应用与所述保留 节点对应的子神经网络训练对应的单词,更新所述子神经网络各保留节点的相关权重;对 所有子神经网络各保留节点的相关权重进行均值处理,生成字母音素转换模型。由此,实现 了应用节点动态隐藏的深度神经网络训练数据,生成字母音素转换模型,提高了字母音素 转换模型的学习能力和泛化能力,并且避免了过拟合现象。
【附图说明】
[0014] 本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得 明显和容易理解,其中:
[0015] 图1是本申请一个实施例的基于人工智能的字母音素转换模型生成方法的流程 图;
[0016]图2是二层神经网络不意图;
[0017] 图3是加入防止过拟合技术训练的神经网络示意图;
[0018] 图4是本申请一个实施例的基于人工智能的字母音素转换模型生成装置的结构示 意图。
【具体实施方式】
[0019] 下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终 相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附 图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
[0020] 下面参考附图描述本申请实施例的基于人工智能的字母音素转换模型生成方法 及装置。
[0021] 图1是本申请一个实施例的基于人工智能的字母音素转换模型生成方法的流程 图。
[0022] 如图1所示,该基于人工智能的字母音素转换模型生成方法包括:
[0023] 步骤101,在应用神经网络对训练数据中的每个单词进行字母音素转换训练的过 程中,按照预设的节点比例对所述神经网络的隐层节点进行随机筛选,获取用于训练每个 单词的保留节点。
[0024] 步骤102,应用与所述保留节点对应的子神经网络训练对应的单词,更新所述子神 经网络各保留节点的相关权重。
[0025]步骤103,对所有子神经网络各保留节点的相关权重进行均值处理,生成字母音素 转换模型。
[0026] 具体地,为了使得训练出的g2p模型能够拥有更强的泛化能力,本发明采用了深度 神经网络来训练得到g2p模型。并且在应用神经网络对训练数据中的每个单词进行字母音 素转换训练的过程中,通过对网络中部分节点的隐藏来防止模型过拟合。
[0027] 需要解释的是,应用节点动态隐藏的神经网络训练数据,生成字母音素转换模型, 并且防止生成的字母音素转换模型出现过拟合现象。其中,用于训练的神经网络为深度神 经网络,在不同的训练场景中可以采用不同的模型,本实施例对此不作限制。例如:可以采 用时间递归神经网络(Long-Short Term Memory,LSTM)等。
[0028] 深度神经网络包括三层:第一层为输入层、最后一层为输出层、中间的为隐层,有 的神经网络具有一个隐层,有的神经网络具有多个隐层,每层都有节点。针对训练数据中单 词量的大小,可以适应调整用于训练的深度神经网络的结构大小,具体包括调整深度神经 网络结构的层数,以及每层的节点数量。
[0029] 为了防止模型过拟合,本发明在每一次对输入单词的训练过程中,按照预设的节 点比例对训练的神经网络的隐层节点进行随机筛选,获取用于训练每个单词的保留节点。
[0030] 需要强调的是,节点比例反映出训练过程中对深度神经网络结构的简化程度,在 训练之前,可以根据训练数据中的单词数量调整神经网络的层数、每层节点数、以及预设的 节点比例。
[0031] 需要注意的是,在不同的应用场景中可以采用不同的节点比例设置方式随机的对 训练的神经网络的隐层节点进行筛选,获取用于训练每个单词的保留节点,举例说明如下: [0032]第一种示例:节点隐藏比例
[0033]具体地,根据预设的节点隐藏比例,随机将神经网络中每层隐层节点中与节点隐 藏比例对应数量的部分节点进行隐藏处理。进而,将每层隐层节点中没有隐藏的部分节点 作为用于训练每个单词的保留节点。
[0034]第二种示例:节点保留比例
[0035] 根据预设的节点保留比例,随机将神经网络中每层隐层节点中与节点保留比例对 应数量的部分节点进行保留处理,作为用于训练每个单词的保留节点。
[0036] 进而,应用与保留节点对应的子神经网络训练对应的单词,更新子神经网络各保 留节点的相关权重。
[0037] 也就是说,在模型训练中,不使用隐藏的节点(非保留节点),但是会保留它们所对 应的权重,只是在这次训练中不再更新这些权重。当下次训练时,又重新随机地按照一定比 例隐藏隐层的一些节点。如此周而复始。这种策略之所以能够达到抗过拟合的原因,就是因 为,每次训练的时候,在隐藏一些节点后,实际上剩下的网络是一个相对原网络较小的网 络,这样的网络基本不会过拟合。
[0038] 最后,对所有子神经网络各保留节点的相关权重进行均值处理,生成字母音素转 换模型。
[0039] 可以理解的是,而每次训练时都随机地隐藏不同的节点实际上就是得到了很多小 的网络,最后的结果可以认为是对这些小网络取平均的方式,而这是一种很有效的抗过拟 合的方式。需要注意的是:上面所述的隐藏节点,不是真的删除,只是在当前训练时不使用 这些节点,而在下次训练时,还会使用。
[0040] 为了更加清楚的说明上述过程,通过图2和图3为例说明如下:
[0041] 图2是三层神经网络示意图,如图2所示,输入层为3个节点,隐层为6个节点,输出 层为2个节点。
[0042] 图3
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1