模型训练方法、装置、计算机设备及计算机可读存储介质

文档序号:28867474发布日期:2022-02-12 10:15阅读:81来源:国知局
模型训练方法、装置、计算机设备及计算机可读存储介质

1.本技术涉及智能语音技术领域,尤其涉及一种模型训练方法、装置、计算机设备及计算机可读存储介质。


背景技术:

2.口语理解是自然语言理解的重要组成部分,包括领域分类、意图检测和槽填充。其中,槽填充任务是从大规模的语料库中抽取给定实体的被明确定义的属性的值,即槽填充任务用于识别特定领域的用户话语中与任务相关的槽位类型,例如,用户输入“播放周杰伦的稻香”,首先通过领域识别模块识别为“music”领域,再通过用户意图检测模块识别出用户意图为“play_music”,最后通过槽填充将每个词填充到对应的槽中:“播放[o]/周杰伦[b-singer]/的[o]/稻香[b-song]”。
[0003]
目前的跨域槽填充模型都是通过足够的源域数据实现跨领域槽填充,并没有很好地利用少了标记的目标域数据,跨域槽填充模型的泛化能力弱。因此,如何利用目标域数据提高跨域槽填充模型的泛化能力是现在亟需解决的技术问题。


技术实现要素:

[0004]
本技术的目的之一在于提供一种模型训练方法、装置、计算机设备及计算机可读存储介质,以解决如何利用目标域数据提高跨域槽填充模型的泛化能力的问题。
[0005]
第一方面,本技术实施例提供一种模型训练方法,应用于融入标签感知迁移学习的跨领域槽填充模型,包括:将预设数量的训练样本输入所述跨领域槽填充模型的嵌入编码层,得到每个分词的隐藏信息,其中,所述训练样本包括第一域样本和第二域样本,每个训练样本均包括真实bio标签;基于第一预设公式,计算具有相同所述真实bio标签的所述第一域样本和所述第二域样本的隐藏信息之间的最大平均差异值;将各个所述真实bio标签对应的所述最大平均差异值相加,得到最大平均差异总值;以最小化所述最大平均差异总值为目标,训练所述跨领域槽填充模型,直到满足预设条件后终止训练。
[0006]
在一种可选的实施方式中,用于融入标签感知迁移学习的跨领域槽填充模型,包括:将预设数量的训练样本输入所述跨领域槽填充模型的嵌入编码层,得到每个分词的隐藏信息,其中,所述训练样本包括第一域样本和第二域样本,每个训练样本均包括真实bio标签;基于第一预设公式,计算具有相同所述真实bio标签的所述第一域样本和所述第二域样本的隐藏信息之间的最大平均差异值;
将各个所述真实bio标签对应的所述最大平均差异值相加,得到最大平均差异总值;以最小化所述最大平均差异总值为目标,训练所述跨领域槽填充模型,直到满足预设条件后终止训练。
[0007]
在一种可选的实施方式中,所述第一预设公式为:在一种可选的实施方式中,所述第一预设公式为:其中,表示所述最大平均差异值,表示再生核函数;表示第i个所述第一域样本的隐藏信息,表示第j个所述第一域样本的隐藏信息;表示第i个所述第二域样本的隐藏信息,表示第j个所述第二域样本的隐藏信息;表示所述第一域样本的隐藏信息的集合,表示所述第二域样本的隐藏信息的集合;表示所述第一域样本的数量,表示所述第二域样本的数量。
[0008]
在一种可选的实施方式中,所述得到最大平均差异总值后,还包括:基于第二预设公式,计算分类损失函数值;所述以最小化所述最大平均差异总值为目标,训练所述跨领域槽填充模型,包括:以同时最小化所述最大平均差异总值和所述分类损失函数值为目标,训练所述跨领域槽填充模型。
[0009]
在一种可选的实施方式中,所述第二预设公式为:其中,表示所述分类损失函数值;表示所述训练样本的总数;表示所述训练样本的真实bio标签的数量;表示所述训练样本的真实bio标签类别;表示符号函数,如果训练样本i的预测bio标签与所述训练样本的真实bio标签类别c一致,取1,否则取0;表示训练样本i属于真实bio标签c的预测概率。
[0010]
在一种可选的实施方式中,所述计算分类损失函数值后,还包括:基于第三预设公式,计算正则化损失函数值;
所述以所述最大平均差异总值和所述分类损失函数值同时最小化为目标,训练所述跨领域槽填充模型,包括:以同时最小化所述最大平均差异总值、所述分类损失函数值和所述正则化损失函数值为目标,训练所述跨领域槽填充模型。
[0011]
在一种可选的实施方式中,所述第三预设公式为:其中,表示所述正则化损失值;表示bi-lstm的参数。
[0012]
第二方面,本技术实施例提供一种模型训练装置,应用于融入标签感知迁移学习的跨领域槽填充模型,包括:得到模块,用于将预设数量的训练样本输入所述跨领域槽填充模型的嵌入编码层,得到每个分词的隐藏信息,其中,所述训练样本包括第一域样本和第二域样本,每个训练样本均包括真实bio标签;计算模块,用于基于第一预设公式,计算具有相同所述真实bio标签的所述第一域样本和所述第二域样本的隐藏信息之间的最大平均差异值;所述计算模块,还用于将各个所述真实bio标签对应的所述最大平均差异值相加,得到最大平均差异总值;训练模块,用于以最小化所述最大平均差异总值为目标,训练所述跨领域槽填充模型,直到满足预设条件后终止训练。
[0013]
第三方面,提供一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器执行时,实现第一方面所述的模型训练方法。
[0014]
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现如第一方面所述的模型训练方法。
[0015]
本技术实施例提供了一种模型训练方法、装置、计算机设备及计算机可读存储介质。所述方法应用于融入标签感知迁移学习的跨领域槽填充模型,包括:将预设数量的训练样本输入所述跨领域槽填充模型的嵌入编码层,得到每个分词的隐藏信息,其中,训练样本包括第一域样本和第二域样本,每个训练样本均包括真实bio标签;基于第一预设公式,计算具有相同所述真实bio标签的第一域样本和第二域样本的隐藏信息之间的最大平均差异值;将各个真实bio标签对应的最大平均差异值相加,得到最大平均差异总值;以最小化最大平均差异总值为目标,训练跨领域槽填充模型。如此,实现利用目标域数据提高跨域槽填充模型的泛化能力的功能。
附图说明
[0016]
为了更清楚地说明本技术的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对本技术保护范围的限定。在各个附图中,类似的构成部分采用类似的编号。
[0017]
图1示出了本技术实施例提供的一种模型训练方法的步骤流程示意框图;图2示出了本技术实施例提供的一种模型训练装置的结构示意框图。
memory,双向长短期记忆)神经网络,得到每个分词的隐藏状态[h1,h2,...,hn],其中,,表示句子中每个分词的嵌入(embedding),bi-lstm神经网络可以将输入序列从前向和后向分开处理,能够更好地考虑上下文信息。
[0029]
可以理解的是,在本实施例中,所述跨领域槽填充模型包括两阶段,第一阶段为:首先,将包括真实bio标签的训练样本输入嵌入层,得到所述训练样本对应的词嵌入;其次,将所述词嵌入输入第一bi-lstm神经网络,得到所述词嵌入对应的第一隐藏状态;第三,将所述第一隐藏状态输入条件随机层(conditionalrandom field algorithm,crf),生成预测bio标签序列。第二阶段为:首先,将第一阶段得到的词嵌入输入第二bi-lstm神经网络,得到所述词嵌入对应的第二隐藏状态;其次,将所述第二隐藏状态输入平均池化层(avg pooling),生成表示信息;最后,将所述表示信息与槽描述向量进行相似度对比,确定相似度最高的槽描述向量对应的槽位为目标槽位。其中,所述槽描述向量是描述某一槽位的向量,通过n个某一槽位的自然语言单词的词嵌入相加得到,n为正整数。
[0030]
s120:基于第一预设公式,计算具有相同所述真实bio标签的所述第一域样本和所述第二域样本的隐藏信息之间的最大平均差异值。
[0031]
在本实施例中,将包括真实bio标签的源域样本和目标域样本输入所述跨领域槽填充模型的嵌入编码层后,得到的源域样本的隐藏状态和目标域样本的隐藏状态也具有相应的真实bio标签。例如,输入包括b标签的源域样本至所述跨领域槽填充模型的嵌入编码层后,得到的源域样本的隐藏状态也具有b标签;输入包括o标签的目标域样本至所述跨领域槽填充模型的嵌入编码层后,得到的目标域样本的隐藏状态也具有o标签。
[0032]
在一种可选的实施方式中,所述第一预设公式为:在一种可选的实施方式中,所述第一预设公式为:其中,表示所述最大平均差异值,表示再生核函数;表示第i个所述第一域样本的隐藏信息,表示第j个所述第一域样本的隐藏信息;表示第i个所述第二域样本的隐藏信息,表示第j个所述第二域样本的隐藏信息;表示所述第一域样本的隐藏信息的集合,表示所述第二域样本的隐藏信息的集合;表示所述第一域样本的数量,表示所述第二域样本的数量,表示真实bio标签的类别。
[0033]
s130:将各个所述真实bio标签对应的所述最大平均差异值相加,得到最大平均差异总值。
[0034]
在本实施例中,可以使用最大平均差异总值计算公式计算最大平均差异总值,所述最大平均差异总值计算公式为:其中,表示最大平均差异总值,表示源域和目标域中匹配真实bio标签的集合。
[0035]
可以理解的是,将最大平均差异总值应用于bi-lstm学习时,具有相同真实bio标签的实例在源域和目标域中的分布会更加紧密,从而使跨领域槽填充模型能够更好地从源域迁移到目标域。最小化所述最大平均差异总值,实现减小源域与目标域之间的分布差异,提升跨领域槽填充模型的泛化能力。
[0036]
s140:以最小化所述最大平均差异总值为目标,训练所述跨领域槽填充模型,直到满足预设条件后终止训练。
[0037]
在本实施例中,预设条件包括最大预设次数、训练时长等。
[0038]
可以理解的是,当所述最大平均差异总值应用于所述跨领域槽填充模型训练时,让源域与目标域的带有相同真实bio标签的隐藏状态最大平均差异变小,从而实现减小源域与目标域之间的分布差异,提升跨领域槽填充模型的泛化能力。
[0039]
可选地,所述得到最大平均差异总值后,还包括:基于第二预设公式,计算分类损失函数值;所述以最小化所述最大平均差异总值为目标,训练所述跨领域槽填充模型,包括:以同时最小化所述最大平均差异总值和所述分类损失函数值为目标,训练所述跨领域槽填充模型。
[0040]
在一种可选的实施方式中,所述第二预设公式为:其中,表示所述分类损失函数值;表示所述训练样本的总数;表示所述训练样本的真实bio标签的数量;表示所述训练样本的真实bio标签类别;表示符号函数,如果训练样本i的预测bio标签与所述训练样本的真实bio标签类别c一致,取1,否则取0;表示训练样本i属于真实bio标签c的预测概率。
[0041]
可以理解的是,最小化分类损失函数值,能够提高条件随机层输出的预测bio标签序列与真实bio标签序列的一致性,从而提高跨领域槽填充模型对槽位信息识别的准确性。
[0042]
进一步地,所述计算分类损失函数值后,还包括:基于第三预设公式,计算正则化损失函数值;所述以所述最大平均差异总值和所述分类损失函数值同时最小化为目标,训练所述跨领域槽填充模型,包括:以同时最小化所述最大平均差异总值、所述分类损失函数值和所述正则化损失函
数值为目标,训练所述跨领域槽填充模型。
[0043]
在一种可选的实施方式中,所述第三预设公式为:其中,表示所述正则化损失值;表示bi-lstm的参数。
[0044]
可以理解的是,最小化正则化损失函数值,跨领域槽填充模型会降低bi-lstm的参数中较大的权重参数,从而使跨领域槽填充模型对源域数据的拟合不那么剧烈,可有效降低跨领域槽填充中,对源域数据的过拟合问题。
[0045]
本技术实施例提供了一种模型训练方法,所述方法应用于融入标签感知迁移学习的跨领域槽填充模型,包括:将预设数量的训练样本输入所述跨领域槽填充模型的嵌入编码层,得到每个分词的隐藏信息,其中,训练样本包括第一域样本和第二域样本,每个训练样本均包括真实bio标签;基于第一预设公式,计算具有相同所述真实bio标签的第一域样本和第二域样本的隐藏信息之间的最大平均差异值;将各个真实bio标签对应的最大平均差异值相加,得到最大平均差异总值;以最小化最大平均差异总值为目标,训练跨领域槽填充模型。如此,实现利用目标域数据提高跨域槽填充模型的泛化能力的功能。
[0046]
实施例2请参照图2,图2示出了本技术实施例提供的一种模型训练装置的结构示意框图。所述模型训练装置500包括得到模块510、计算模块520、训练模块530。
[0047]
其中,所述得到模块510,用于将预设数量的训练样本输入所述跨领域槽填充模型的嵌入编码层,得到每个分词的隐藏信息,其中,所述训练样本包括第一域样本和第二域样本,每个训练样本均包括真实bio标签;所述计算模块520,用于基于第一预设公式,计算具有相同所述真实bio标签的所述第一域样本和所述第二域样本的隐藏信息之间的最大平均差异值;所述计算模块520,还用于将各个所述真实bio标签对应的所述最大平均差异值相加,得到最大平均差异总值;所述训练模块530,用于以最小化所述最大平均差异总值为目标,训练所述跨领域槽填充模型,直到满足预设条件后终止训练。
[0048]
可选地,所述第一预设公式为:可选地,所述第一预设公式为:其中,表示所述最大平均差异值,表示再生核函数;表示第i个所述第一域样本的隐藏信息,表示第j个所述第一域样本的隐藏
信息;表示第i个所述第二域样本的隐藏信息,表示第j个所述第二域样本的隐藏信息;表示所述第一域样本的隐藏信息的集合,表示所述第二域样本的隐藏信息的集合;表示所述第一域样本的数量,表示所述第二域样本的数量。
[0049]
可选地,所述计算模块520,还用于基于第二预设公式,计算分类损失函数值;所述训练模块530,还用于以同时最小化所述最大平均差异总值和所述分类损失函数值为目标,训练所述跨领域槽填充模型。
[0050]
可选地,所述第二预设公式为:其中,表示所述分类损失函数值;表示所述训练样本的总数;表示所述训练样本的真实bio标签的数量;表示所述训练样本的真实bio标签类别;表示符号函数,如果训练样本i的预测bio标签与所述训练样本的真实bio标签类别c一致,取1,否则取0;表示训练样本i属于真实bio标签c的预测概率。
[0051]
可选地,所述计算模块520,还用于基于第三预设公式,计算正则化损失函数值;所述训练模块530,还用于以同时最小化所述最大平均差异总值、所述分类损失函数值和所述正则化损失函数值为目标,训练所述跨领域槽填充模型。
[0052]
可选地,所述第三预设公式为:其中,表示所述正则化损失值;表示bi-lstm的参数。
[0053]
上述装置用于执行实施例1提供的方法,其实现原理和技术效果类似,在此不再赘述。
[0054]
本技术实施例还公开了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器执行时,实现如实施例1所述的模型训练方法。
[0055]
本技术实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现如实施例1所述的模型训练方法。
[0056]
在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和结构图显示了根据本技术的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在作为替换的实现方式中,方框中所标注的功能也可以以不同于
附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0057]
另外,在本技术各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或更多个模块集成形成一个独立的部分。
[0058]
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0059]
以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1