本申请涉及计算机,特别涉及文本生成模型的训练方法、装置、设备、介质和程序产品。
背景技术:
1、随着互联网应用的普及,搜索引擎已经成为用户查询问题和检索兴趣的必要手段和途径。然而,因为语言习惯和专业知识的差异,会导致查询语句(query)与待检索的文档(doc)的描述上存在明显差异。为了弥补两端在表达上的差异,需要一种查询语句改写技术,即,将用户的原始查询语句变换说法和形式,使其表达形式与文档描述更为接近,从而使得搜索引擎召回的文档更符合用户真实意图,进而提升用户搜索体验。
技术实现思路
1、为了解决上述的问题,本申请提供了文本生成模型的训练方法、装置、设备、介质和程序产品。
2、本申请的第一方面公开了一种文本生成模型的训练方法,用于电子设备,所述方法包括:
3、获取训练数据,所述训练数据包括多个查询语句以及基于所述多个查询语句分别得到的对应文档的文档标题和文档内容;
4、构建所述文本生成模型,所述文本生成模型包括学生模型和教师模型;
5、使用所述训练数据来训练所述文本生成模型,其中,对于每个查询语句,将该查询语句以及基于该查询语句得到的每个文档的文档标题作为所述学生模型的训练文本对进行训练,将该查询语句以及基于该查询语句得到的每个文档的文档标题和文档内容作为所述教师模型的训练文本对进行训练,并且采用知识蒸馏的方式将所述教师模型的文本生成能力迁移到所述学生模型中。
6、可选地,所述学生模型和所述教师模型均采用编码器-解码器的形式。
7、可选地,所述文本生成模型的训练的总损失函数为第一至第四损失函数的总和,其中,将基于该查询语句得到的每个文档的文档标题作为所述学生模型的输入,将基于该查询语句得到的每个文档的文档标题和文档内容作为所述教师模型的输入,并且分别在所述学生模型和所述教师模型的编码器端得到的向量之间的差异为第一损失函数,分别在所述学生模型和所述教师模型的解码器端得到的向量之间的差异为第二损失函数,所述学生模型的输出与该查询语句之间的差异为第三损失函数,所述教师模型的输出与该查询语句之间的差异为第四损失函数。
8、可选地,采用kl距离来表示所述差异。
9、可选地,基于所述多个查询语句分别得到的对应文档为对应点击文档。
10、可选地,应用经训练的所述学生模型,将新的查询语句作为经训练的所述学生模型的输入,并且将经训练的所述学生模型的输出作为经改写的查询语句。
11、本申请的第二方面公开了一种文本生成模型的训练装置,所述装置包括:
12、获取模块,被配置为获取训练数据,所述训练数据包括多个查询语句以及基于所述多个查询语句分别得到的对应文档的文档标题和文档内容;
13、构建模块,被配置为构建所述文本生成模型,所述文本生成模型包括学生模型和教师模型;
14、训练模块,被配置为使用所述训练数据来训练所述文本生成模型,其中,对于每个查询语句,将该查询语句以及基于该查询语句得到的每个文档的文档标题作为所述学生模型的训练文本对进行训练,将该查询语句以及基于该查询语句得到的每个文档的文档标题和文档内容作为所述教师模型的训练文本对进行训练,并且采用知识蒸馏的方式将所述教师模型的文本生成能力迁移到所述学生模型中。
15、本申请的第三方面公开了一种电子设备,所述电子设备包括存储有计算机可执行指令的存储器和处理器;当所述计算机可执行指令被所述处理器执行时,使得所述电子设备实施根据本申请第一方面所述的方法。
16、本申请的第四方面公开了一种计算机可读介质,所述计算机可读介质存储有一个或者多个程序,所述一个或多个程序可被一个或多个处理器执行,以实现根据本申请第一方面所述的方法。
17、本申请的第五方面公开了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现根据本申请第一方面所述的方法。
18、根据本申请的文本生成模型的训练方法,使用文档标题和查询语句作为域外语料解决了长尾查询语句改写训练数据不足的问题,使用文档内容约束了改写结果的语义稳定性,控制了语义偏移现象的发生,并且在文本生成模型中采用知识蒸馏的方式将文本生成能力迁移到学生模型中,适配真实场景下长尾查询语句的改写。
1.一种文本生成模型的训练方法,用于电子设备,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述学生模型和所述教师模型均采用编码器-解码器的形式。
3.根据权利要求2所述的方法,其特征在于,所述文本生成模型的训练的总损失函数为第一至第四损失函数的总和,其中,将基于该查询语句得到的每个文档的文档标题作为所述学生模型的输入,将基于该查询语句得到的每个文档的文档标题和文档内容作为所述教师模型的输入,并且分别在所述学生模型和所述教师模型的编码器端得到的向量之间的差异为第一损失函数,分别在所述学生模型和所述教师模型的解码器端得到的向量之间的差异为第二损失函数,所述学生模型的输出与该查询语句之间的差异为第三损失函数,所述教师模型的输出与该查询语句之间的差异为第四损失函数。
4.根据权利要求3所述的方法,其特征在于,采用kl距离来表示所述差异。
5.根据权利要求1至4中任一项所述的方法,其特征在于,基于所述多个查询语句分别得到的对应文档为对应点击文档。
6.根据权利要求1至4中任一项所述的方法,其特征在于,应用经训练的所述学生模型,将新的查询语句作为经训练的所述学生模型的输入,并且将经训练的所述学生模型的输出作为经改写的查询语句。
7.一种文本生成模型的训练装置,其特征在于,所述装置包括:
8.一种电子设备,其特征在于,所述电子设备包括存储有计算机可执行指令的存储器和处理器;当所述计算机可执行指令被所述处理器执行时,使得所述电子设备实施根据权利要求1至6中任一项所述的方法。
9.一种计算机可读介质,其特征在于,所述计算机可读介质存储有一个或者多个程序,所述一个或多个程序可被一个或多个处理器执行,以实现根据权利要求1至6中任一项所述的方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现根据权利要求1至6中任一项所述的方法。