本申请涉及计算机,特别涉及一种生成模型的方法和电子设备。
背景技术:
1、预训练模型(pre-trained models,ptms)是一种基于迁移学习方法的模型。具体的,预训练模型的应用就是在当前的目标任务上使用之前训练好的初始模型,并且,在应用预训练模型时,根据当前的目标任务的特性,对该初始模型进行精调,从而达到提高目标任务的执行效果的目的。预训练模型在诸多下游任务中表现出明显优势,因此,其被越来越多的应用于下游任务的处理场景中。
2、然而,预训练模型的数据量通常较大,其运行时需要耗费巨大的计算资源,这就导致预训练模型往往无法直接应用于端侧场景。例如,只能由云端服务器调用预训练模型进行计算,将计算结果反馈給端侧设备。
3、因此,为了拓展预训练模型的应用场景,需要一种生成模型的方法,对预训练模型进行小型化处理,降低预训练模型的数据量。
技术实现思路
1、针对如何小型化预训练模型的问题,本申请提供了一种生成模型的方法和电子设备,本申请还提供一种计算机可读存储介质。
2、本申请实施例采用下述技术方案:
3、第一方面,本申请提供一种生成模型的方法,所述方法应用于电子设备,所述方法包括:
4、获取预训练模型;
5、以所述预训练模型为教师模型,根据所述教师模型生成学生模型,其中:
6、所述教师模型的特征空间中任意一层特征向量近似表示为所述学生模型特征向量的线性组合;
7、所述学生模型的特征向量间线性无关。
8、根据本申请实施例的方法,以预训练模型为教师模型,根据教师模型生成学生模型,以学生模型作为预训练模型的小型化结果。根据本申请一实施例的方法,预训练模型的小型化结果可以近似为预训练模型的特征空间的一组基底,可以提高预训练模型的小型化结果的模型表征能力,使得预训练模型的小型化结果高效完备地模拟预训练模型的模型特征。
9、在第一方面的一种实现方式中,所述根据所述教师模型生成学生模型,包括:
10、根据所述教师模型的模型层和待学习模型的模型层之间的关系建立第一亲和性图,其中,所述待学习模型在第一次迭代中为对应所述教师模型的初始学生模型;
11、根据所述第一亲和性图将所述待学习模型的特征线性组合,获取所述待学习模型的线性组合结果;
12、将所述待学习模型的线性组合结果与所述教师模型的模型特征进行损失函数约束,获取所述待学习模型的学习结果;
13、使用所述待学习模型的学习结果更新所述待学习模型;
14、迭代更新所述待学习模型,以最后一次迭代更新后的所述待学习模型为所述学生模型。
15、在第一方面的一种实现方式中,所述根据所述教师模型生成学生模型,还包括:
16、约束所述线性组合结果,使得所述线性组合结果中的模型特征层之间线性无关。
17、在第一方面的一种实现方式中,所述方法还包括:
18、获取所述学生模型的线性组合参数;
19、将所述学生模型的模型特征以及所述学生模型的线性组合参数进行线性组合,获取所述学生模型的线性组合特征;
20、通过所述学生模型的线性组合特征表示所述预训练模型的特征,将所述学生模型的线性组合特征用于下游任务模型的训练。
21、根据本申请实施例的方法,可以提升预训练模型小型化结果迁移下游任务时的效果和灵活性。
22、在第一方面的一种实现方式中,所述获取所述学生模型的线性组合参数,包括:
23、将所述学生模型的模型特征输入线性组合参数模型,生成第一线性组合参数。
24、在第一方面的一种实现方式中,所述获取所述学生模型的线性组合参数,还包括:
25、将所述第一线性组合参数和第二亲和性图进行损失函数约束,获取所述第一线性组合参数的约束结果;
26、根据所述第一线性组合参数的约束结果更新所述线性组合参数模型的参数;
27、将所述学生模型的模型特征输入参数更新后的所述线性组合参数模型,生成第二线性组合参数;
28、使用所述第二线性组合参数更新所述第一线性组合参数;
29、迭代更新所述第一线性组合参数,以最后一次迭代更新后的所述第一线性组合参数作为所述学生模型的线性组合参数。
30、在第一方面的一种实现方式中,所述第二亲和性图为生成所述学生模型过程中最后一次迭代中所生成的亲和性图。
31、在第一方面的一种实现方式中,所述方法还包括:
32、根据所述教师模型的模型层和所述学习模型的模型层之间的关系建立所述第二亲和性图。
33、第二方面,本申请提供一种电子设备,所述电子设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器,其中,当所述计算机程序指令被该处理器执行时,触发所述电子设备执行如第一方面所述的方法步骤。
34、第三方面,本申请提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如第一方面所述的方法。
1.一种生成模型的方法,所述方法应用于电子设备,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述教师模型生成学生模型,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述教师模型生成学生模型,还包括:
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述方法还包括:
5.根据权利要求4所述的方法,其特征在于,所述获取所述学生模型的线性组合参数,包括:
6.根据权利要求5所述的方法,其特征在于,所述获取所述学生模型的线性组合参数,还包括:
7.根据权利要求6所述的方法,其特征在于,所述第二亲和性图为生成所述学生模型过程中最后一次迭代中所生成的亲和性图。
8.根据权利要求6所述的方法,其特征在于,所述方法还包括:
9.一种电子设备,其特征在于,所述电子设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器,其中,当所述计算机程序指令被该处理器执行时,触发所述电子设备执行如权利要求1-8中任一项所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如权利要求1-8中任一项所述的方法。