本技术涉及数据处理领域,特别是涉及一种模型训练方法和相关装置。
背景技术:
1、网络模型可以提供各类服务,例如内容推荐、对象检测、语音识别等。不过,一个网络模型需要通过较长时间(例如一到两个月)的训练后,模型参数才能达到较好的收敛性,才能提供高质量的服务。
2、在对网络模型进行版本迭代时也会遇到上述相同的问题,即新版本模型也同样需要长时间的训练,这样会影响新版本模型的收敛速度,使其很难追上老版本模型的收敛性,降低模型迭代效率。
3、可以如何提高模型训练效率是亟需解决的技术问题。
技术实现思路
1、为了解决上述技术问题,本技术提供了一种模型训练方法和相关装置,能够有效提升待训练模型的收敛速度,加快模型训练效率。
2、本技术实施例公开了如下技术方案:
3、一方面,本技术实施例提供了一种模型训练方法,所述方法包括:
4、确定待训练模型的第一参数映射关系,所述第一参数映射关系用于标识所述待训练模型的n个输入特征维度和所述待训练模型中n组稠密权重参数间的对应关系;
5、根据所述待训练模型确定与所述待训练模型具有相关性的已训练模型,所述已训练模型具有第二参数映射关系,所述第二参数映射关系用于标识所述已训练模型的m个输入特征维度和所述已训练模型中m组稠密权重参数间的对应关系;
6、确定所述n个输入特征维度和所述m个输入特征维度间的特征维度相同的l个输入特征维度,以及对应的目标稠密权重参数,所述目标稠密权重参数为所述l个输入特征维度在所述第二参数映射关系中对应的l组稠密权重参数,l≤n,l≤m;
7、根据所述第一参数映射关系,将所述目标稠密权重参数更新至所述待训练模型中所述l个输入特征维度所对应稠密权重参数的存储位置,以得到参数继承模型;
8、将所述参数继承模型作为所述待训练模型进行模型训练。
9、另一方面,本技术实施例提供了一种模型训练装置,所述装置包括确定单元、更新单元和训练单元:
10、所述确定单元,用于确定待训练模型的第一参数映射关系,所述第一参数映射关系用于标识所述待训练模型的n个输入特征维度和所述待训练模型中n组稠密权重参数间的对应关系;
11、所述确定单元还用于根据所述待训练模型确定与所述待训练模型具有相关性的已训练模型,所述已训练模型具有第二参数映射关系,所述第二参数映射关系用于标识所述已训练模型的m个输入特征维度和所述已训练模型中m组稠密权重参数间的对应关系;
12、所述确定单元还用于确定所述n个输入特征维度和所述m个输入特征维度间的特征维度相同的l个输入特征维度,以及对应的目标稠密权重参数,所述目标稠密权重参数为所述l个输入特征维度在所述第二参数映射关系中对应的l组稠密权重参数,l≤n,l≤m;
13、所述更新单元,用于根据所述第一参数映射关系,将所述目标稠密权重参数更新至所述待训练模型中所述l个输入特征维度所对应稠密权重参数的存储位置,以得到参数继承模型;
14、所述训练单元,用于将所述参数继承模型作为所述待训练模型进行模型训练。
15、在一种可能的实现方式中,所述确定单元还用于:
16、确定所述n个输入特征维度与所述待训练模型中n组向量维度参数间的第一对应关系;
17、确定所述n组向量维度参数与所述待训练模型中n组稠密权重参数间的第二对应关系;
18、根据所述第一对应关系和所述第二对应关系确定所述第一参数映射关系,所述第一参数映射关系用于标识所述n个输入特征维度、n组向量维度参数的向量维度数量,和所述待训练模型中n组稠密权重参数间的对应关系。
19、在一种可能的实现方式中,所述确定单元还用于:
20、确定所述m个输入特征维度与所述待训练模型中m组向量维度参数间的第三对应关系;
21、确定所述m组向量维度参数与所述待训练模型中m组稠密权重参数间的第四对应关系;
22、根据所述第三对应关系和所述第四对应关系确定所述第二参数映射关系,所述第二参数映射关系用于标识所述m个输入特征维度、m组向量维度参数的向量维度数量,和所述已训练模型中m组稠密权重参数间的对应关系。
23、确定所述n个输入特征维度和所述m个输入特征维度间的特征维度相同,且所对应向量维度数量相同的l个输入特征维度。
24、在一种可能的实现方式中,所述更新单元还用于根据所述第一对应关系,将目标向量维度参数更新至所述待训练模型中所述l个输入特征维度所对应向量维度参数的存储位置,所述目标向量维度参数为所述l个输入特征维度在所述第三对应关系中对应的l组向量维度参数。
25、在一种可能的实现方式中,所述待训练模型为第一版本的目标模型,所述确定单元还用于根据所述目标模型的版本顺序,确定已完成训练的第二版本的所述目标模型,并将所述第二版本的所述目标模型作为所述已训练模型,所述第二版本低于所述第一版本。
26、在一种可能的实现方式中,所述确定单元还用于:
27、确定所述待训练模型的模型信息,所述模型信息包括所对应模型的应用场景、模型功能或模型结构的至少一个;
28、若已训练的待定模型的模型信息与所述待训练模型的模型信息的相似度满足继承条件,将所述待定模型确定为与所述待训练模型具有相关性的已训练模型。
29、在一种可能的实现方式中,所述待训练模型为用于线上训练的模型。
30、另一方面,本技术实施例提供了一种计算机设备,所述计算机设备包括处理器以及存储器:
31、所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
32、所述处理器用于根据所述程序代码中的指令执行上述方面所述的方法。
33、另一方面,本技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述方面所述的方法。
34、另一方面,本技术实施例提供了一种包括指令的计算机程序产品,当其在计算机上运行时,使得所述计算机执行上述方面所述的方法。
35、由上述技术方案可以看出,在对待训练模型进行训练前,确定标识待训练模型的输入特征维度和稠密权重参数间关系的第一参数映射关系,并基于待训练模型确定与之相关的已训练模型。根据第一参数映射关系和已训练模型的第二参数映射关系确定出两个模型中具有相同特征维度的l个输入特征维度,从而可以基于第二参数映射关系从已训练模型中确定出与该l个输入特征维度对应的目标稠密权重参数,并根据第一参数映射关系,将该目标稠密权重参数更新至待训练模型中对应的存储位置,将待训练模型更新为参数继承模型。由于从目标稠密权重参数是已训练模型中成熟使用的参数,而且已训练模型和待训练模型间具有相关性,即上述通过相同的输入特征维度所确定目标稠密权重参数可以有效的适配待训练模型,从而可将参数继承模型作为待训练模型进行模型训练。相对于初始化的参数,在待训练模型进行训练的过程中,目标稠密权重参数需要被调整的范围较小,能够有效提升待训练模型的收敛速度,加快模型训练效率。