一种模型更新方法、装置、设备及可读存储介质与流程

文档序号：29090672发布日期：2022-03-02 02:42阅读：来源：国知局

技术特征：
1.一种模型更新方法，其特征在于，包括：获取目的场景中的目的数据集、源场景中的源数据集及利用所述源数据集训练完成的源模型；在所述源数据集和所述目的数据集之间确定至少一个中间数据集；将所述至少一个中间数据集按差异梯度大小排列在所述源数据集和所述目的数据集之间，得到数据集序列；针对排列在所述数据集序列首位置之后的每个数据集，将前一数据集训练完成的模型作为当前数据集的待训练模型，利用当前数据集训练所述待训练模型得到当前数据集训练完成的模型；获取并存储所述目的数据集训练完成的模型。2.根据权利要求1所述的方法，其特征在于，所述在所述源数据集和所述目的数据集之间确定至少一个中间数据集，包括：确定所述源数据集和所述目的数据集中的差异化数据，并将所述差异化数据分类为n个训练维度；针对每个训练维度的差异化数据，在当前训练维度的差异化数据中确定至少一个差异程度，根据所述至少一个差异程度确定至少一个数据组，并将所述至少一个数据组分别填充至所述源数据集，得到当前训练维度对应的至少一个中间数据集；相应地，所述将所述至少一个中间数据集按差异梯度大小排列在所述源数据集和所述目的数据集之间，得到数据集序列，包括：按差异梯度大小分别排列n个训练维度对应的各中间数据集，得到n个子序列；基于所述n个子序列、所述源数据集和所述目的数据集，得到所述数据集序列。3.根据权利要求2所述的方法，其特征在于，所述基于所述n个子序列、所述源数据集和所述目的数据集，得到所述数据集序列，包括：根据n个训练维度的优先级顺序拼接n个子序列，并将所述源数据集置于拼接得到的序列的首位置，将所述目的数据集置于拼接得到的序列的尾位置，得到所述数据集序列；或将n个子序列中的中间数据集对位进行合并，将合并得到的数据集按差异梯度大小排列在所述源数据集和所述目的数据集之间，得到所述数据集序列。4.根据权利要求2所述的方法，其特征在于，若所述源模型用于控制车辆或机器人自动移动，则所述n个训练维度包括：移动场景中同类型的车辆或机器人的稀疏程度和/或移动场景中是否有非同类型的随机障碍物。5.根据权利要求1至4任一项所述的方法，其特征在于，所述利用当前数据集训练所述待训练模型得到当前数据集训练完成的模型，包括：确定当前数据集对应的奖惩函数；从当前数据集中获取一个训练数据输入所述待训练模型，得到训练结果；利用所述奖惩函数计算奖惩分数，并确定所述奖惩分数与初始训练目标之和，将所述和与所述训练结果之间的差异作为损失；所述初始训练目标为：目标模型处理所述训练数据的结果；所述目标模型与所述待训练模型相同；基于所述损失更新所述待训练模型；
若更新后的待训练模型收敛，则将更新后的待训练模型作为当前数据集训练完成的模型；若更新后的待训练模型未收敛，则从当前数据集中获取另一训练数据对更新后的待训练模型进行迭代训练，直至更新后的待训练模型收敛。6.根据权利要求5所述的方法，其特征在于，所述奖惩函数的表达式为：其中，r
i
为当前数据集对应的奖惩函数，r
i-1
为所述数据集序列中排列在当前数据集前一位置的数据集对应的奖惩函数，f
i
为当前数据集对应的奖惩分数计算公式。7.根据权利要求5所述的方法，其特征在于，所述基于所述损失更新所述待训练模型之后，还包括：若达到训练目标更新条件，则将更新后的待训练模型的模型参数赋值给所述目标模型；或基于更新后的待训练模型的模型参数计算参数更新值，并将所述参数更新值赋值给所述目标模型；若未达到训练目标更新条件，则保留所述目标模型。8.一种模型更新装置，其特征在于，包括：获取模块，用于获取目的场景中的目的数据集、源场景中的源数据集及利用所述源数据集训练完成的源模型；确定模块，用于在所述源数据集和所述目的数据集之间确定至少一个中间数据集；排列模块，用于将所述至少一个中间数据集按差异梯度大小排列在所述源数据集和所述目的数据集之间，得到数据集序列；训练模块，用于针对排列在所述数据集序列首位置之后的每个数据集，将前一数据集训练完成的模型作为当前数据集的待训练模型，利用当前数据集训练所述待训练模型得到当前数据集训练完成的模型；输出模块，用于获取并存储所述目的数据集训练完成的模型。9.一种电子设备，其特征在于，包括：存储器，用于存储计算机程序；处理器，用于执行所述计算机程序，以实现如权利要求1至7任一项所述的方法。10.一种可读存储介质，其特征在于，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。

技术总结
本申请公开了一种模型更新方法、装置、设备及可读存储介质。本申请将源场景中的源模型迁移至目的场景使用时，可以循序渐进地递进式训练源模型，且相邻训练环节相互影响，实现了同一模型在不同场景内的稳定迁移，能够降低训练成本，保障同一模型在不同场景内迁移的性能和稳定性，最终由目的数据集训练完成的模型就是与目的场景匹配且性能较好的新模型。相应地，本申请提供的一种模型更新装置、设备及可读存储介质，也同样具有上述技术效果。也同样具有上述技术效果。也同样具有上述技术效果。

技术研发人员：李茹杨邓琪张亚强李雪雷魏辉
受保护的技术使用者：苏州浪潮智能科技有限公司
技术研发日：2022.01.26
技术公布日：2022/3/1

完整全部详细技术资料下载

当前第2页1 2