一种分布式机器学习方法、装置、终端设备及存储介质

文档序号：29457381发布日期：2022-03-30 13:03阅读：来源：国知局

技术特征：
1.一种分布式机器学习方法，应用于分布式机器学习系统，所述分布式机器学习系统包括参数服务器和至少两个用于对模型进行训练的工作节点，所述工作节点与所述参数服务器相连，其特征在于，该方法包括：对本次训练的初始模型进行训练，得到所述初始模型对应的第一梯度；判断在第一时间段内是否接收到所述参数服务器发送的全局参数，其中，所述第一时间段为本次训练所述初始模型的时间段；若在第一时间段内未接收到所述全局参数，则基于所述第一梯度，得到候选模型，并将所述候选模型作为下一次训练的初始模型。2.如权利要求1所述的分布式机器学习方法，其特征在于，所述基于所述第一梯度，得到候选模型，包括：基于所述第一梯度更新所述初始模型的参数，得到候选模型。3.如权利要求1或2所述的分布式机器学习方法，其特征在于，在所述判断在第一时间段内是否接收到所述参数服务器发送的全局参数之后，还包括：若在第一时间段内接收到所述全局参数，基于所述全局参数，得到候选模型，将所述候选模型作为下一次训练的初始模型，并向所述参数服务器发送第二梯度；其中，所述第二梯度为在第二时间段内得到的第一梯度，所述第二时间段为上一次接收到全局参数的时间至第一时间段内接收到所述全局参数的时间，所述参数服务器在接收到第二梯度后，基于所述第二梯度得到全局参数，并向所述工作节点发送所述全局参数。4.如权利要求3所述的分布式机器学习方法，其特征在于，所述基于所述全局参数，得到候选模型，包括：基于全局参数更新所述初始模型的参数，得到候选模型。5.如权利要求3所述的分布式机器学习方法，其特征在于，所述向所述参数服务器发送第二梯度，包括：对所述第二梯度进行降维处理，得到目标梯度；向所述参数服务器发送所述目标梯度。6.如权利要求5所述的分布式机器学习方法，其特征在于，在所述对所述第二梯度进行降维处理，得到目标梯度之前，还包括：判断所述第二梯度的个数是否大于1；若所述第二梯度的个数大于1，则计算所有第二梯度的和，得到候选梯度；相应的，对所述第二梯度进行降维处理，得到目标梯度，包括：对所述候选梯度进行降维处理，得到目标梯度。7.如权利要求2所述的分布式机器学习方法，其特征在于，所述基于所述第一梯度更新所述初始模型的参数，包括：基于所述第一梯度，利用梯度下降法更新所述初始模型的参数。8.一种分布式机器学习系统，其特征在于，包括：参数服务器和至少两个用于对模型进行训练的工作节点，工作节点与所述参数服务器相连；其中，所述工作节点包括：模型训练模块，用于对本次训练的初始模型进行训练，得到所述初始模型对应的第一梯度；
判断模块，用于判断在第一时间段内是否接收到所述参数服务器发送的全局参数，其中，所述第一时间段为工作节点训练当前模型的时间段；参数更新模块，用于若在第一时间段内未接收到所述全局参数，则基于所述第一梯度，得到候选模型，并将所述候选模型作为当前模型进行下一次模型训练。9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的分布式机器学习方法。10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的分布式机器学习方法。

技术总结
本申请适用于计算机技术领域，提供了一种分布式机器学习方法、装置、终端设备及存储介质，该方法包括：对本次训练的初始模型进行训练，得到初始模型对应的第一梯度；判断在第一时间段内是否接收到参数服务器发送的全局参数，其中，第一时间段为本次训练初始模型的时间段；若在第一时间段内未接收到全局参数，则基于第一梯度，得到候选模型，并将候选模型作为下一次训练的初始模型；本申请在没有接收到全局参数时使用第一梯度得到候选模型，并对候选模型继续训练，使参数服务器在计算全局参数和向工作节点传输全局参数的时间内，工作节点一直处于训练的状态，不用必须接收到全局参数后再继续训练，节约了模型训练的时间，使模型训练速度更快。训练速度更快。训练速度更快。

技术研发人员：郭嵩王号召詹玉峰
受保护的技术使用者：香港理工大学深圳研究院
技术研发日：2020.09.24
技术公布日：2022/3/29

完整全部详细技术资料下载

当前第2页1 2