本说明书涉及计算机,尤其涉及一种边缘场景下的分布式模型训练系统及梯度规约方法。
背景技术:
1、随着计算机技术的发展和人们对自身隐私数据的愈发关注,采用分布式学习的方式来对模型进行训练,已在模型训练领域得到了广泛应用。
2、分布式模型训练系统通常包含多个工作节点和参数服务器,各工作节点中存储有不同的数据,参数服务器中存储模型参数。当需要执行模型训练任务时,由工作节点根据参数服务器下发的模型参数、自身存储的训练样本以及预先部署的模型结构,确定模型梯度,并将模型梯度返回给参数服务器。参数服务器根据接收到的各工作节点发送的模型梯度,更新自身保存的模型参数,并将更新后的模型参数下发至各工作节点,以此来完成上述模型训练任务。
3、但是,在计算节点为边缘设备的情况下,连接不同边缘设备和边缘服务器之间的不同边缘网络,在使用的通讯协议、网络对应的带宽资源上差距较大,这就导致目前在使用边缘设备对模型进行训练的场景中,模型训练效率较低。
4、基于此,本说明书提供一种边缘场景下的分布式模型训练系统中的梯度规约方法。
技术实现思路
1、本说明书提供一种边缘场景下的分布式模型训练系统及梯度规约方法,以部分的解决现有技术存在的上述问题。
2、本说明书采用下述技术方案:
3、本说明书提供一种边缘场景下的分布式模型训练系统,所述系统包含若干边缘设备和若干边缘服务器,每个边缘设备存储不同的训练样本,各边缘服务器连接不同的边缘设备,且每个边缘服务器至少连接一个边缘设备,所述边缘设备通过边缘网络与所述边缘服务器连接,所述各边缘服务器之间通过指定网络连接,其中:
4、所述边缘设备,用于响应于模型处理任务,根据所述边缘设备自身存储的训练样本,确定第一梯度,并通过边缘网络,将所述梯度发送至与所述边缘设备连接的边缘服务器;
5、所述边缘服务器,用于接收各边缘设备发送的第一梯度,并根据各第一梯度,确定第二梯度,所述第二梯度用于表征与所述边缘服务器连接的各边缘设备的梯度;对各边缘服务器的第二梯度进行梯度规约,得到总梯度;根据所述总梯度执行模型训练任务。
6、可选地,所述边缘服务器上预先设置有南向接口和北向接口,所述南向接口和所述边缘网络连接,所述北向接口和所述指定网络连接。
7、可选地,所述边缘服务器,用于根据预设的时间间隔,确定指定时段内接收到的各第一梯度,作为各指定梯度,并确定所述各指定梯度的均值,作为第二梯度。
8、可选地,所述边缘服务器,用于通过所述边缘网络,将所述总梯度发送给与所述边缘服务器连接的各边缘设备;
9、所述边缘设备,用于接收所述边缘服务器发送的总梯度,并根据所述总梯度、当前迭代过程中的模型参数、所述模型的学习率,确定下一迭代过程的模型参数。
10、本说明书提供一种边缘场景下的分布式模型训练系统中的梯度规约方法,所述方法应用于模型训练系统中的边缘服务器,所述系统包括若干边缘设备和若干边缘服务器,每个边缘设备存储不同的训练样本,各边缘服务器连接不同的边缘设备,且每个边缘服务器至少连接一个边缘设备,所述边缘设备通过边缘网络与所述边缘服务器连接,所述各边缘服务器之间通过指定网络连接,所述方法包括:
11、接收各边缘设备发送的第一梯度,其中,所述第一梯度为发送所述第一梯度的边缘设备根据自身存储的训练样本确定的;
12、根据各第一梯度,确定用于表征与所述边缘服务器连接的各边缘设备的梯度的第二梯度;
13、对各边缘服务器的梯度进行规约,得到总梯度,所述总梯度用于执行模型训练任务。
14、可选地,根据各第一梯度,确定用于表征与所述边缘服务器连接的各边缘设备的梯度的第二梯度,具体包括:
15、根据预设的时间间隔,确定指定时段内接收到的各第一梯度,作为各指定梯度;
16、确定所述各指定梯度的均值,作为第二梯度。
17、可选地,所述方法还包括:
18、通过所述边缘网络,将所述总梯度发送给与所述边缘服务器连接的各边缘设备,以使接收到所述总梯度的边缘设备,根据所述总梯度、当前迭代过程中的模型参数、所述模型的学习率,确定下一迭代过程的模型参数。
19、本说明书提供一种边缘场景下的分布式模型训练系统中的梯度规约装置,所述装置应用于训练系统中的边缘服务器,所述训练系统包括若干边缘设备和若干边缘服务器,每个边缘设备存储不同的训练样本,各边缘服务器连接不同的边缘设备,且每个边缘服务器至少连接一个边缘设备,所述边缘设备通过边缘网络与所述边缘服务器连接,所述各边缘服务器之间通过指定网络连接,所述装置包括:
20、接收模块,用于接收各边缘设备发送的第一梯度,其中,所述第一梯度为发送所述第一梯度的边缘设备根据自身存储的训练样本确定的;
21、梯度确定模块,用于根据各第一梯度,确定用于表征与所述边缘服务器连接的各边缘设备的梯度的第二梯度;
22、训练模块,用于对各边缘服务器的梯度进行规约,得到总梯度,所述总梯度用于执行所述模型训练任务。
23、本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述边缘场景下的分布式模型训练系统中的梯度规约方法。
24、本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述边缘场景下的分布式模型训练系统中的梯度规约方法。
25、本说明书采用的上述至少一个技术方案能够达到以下有益效果:
26、在系统中设置有用于根据自身存储的训练样本确定第一梯度的边缘设备,以及接收各边缘设备的梯度并共享的边缘服务器,在模型迭代过程中,由边缘设备确定自身梯度,并将自身梯度发送给边缘服务器,边缘服务器根据接收到第一梯度确定局部梯度,并基于局部梯度确定总梯度,以根据确定出的总梯度执行模型训练任务。
27、该模型训练系统在各边缘设备的网络情况各不相同的情况下,可通过与各边缘设备连接的边缘服务器先确定局部梯度,再通过指定网络确定总梯度,并根据确定出的总梯度训练模型,保证了模型训练效率。
1.一种边缘场景下的分布式模型训练系统,其特征在于,所述系统包含若干边缘设备和若干边缘服务器,每个边缘设备存储不同的训练样本,各边缘服务器连接不同的边缘设备,且每个边缘服务器至少连接一个边缘设备,所述边缘设备通过边缘网络与所述边缘服务器连接,所述各边缘服务器之间通过指定网络连接,其中:
2.如权利要求1所述的系统,其特征在于,所述边缘服务器上预先设置有南向接口和北向接口,所述南向接口和所述边缘网络连接,所述北向接口和所述指定网络连接。
3.如权利要求1所述的系统,其特征在于,所述边缘服务器,用于根据预设的时间间隔,确定指定时段内接收到的各第一梯度,作为各指定梯度,并确定所述各指定梯度的均值,作为第二梯度。
4.如权利要求1所述的系统,其特征在于,所述边缘服务器,用于通过所述边缘网络,将所述总梯度发送给与所述边缘服务器连接的各边缘设备;
5.一种边缘场景下的分布式模型训练系统中的梯度规约方法,其特征在于,所述方法应用于分布式模型训练系统中的边缘服务器,所述系统包括若干边缘设备和若干边缘服务器,每个边缘设备存储不同的训练样本,各边缘服务器连接不同的边缘设备,且每个边缘服务器至少连接一个边缘设备,所述边缘设备通过边缘网络与所述边缘服务器连接,所述各边缘服务器之间通过指定网络连接,所述方法包括:
6.如权利要求5所述的方法,其特征在于,根据各第一梯度,确定用于表征与所述边缘服务器连接的各边缘设备的梯度的第二梯度,具体包括:
7.如权利要求5所述的方法,其特征在于,所述方法还包括:
8.一种边缘场景下的分布式模型训练系统中的梯度规约装置,其特征在于,所述装置应用于分布式模型训练系统中的边缘服务器,所述训练系统包括若干边缘设备和若干边缘服务器,每个边缘设备存储不同的训练样本,各边缘服务器连接不同的边缘设备,且每个边缘服务器至少连接一个边缘设备,所述边缘设备通过边缘网络与所述边缘服务器连接,所述各边缘服务器之间通过指定网络连接,所述装置包括:
9.一种计算机可读存储介质,所述存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述权利要求5~7任一项所述的方法。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求5~7任一项所述的方法。