面向设备异构性场景的异步联邦学习优化方法

文档序号:37353435发布日期:2024-03-18 18:36阅读:12来源:国知局
面向设备异构性场景的异步联邦学习优化方法

本发明属于人工智能,进一步涉及异步联邦学习技术,具体为面向设备异构性场景的异步联邦学习优化方法,可用于自动驾驶、医疗保健等需要实时响应的场景,解决现有技术中存在的模型收敛速度和准确率难以平衡的技术问题。


背景技术:

1、联邦学习是一种分布式机器学习技术,通过训练局部模型并聚合模型更新来生成全局模型。这种方法可以在保护数据隐私的同时提高模型的性能。与传统的机器学习不同,联邦学习让多个参与者共同训练一个模型,但不需要共享数据,从而解决了数据孤岛问题。通过利用本地数据进行训练,参与者可以从全局模型中受益,并提高模型的泛化能力。

2、联邦学习通常采用同步方法进行实现,但由于联邦学习的设备异构性,即参与者设备的计算能力差异,完成本地训练任务的时间各不相同,中央服务器必须等待最慢的参与者,这拖慢了学习进程。异步联邦学习中,中央服务器收到一定数量的参与者本地模型后就进行全局更新。这可以更好得处理参与者设备之间的差异,参与者可以根据自己的能力异步更新模型,避免了等待最慢设备的情况,提高了训练效率。然而,由于参与者设备之间的更新不同步,全局模型可能已经迭代多轮,较慢的设备才提交其本地模型,陈旧的本地模型不进行处理会影响全局模型的性能。

3、fedasync、fedbuff、basecagg等现有技术为了控制参与者本地模型对中央服务器全局模型更新中因陈旧度带来的影响,采用了基于陈旧度的加权函数来降低陈旧模型的聚合权重。此加权函数的存在本质上减少了慢参与者设备的模型贡献,这将诱发神经网络误校准,出现损失不降反增的“过拟合”现象。加权函数对本地模型的权重调整越剧烈,全局模型收敛的速度越快,但与此同时全局模型的准确率将会降低。


技术实现思路

1、本发明目的在于针对上述现有技术的不足,提出一种面向设备异构性场景的异步联邦学习优化方法,用于解决现有技术中存在的模型收敛速度和准确率难以平衡的技术问题。通过定义现有技术中加权函数s(τ)=(1+τ)-α的超参数α为陈旧模型的不可容忍度,然后对不可容忍度α进行动态调整,在训练前期利用较大的不可容忍度加快模型训练的速度,在训练后期利用较小的不可容忍度保证模型的精度。实现在保证模型准确率的情况下,有效提高模型收敛速度。

2、为实现上述目的,本发明方法的实现步骤如下:

3、(1)初始化,令当前训练轮次t=0,中央服务器向所有参与者广播原始全局模型,参与者i接收中央服务器广播的原始全局模型w(0),i=1,2,...,n,n表示参与者总数;

4、(2)在第t轮训练,参与者i采用随机梯度下降算法对本地数据进行e轮训练,得到参与者i的更新后本地模型其中e≥1表示本地训练的最大轮次;

5、(3)参与者i计算接收到的全局模型和更新后本地模型之间的差,得到参与者i的本地更新并将其发送给中央服务器;

6、(4)在中央服务器中设置一个长度为k的缓冲区k,用于接收来自参与者的本地更新;

7、(5)当缓冲区k被占满,即收到k个本地更新时,中央服务器使用加权函数s(τi)对进行加权,得到加权后的本地更新

8、所述加权函数s(τi)表示如下:

9、s(τi)=(1+τi)-α

10、式中,τi=t-ti表示参与者i本地更新的陈旧度,ti是参与者i接收到全局模型时的轮索引;α表示不可容忍度,且该不可容忍度随训练过程减小;

11、(6)中央服务器对k个加权后的本地更新进行聚合,并用其更新全局模型,更新规则如下:

12、

13、式中,w(t+1)为更新后全局模型;s(t)为第t轮训练时本地模型在缓冲区k中的k个用户的索引集,ηg为全局更新的学习率;

14、(7)中央服务器根据更新后全局模型的参数,调整加权函数s(τi)中的不可容忍度α;

15、(8)中央服务器将已更新的全局模型发还给参与当前全局模型更新的k个参与者,并清空缓冲区k;

16、(9)判断参与者接收到的已更新的全局模型是否收敛,若收敛,继续执行步骤(10);反之,令t=t+1后返回步骤(2);

17、(10)结束迭代过程,完成训练。

18、本发明与现有技术相比,具有以下优点:

19、第一、由于本发明考虑了异步联邦学习框架训练速度和训练误差之间的关系,通过将准确度关于轮次的变化率作为不可容忍度的底数,使不可容忍度随训练的过程平滑下降;在保证模型准确度的前提下,有效加快了异步联邦的模型训练过程,大幅提高了全局模型的收敛速度。

20、第二、本发明在模型训练前期采用较大不可容忍度α,减少了过于陈旧的本地模型在全局模型更新中的负面影响,从而实现模型收敛速度的提升;在模型训练后期采用较小不可容忍度α,增加可容忍的本地陈旧模型在全局模型更新中的贡献,从而保障了模型的收敛精度。



技术特征:

1.一种面向设备异质性场景的异步联邦学习优化方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的方法,其特征在于:步骤(2)中参与者i采用随机梯度下降算法对本地数据进行e轮训练,得到参与者i的更新后本地模型其更新规则如下:

3.根据权利要求1所述的方法,其特征在于:步骤(3)中计算参与者i接收到的全局模型w(t)和更新后本地模型之间的差,得到参与者i的本地更新具体如下:

4.根据权利要求1所述的方法,其特征在于:步骤(7)中调整加权函数s(τi)中的不可容忍度α,包括如下两种方式:a)基于神经网络误校准现象将模型训练过程分阶段,令不可容忍度α在不同阶段进行递减;b)将全局模型准确率关于轮次的变化率rt作为不可容忍度α的底数,使得α随着训练的过程平滑减小。

5.根据权利要求4所述的方法,其特征在于:所述基于神经网络误校准现象将模型训练过程分阶段,令不可容忍度α在不同阶段进行递减,这种调整方式具体实现如下:

6.根据权利要求4所述的方法,其特征在于:所述将全局模型准确率关于轮次的变化率rt作为不可容忍度α的底数,使得α随着训练的过程平滑减小,这种调整方式具体实现如下:


技术总结
本发明公开了一种面向设备异构性场景的异步联邦学习优化方法,主要解决现有异步联邦学习加权聚合中存在的模型收敛速度和准确率难以平衡的技术问题。方案包括:1)中央服务器发送全局模型给参与者;2)参与者利用本地数据进行模型的本地更新,并异步地发送给中央服务器;3)中央服务器根据本地更新中的轮索引和陈旧度,进行加权聚合,更新全局模型;4)中央服务器根据更新后全局模型的参数,调整加权函数中的不可容忍度;5)中央服务器将已更新的全局模型发还给参与者;6)重复更新过程,直至参与者收到的全局模型达到收敛,完成训练。本发明能够在保证模型准确率的情况下,有效提高模型收敛速度。

技术研发人员:马卓,沈侃,刘心晶,李腾,张俊伟,刘洋
受保护的技术使用者:西安电子科技大学
技术研发日:
技术公布日:2024/3/17
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1