基于广义线性回归的联邦学习方法、系统、终端及介质与流程

文档序号:34441357发布日期:2023-06-13 02:37阅读:76来源:国知局
基于广义线性回归的联邦学习方法、系统、终端及介质

本发明大数据服务平台,具体涉及一种基于广义线性回归的联邦学习方法、系统、终端及介质。


背景技术:

1、机器学习算法在自动识别、智能决策等方面具备显著优势,已经逐渐成为人工智能和大数据处理的技术基础。大部分机器学习算法都需要大规模的训练数据集以完成模型的训练,同时也意味着大量的个人数据被采集,包括姓名、身份证件号码、联系方式、住址、账号密码、财产状况、行踪轨迹、消费状况等,甚至还有个人生物特征等更敏感的信息。上述信息不但被采集、利用,甚至还会售卖给第三方获取利益,个人隐私将面临着极大的泄露风险。即使能合法采集个人数据,个人数据大多分散存储在不同的机构中,由于政策壁垒与存储资源的限制,很难实现数据的集中存放。

2、近年来,联邦学习(federated learning,fl)的出现,成为机器学习领域的新热点。联邦学习的概念最早是在2016年由谷歌提出的,它是一种分布式的机器学习框架。分布在多个结点上的数据集协同训练,最终可获取全局数据集上的机器学习模型。联邦学习具有天然的隐私保护特质,数据不需要集中存放,仅需在数据分散存储的节点上训练模型,服务器无法获取原始数据,个人数据隐私得到有效的保护。在数据隐私与安全问题备受关注的今天,联邦学习在避免数据泄露、避免中心点数据受到攻击等方面具备显著优势。此外,传统的机器学习模型不能直接处理异构数据,利用联邦学习技术,无需处理异构数据即可建立全局数据上的机器学习模型,既保护了数据隐私,又解决了数据异构问题。联邦学习可应用在涉及个人敏感数据的机器学习任务中,如个人医疗数据、可穿戴设备数据、面部特征数据、个人资产数据等等。许多机器学习模型已扩展到联邦学习架构中,比如线性回归、支持向量机、神经网络、聚类、决策树、深度学习等。

3、广义线性模型的一个特例是线性回归模型,其特点是当它的响应变量服从于不同的分布或联结函数选择不同时,建模过程也各不相同。机器学习中最基础的线性回归模型就是广义线性模型响应变量为正态分布且广义线性模型联结函数是恒等函数的一个简单特例。

4、隐私计算场景下,当前需要突破的一个问题是提出基于特定模型的可保护各方隐私的有效的联邦学习方案。当前已有较为成熟的线性回归模型的两方纵向联邦学习方案被提出,但由于线性回归模型仅是广义线性回归模型的一个简单特例,且现有的线性回归联邦学习方案不能应用在广义线性回归模型中,故它在实际应用中仍存在很大的局限性。即使当前已有较为完整的线性回归联邦学习模型,但仍迫切需要提出有效的广义线性模型的联邦学习方案。

5、实际应用中广义线性模型联邦学习方案建模过程要比线性回归联邦学习模型的建模过程复杂很多。在已有的各种汽车保险模型的研究文献表明广义线性模型被广泛应用于保险模型的建立,车险的理赔率是一个比较特殊的极偏的概率分布,因为90%以上的出险数据是0,故在车险行业中一般采用符合tweedie分布的广义线性模型来建模,其中。车险风控领域大部分数据为需要隐私保护的敏感数据,两个不同的数据持有方之间就无法直接建模,因此符合tweedie分布的广义线性回归模型联邦学习方法能够解决此场景下的数据持有方之间数据不互通无法有效建模的问题,但目前仍无符合tweedie分布的广义线性回归模型的联邦学习方法。


技术实现思路

1、针对现有技术的上述不足,本发明提供一种基于广义线性回归的联邦学习方法、系统、终端及介质,以解决上述技术问题。

2、第一方面,本发明提供一种基于广义线性回归的联邦学习方法,包括:

3、数据方双方联合构建广义线性回归模型,其中,所述数据方双方包括提供训练属性值数据持有方a端和提供数据标签值的数据应用方b端;

4、构建广义线性回归模型的损失函数,其中,所述广义线性回归模型的变量满足tweedie分布时,训练目标为最小化损失函数;

5、数据持有方a端根据损失函数求偏导得出本地梯度,并通过同态加密技术交换用于计算本地梯度的中间结果;

6、数据持有方a端利用本地梯度更新所述广义线性回归模型。

7、进一步地,所述数据持有方a端根据损失函数求偏导得出本地梯度,包括:

8、数据应用方b端计算本地梯度的加密数据并发送给数据持有方a端;

9、数据持有方a端计算本地梯度的加密梯度,并添加随机扰动得到随机加密梯度;

10、数据协调方c端解密所述随机加密梯度后发送给数据持有方a端;

11、数据持有方a端消除随机扰动后得到本地梯度。

12、进一步地,在所述数据持有方a端根据损失函数求偏导得出本地梯度之前,还包括:

13、数据协调方c端生成公私钥对并发送给数据持有方a端、数据应用方b端;

14、数据持有方a端、数据应用方b端利用所述公私钥对加密交换中间结果。

15、进一步地,同态加密技术采用的算法公式为:

16、dec(enc(m1)+enc(m2))=m1+m2;

17、dec(enc(m1)*enc(m2))=m1*m2;

18、其中,m1、m2表示数据方双方交换的明文,enc( ·)为加密算法,dec( ·)为解密算法。

19、进一步地,所述方法还包括:

20、广义线性回归模型为si=ligμi=xitβ+offset,其中β=(β1,…,βp)t,(p≥1),,xit=[xi1…xip],t为矩阵转置;offset为模型参数。

21、进一步地,所述损失函数为:其中,ω为模型参数,α为归一化参数。

22、进一步地,所述广义线性回归模型的的变量满足tweedie分布时,广义线性回归模型的训练目标为最小化,优化目标就可以转换为最小化关于数据持有方a端的本地数据xia、y、offset的函数l,即:

23、

24、第二方面,本发明提供一种基于广义线性回归的联邦学习系统,包括:

25、模型构建单元,用于数据方双方联合构建广义线性回归模型,其中,所述数据方双方包括提供训练属性值数据持有方a端和提供数据标签值的数据应用方b端;

26、目标确定单元,用于构建广义线性回归模型的损失函数,其中,所述广义线性回归模型的变量满足tweedie分布时,训练目标为最小化损失函数;

27、梯度计算单元,用于数据持有方a端根据损失函数求偏导得出本地梯度,并通过同态加密技术交换用于计算本地梯度的中间结果;

28、模型更新单元,用于数据持有方a端利用本地梯度更新所述广义线性回归模型。

29、第三方面,提供一种终端,包括:

30、处理器、存储器,其中,

31、该存储器用于存储计算机程序,

32、该处理器用于从存储器中调用并运行该计算机程序,使得终端执行上述的终端的方法。

33、第四方面,提供了一种计算机存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。

34、本发明的有益效果在于:本发明提供的基于广义线性回归的联邦学习方法、系统、终端及介质,实现了在一方仅提供训练属性值、另一方仅提供数据标签值的场景下的符合tweedie分布的广义线性回归模型的两方纵向联邦学习方案,实现了两方联合数据建模过程。其中使用广义线性模型联合建模,填补了通过广义线性模型进行联邦学习的方案,并基于tweedie分布确定最小化损失函数的训练目标,实现符合tweedie分布的广义线性回归模型的联邦学习方法;此外,并利用同态加密技术,使得数据方在不交互明文数据的情况下加密交换联合建模中的中间结果。此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1