联邦学习数据的检测校正方法及装置与流程

文档序号：34989994发布日期：2023-08-03 20:44阅读：26来源：国知局

本发明实施例涉及隐私数据处理，尤其涉及一种联邦学习数据的检测校正方法及装置。

背景技术：

1、对于机器学习来说，高质量的数据往往可以获得泛化性能较好的模型。而联邦学习作为一种去中心化的机制的分布式机器学习方法，在实现数据可用不可见的同时使用分散在不同机器或数据中心的数据来构建机器学习模型。由于数据来自于各个参与方，在实现模型的同时还需要确保原始数据不被其他参与方获知。然而各个参与方本地的数据往往都不是完美的(例如存在异常值、缺失值等)，如果直接使用这些数据进行模型的训练，可能取得较差的建模效果。尤其是当数据中存在大量存在问题数据时，将直接影响全局建模的效果，严重时会造成建模偏差，这不仅会产生错误的决策，还会造成计算空间的浪费。

技术实现思路

1、基于现有技术的上述情况，本发明实施例的目的在于提供一种联邦学习数据的检测校正方法及装置，服务器端在保证数据安全和隐私的同时，利用各参与端对原始数据进行可用性和有效性的中间结果，利用联邦学习方法进行分析，从而实现对数据的校正。

2、为达到上述目的，根据本发明的第一个方面，提供了一种联邦学习数据的检测校正方法，应用于服务器端，包括：

3、获取各参与方端上传的中间数据，所述中间数据包括待补充数据的位置信息、可疑数据和可疑数据相关的指标；

4、依据所述可疑数据相关的指标进行全局分析，对可疑数据进行筛选，确定待校正数据；

5、依据待补充数据的位置信息和待校正数据，确定问题数据矩阵；

6、从各参与方端获取问题数据矩阵中各问题数据对应的关联数据，并对关联数据进行分析，确定各参与方端的修正矩阵，以依据参与方端的修正矩阵和参与方端的本地数据提供数据处理服务。

7、进一步的，依据所述可疑数据相关的指标进行全局分析，对可疑数据进行筛选，确定待校正数据，包括：

8、确定各参与方端可疑数据相关的指标的全局指标；

9、依据所述全局指标确定可疑数据符合的函数，依据可疑数据和函数的匹配情况，确定可疑数据的异常度；

10、依据可疑数据的异常度，从可疑数据中筛选出待校正数据。

11、进一步的，确定各参与方端可疑数据相关的指标的全局指标，包括：

12、依据各参与方端的数据与可疑数据对应的指标，确定全局指标；所述指标包括数据的均值、最大值、最小值、方差和众数中的至少一个。

13、进一步的，所述从各参与方端获取问题数据矩阵中各问题数据对应的关联数据，并对关联数据进行分析，确定各参与方端的修正矩阵，包括：

14、对于待补充数据，从关联数据中获取填充数据，并添加到修正矩阵中；

15、对于待校正数据，从关联数据中获取相关数据，并输入到分析模型中，确定修正值，并将修正值添加到修正矩阵中，所述分析模型是依据联邦学习的方式进行训练得到的。

16、进一步的，所述方法还包括分析模型的训练过程：

17、获取各参与方端的模型梯度，所述模型梯度通过各参与方端的本地训练数据训练得到，所述本地训练数据通过数据随机缺失和数据随机调整得到，所述本地训练数据的标注数据为随机缺失和随机调整前的数据；

18、依据模型梯度，更新分析模型的模型参数，直至模型参数收敛。

19、进一步的，在确定问题数据矩阵之后，所述方法还包括：

20、下发同态加密后的待补充数据矩阵给各参与方端，以依据各参与方端的反馈确定可填充的缺失值，并进行标记，以依据标记进行数据修复；

21、下发同态加密后的待校正数据矩阵给各参与方端，以依据各参与方端的反馈确定可校正的数据，并进行标记，以依据标记进行数据修复；

22、所述待补充数据矩阵和待校正数据矩阵依据修正矩阵获得。

23、进一步的，所述方法还包括：

24、确定参与方端的可信执行环境，将修正矩阵发送至给该参与方端，以使得该参与方端在本地的可信执行环境中将本地数据与修正矩阵进行融合，以依据融合后的数据进行数据处理。

25、进一步的，所述方法还包括：

26、接收参与方端的第一分析结果和待分析数据；

27、在可信执行环境中，依据修正矩阵和待分析数据，确定第二分析结果；

28、在可信执行环境中，依据第一分析结果和第二分析结果，确定数据处理结果。

29、进一步的，所述方法还包括：

30、发送同态加密算法至参与方端，以使得参与方端依据同态加密算法对本地数据进行加密；

31、采用该同态加密算法对修复后的数据进行加密，将加密后的数据发送至参与方端，以使得参与方端采用本地的模型对数据进行训练，得到加密的训练结果和加密的标签；

32、接收参与方端发送的加密的训练结果和加密的标签，计算加密的训练结果和加密的标签之间的差值，并采用同态加密算法解密后对参与方端的模型进行调整。

33、根据本发明的第二个方面，提供了一种联邦学习数据的检测校正方法，应用于参与方端，包括：

34、在参与方端本地对本地数据进行计算，分析出待补充数据，并确定待补充数据的位置信息；

35、在参与方端本地计算本地数据的指标，依据所述指标确定可疑数据；

36、依据待补充数据的位置信息、可疑数据和可疑数据相关的指标，确定中间数据；

37、向服务器端上传所述中间数据。

38、根据本发明的第三个方面，提供了一种联邦学习数据的检测校正装置，应用于服务器端，包括：

39、中间数据获取模块，用于获取各参与方端上传的中间数据，所述中间数据包括待补充数据的位置信息、可疑数据和可疑数据相关的指标；

40、待校正数据确定模块，用于依据所述可疑数据相关的指标进行全局分析，对可疑数据进行筛选，确定待校正数据；

41、问题数据矩阵确定模块，用于依据待补充数据的位置信息和待校正数据，确定问题数据矩阵；

42、修正矩阵确定模块，用于从各参与方端获取问题数据矩阵中各问题数据对应的关联数据，并对关联数据进行分析，确定各参与方端的修正矩阵，以依据参与方端的修正矩阵和参与方端的本地数据提供数据处理服务。

43、综上所述，本发明实施例提供了一种联邦学习数据的检测校正方法及装置，所述方法包括：获取各参与方端上传的中间数据，所述中间数据包括待补充数据的位置信息、可疑数据和可疑数据相关的指标；依据所述可疑数据相关的指标进行全局分析，对可疑数据进行筛选，确定待校正数据；依据待补充数据的位置信息和待校正数据，确定问题数据矩阵；从各参与方端获取问题数据矩阵中各问题数据对应的关联数据，并对关联数据进行分析，确定各参与方端的修正矩阵，以依据参与方端的修正矩阵和参与方端的本地数据提供数据处理服务。本发明实施例提供的技术方案，在参与方本地利用规则对数据计算得到的中间数据的基础上，将其加密后利用联邦学习方法进行分析，之后各参与方利用联邦学习计算得到的全局特征分布信息保存在可信执行环境中，并根据选择的问题数据进行修正，能够结合数据质量、数据有效性检测和数据保护机制，有效地解决数据准确性、一致性和安全性的技术问题，适用于严格隐私限制下的组织，例如医疗、金融等领域的数据处理。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郑灏王爽孙琪王帅李帜
技术所有人：杭州锘崴信息科技有限公司
我是此专利的发明人

上一篇：一种用于MLCC的直振双道送料装置的制作方法
上一篇：一种分级处理的污泥干化机的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。