本公开涉及联合学习,尤其涉及一种基于联合学习的数据分析方法、装置、设备及存储介质。
背景技术:
1、联合学习是一种机器学习设定,其中许多客户端在中央服务器的协调下共同训练模型,同时保持训练数据的去中心化及分散性。联合学习的长期目标:在不暴露数据的情况下分析和学习多个数据拥有者的数据。
2、在联合学习中,需要确保参与方得到的支付能覆盖其提供资源的成本,否则参与方将不会长期持续参与联合学习。一般而言,联合学习平台作为中央服务器,会允许参与方申报自己的资源成本,并从中选择参与方训练模型。这使得恶意参与方可能通过虚报资源数量、质量和成本,将其他参与方排除在训练之外,从而不正当获利。虚报资源数量和质量也造成参与方训练的模型效果达不到预期,给平台带来损失。
3、因此,需要一种能够基于联合学习进行数据分析的方案,来打击这种恶意行为。
技术实现思路
1、有鉴于此,本公开实施例提供了一种联合学习失真数据的数据分析方法、装置、电子设备及计算机可读存储介质,以解决现有技术中需要一种能够基于联合学习进行数据分析的方案,来打击这种恶意行为的问题。
2、本公开实施例的第一方面,提供了一种基于联合学习的数据分析方法,包括:
3、接收多个资源方发送的申报资源元数据,申报资源元数据中至少携带有单位资源指标、贡献申报值;
4、根据单位资源指标,在多个资源方中选择资源提供方,以使资源提供方参与联合学习,共同训练联合学习模型;
5、确定资源提供方对于训练联合学习模型的实际贡献值;
6、若根据贡献申报值以及实际贡献值,确定资源提供方存在失真数据,则根据失真数据,确定所述资源提供方申报资源元数据为不合格。
7、本公开实施例的第二方面,提供了一种基于联合学习的数据分析装置,包括:
8、数据接收模块,接收多个资源方发送的申报资源元数据,申报资源元数据中至少携带有单位资源指标、贡献申报值;
9、联合学习模块,根据单位资源指标,在多个资源方中选择资源提供方,以使资源提供方参与联合学习,共同训练联合学习模型;
10、贡献值确定模块,确定资源提供方对于训练联合学习模型的实际贡献值;
11、数据判定模块,若根据贡献申报值以及实际贡献值,确定资源提供方存在失真数据,则根据失真数据,确定所述资源提供方申报资源元数据为不合格。
12、本公开实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
13、本公开实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
14、本公开实施例与现有技术相比存在的有益效果是:通过对实际贡献值以及贡献申报值之间的差异,能够准确地判断资源提供方是否存在失真数据。若其存在失真数据,则可以对其进行风险排除,使其对自身的失真数据埋单,通过风险排除来降低资源提供方失真数据的减少,保证联合学习模型的训练成果。
1.一种基于联合学习的数据分析方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述贡献申报值以及所述实际贡献值,确定所述资源提供方存在失真数据,具体包括:
3.根据权利要求2所述的方法,其特征在于,所述对所述偏差系数进行修正,得到对应的风险系数,具体包括:
4.根据权利要求3所述的方法,其特征在于,所述根据所述失真数据,对所述资源提供方进行风险排除,具体包括:
5.根据权利要求3所述的方法,其特征在于,所述确定预先设置的偏差风险指数,具体包括:
6.根据权利要求1所述的方法,其特征在于,所述根据所述单位资源指标,在所述多个资源方中选择资源提供方,具体包括:
7.根据权利要求1所述的方法,其特征在于,所述确定所述资源提供方对于训练所述联合学习模型的实际贡献值,具体包括:
8.一种基于联合学习的数据分析装置,其特征在于,包括:
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。