本公开涉及大数据安全处理技术领域,尤其涉及一种垂直数据的联邦学习方法及装置。
背景技术:
联邦学习是近年提出的一个机器学习框架,在2016年最先由谷歌提出。它的诞生是用于解决安卓手机终端用户在本地更新模型的问题。传统机器学习会将全部数据收集在一个架构的终端或者分布在多个终端,然后对数据进行机器学习。现有的联邦学习设计理念可以确保数据不会离开安卓手机用户本地,使得机器学习可以使用手机芯片在本地进行,最后将更新的模型参数返送给服务器。这使得联邦学习的应用场景多集中关注企业与消费者之间上,并且,联邦学习多集中在数据水平情况下的机器学习。
但随着日益增长的数据使用和收集,以及大数据应用场景多样化的需求,组织、机构、企业等之间的数据资产的联邦学习将比企业与个人之间的数据联邦学习更具潜在意义。而且,现有联邦学习多处于理论阶段,实际研究应用中也将数据对齐部分作为默认条件。
技术实现要素:
有鉴于此,本公开提出了一种垂直数据的联邦学习方法及装置。
根据本公开的一方面,提供了一种垂直数据的联邦学习方法,应用于协调服务器,所述方法包括:
接收至少两个数据提供方的样本数据标识符的布隆过滤器;
匹配所述至少两个数据提供方的样本数据标识符的布隆过滤器,获取所述至少两个数据提供方对应的样本对齐信息和共有数据指示信息;
利用公钥加密所述共有数据指示信息,得到加密指示信息;
发送所述样本对齐信息、所述公钥、所述加密指示信息以及模型参数至相应的数据提供方;
接收所述至少两个数据提供方发送的,根据所述样本对齐信息、所述公钥、所述加密指示信息以及所述模型参数获取的加密模型梯度信息;
根据所述至少两个数据提供方的加密模型梯度信息,更新所述至少两个数据提供方对应的模型参数;
若更新的模型参数满足预设条件,将所述更新的模型参数作为目标模型参数,发送所述目标模型参数至相应的数据提供方,以使所述相应的数据提供方根据所述目标模型参数预测数据标签。
在一种可能的实现方式中,所述方法还包括:
若更新的模型参数不满足预设条件,将所述更新的模型参数发送至相应的数据提供方,以使所述相应的数据提供方根据所述样本对齐信息、所述公钥、所述加密指示向量以及所述更新的模型参数,获取当前的模型梯度信息;
接收所述相应的数据提供方的当前的加密模型梯度信息;
根据所述当前的加密模型梯度信息,更新所述相应的数据提供方对应的模型参数。
在一种可能的实现方式中,所述根据所述至少两个数据提供方的加密模型梯度信息,更新所述至少两个数据提供方对应的模型参数,包括:
从所述至少两个数据提供方的加密模型梯度信息中提取与每一个数据提供方关联的加密模型梯度信息;
根据所述每一个数据提供方关联的加密模型梯度信息,获取每一个数据提供方对应的加密梯度;
利用所述加密梯度,更新所述每一个数据提供方对应的模型参数。
根据本公开的另一方面,提供了一种垂直数据的联邦学习方法,应用于数据提供方,所述方法包括:
生成数据提供方的样本数据标识符的布隆过滤器,并将所述布隆过滤器发送至协调服务器,以使所述协调服务器匹配至少两个数据提供方的样本数据标识符的布隆过滤器,获取所述至少两个数据提供方对应的样本对齐信息和共有数据指示信息;并利用公钥加密所述共有数据指示信息,得到加密指示信息;
接收所述协调服务器发送的样本对齐信息、公钥、加密指示信息以及模型参数;
根据所述样本对齐信息、所述公钥、所述加密指示信息以及所述模型参数,获取加密模型梯度信息;
发送所述加密模型梯度信息至所述协调服务器,以使所述协调服务器根据所述至少两个数据提供方的加密模型梯度信息,更新所述至少两个数据提供方对应的模型参数,若更新的模型参数满足预设条件,将所述更新的模型参数作为目标模型参数;
接收所述目标模型参数;
根据所述目标模型参数预测数据标签。
在一种可能的实现方式中,所述方法还包括:
接收更新的模型参数;
根据所述样本对齐信息、所述公钥、所述加密指示信息以及所述更新的模型参数,获取当前的加密模型梯度信息;
发送所述当前的加密模型梯度信息至所述协调服务器。
在一种可能的实现方式中,所述根据所述样本对齐信息、所述公钥、所述加密指示信息以及所述模型参数,获取加密模型梯度信息,包括:
根据所述样本对齐信息,确定目标样本集;
在所述目标样本集中,根据所述公钥、所述加密指示信息以及所述模型参数,获取加密中间结果;
接收其它数据提供方的加密中间结果;
根据所述加密中间结果和所述其它数据提供方的加密中间结果,获取所述加密模型梯度信息。
在一种可能的实现方式中,所述在目标样本集中,根据所述公钥、所述加密指示信息以及所述模型参数,获取加密中间结果,包括:
从所述目标样本集中确定特征矩阵以及标签矩阵;
根据所述特征矩阵、所述加密指示信息以及所述模型参数,获取第一矩阵结果和第二矩阵结果;
利用所述公钥,加密所述第一矩阵结果和第二矩阵结果,获取加密第一矩阵结果和加密第二矩阵结果;
与其它数据提供方交换所述加密第二矩阵结果;
根据所述加密第一矩阵结果、所述交换得到的加密第二矩阵结果、所述加密指示信息以及所述标签矩阵,获取所述加密中间结果。
在一种可能的实现方式中,所述根据所述样本对齐信息,确定目标样本集,包括:
根据所述样本对齐信息,确定样本集;
选择样本集中的部分样本数据作为所述目标样本集。
根据本公开的另一方面,提供了一种垂直数据的联邦学习装置,应用于协调服务器,所述装置包括:
第一接收模块,用于接收至少两个数据提供方的样本数据标识符的布隆过滤器;
匹配模块,用于匹配所述至少两个数据提供方的样本数据标识符的布隆过滤器,获取所述至少两个数据提供方对应的样本对齐信息和共有数据指示信息;
加密模块,用于利用公钥加密所述共有数据指示信息,得到加密指示信息;
第一发送模块,用于发送所述样本对齐信息、所述公钥、所述加密指示信息以及模型参数至相应的数据提供方;
第一接收模块,还用于接收所述至少两个数据提供方发送的,根据所述样本对齐信息、所述公钥、所述加密指示信息以及所述模型参数获取的加密模型梯度信息;
模型参数更新模块,用于根据所述至少两个数据提供方的加密模型梯度信息,更新所述至少两个数据提供方对应的模型参数;
目标模型参数确定模块,用于若更新的模型参数满足预设条件,将所述更新的模型参数作为目标模型参数,发送所述目标模型参数至相应的数据提供方,以使所述相应的数据提供方根据所述目标模型参数预测数据标签。
根据本公开的另一方面,提供了一种垂直数据的联邦学习装置,应用于数据提供方,所述装置包括:
布隆过滤器生成模块,用于生成数据提供方的样本数据标识符的布隆过滤器,并将所述布隆过滤器发送至协调服务器,以使所述协调服务器匹配至少两个数据提供方的样本数据标识符的布隆过滤器,获取所述至少两个数据提供方对应的样本对齐信息和共有数据指示信息;并利用公钥加密所述共有数据指示信息,得到加密指示信息;
第二接收模块,用于接收所述协调服务器发送的样本对齐信息、公钥、加密指示信息以及模型参数;
加密模型梯度信息获取模块,用于根据所述样本对齐信息、所述公钥、所述加密指示信息以及所述模型参数,获取加密模型梯度信息;
第二发送模块,用于发送所述加密模型梯度信息至所述协调服务器,以使所述协调服务器根据所述至少两个数据提供方的加密模型梯度信息,更新所述至少两个数据提供方对应的模型参数,若更新的模型参数满足预设条件,将所述更新的模型参数作为目标模型参数;
第二接收模块,还用于接收所述目标模型参数;
标签预测模块,用于根据所述目标模型参数预测数据标签。
根据本公开的另一方面,提供了一种垂直数据的联邦学习装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行上述方法。
根据本公开的另一方面,提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其中,所述计算机程序指令被处理器执行时实现上述方法。
通过匹配样本数据标识符的布隆过滤器,获取所述样本对齐信息和共有数据指示信息,以及通过联邦学习进行所述模型参数的更新,根据本公开实施例的垂直数据的联邦学习方法,可以在数据提供方之间不知道共有样本数据的情况下,实现样本对齐,从而保证数据提供方样本数据的隐私。并且能够在保证数据提供方样本数据隐私的情况下,使得数据提供方的模型参数的更新可以利用所有数据提供方的样本数据,提高了数据提供方的共同模型效益,能够使得数据提供方根据所述目标模型参数预测数据标签的效果与非隐私状态下预测数据标签的效果相同。
另外,通过样本数据标识符的布隆过滤器实现样本对齐,相比于其他单方向哈希或者加密方式,布隆过滤器能够确保在多个标识符不完全一样的时候可以模糊匹配,提高了应用场景的适用性。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1示出根据本公开一实施例的垂直数据的联邦学习方法的场景示意图。
图2示出根据本公开一实施例的垂直数据的联邦学习方法的流程图。
图3示出根据本公开一实施例的步骤s16的流程图。
图4示出根据本公开一实施例的垂直数据的联邦学习方法的流程图。
图5示出根据本公开一实施例的垂直数据的联邦学习方法的流程图。
图6示出根据本公开一实施例的步骤s23的流程图。
图7示出根据本公开一实施例的步骤s232的流程图。
图8示出根据本公开一实施例的步骤s231的流程图。
图9是根据一示例性实施例示出的一种垂直数据的联邦学习装置800的框图。
图10是根据一示例性实施例示出的一种垂直数据的联邦学习装置1900的框图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
图1示出根据本公开一实施例的垂直数据的联邦学习方法的场景示意图。所述联邦学习方法的应用场景可以包括一个协调服务器和至少两个数据提供方,本公开对所述协调服务器、所述至少两个数据提供方之间的通信方式不作限定。以两个数据提供方为例,如图1所示,所述联邦学习方法的应用场景可以包括数据提供方a、数据提供方b、以及协调服务器c。所述数据提供方a和数据提供方b分别具有模型参数,所述模型参数可以用于预测新数据的标签。所述模型参数可以通过所述联邦学习方法进行更新,在所述联邦学习过程中,数据提供方a和数据提供方b的样本数据集只在本地,不会进行样本数据集中任何样本数据的传送,使得样本数据集得到隐私保护。数据提供方a和数据提供方b可以交换加密中间结果,并可以传送加密模型梯度信息至所述c,c可以更新数据提供方a和数据提供方b分别对应的模型参数,若更新的模型参数满足预设条件,可以将所述更新的模型参数作为目标模型参数,发送所述目标模型参数至相应的数据提供方。所述相应的数据提供方可以根据所述目标模型参数更新模型参数,并可以根据所述目标模型参数预测数据标签。
其中,所述样本数据集中的每一个样本数据可以包括样本数据标识符、样本数据特征(数据特征)和样本数据标签(数据标签)。所述样本数据集可以包括用户样本数据或企业样本数据等,本公开对此不作限定。所述样本数据标识符可以用于标识所述每一个样本数据(所述样本数据集中的每一行样本数据)。所述样本数据特征可以是指所述样本数据标识符的行为信息,所述样本数据标签可以表征所述样本数据标识符的一个或多个行为是或否的信息。所述样本数据标签的取值范围可以包括-1和1;或者,所述样本数据标签的取值范围可以包括0和1。可以预先设置1代表是,0或-1代表否,本公开对此不作限定。
图2示出根据本公开一实施例的垂直数据的联邦学习方法的流程图。所述联邦学习方法可以应用于协调服务器。如图2所示,所述方法可以包括:
步骤s11,接收至少两个数据提供方的样本数据标识符的布隆过滤器。
所述布隆过滤器可以是数据提供方生成的,所述数据提供方可以将样本数据集中的样本数据标识符放入布隆过滤器,并可以对所述布隆过滤器中的字符进行多次哈希运算,从而计算出每一个样本数据标识符对应的布隆过滤器。其中,所述布隆过滤器可以是一个向量。所述数据提供方可以将所述布隆过滤器发送至所述协调服务器。
所述协调服务器可以接收至少两个数据提供方的样本数据标识符的布隆过滤器。
步骤s12,匹配所述至少两个数据提供方的样本数据标识符的布隆过滤器,获取所述至少两个数据提供方对应的样本对齐信息和共有数据指示信息。
所述样本对齐信息可以为指示数据提供方的样本数据排序方式的信息,所述样本对其信息可以是向量的形式,例如,可以是样本对其向量。所述至少两个数据提供方对应的样本对齐向量的长度可以相同。所述样本对齐向量的长度可以与所述至少两个数据提供方的样本数据标识符的布隆过滤器的数量中的较小者相同。
所述共有数据指示信息可以是指示各数据提供方之间样本数据标识符是否共有的信息,所述共有数据指示信息可以是向量的形式,例如,可以是共有数据指示向量。所述共有数据指示向量可以是由0和1组成的向量,所述共有数据指示向量的长度可以与所述至少两个数据提供方的样本对齐向量的长度相同,例如,数据提供方a和数据提供方b的布隆过滤器的数量均为n,所述共有数据指示向量的长度可以为n,所述共有数据指示向量可以看作是1×n的矩阵。其中,所述样本对齐信息包括至少两个,即每一个数据提供方对应一个样本对齐向量。所述共有数据指示信息可以是所述至少两个数据提供方共同的,即所述共有数据指示信息可以为一个。
需要说明的是,若所述至少两个数据提供方的样本数据的数量不同,即所述至少两个数据提供方的样本数据标识符的布隆过滤器的数量不同,所述协调服务器可以确定所述至少两个数据提供方的样本数据中不共有的样本数据,可以随机删除所述不共有的样本数据中的一个或多个,即可以随机删除所述不共有的样本数据的布隆过滤器中的一个或多个,能够保证所述至少两个数据提供方的删除后的样本数据标识符的布隆过滤器的数量相同即可,从而能够使得获取的所述至少两个数据提供方对应的样本对齐向量的长度可以相同。
所述协调服务器可以匹配所述至少两个数据提供方的样本数据标识符的布隆过滤器,获取所述至少两个数据提供方对应的样本对齐信息和共有数据指示信息。例如,所述协调服务器可以利用现有相似度算法,比如,可以利用戴斯相似性系数dsc(dicesimilaritycoefficient)匹配不同数据提供方之间的布隆过滤器,协调服务器可以根据匹配结果,获取各数据提供方的样本标识符的排序方式(即样本数据排序方式),根据该排序方式,可以获取各数据提供方的样本对齐信息。所述数据提供方可以根据样本对齐信息,重新排序所述数据提供方的样本数据。各数据提供方均按照各数据提供方对应的样本对齐信息重新排序样本数据,则可以认为各数据提供方的样本数据实现对齐。其中,所述
步骤s13,利用公钥加密所述共有数据指示信息,得到加密指示信息。
所述公钥可以是所述协调服务器根据现有加密算法生成的,例如,所述协调服务器可以根据paillier提出的同态加密算法生成一对密钥,所述一对密钥中可以包括公钥和私钥。所述协调服务器可以利用所述公钥加密所述共有数据指示信息,得到加密指示信息,可以利用所述私钥进行相应的解密。
步骤s14,发送所述样本对齐信息、所述公钥、所述加密指示信息以及所述模型参数至相应的数据提供方。
每一个数据提供方对应一个模型参数,所述模型参数可以是一个d×1矩阵,所述d可以是各数据提供方的样本数据特征的数量之和。在本公开所述联邦学习方法的开始(或者在所述协调服务器第一次向数据提供方发送模型参数前),所述协调服务器可以分别为每一个数据提供方设置对应的模型参数的初始值,例如,所述协调服务器可以随机生成所述模型参数的初始值,比如可以设置模型参数的初始值为0,即每一个数据提供方对应的模型参数的初始值可以是全为0的d×1矩阵。需要说明的是,所述协调服务器为每一个数据提供方设置的模型参数的初始值可以相同,也可以不同,本公开对此不作限定。
所述协调服务器可以发送所述样本对齐信息、所述公钥、所述加密指示信息以及所述模型参数至相应的数据提供方。
其中,所述模型参数可以包括各数据提供方的模型参数。所述样本对齐信息可以是所述数据提供方对应的样本对齐信息。
步骤s15,接收所述至少两个数据提供方发送的,根据所述样本对齐信息、所述公钥、所述加密指示信息以及所述模型参数获取的加密模型梯度信息。
所述至少两个数据提供方可以根据所述样本对齐信息、所述公钥、所述加密指示信息以及所述模型参数,获取加密模型梯度信息。其中,所述加密模型梯度信息的具体计算过程可以在下述数据提供方的联邦学习中具体描述。所述至少两个数据提供方可以分别发送模型梯度信息至所述协调服务器。
所述数据提供方的加密模型梯度信息可以是表征数据提供方的模型参数变化的信息。例如,所述数据提供方的加密模型梯度信息可以是一个d1×1矩阵,所述矩阵的行数d1可以与所述数据提供方的样本数据特征的数量相同。例如,数据提供方a的样本数据可以为[样本数据标识符,x1、x2…xd1,样本数据标签],其中,x1、x2…xd1为样本数据特征,所述样本数据特征共有d1个。所述数据提供方a的加密模型梯度信息可以是至少两个d1×1矩阵。
其中,所述每一个数据提供方(或者说每一个数据提供方发送)的加密模型梯度信息可以包括至少两个加密模型梯度结果,所述加密模型梯度结果的数量可以是数据提供方的数量。所述至少两个加密模型梯度结果可以分为两类:第一加密模型梯度结果和第二加密模型梯度结果,所述第一加密模型梯度结果可以表征利用所述数据提供方的样本数据标签参与确定的加密模型梯度结果;所述第二加密模型梯度结果可以表征利用所述数据提供方之外的其它数据提供方的样本数据标签参与确定的加密模型梯度结果。比如,数据提供方a的第一加密模型梯度结果可以是利用数据提供方a的样本数据标签参与确定的加密模型梯度结果。数据提供方a的第二加密模型梯度结果可以是利用数据提供方a之外的其它数据提供方的样本数据标签参与确定的加密模型梯度结果。
所述协调服务器可以接收所述至少两个数据提供方发送的,根据所述样本对齐信息、所述公钥、所述加密指示信息以及所述模型参数获取的加密模型梯度信息。
步骤s16,根据所述至少两个数据提供方的模型梯度信息,更新所述至少两个数据提供方对应的模型参数。
所述协调服务器可以根据所述至少两个数据提供方的加密模型梯度信息,更新所述至少两个数据提供方对应的模型参数。例如,所述协调服务器可以从所述加密模型梯度信息中提取出与每一个数据提供方关联的加密模型梯度信息,所述与每一个数据提供方关联的加密模型梯度信息可以是指利用所述数据提供方的样本数据标签确定的加密模型梯度信息,比如,对于数据提供方a,与数据提供方a关联的加密模型梯度信息可以是所述至少两个数据提供方的加密模型梯度信息中利用所述数据提供方a的样本数据标签确定的加密模型梯度信息。
在一个示例中,所述协调服务器可以根据所述至少两个数据提供方的加密模型梯度信息,确定所述至少两个数据提供方对应的梯度,可以根据所述至少两个数据提供方对应的梯度,更新所述至少两个数据提供方对应的模型参数。举例来说,数据提供方包括数据提供方a和数据提供方b,若所述协调服务器从所述加密模型梯度信息中提取出与数据提供方a关联的加密模型梯度信息包括d1×1的矩阵以及d2×1的矩阵,所述d1×1的矩阵可以是数据提供方a的第一加密模型梯度结果,所述d2×1的矩阵可以是数据提供方b的第二加密模型梯度结果。所述协调服务器可以连接所述d1×1的矩阵和d2×1的矩阵,获取加密梯度,比如
步骤s17,若更新的模型参数满足预设条件,将所述更新的模型参数作为目标模型参数,发送所述目标模型参数至相应的数据提供方,以使所述相应的数据提供方根据所述目标模型参数预测数据标签。
所述预设条件可以包括更新的模型参数与上次的模型参数之差小于阈值,所述阈值可以根据实际需求设置。
所述协调服务器可以对每一个数据提供方的更新的模型参数进行判断,确定更新的模型参数是否满足预设条件,若更新的模型参数满足预设条件(即满足收敛状态),可以将所述更新的模型参数作为目标模型参数,发送所述目标模型参数至相应的数据提供方,所述相应的数据提供方可以将所述目标模型参数作为所述相应的数据提供方的模型参数,不再进行模型参数的更新。所述相应的数据提供方可以根据所述目标模型参数预测数据标签。例如发送所述目标模型参数至数据提供方a数据提供方a可以根据接收到的目标模型参数,预测新数据的数据标签。具体预测数据标签的过程可以参见下述相关内容,在此不再赘述。
通过匹配样本数据标识符的布隆过滤器,获取所述样本对齐信息和共有数据指示信息,以及通过联邦学习进行所述模型参数的更新,根据本公开实施例的垂直数据的联邦学习方法,可以在数据提供方之间不知道共有样本数据的情况下,实现样本对齐,从而保证数据提供方样本数据的隐私。并且能够在保证数据提供方样本数据隐私的情况下,使得数据提供方的模型参数的更新可以利用所有数据提供方的样本数据,提高了数据提供方的共同模型效益,能够使得数据提供方根据所述目标模型参数预测数据标签的效果与非隐私状态下预测数据标签的效果相同。
另外,通过样本数据标识符的布隆过滤器实现样本对齐,相比于其他单方向哈希或者加密方式,布隆过滤器能够确保在多个标识符不完全一样的时候可以模糊匹配,提高了应用场景的适用性。
如图2所示,在一种可能的实现方式中,所述方法还可以包括:
步骤s18,若更新的模型参数不满足预设条件,将所述更新的模型参数发送至相应的数据提供方,以使所述相应的数据提供方根据所述样本对齐信息、所述公钥、所述加密指示向量以及所述更新的模型参数,获取当前的模型梯度信息;
步骤s19,接收所述相应的数据提供方的当前的加密模型梯度信息;
步骤s20,根据所述当前的加密模型梯度信息,更新所述相应的数据提供方对应的模型参数。
所述协调服务器可以判断更新的模型参数是否满足预设条件,若更新的模型参数不满足预设条件(即不满足收敛状态),可以将所述更新的模型参数发送至相应的数据提供方。并可以接收所述相应的数据提供方的当前的加密模型梯度信息,所述协调服务器可以根据所述当前的加密模型梯度信息,更新所述相应的数据提供方对应的模型参数,进入步骤“判断更新的模型参数是否满足预设条件”,若更新的模型参数满足预设条件,进入步骤s17;若更新的模型参数不满足预设条件,进入步骤s18,形成再一次的迭代。
图3示出根据本公开一实施例的步骤s16的流程图。如图3所示,在一种可能的实现方式中,所述步骤s16可以包括:
步骤s161,从所述至少两个数据提供方的加密模型梯度信息中提取与每一个数据提供方关联的加密模型梯度信息。
所述与每一个数据提供方关联的加密模型梯度信息可以是指利用所述数据提供方的样本数据标签确定的加密模型梯度信息;或者,所述与每一个数据提供方关联的加密模型梯度信息可以是指利用所述数据提供方的加密中间结果(具体参见下述步骤s232)确定的加密模型梯度信息。例如,若数据提供方包括数据提供方a和数据提供方b,若数据提供方a的加密模型梯度信息包括xtasda、xtasdb,数据提供方b的加密模型梯度信息包括xtbsdb、xtbsda。其中,xas为数据提供方a的特征矩阵,xbs为数据提供方b的特征矩阵。对于数据提供方a来说,da可以为所述加密中间结果,db可以为其它数据提供方(数据提供方b)的加密中间结果;所述xtasda可以为第一加密模型梯度结果,所述xtasdb可以为第二加密模型梯度结果。此时,与数据提供方a关联的加密模型梯度信息可以包括:xtasda以及xtbsda;与数据提供方b关联的加密模型梯度信息可以包括:xtasdb以及xtbsdb。
步骤s162,根据所述每一个数据提供方关联的加密模型梯度信息,获取每一个数据提供方对应的加密梯度。
所述协调服务器可以根据所述每一个数据提供方关联的加密模型梯度信息,获取每一个数据提供方对应的加密梯度。举例来说,对于数据提供方a,所述协调服务器可以连接xtasda以及xtbsda,若xtasda为d1×1的矩阵、xtbsda为d2×1的矩阵,获取的数据提供方a对应的加密梯度可以是
步骤s163,利用所述加密梯度,更新所述每一个数据提供方对应的模型参数。
所述协调服务器可以利用所述加密梯度,更新所述每一个数据提供方对应的模型参数。
在一个示例中,所述协调服务器可以利用下述公式(1),更新所述每一个数据提供方对应的模型参数。
θ←θ-η(δls(θ))(1)
其中,所述δls(θ)为加密梯度,所述η为模型参数更新步数,可以为小于1的数,例如0.01。
图4示出根据本公开一实施例的垂直数据的联邦学习方法的流程图。所述垂直数据的联邦学习方法可以应用于数据提供方。如图4所示,所述方法可以包括:
步骤s21,生成数据提供方的样本数据标识符的布隆过滤器,并将所述布隆过滤器发送至协调服务器,以使所述协调服务器匹配至少两个数据提供方的样本数据标识符的布隆过滤器,获取所述至少两个数据提供方对应的样本对齐信息和共有数据指示信息;并利用公钥加密所述共有数据指示信息,得到加密指示信息。
所述协调服务器可以生成数据提供方的样本数据标识符的布隆过滤器,并可以将所述布隆过滤器发送至协调服务器。具体生成所述布隆过滤器可以参见上述步骤s11中的相关内容,在此不再赘述。
步骤s22,接收所述协调服务器发送的样本对齐信息、公钥、加密指示信息以及模型参数;
步骤s23,根据所述样本对齐信息、所述公钥、所述加密指示信息以及所述模型参数,获取加密模型梯度信息。
每一个数据提供方接收的模型参数可以包括各数据提供方的模型参数。
所述协调服务器可以接收所述协调服务器发送的样本对齐信息、公钥、加密指示信息以及模型参数,并可以根据所述样本对齐信息、所述公钥、所述加密指示信息以及所述模型参数,获取模型梯度信息。例如,所述协调服务器可以根据所述样本对其信息,重新排序样本数据集中的样本数据,使得各数据提供方的样本数据能够对齐。在样本数据对齐的情况下,协调服务器可以选择对齐后的样本数据集中的样本数据特征以及样本数据标签。所述协调服务器可以根据所述模型参数、样本数据特征、样本数据标签、所述公钥和所述加密指示信息,获取加密模型梯度信息。本公开对具体的计算过程不作限定,只要所述加密模型梯度信息可以表征模型逻辑损失的趋势即可。
步骤s24,发送所述模型梯度信息至所述协调服务器,以使所述协调服务器根据所述至少两个数据提供方的加密模型梯度信息,更新所述至少两个数据提供方对应的模型参数,若更新的模型参数满足预设条件,将所述更新的模型参数作为目标模型参数;
步骤s25,接收所述目标模型参数;
步骤s26,根据所述目标模型参数预测数据标签。
所述数据提供方可以发送所述加密模型梯度信息至所述协调服务器,并可以接收所述协调服务器发送的所述目标模型参数。所述数据提供方可以根据所述目标模型参数预测数据标签。
在一个示例中,若数据提供方a接收到目标模型参数θa,在数据提供方a产生新数据的情况下,所述新数据中的数据特征xi可以包括数据提供方b的数据特征,即xi∈rd1+d2,其中,所述新数据与数据提供方a的样本数据可以形成新的样本数据集,xi可以表示新数据在数据提供方a的所述新的样本数据集中排在第i行。所述数据提供方a可以用θa对所述新数据进行预测,具体地,可以计算
需要说明的是,若数据提供方a接收所述目标模型参数,所述数据提供方a可以停止更新所述数据提供方a的模型参数。但所述数据提供方a可以使用所述目标模型参数继续参与其它数据提供方的加密模型梯度信息的计算中。在此种情况下,所述协调服务器还需要发送其它数据提供方的模型参数至数据提供方a(即所述目标模型参数相应的数据提供方)。
根据本公开实施例的垂直数据的联邦学习方法,数据提供方可以在不知道与其它数据提供方共有样本数据的情况下,实现样本对齐,从而保证数据提供方样本数据的隐私。并且能够在保证数据提供方样本数据隐私的情况下,使得数据提供方的模型参数的更新可以利用所有数据提供方的样本数据,提高了数据提供方的共同模型效益,能够使得数据提供方根据所述目标模型参数预测数据标签的效果与非隐私状态下预测数据标签的效果相同。
通过将样本数据标识符的布隆过滤器发送至协调服务器,使得所述协调服务器在实现样本对齐时,相比于其他单方向哈希或者加密方式,能够确保在多个标识符不完全一样的时候可以模糊匹配,提高了应用场景的适用性。
图5示出根据本公开一实施例的垂直数据的联邦学习方法的流程图。如图5所示,所述方法还可以包括:
步骤s27,接收更新的模型参数;
步骤s28,根据所述样本对齐信息、所述公钥、所述加密指示信息以及所述更新的模型参数,获取当前的加密模型梯度信息;
步骤s29,发送所述当前的加密模型梯度信息至所述协调服务器。
所述更新的模型参数可以包括一个或多个数据提供方的更新的模型参数。其中,所述一个或多个数据提供方可以为不满足收敛状态的数据提供方。
所述数据提供方可以接收更新的模型参数,并可以根据所述样本对齐信息、所述公钥、所述加密指示信息以及所述更新的模型参数,获取当前的加密模型梯度信息。所述数据提供方可以发送所述当前的加密模型梯度信息至所述协调服务器,以使所述协调服务器继续更新所述数据提供方对应的模型参数。其中,步骤s28的具体过程可以参见步骤s23。
需要说明的是,若不满足收敛状态的数据提供方为一个时,所述协调服务器可以发送满足收敛状态的数据提供方的目标模型参数至所述数据提供方,以使满足收敛状态的数据提供方参与不满足收敛状态的数据提供方的所述当前的加密模型梯度信息的获取过程中。
图6示出根据本公开一实施例的步骤s23的流程图。如图6所示,在一种可能的实现方式中,所述步骤s23,可以包括:
步骤s231,根据所述样本对齐信息,确定目标样本集。
数据提供方可以根据所述样本对齐信息,确定目标样本集。例如,数据提供方可以根据所述样本对齐信息,重新排序所述数据提供方的原样本集中的样本数据,可以将重新排序后的原样本集确定为所述目标样本集。
步骤s232,在所述目标样本集中,根据所述公钥、所述加密指示信息以及所述模型参数,获取加密中间结果。
所述数据提供方可以在所述目标样本集中,根据所述公钥、所述加密指示信息以及所述模型参数,获取加密中间结果。例如,所述数据提供方可以从所述目标样本集中提取出特征矩阵以及标签矩阵,可以利用所述特征矩阵、标签矩阵、所述公钥、所述加密指示信息以及所述模型参数,获取所述加密中间结果。
在一种可能的实现方式中,如图7所示,所述步骤s232可以包括:
步骤s2321,从所述目标样本集中确定特征矩阵以及标签矩阵。
所述数据提供方可以从所述目标样本集中确定特征矩阵以及标签矩阵。例如,数据提供方a的目标样本集s中有n个样本数据,每一个样本数据包括d1个样本数据特征以及一个样本数据标签。其中,所述d1可以是大于等于1的整数。数据提供方a可以从目标样本集中提取出样本数据特征,形成所述特征矩阵xas;可以从目标样本集中提取出样本数据标签,形成标签矩阵yas。所述xas可以为n×d1的矩阵,所述yas可以为n×1的矩阵。需要说明的是,在提取所述特征矩阵以及标签矩阵时,要保持特征矩阵以及标签矩阵对应的样本数据的排序与所述目标样本集中样本数据的排序一致。
步骤s2322,根据所述特征矩阵、所述加密指示信息以及所述模型参数,获取第一矩阵结果和第二矩阵结果。
所述模型参数可以包括所有数据提供方的模型参数,例如,若数据提供方包括数据提供方a和数据提供方b,所述数据提供方a和数据提供方b分别具有θa和θb,所述θa为所述数据提供方a的模型参数,所述θb为所述数据提供方b的模型参数。θa和θb均可以是(d1+d2)×1的矩阵,其中,d1为数据提供方a的特征矩阵xas中每一行的特征的数量;d2为数据提供方b的特征矩阵xbs中每一行的特征的数量。所述θa可以表示为
所述数据提供方a可以利用下述公式(2),获取所述第一矩阵结果。
其中,
所述数据提供方a可以利用下述公式(3),获取所述第二矩阵结果。
基于同样的方式,数据提供方b可以获取相应的第一矩阵结果为
步骤s2323,利用所述公钥,加密所述第一矩阵结果和第二矩阵结果,获取加密第一矩阵结果和加密第二矩阵结果。
所述数据提供方可以根据所述公钥,加密所述第一矩阵结果和第二矩阵结果,获取加密第一矩阵结果和加密第二矩阵结果。例如,所述数据提供方可以根据所述公钥,分别向所述第一矩阵结果和第二矩阵结果中加入噪音,获取加密第一矩阵结果和加密第二矩阵结果。本公开对所述加密方式不作限定。
步骤s2324,与其它数据提供方交换所述加密第二矩阵结果。
所述其它数据提供方获取第一矩阵结果、加密第二矩阵结果的方式与上述相同。在此不再赘述。即每一个数据提供方均会获取加密第一矩阵结果以及加密第二矩阵结果,数据提供方之间可以交换各自的加密第二矩阵结果,在所述交换后,每一个数据提供方均可以获取到其它数据提供方的加密第二矩阵结果。
步骤s2325,根据所述加密第一矩阵结果、所述交换得到的加密第二矩阵结果、所述加密指示信息以及所述标签矩阵,获取所述加密中间结果。
所述数据提供方可以根据所述加密第一矩阵结果、所述交换的加密第二矩阵结果以及所述标签矩阵,获取所述加密中间结果。例如,所述数据提供方可以根据所述加密指示信息,加密所述标签矩阵,获取加密标签矩阵。所述数据提供方可以根据所述加密第一矩阵结果、所述交换得到的加密第二矩阵结果以及所述加密标签矩阵,获取所述加密中间结果。
在一个示例中,在数据提供方包括数据提供方a和数据提供方b的情况下。所述数据提供方a可以利用下述公式(4),获取数据提供方a对应的加密矩阵和
其中,所述
数据提供方a可以利用下述公式(5),获取数据提供方a的加密中间结果da。
其中,所述yas为数据提供方a的标签矩阵,所述
步骤s233,接收其它数据提供方的加密中间结果。
所述其它数据提供方的加密中间结果的获取方式可以与上述步骤s232获取加密中间结果的方式相同,在此不再赘述。
步骤s234,根据所述加密中间结果和所述其它数据提供方的加密中间结果,获取所述加密模型梯度信息。
所述数据提供方可以根据所述加密中间结果和所述其它数据提供方的加密中间结果,获取所述加密模型梯度信息。例如,所述数据提供方可以利用特征矩阵的转置矩阵分别乘以加密中间结果和所述其它数据提供方的加密中间结果,获取所述加密模型梯度信息。
在一个示例中,若数据提供方包括数据提供方a和数据提供方b,数据提供方a的特征矩阵为xas。数据提供方a的加密中间结果da,数据提供方a还可以接收数据提供方b发送的所述数据提供方b的加密中间结果db,数据提供方a可以利用所述xas的转置矩阵xtas分别与所述da、db做乘法,得到加密模型梯度信息可以包括xtasda、xtasdb。同理,数据提供方b获取的加密模型梯度信息可以包括xtbsdb、xtbsda。
数据提供方之间交换的加密中间结果是利用各数据提供方的样本数据标签获取的,使得数据提供方的加密模型梯度信息包括了各数据提供方的样本数据标签,打破了单个数据提供方的样本数据的稀缺性,加强了模型学习能力。而且所述加密模型梯度信息的计算都在本地,保证隐私的同时,提高了数据提供方的模型效益。
图8示出根据本公开一实施例的步骤s231的流程图。如图8所示,在一种可能的实现方式中,在一种可能的实现方式中,所述步骤s231可以包括:
步骤s2311,根据所述样本对齐信息,确定样本集;
步骤s2312,选择样本集中的部分样本数据作为所述目标样本集。
所述数据提供方可以根据所述样本对齐信息,确定样本集,并可以选择样本集中的部分样本数据作为所述目标样本集。使得数据提供方可以在较小的目标样本集中,进行模型梯度信息的计算,提高效率。其中,所述数据提供方每次选择的所述目标样本集可以不同。
图9示出根据本公开一实施例的垂直数据的联邦学习装置的框图。所述加密装置可以应用于发送端,所述加密装置可以包括:
第一获取模块11,用于获取待加密数据;
第二获取模块12,用于从发送端pcram中获取密钥;
加密模块13,用于利用所述密钥对所述待加密数据进行加密。
通过xx。
图10示出根据本公开一实施例的垂直数据的联邦学习装置的框图。
图9是根据一示例性实施例示出的一种垂直数据的联邦学习装置800的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图9,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(i/o)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在装置800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(mic),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
i/o接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到装置800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如cmos或ccd图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如wifi,2g或3g,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
图10是根据一示例性实施例示出的一种垂直数据的联邦学习装置1900的框图。例如,装置1900可以被提供为一服务器。参照图10,装置1900包括处理组件1922,其进一步包括一个或多个处理器,以及由存储器1932所代表的存储器资源,用于存储可由处理组件1922的执行的指令,例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1922被配置为执行指令,以执行上述方法。
装置1900还可以包括一个电源组件1926被配置为执行装置1900的电源管理,一个有线或无线网络接口1950被配置为将装置1900连接到网络,和一个输入输出(i/o)接口1958。装置1900可以操作基于存储在存储器1932的操作系统,例如windowsservertm,macosxtm,unixtm,linuxtm,freebsdtm或类似。
在示例性实施例中,还提供了一种非易失性计算机可读存储介质,例如包括计算机程序指令的存储器804,上述计算机程序指令可由装置800的处理器820执行以完成上述方法。
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式压缩盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如smalltalk、c++等,以及常规的过程式编程语言—诸如“c”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。