基于横向联邦学习的fisher线性判别器建模方法
技术领域
1.本发明涉及机器学习技术领域,具体涉及一种基于横向联邦学习的fisher线性判别器建模方法。
背景技术:2.分类任务是机器学习领域一种重要的有监督学习任务。它通过在带有已知标签的样本数据集上进行训练,得到一个分类模型,该样本集成为训练集;利用该模型应用在未知标签的数据样本,预测该样本的标签。通常一个样本可以用一个d维向量xi∈rd来表示,其中r表示实数集,一个有n个样本的集合表示为x=(x1,x2,...,xn)。在训练集上每个样本带有一个用整数标签yi,用来指示该样本属于那个类别。在二分类任务中,yi有0,1两种可能的标签。某一主体,企业或个人,在应用fisher判别器进行训练建模时,首先需要收集用于训练的数据。经常这些数据来源于不同的数据拥有者手中。这些数据有可能是敏感的数据。出于隐私方面的考虑,这些数据拥有者可能不愿意或者法律不允许对外提供这些敏感数据。在这种情况下,训练模型的主体可能收集不到足够用来训练的数据,从而影响了模型的准确度,甚至无法完整模型的训练。为此,有必要研究能够兼顾数据隐私的fisher线性判别器建模方法。
3.如中国专利cn113469262a,公开日2021年10月1日,一种基于fisher信息矩阵的增量学习方法。该方法通过计算fisher信息矩阵判定神经网络各层参数的重要性;通过分离层间参数和层内参数,大大提升fisher信息矩阵的计算效率;通过引入新的车辆增量数据,迭代训练模型,避免了全量数据训练的庞大计算量;对不同重要性的参数设置相应的权重系数,使得先验模型和后验模型具有最大的相似度;将fisher信息矩阵和经典的kl散度相关联,给予神经网络的流形假设更有力的支撑。其技术方案引入正则项可以有效控制神经网络的先验模型和后验模型之间的距离,使其尽可能小。但其技术方案并没有接近多数据主体时,数据的隐私保护问题。
技术实现要素:4.本发明所要解决的技术问题:多数据主体进行fisher线性判别器建模时,存在数据隐私泄露风险的技术问题。提出了一种基于横向联邦学习的fisher线性判别器建模方法,能够在建模过程中保护数据主体的数据隐私安全。
5.解决上述技术问题,本发明采用如下技术方案:基于横向联邦学习的fisher线性判别器建模方法,包括:
6.参与方pk选定协调方,参与方pk分别计算本地数据两个类别样本和分别计算本地数据两个类别样本和其中w
k,0
为第一类样本的和,w
k,1
为第二类样本的和,x
k,i
为样本数据的特征值向量,y
k,i
为样本数据的标签值;
7.全部参与方pk生成随机数向量r
k,0
和r
k,1
,满足以及
8.参与方pk计算向量t
k,0
=w
k,0
+r
k,0
和向量t
k,1
=w
k,1
+r
k,1
,把t
k,0
、t
k,1
、n
k,0
及n
k,1
发送
给协调方,n
k,0
及n
k,1
分别为本地数量标签值为0及1的样本数据的数量;
9.协调方计算两类样本数据的特征值向量的平均值向量m0和m1,并发送给各个参与方pk;
10.参与方pk各自计算(x
k,i-m0)
t
,而后计算uk=u
k,0
+u
k,1
;
11.全部参与方pk重新生成随机数向量r
k,0
和r
k,1
,满足以及
12.参与方pk各自计算vk=uk+rk,把vk发送给协调方;
13.协调方计算令sb=(m
0-m1)*(m
0-m1)
t
,协调方计算方程(s
b-γs
in
)w=0的特征根w,将特征根w发送给各个参与方pk,参与方pk根据特征根w建立fisher线性判别器模型。
14.作为优选,全部参与方pk生成随机数向量r
k,0
和r
k,1
的方法包括:
15.赋予全部参与方pk排序,参与方之间两两配对;
16.配对的参与方pk和参与方pj交换相同的秘钥,记为c
k,j
,根据c
k,j
生成随机数;
17.参与方pk和参与方pj约定随机数的正负属性;
18.获得随机数向量r
k,0
和r
k,1
的元素数量,重复前述步骤获得与元素数量相符的多个秘钥,按获得顺序排序获得随机数向量r
k,0
和r
k,1
。
19.作为优选,配对的参与方pk和参与方pj采用密码交换协议获得相同的交换秘钥c
k,j
。
20.作为优选,所述密码交换协议为diffe-hellman密钥交换协议。
21.作为优选,根据c
k,j
生成随机数的方法为:计算r
k,j
=prng(c
k,j
),其中prng()为伪随机生成函数,计算rk=-∑
j《krk,j
+∑
k《jrk,j
作为本次获得的随机数。
22.作为优选,参与方pk根据特征根w建立fisher线性判别器模型的方法包括:
23.计算判别阈值:
[0024][0025]
其中μ0=w
k,0
/n
k,0
,μ1=w
k,1
/n
k,1
,
[0026]
对于新的特征向量x
*
,计算w
t
x
*
,w
t
x
*
比w0更接近的类别标签值即为特征向量x
*
的标签值。
[0027]
作为优选,参与方pk根据特征根w建立fisher线性判别器模型的方法包括:
[0028]
计算判别阈值:
[0029][0030]
其中μ0=w
k,0
/n
k,0
,μ1=w
k,1
/n
k,1
,对于新的特征向量x
*
,计算w
t
x
*
,w
t
x
*
比w0更接近的类别标签值即为特征向量x
*
的标签值。
[0031]
本发明的有益技术效果包括:采用基于横向联邦学习的fisher判别器模型训练方法,一方面允许数据保留在各个参与方手中,而不用对外泄露原始数据,从而保护了数据的隐私;在保护数据隐私的同时,模型的训练能够使用更多的数据,从而提高模型训练的精
度,提升了模型的可用性,使得模型能够在更广的范围被采纳和使用。
[0032]
本发明的其他特点和优点将会在下面的具体实施方式、附图中详细的揭露。
附图说明
[0033]
下面结合附图对本发明做进一步的说明:
[0034]
图1为本发明实施例的fisher线性判别器建模方法流程示意图。
[0035]
图2为本发明实施例的生成随机数向量方法流程示意图。
具体实施方式
[0036]
下面结合本发明实施例的附图对本发明实施例的技术方案进行解释和说明,但下述实施例仅为本发明的优选实施例,并非全部。基于实施方式中的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得其他实施例,都属于本发明的保护范围。
[0037]
在下文描述中,出现诸如术语“内”、“外”、“上”、“下”、“左”、“右”等指示方位或者位置关系仅是为了方便描述实施例和简化描述,而不是指示或暗示所指的装置或者元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
[0038]
基于横向联邦学习的fisher线性判别器建模方法,请参阅附图1,包括:
[0039]
步骤a01)参与方pk选定协调方,参与方pk分别计算本地数据两个类别样本和其中w
k,0
为第一类样本的和,w
k,1
为第二类样本的和,x
k,i
为样本数据的特征值向量,y
k,i
为样本数据的标签值;
[0040]
步骤a02)全部参与方pk生成随机数向量r
k,0
和r
k,1
,满足以及
[0041]
步骤a03)参与方pk计算向量t
k,0
=w
k,0
+r
k,0
和向量t
k,1
=w
k,1
+r
k,1
,把t
k,0
、t
k,1
、n
k,0
及n
k,1
发送给协调方,n
k,0
及n
k,1
分别为本地数量标签值为0及1的样本数据的数量;
[0042]
步骤a04)协调方计算两类样本数据的特征值向量的平均值向量m0和m1,并发送给各个参与方pk;
[0043]
步骤a05)参与方pk各自计算各自计算而后计算uk=u
k,0
+u
k,1
;
[0044]
步骤a06)全部参与方pk重新生成随机数向量r
k,0
和r
k,1
,满足以及
[0045]
步骤a07)参与方pk各自计算vk=uk+rk,把vk发送给协调方;
[0046]
步骤a08)协调方计算令sb=(m
0-m1)*(m
0-m1)
t
,协调方计算方程(s
b-γs
in
)w=0的特征根w,将特征根w发送给各个参与方pk,参与方pk根据特征根w建立fisher线性判别器模型。
[0047]
fisher线性判别器是一个经典有效的二分类方法,它通过把样本的d维向量xi投影到1维空间中,也就是说,yi=w
t
xi,i=1,2,...,n。使得不同类别的样本投影尽可能的区分开来,而相同类别的样本投影尽可能的接近。用m0表示第一类样本的平均值,m1表示第二
类样本的平均值,sb=(m
0-m1)*(m
0-m1)
t
,s
in
=s0+s1。fisher判别器的目标就在于求得w∈rd,使得目标函数(w
t
*sb*w)/(w
t
*s
in
*w)最大化,其中分子w
t
*sb*w代表不同类别的样本投影最大化,分母w
t
*s
in
*w代表同一类别样本投影进可能最小化。该目标函数最大化时的参数w就是方程(s
b-γs
in
)w=0的特征根。
[0048]
请参阅附图2,全部参与方pk生成随机数向量r
k,0
和r
k,1
的方法包括:
[0049]
步骤b01)赋予全部参与方pk排序,参与方之间两两配对;
[0050]
步骤b02)配对的参与方pk和参与方pj交换相同的秘钥,记为c
k,j
,根据c
k,j
生成随机数;
[0051]
步骤b03)参与方pk和参与方pj约定随机数的正负属性;
[0052]
步骤b04)获得随机数向量r
k,0
和r
k,1
的元素数量,重复前述步骤获得与元素数量相符的多个秘钥,按获得顺序排序获得随机数向量r
k,0
和r
k,1
。
[0053]
配对的参与方pk和参与方pj采用密码交换协议获得相同的交换秘钥c
k,j
。最佳的密码交换协议为diffe-hellman密钥交换协议。迪菲-赫尔曼密钥交换(英语:diffie
–
hellmankeyexchange,缩写为d-h)是一种安全协议。它可以让双方在完全没有对方任何预先信息的条件下通过不安全信道创建起一个密钥。
[0054]
根据c
k,j
生成随机数的方法为:计算r
k,j
=prng(c
k,j
),其中prng()为伪随机生成函数,计算rk=-∑
j《krk,j
+∑
k《jrk,j
作为本次获得的随机数。本实施例使用的伪随机生成函数为强伪随机函数。具有随机性和不可预测性,但应当具有可重现性。其中:随机性:随机数应该不存在统计学偏差,是完全杂乱的数列。不可预测性:不能从过去的序列推测出下一个出现的数。
[0055]
参与方pk根据特征根w建立fisher线性判别器模型的方法包括:
[0056]
计算判别阈值:
[0057][0058]
其中μ0=w
k,0
/n
k,0
,μ1=w
k,1
/n
k,1
,
[0059]
对于新的特征向量x
*
,计算w
t
x
*
,w
t
x
*
比w0更接近的类别标签值即为特征向量x
*
的标签值。
[0060]
参与方pk根据特征根w建立fisher线性判别器模型的方法包括:
[0061]
计算判别阈值:
[0062][0063]
其中μ0=w
k,0
/n
k,0
,μ1=w
k,1
/n
k,1
,
[0064]
对于新的特征向量x
*
,计算w
t
x
*
,w
t
x
*
比w0更接近的类别标签值即为特征向量x
*
的标签值。
[0065]
本实施例的有益技术效果包括:采用基于横向联邦学习的fisher判别器模型训练方法,一方面允许数据保留在各个参与方手中,而不用对外泄露原始数据,从而保护了数据的隐私;在保护数据隐私的同时,模型的训练能够使用更多的数据,从而提高模型训练的精度,提升了模型的可用性,使得模型能够在更广的范围被采纳和使用。
[0066]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,熟悉该本领域的技术人员应该明白本发明包括但不限于附图和上面具体实施方式中描述的内容。任何不偏离本发明的功能和结构原理的修改都将包括在权利要求书的范围中。