非对称场景下基于联邦学习金融电力数据融合方法及介质与流程

文档序号：31699730发布日期：2022-10-01 07:30阅读：来源：国知局

技术特征：
1.一种非对称场景下基于联邦学习金融电力数据融合方法，其特征在于，包括以下步骤：s1、将银行企业客户和电力企业客户数据唯一标识符通过不经意伪随机函数结合线性同余法抽样生成混淆集合，完成双方样本的隐私求交；s2、利用同态加密对纵向逻辑回归模型训练前向计算和反向传播中的权重、梯度等模型参数信息进行更新；s3、利用训练完成的模型对银行企业数据和电力企业数据进行处理，得到金融电力的评分结果。2.根据权利要求1所述的非对称场景下基于联邦学习金融电力数据融合方法，其特征在于：所述隐私求交是指针对银行端和电力端的样本企业客户，根据其唯一标识符进行样本对齐，筛选出共同样本客户用于后续联合建模，所述隐私求交步骤如下：在隐私求交阶段，数据提供方a拥有的样本数远大于数据需求方b的数据量，且数据需求方b的数据具有模型训练所需的标签y值；首先，数据提供方a和数据需求方b双方共同选择三个哈希函数h1，h2，h3：{0，1}
*
→
[b]以及b个空桶b[1...b]；数据需求方b将其持有的n条数据放入空桶中，每个桶中最多只能放一条数据；如果没有空桶，则在b个桶中随机选择一个，并将这个桶中的数据拿出，再尝试放入拿出的数据，经过一定轮次后，仍找不到空桶，就将被这些数据放入储藏桶中，储藏桶中最多有s个元素；放入一条数据x，需查看3个桶|b[h1(x)]b[h2(x)]b[h3(x)]是否空余，其中桶数设定为1.2n个桶与一个储藏桶，数据需求方b构造假数据将所有桶都填满，总共有1.2n+s条数据；数据提供方a生成1.2n+s个随机种子ki，i∈{1，2，...，1.2n+s}，用作1.2n+s个不经意伪随机函数的随机种子，数据需求方b作为接收方为桶中每一个元素计算不经意伪随机函数，如果元素被放在i号桶中，则计算f(k
i
，y)，如果元素被放在了储藏桶中的第j个位置，则计算f(k
1.2n+j
，y)，f表示为伪随机函数，由随机数种子k当作密钥得到加密的结果；数据提供方a作为发送方，任意地计算伪随机函数f(k
i
，
·
)，a为其输入x计算以下两个集合：s＝{f(k
1.2n+j
，x)|x∈x，j∈{1，2，...，s}}其中h指不含储藏桶的不经意伪随机函数，给定一个密钥k，定义在x到h的随机函数，s类似于h，区别是s是含有储藏桶不经意伪随机函数；数据提供方a将集合h和集合s中的元素打乱，并将这两个集合发送给b；对于数据需求方b来说，如果一个元素被放到储藏桶中，则数据需求方b可以在集合s中查找对应的不经意伪随机函数输出；否则，就在集合h中查找，通过查找，就得到a与b的交集；数据需求方b在获得真实交集后，在交集外随机抽样混淆集合，将混淆集合对应的伪随机函数返回给参与方a；在计算双方样本交集过程中，数据提供方a无法获取样本的真实交集，数据需求方也无法从伪随机函数反推出a混淆集合的样本，不经意伪随机函数的特性使得整个协议在隐私保护方面是安全的；
随机抽样时采用是线性同余法：x
n+1
＝(ax
n
+b)mod c其中，a＝25214903917，b＝11，c＝248，设定初始种子x
n
为当前时间戳，便能生成一系列随机数用于选择混淆样本；混淆样本中伪样本的构成是从数据提供方a的伪随机函数中选取，随机选取的部分和真实交集并集样本数应至少占数据提供方a的样本数的1/4，降低数据需求方b的隐私泄露的风险。3.根据权利要求2所述的非对称场景下基于联邦学习金融电力数据融合方法，其特征在于：所述步骤s3中模型训练步骤包括，步骤(1)初始化：数据提供方a和数据需求方b分别初始化各自节点模型，设置模型训练最大迭代步数、学习率α，a和b节点基于同态加密原理各自生成公私钥，并将公钥分别发送给对方节点；步骤(2)前向计算：首先a节点计算x
a
w
a
，减去a节点生成的随机噪声ua，得到a节点输出值，并利用b的公钥对a节点输出值同态加密发送给数据需求方b；同样，b节点计算x
b
w
b
，减去b节点生成的随机噪声u
b
，得到b节点输出值，并利用a的公钥对b节点输出值同态加密发送给数据提供方a；其中，x
a
表示a节点输入值，w
a
表示a端模型权重，x
b
表示b节点输入值，w
b
表示b端模型权重；在a、b节点对对方节点输出的加密数据利用本地私钥解密，并分别加上本地节点的随机噪声u
a
、u
b
；将数据提供方a获得的计算数据发送给数据需求方b，并相加，最终得到前向计算结果z＝x
a
w
a
+x
b
w
b
，计算y＝sigmod(z)；确定模型双方的损失函数：loss＝log2-(1/2)(ywx)+(1/8)(wx2)；步骤(3)反向传播：通过同态加密保护数据需求方b反向传播的模型总的梯度信息，根据损失函数和模型梯度信息分别计算数据提供方a和数据需求方b的梯度信息g
a
、g
b
，更新各自模型参数w值；其中，w：＝w-α(1/m)(1/4)(wx-2y)x，g＝(1/4)(wx-2y)x步骤(4)迭代循环：当模型收敛或者迭代次数达到设定阈值，模型停止训练，否则一直重复(2)(3)步骤迭代循环。4.根据权利要求3所述的非对称场景下基于联邦学习金融电力数据融合方法，其特征在于：所述s3、利用训练完成的模型对银行企业数据和电力企业数据进行处理，得到金融电力的评分结果，具体包括：已完成训练的纵向逻辑回归模型分别部署在数据提供方a和数据需求方b节点端；数据需求方发起新样本的预测请求，具体为：数据需求方b将样本唯一标识符通过不经意传输加密协议发送给数据提供方，判断数据提供方是否有此样本id，若无，则结束；若有，则基于训练后的模型分别计算数据提供方和数据需求方的输出z
a
和z
b
，然后数据提供方将计算结果发送给数据需求方，完成最终评分结果计算即完成最终评分结果计算：y＝z
a
+z
b
。
5.根据权利要求1所述的非对称场景下基于联邦学习金融电力数据融合方法，其特征在于：步骤s3中的银行企业数据和电力企业数据，其中银行企业数据包括小企业的银行流水信息、人行征信信息、股权管理信息、风险信息、银行账户信息和交易信息；电力企业数据包括基本属性、电力缴费、用电量、电量波动信息、用电行为信息；将建模发起方银行标记为数据需求方；电力公司标记为数据提供方，中心节点部署在电力方。6.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至5中任一项所述方法的步骤。

技术总结
本发明的一种非对称场景下基于联邦学习金融电力数据融合方法及介质，包括以下步骤：将银行企业客户和电力企业客户数据唯一标识符通过不经意伪随机函数结合线性同余法抽样生成混淆集合，完成双方样本的隐私求交；利用同态加密对纵向逻辑回归模型训练前向计算和反向传播中的权重、梯度等模型参数信息进行更新；利用训练完成的模型对银行企业数据和电力企业数据进行处理，得到金融电力的评分结果。本发明中利用基于不经意传输构造不经意伪随机函数结合线性同余法抽样生成混淆集合完成数据提供方和数据需求方的隐私求交问题，进一步提高对数据安全隐私保护能力，所构建的纵向逻辑回归评分模型，可以有效联合内外部数据建模，完成金融电力评分建模。完成金融电力评分建模。完成金融电力评分建模。

技术研发人员：胡广宇吴瑶珂傅世豪陈永
受保护的技术使用者：徽商银行股份有限公司
技术研发日：2022.07.05
技术公布日：2022/9/30

完整全部详细技术资料下载

当前第2页1 2