一种高效的联邦衍生特征逻辑回归建模方法与流程

文档序号：29723344发布日期：2022-04-16 19:50阅读：来源：国知局

技术特征：
1.一种高效的联邦衍生特征逻辑回归建模方法，用于金融机构和运营商之间联合风控建模，其特征在于，包括以下步骤：s1：发起方客户端从自身数据库中采集k个样本对应的样本数据集x
a
，样本数据集x
a
中包含若干个数据特征，参与方客户端从自身数据库中采集相同的k个样本对应的样本数据集x
b
，样本数据集x
b
中包含若干个数据特征，发起方客户端、参与方客户端利用秘密分享算法根据样本数据集x
a
中的数据特征、样本数据集x
b
中的数据特征进行特征衍生，得到保存在发起方客户端的与每个样本对应的衍生特征分片＜x
c
＞
a
、保存在参与方客户端的与每个样本对应的衍生特征分片＜x
c
＞
b
；s2：发起方客户端、参与方客户端分别构建同样的纵向逻辑回归模型，初始化样本数据集x
a
中的每个数据特征对应的权重系数、样本数据集x
b
中的每个数据特征对应的权重系数、衍生特征分片＜x
c
＞
a
对应的权重系数、衍生特征分片＜x
c
＞
b
对应的权重系数；s3：发起方客户端计算出每个样本的样本数据集x
a
对应的预测得分y
a
，参与方客户端计算出每个样本的样本数据集x
b
对应的预测得分y
b
，发起方客户端、参与方客户端利用秘密分享乘法联邦计算每个样本的衍生特征对应的预测得分y
c
，发起方客户端根据预测得分y
a
、预测得分y
b
、预测得分y
c
计算出每个样本对应的预测值y
d
；s4：发起方客户端计算每个样本对应的预测值y
d
减去对应的真实值y
e
得到对应的差值δy，并将差值δy发送给参与方客户端；s5：发起方客户端根据学习率α、样本个数k、每个样本对应的差值δy计算出样本数据集x
a
中的每个数据特征对应的权重系数的最新值、衍生特征分片＜x
c
＞
a
对应的权重系数的最新值，并给这些权重系数赋予最新值；参与方客户端根据差值δy、学习率α、样本个数k计算出样本数据集x
b
中的每个数据特征对应的权重系数的最新值、衍生特征分片＜x
c
＞
b
对应的权重系数的最新值，并给这些权重系数赋予最新值；s6：重复执行s3至s5步骤t次，发起方客户端得到样本数据集x
a
中的每个数据特征对应的权重系数的最新值、衍生特征分片＜x
c
＞
a
对应的权重系数的最新值，参与方客户端得到样本数据集x
b
中的每个数据特征对应的权重系数的最新值、衍生特征分片＜x
c
＞
b
对应的权重系数的最新值，完成逻辑回归模型建模。2.根据权利要求1所述的一种高效的联邦衍生特征逻辑回归建模方法，其特征在于，所述衍生特征分片＜x
c
＞
a
与衍生特征分片＜x
c
＞
b
之和为样本数据集x
a
中的某个数据特征与样本数据集x
b
中的某个数据特征做加法运算或减法运算或乘法运算或除法运算的结果。3.根据权利要求1所述的一种高效的联邦衍生特征逻辑回归建模方法，其特征在于，所述步骤s1包括以下步骤：发起方客户端从自身数据库中采集k个样本对应的样本数据集x
a
，k个样本依次编号为1，2
……
k，每个样本对应的样本数据集x
a
的结构相同，样本数据集x
a
中包含若干个数据特征，将样本数据集x
a
中的数据特征依次标记为x
a1
、x
a2
……
x
an
，n为样本数据集x
a
中包含的数据特征的数量，n≥1，则编号为i的样本对应的样本数据集为x
a
(i)，1≤i≤k，样本数据集x
a
(i)的结构为x
a
(i)=｛x
a1
(i)、x
a2
(i)、
……
x
an
(i)｝，参与方客户端从自身数据库中采集相同的k个样本对应的样本数据集x
b
，每个样本的编号与发起方相同样本的编号一致，每个样本对应的样本数据集x
b
的结构相同，样本数据集x
b
中包含若干个数据特征，将样本数据集x
b
中的数据特征依次标记为x
b1
、x
b2
……
x
bm
，m为样本数据集x
b
中包含的数据特征的数量，m≥1，则编号为i的样本对应的样本数据集为x
b
(i)，1≤i≤k，样本数据集x
b
(i)的结构为x
b
(i)=｛x
b1
(i)、x
b2
(i)、
……
x
bm (i)｝；发起方客户端、参与方客户端利用秘密分享算法根据样本数据集x
a
中的数据特征、样本数据集x
b
中的数据特征进行特征衍生，得到保存在发起方客户端的与每个样本对应的衍生特征分片＜x
c
＞
a
、保存在参与方客户端的与每个样本对应的衍生特征分片＜x
c
＞
b
，保存在发起方客户端的编号为i的样本对应的衍生特征分片为＜x
c
＞
a
(i)，保存在参与方客户端的编号为i的样本对应的衍生特征分片为＜x
c
＞
b (i)。4.根据权利要求3所述的一种高效的联邦衍生特征逻辑回归建模方法，其特征在于，所述步骤s2包括以下步骤：发起方客户端、参与方客户端分别构建同样的纵向逻辑回归模型：y=sigmoid(w
a
d
a
+＜w
c
＞
a
e
a
+ w
b
d
b +＜w
c
＞
b
e
b
)，其中，w
a
=[w
a1 w
a2
…
w
an
]，w
ap
为数据特征x
ap
对应的权重系数，1≤p≤n，，e
a =[＜x
c
＞
a
(1)＜x
c
＞
a
(2)
…
＜x
c
＞
a
(k)]，w
b
=[w
b1 w
b2
…
w
bm
]，w
bq
为数据特征x
bq
对应的权重系数，1≤q≤m，，e
b =[＜x
c
＞
b (1)＜x
c
＞
b (2)
…
＜x
c
＞
b (k)]，＜w
c
＞
a
表示衍生特征分片＜x
c
＞
a
对应的权重系数，＜w
c
＞
b
表示衍生特征分片＜x
c
＞
b
对应的权重系数；发起方客户端初始化样本数据集x
a
中的每个数据特征对应的权重系数、衍生特征分片＜x
c
＞
a
对应的权重系数，参与方客户端初始化样本数据集x
b
中的每个数据特征对应的权重系数、衍生特征分片＜x
c
＞
b
对应的权重系数。5.根据权利要求4所述的一种高效的联邦衍生特征逻辑回归建模方法，其特征在于，所述步骤s3包括以下步骤：发起方客户端计算出每个样本的样本数据集x
a
对应的预测得分y
a
，编号为i的样本的样本数据集x
a
对应的预测得分y
a
(i)=w
a
*x
a
(i)，参与方客户端计算出每个样本的样本数据集x
b
对应的预测得分y
b
，编号为i的样本的样本数据集x
b
对应的预测得分y
b
(i)=w
b
*x
b
(i)，发起方客户端、参与方客户端利用秘密分享乘法联邦计算每个样本的衍生特征对应的预测得分y
c
，编号为i的样本的衍生特征对应的预测得分y
c
(i)=＜w
c
＞
a
＜x
c
＞
b (i)+＜w
c
＞
b
＜x
c
＞
a
(i)+＜w
c
＞
a
＜x
c
＞
a
(i)+＜w
c
＞
b
＜x
c
＞
b (i)，发起方客户端根据预测得分y
a
、预测得分y
b
、预测得分y
c
计算出每个样本对应的预测值y
d
，编号为i的样本对应的预测值y
d
(i)= sigmoid(y
a
(i)+y
b
(i)+y
c
(i))。6.根据权利要求5所述的一种高效的联邦衍生特征逻辑回归建模方法，其特征在于，所述步骤s5包括以下步骤：发起方客户端根据学习率α、样本个数k、每个样本对应的差值δy计算出样本数据集x
a
中的每个数据特征对应的权重系数的最新值、衍生特征分片＜x
c
＞
a
对应的权重系数的最新值，并给这些权重系数赋予最新值；给数据特征x
ap
对应的权重系数w
ap
重新赋值的公式如下，1≤p≤n：，y=[δy(1)δy(2)
…
δy(k)]，x
ap
=[x
ap
(1) x
ap
(2)
ꢀ…
x
ap
(k)]，其中，δy(i)表示编号为i的样本对应的差值，1≤i≤k，给衍生特征分片＜x
c
＞
a
对应的权重系数＜w
c
＞
a
重新赋值的公式如下：，e
a =[＜x
c
＞
a
(1)＜x
c
＞
a
(2)
…
＜x
c
＞
a
(k)]；参与方客户端根据差值δy、学习率α、样本个数k计算出样本数据集x
b
中的每个数据特征对应的权重系数的最新值、衍生特征分片＜x
c
＞
b
对应的权重系数的最新值，并给这些权重系数赋予最新值；给数据特征x
bq
对应的权重系数w
bq
重新赋值的公式如下，1≤q≤m：，y=[δy(1)δy(2)
…
δy(k)]，x
bq
=[x
bq (1) x
bq (2)
ꢀ…
x
bq (k)]，给衍生特征分片＜x
c
＞
b
对应的权重系数＜w
c
＞
b
重新赋值的公式如下：，e
b =[＜x
c
＞
b (1)＜x
c
＞
b (2)
…
＜x
c
＞
b (k)]。7.根据权利要求1所述的一种高效的联邦衍生特征逻辑回归建模方法，其特征在于，所述步骤s2还包括以下步骤：发起方和参与方初始化参数t、学习率、乘法三元组。

技术总结
本发明公开了一种高效的联邦衍生特征逻辑回归建模方法。它包括以下步骤：发起方、参与方选取同样的K个样本，利用秘密分享算法计算出衍生特征；发起方客户端、参与方客户端分别构建同样的纵向逻辑回归模型，并初始化；发起方、参与方配合计算出每个样本对应的预测值yD，并计算出每个样本对应的差值Δy；发起方、参与方分别根据学习率α、样本个数K、每个样本对应的差值Δy计算出每个数据特征对应的权重系数的最新值、每个衍生特征分片对应的权重系数的最新值，并给这些权重系数赋予最新值；重复上述步骤T次，完成逻辑回归模型建模。本发明可以在发起方、参与方的数据不出库的情况下完成特征衍生及逻辑回归建模，保护了双方的数据隐私。隐私。隐私。

技术研发人员：郭梁裴阳毛仁歆石斑
受保护的技术使用者：蓝象智联（杭州）科技有限公司
技术研发日：2022.03.17
技术公布日：2022/4/15

完整全部详细技术资料下载

当前第2页1 2