基于联邦学习的特征补全方法、装置、设备及存储介质与流程

文档序号:24797658发布日期:2021-04-23 15:29阅读:131来源:国知局
基于联邦学习的特征补全方法、装置、设备及存储介质与流程

1.本申请涉及人工智能领域,尤其涉及一种基于联邦学习的特征补全方法、装置、设备及存储介质。


背景技术:

2.随着金融科技,尤其是互联网科技金融的不断发展,越来越多的技术(如分布式、区块链blockchain、人工智能等)应用在金融领域,但金融业也对技术提出了更高的要求,如对金融业对缺失特征的补全也有更高的要求。
3.随着计算机软件和人工智能的不断发展,神经网络模型也应用越来越广泛,然而,性能优越的神经网络模型通常是基于特征丰富度高的训练样本构建的,而在真实应用场景中,特征值的缺失是常态,比如在金融风控领域,从事金融风控的机构往往不能收集完全用户的基本信息,具体地,在对金融风控有帮助的用户购物信息和网页浏览信息中,更是存在着大量的缺失值,而重要特征的特征值缺失将严重影响到风控模型的性能,尽管目前通过使用平均值,中位数,和众数等特征值补全方法来填补空缺的特征值,然而这些特征补全方法不是从提高最终模型的性能的角度来填充特征值的,难以提高最终模型的预测准确度等性能。


技术实现要素:

4.本申请的主要目的在于提供一种基于联邦学习的特征补全方法、装置、设备及存储介质,旨在解决现有技术中通过使用平均值,中位数,和众数等特征值补全方法来填补参与方设备空缺的特征值,难以得到预测准确度高的预测模型的技术问题。
5.为实现上述目的,本申请提供一种基于纵向联邦学习的特征补全方法,应用于第一设备,所述基于纵向联邦学习的特征补全方法包括:
6.获取待补全样本数据,将所述待补全样本数据输入至预设目标特征补全模型中;
7.其中,所述预设目标特征补全模型为基于具有标签的非缺失样本特征数据,通过执行第一预设纵向联邦学习流程,对预设初始补全模型进行迭代训练得到的;
8.基于所述特征补全模型对所述待补全样本数据进行补全处理,得到目标补全数据,以使用所述目标补全数据进行机器学习模型的训练。
9.可选地,所述基于所述特征补全模型对所述待补全样本数据进行补全处理,得到目标补全数据,以使用所述目标补全数据进行机器学习模型的训练的步骤之前,所述方法包括:
10.获取具有标签的非缺失样本特征数据;
11.基于所述非缺失特征标签的非缺失样本特征数据,执行第一预设纵向联邦学习流程,对预设初始补全模型进行迭代训练,得到目标模型;
12.将所述目标模型设置为所述预设目标特征补全模型。
13.可选地,所述第一设备与第二设备进行通信连接,所述获取具有标签的非缺失样
本特征数据的步骤,包括:
14.与第二设备进行样本对齐,以得到非缺失样本数据;
15.基于预设特征提取模型,对所述非缺失样本数据进行特征提取,以将所述非缺失样本数据映射至预设特征维度,获得具有标签的非缺失样本特征数据。
16.可选地,所述基于所述非缺失特征标签的非缺失样本特征数据,执行第一预设纵向联邦学习流程,对预设初始补全模型进行迭代训练,得到目标模型的步骤,包括:
17.基于所述非缺失样本特征数据,对所述预设初始补全模型进行迭代训练,以训练更新所述预设初始补全模型的模型计算中间变量;
18.判断迭代训练的所述预设初始补全模型是否达到预设替换更新条件,若所述预设初始补全模型达到预设替换更新条件,则通过执行所述第一预设纵向联邦学习流程,对训练更新的所述模型计算中间变量进行替换更新,获得替换更新的所述预设初始补全模型;
19.持续对替换更新的所述预设初始补全模型进行迭代训练和替换更新,直至所述预设待训练模型满足预设训练完成条件,获得所述目标模型。
20.可选地,所述第一设备与第三方进行通信连接,
21.所述通过执行所述第一预设纵向联邦学习流程,对训练更新的所述模型计算中间变量进行替换更新,获得替换更新的所述预设初始补全模型的步骤,包括:
22.将训练更新的所述模型计算中间变量加密发送至与所述第一设备关联的第三方,以供所述第三方对第一设备以及第二设备的对应各模型计算中间变量进行拼接聚合处理,获得拼接聚合中间变量,并将所述拼接聚合中间变量反馈至所述第一设备;
23.接收所述第三方反馈的所述拼接聚合中间变量,并将训练更新的所述模型计算中间变量替换更新为所述拼接聚合中间变量,获得替换更新的所述预设初始补全模型。
24.可选地,所述基于所述特征补全模型对所述待补全样本数据进行补全处理,得到目标补全数据的步骤之后,所述方法包括:
25.将所述目标补全数据输入至预设类型预测模型中;
26.其中,所述预设类型预测模型为基于具有预设类型标签的第一设备样本特征数据,通过执行第二预设纵向联邦学习流程,对预设待训练预测模型进行迭代训练得到的;
27.基于所述预设类型预测模型对所述目标补全数据进行预测处理,得到目标类型。
28.可选地,所述待补全样本数据为待补全贷款样本数据,所述基于所述特征补全模型对所述待补全样本数据进行补全处理,得到目标补全数据的步骤,包括:
29.基于所述特征补全模型对所述待补全贷款样本数据进行补全处理,得到目标补全数据。
30.本申请还提供一种基于纵向联邦学习的特征补全装置,应用于第一设备,所述基于纵向联邦学习的特征补全装置包括:
31.第一获取模块,用于获取待补全样本数据,将所述待补全样本数据输入至预设目标特征补全模型中;
32.其中,所述预设目标特征补全模型为基于具有标签的非缺失样本特征数据,通过执行第一预设纵向联邦学习流程,对预设初始补全模型进行迭代训练得到的;
33.补全模块,用于基于所述特征补全模型对所述待补全样本数据进行补全处理,得到目标补全数据,以使用所述目标补全数据进行机器学习模型的训练。
34.可选地,所述基于纵向联邦学习的特征补全装置包括:
35.第二获取模块,用于获取具有标签的非缺失样本特征数据;
36.迭代训练模块,用于基于所述非缺失特征标签的非缺失样本特征数据,执行第一预设纵向联邦学习流程,对预设初始补全模型进行迭代训练,得到目标模型;
37.设置模块,用于将所述目标模型设置为所述预设目标特征补全模型。
38.可选地,所述第一设备与第二设备进行通信连接,所述第二获取模块包括:
39.对齐单元,用于与第二设备进行样本对齐,以得到非缺失样本数据;
40.特征提取单元,用于基于预设特征提取模型,对所述非缺失样本数据进行特征提取,以将所述非缺失样本数据映射至预设特征维度,获得具有标签的非缺失样本特征数据。
41.可选地,所述迭代训练模块包括:
42.迭代训练单元,用于基于所述非缺失样本特征数据,对所述预设初始补全模型进行迭代训练,以训练更新所述预设初始补全模型的模型计算中间变量;
43.判断单元,用于判断迭代训练的所述预设初始补全模型是否达到预设替换更新条件,若所述预设初始补全模型达到预设替换更新条件,则通过执行所述第一预设纵向联邦学习流程,对训练更新的所述模型计算中间变量进行替换更新,获得替换更新的所述预设初始补全模型;
44.替换更新单元,用于持续对替换更新的所述预设初始补全模型进行迭代训练和替换更新,直至所述预设待训练模型满足预设训练完成条件,获得所述目标模型。
45.可选地,所述第一设备与第三方进行通信连接,
46.所述判断单元包括:
47.发送子单元,用于将训练更新的所述模型计算中间变量加密发送至与所述第一设备关联的第三方,以供所述第三方对第一设备以及第二设备的对应各模型计算中间变量进行拼接聚合处理,获得拼接聚合中间变量,并将所述拼接聚合中间变量反馈至所述第一设备;
48.接收子单元,用于接收所述第三方反馈的所述拼接聚合中间变量,并将训练更新的所述模型计算中间变量替换更新为所述拼接聚合中间变量,获得替换更新的所述预设初始补全模型。
49.可选地,所述装置还包括:
50.输入模块,用于将所述目标补全数据输入至预设类型预测模型中;
51.其中,所述预设类型预测模型为基于具有预设类型标签的第一设备样本特征数据,通过执行第二预设纵向联邦学习流程,对预设待训练预测模型进行迭代训练得到的;
52.预测模块,用于基于所述预设类型预测模型对所述目标补全数据进行预测处理,得到目标类型。
53.可选地,所述补全模块包括:
54.补全单元,用于基于所述特征补全模型对所述待补全贷款样本数据进行补全处理,得到目标补全数据。
55.本申请还提供一种基于纵向联邦学习的特征补全设备,所述基于纵向联邦学习的特征补全设备为实体设备,所述基于纵向联邦学习的特征补全设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述基于纵向联邦学习的特征补全方
法的程序,所述基于纵向联邦学习的特征补全方法的程序被处理器执行时可实现如上述的基于纵向联邦学习的特征补全方法的步骤。
56.本申请还提供一种可读存储介质,所述可读存储介质上存储有实现基于纵向联邦学习的特征补全方法的程序,所述基于纵向联邦学习的特征补全方法的程序被处理器执行时实现如上述的基于纵向联邦学习的特征补全方法的步骤。
57.本申请还提供一种计算机程序产品、包括计算机程序,该计算机程序被处理器执行时实现上述的基于纵向联邦学习的特征补全方法的步骤。
58.本申请提供一种基于联邦学习的特征补全方法、装置、设备及存储介质,与现有技术中通过使用平均值,中位数,和众数等特征值补全方法来填补参与方设备空缺的特征值,致使难以得到预测准确度高的预测模型相比,本申请通过获取待补全样本数据,将所述待补全样本数据输入至预设目标特征补全模型中;其中,所述预设目标特征补全模型为基于具有标签的非缺失样本特征数据,通过执行第一预设纵向联邦学习流程,对预设初始补全模型进行迭代训练得到的;基于所述特征补全模型对所述待补全样本数据进行补全处理,得到目标补全数据,以使用所述目标补全数据进行机器学习模型的训练。在本申请中,基于具有标签的非缺失样本特征数据,通过执行第一预设纵向联邦学习流程,对预设初始补全模型进行迭代训练得到预设目标特征补全模型,进而基于该预设目标特征补全模型对待补全样本数据进行特征补全,即基于纵向联邦学习的特征值补全方法,利用多个参与方设备的不同特征来联合建立预设目标特征补全模型,避免样本数量较少或者样本特征比较同质时,训练得到的模型的预测准确度低,也即,提高了特征预测模型的预测准确性度。
附图说明
59.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
60.为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
61.图1为本申请基于纵向联邦学习的特征补全方法第一实施例的流程示意图;
62.图2为本申请基于纵向联邦学习的特征补全方法第二实施例的流程示意图;
63.图3为本申请实施例方案涉及的硬件运行环境的设备结构示意图;
64.图4为本申请基于纵向联邦学习的特征补全方法第三实施例的流程示意图。
65.本申请目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
66.应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
67.本申请实施例提供一种基于纵向联邦学习的特征补全方法,在本申请基于纵向联邦学习的特征补全方法的第一实施例中,应用于第一设备,参照图1,所述基于纵向联邦学习的特征补全方法包括:
68.步骤s10,获取待补全样本数据,将所述待补全样本数据输入至预设目标特征补全模型中;
69.其中,所述预设目标特征补全模型为基于具有标签的非缺失样本特征数据,通过执行第一预设纵向联邦学习流程,对预设初始补全模型进行迭代训练得到的;
70.步骤s20,基于所述特征补全模型对所述待补全样本数据进行补全处理,得到目标补全数据,以使用所述目标补全数据进行机器学习模型的训练。
71.具体步骤如下:
72.步骤s10,获取待补全样本数据,将所述待补全样本数据输入至预设目标特征补全模型中;
73.其中,所述预设目标特征补全模型为基于具有标签的非缺失样本特征数据,通过执行第一预设纵向联邦学习流程,对预设初始补全模型进行迭代训练得到的;
74.在本实施例中,需要说明的是,所述基于纵向联邦学习的特征补全方法应用于第一设备,其中,第一设备与其他第二设备之间进行通信连接,具体地,第一设备与其他第二设备之间进行纵向联邦通信连接,在本实施例中,获取第一设备的待补全样本数据,在得到待补全样本数据后,将所述待补全样本数据输入至预设目标特征补全模型中,其中,待补全样本数据指的是某一特征缺失的数据,例如,第一设备a在特征f上的缺失样本部分,记为样本,第一设备a在特征f上的非缺失样本部分记为样本,则待补全样本数据指的是样本,具体地,例如,假设第一设备a的样本为贷款数据,而贷款数据中存在年龄特征缺失的样本,则年龄特征缺失的样本为样本,或者贷款数据中存在学历特征缺失的样本,则学历特征缺失的样本为样本,其中,可以通过数据清洗,数据整合获取待补全样本数据,具体地,例如,确定第一设备中的样本数据的各式样本id,根据该各式样本id是否为空缺值等,确定待补全样本数据,或者确定第一设备中的样本数据的各式样本内容,根据该各式样本内容是否为空缺值等,确定待补全样本数据,具体确定方式在此不做具体限定。
75.获取待补全样本数据后,将所述待补全样本数据输入至预设目标特征补全模型中,进行缺失特征的补全,具体地,进行缺失特征值的补全,其中,所述预设目标特征补全模型为基于具有标签(非缺失特征标签)的非缺失样本特征数据,通过执行第一预设纵向联邦学习流程,对预设初始补全模型进行迭代训练得到的。预设目标特征补全模型可以是也即,预设目标特征补全模型即是(特征)与f
na
(特征)的映射关联关系,其中,拥有非缺失特征f
na
的样本在第一设备(参与方a)a中所拥有的其它所有特征,记为拥有非缺失特征的样本在第二设备(参与方b)b中所拥有的其它所有特征,记为特征和的拼接记为例如,假设第一设备a在第一设备处对应特征x1和特征x2,则特征x1和特征x2对应特征值为(x1,x2),其中,x1用于表示特征x1,x2用于表示特征x2,第一设备中缺失特征x1的样本为f
na
(y)样本,第二设备b在第二设备处对应特征x3和特征x4,则特征x3和特征x4,对应特征值为(x3,x4),x3用于表示特征x3,x4用于表示特征x4,则得到特征x1,特征x2,特征x3,特征x4与y(f
na
)的映射关联关系,通过该预设目标特征补全模型可以得到的补全特征。
76.其中,参照图2,所述基于所述特征补全模型对所述待补全样本数据进行补全处理,得到目标补全数据,以使用所述目标补全数据进行机器学习模型的训练的步骤之前,所
述方法包括:
77.步骤s01,获取具有标签的非缺失样本特征数据;
78.获取具有标签的非缺失样本特征数据如
79.所述第一设备与第二设备进行通信连接,所述获取具有标签的非缺失样本特征数据的步骤,包括:
80.步骤a1,与第二设备进行样本对齐,以得到非缺失样本数据;
81.在本实施例中,需要说明的是,第二设备可以为一个,第二设备也可以为多个,以下以第二设备为一个为例进行具体说明,第一设备通过与第二设备进行样本对齐,得到非缺失样本数据,也即,将第一设备a和第二设备b对双方所拥有样本的标识符的进行匹配,双方标识符匹配成功的样本称为重叠样本,对应重叠样本的数据为样本数据,从第一设备中选出的不存在特征缺失的样本数据为非缺失样本数据,即f
na

82.具体地,参照图4,样本的标识符具体可以为样本id,将第一设备a和第二设备b对双方所拥有样本id进行匹配,以基于所述样本id,确定重叠样本,其中,所述样本id为样本的身份标识,所述样本id包括身份编码、手机号、身份证号等。
83.步骤a3,基于预设特征提取模型,对所述非缺失样本数据进行特征提取,以将所述非缺失样本数据映射至预设特征维度,获得具有标签的非缺失样本特征数据。
84.获取预设特征提取模型,其中,预设特征提取模型是已经训练好的能够从样本数据中提取特征的模型,基于预设特征提取模型对所述非缺失样本数据进行特征提取,以将所述非缺失样本数据映射至预设特征维度(转换为特征向量),获得具有标签(非缺失特征标签)的非缺失样本特征数据,也即,是具有特征标签的。
85.步骤s02,基于所述非缺失特征标签的非缺失样本特征数据,执行第一预设纵向联邦学习流程,对预设初始补全模型进行迭代训练,得到目标模型;
86.基于所述非缺失特征标签的非缺失样本特征数据,纵向联邦第二设备的非缺失样本特征数据,对预设初始补全模型进行迭代训练,得到目标模型。在本实施例中,对预设初始补全模型进行迭代训练的方法包括但不限于梯度下降法。
87.基于所述非缺失特征标签的非缺失样本特征数据,执行第一预设纵向联邦学习流程,对预设初始补全模型进行迭代训练,得到目标模型的步骤,包括:
88.步骤b1,基于所述非缺失样本特征数据,对所述预设初始补全模型进行迭代训练,以训练更新所述预设初始补全模型的模型计算中间变量;
89.步骤b2,判断迭代训练的所述预设初始补全模型是否达到预设替换更新条件,若所述预设初始补全模型达到预设替换更新条件,则通过执行所述第一预设纵向联邦学习流程,对训练更新的所述模型计算中间变量进行替换更新,获得替换更新的所述预设初始补全模型;
90.步骤b3,持续对替换更新的所述预设初始补全模型进行迭代训练和替换更新,直至所述预设待训练模型满足预设训练完成条件,获得所述目标模型。
91.在本实施例中,需要说明的是,将所述非缺失样本特征数据输入至所述预设初始补全模型中,以对模型计算中间变量进行调整,在调整过程中,还接收第二设备加密反馈的对应模型计算中间变量,联合对所述预设初始补全模型进行迭代训练,获得特征补全模型,
具体地,将所述非缺失样本特征数据输入所述预设初始补全模型进行迭代训练,以对所述预设初始补全模型的各模型计算中间变量如模型变量,或者梯度等进行迭代更新,在迭代更新过程中,判断所述预设初始补全模型是否达到预设替换更新条件,其中,所述预设替换更新条件包括达到迭代次数阈值、达到训练轮数阈值等,进而若所述预设初始补全模型达到预设替换更新条件,则将所述预设初始补全模型中的模型计算中间变量更新为所述聚合中间变量(由对应轮次的第一设备的模型计算中间变量和第二设备的模型计算中间变量聚合得到),即具体地,若所述待训练基础模型达到所述预设替换更新条件,则直接将所述待训练基础模型中的正在进行训练更新的所述模型计算中间变量替换为所述聚合中间变量,若所述待训练基础模型未达到所述预设替换更新条件,则对所述待训练基础模型进行迭代训练,直至所述待训练基础模型达到所述预设替换更新条件。在替换后,持续进行对所述预设初始补全模型的迭代训练和所述预设初始补全模型是否达到预设替换更新条件的判断,也即,若所述预设初始补全模型达到预设替换更新条件,并重新接收第二设备再次反馈中间变量,以得到新的聚合中间变量,以基于再次反馈的的新的聚合中间变量,对所述预设初始补全模型进行迭代训练,直至所述预设初始补全模型达到训练完成条件,则完成了本次迭代训练,得到目标模型,其中,所述训练完成条件包括损失函数收敛、达到迭代次数上限等。
92.在本实施例中,需要说明的是,损失函数可以为
93.其中,拥有非缺失特征f
na
的样本在第一设备a中所拥有的其它所有特征,记为拥有非缺失特征的样本在第二设备b中所拥有的其它所有特征,记为特征和的拼接记为
94.步骤s03,将所述目标模型设置为所述预设目标特征补全模型
95.在本实施例中,在得到目标模型后,将所述目标模型设置为所述预设目标特征补全模型。
96.在本实施例中,所述第一设备与第三方进行通信连接,
97.所述通过执行所述第一预设纵向联邦学习流程,对训练更新的所述模型计算中间变量进行替换更新,获得替换更新的所述预设初始补全模型的步骤,包括:
98.步骤c1,将训练更新的所述模型计算中间变量加密发送至与所述第一设备关联的第三方,以供所述第三方对第一设备以及第二设备的对应各模型计算中间变量进行拼接聚合处理,获得拼接聚合中间变量,并将所述拼接聚合中间变量反馈至所述第一设备;
99.步骤c2,接收所述第三方反馈的所述拼接聚合中间变量,并将训练更新的所述模型计算中间变量替换更新为所述拼接聚合中间变量,获得替换更新的所述预设初始补全模型。
100.在本实施例中,需要说明的是,聚合中间变量具体为拼接聚合中间变量,具体地,拼接聚合方式包括求和、加权求平均、直接拼接等,将训练更新的所述模型计算中间变量加密发送至与所述第一设备关联的第三方,以供所述第三方对第一设备以及第二设备的对应各模型计算中间变量进行拼接聚合处理,获得拼接聚合中间变量,并将所述拼接聚合中间变量反馈至所述第一设备,接收所述第三方反馈的所述拼接聚合中间变量,并将训练更新
的所述模型计算中间变量替换更新为所述拼接聚合中间变量,获得替换更新的所述预设初始补全模型。例如,假设所述预设替换更新条件为迭代次数达到500次,则所述预设初始补全模型。每进行500次的迭代,则向所述第三方发送一次所述模型计算中间变量,以接收所述第三方基于所述模型计算中间变量反馈的聚合中间变量,并将所述预设初始补全模型中的模型计算中间变量替换更新为相对应的聚合中间变量。
101.步骤s20,基于所述特征补全模型对所述待补全样本数据进行补全处理,得到目标补全数据,以使用所述目标补全数据进行机器学习模型的训练。
102.基于所述特征补全模型对所述待补全样本数据进行补全处理,得到目标补全数据,以使用所述目标补全数据进行机器学习模型的训练,例如,待补全样本数据为f
ma
,则通过特征补全模型对缺失特征f
ma
进行补全,具体地,f
ma
的补全特征为即
103.其中,其中,拥有缺失特征f
ma
的样本在第一设备a中所拥有的其它所有特征,记为拥有缺失特征f
ma
的样本在第二设备b中所拥有的其它所有特征,记为特征和的拼接记为
104.在本实施例中,在得到目标补全数据后,使用所述目标补全数据进行机器学习模型的训练,如使用目标补全数据进行后续金融风控相应机器学习模型的训练。
105.本申请提供一种基于联邦学习的特征补全方法、装置、设备及存储介质,与现有技术中通过使用平均值,中位数,和众数等特征值补全方法来填补参与方设备空缺的特征值,致使难以得到预测准确度高的预测模型相比,本申请通过获取待补全样本数据,将所述待补全样本数据输入至预设目标特征补全模型中;其中,所述预设目标特征补全模型为基于具有标签的非缺失样本特征数据,通过执行第一预设纵向联邦学习流程,对预设初始补全模型进行迭代训练得到的;基于所述特征补全模型对所述待补全样本数据进行补全处理,得到目标补全数据,以使用所述目标补全数据进行机器学习模型的训练。在本申请中,基于具有标签的非缺失样本特征数据,通过执行第一预设纵向联邦学习流程,对预设初始补全模型进行迭代训练得到预设目标特征补全模型,进而基于该预设目标特征补全模型对待补全样本数据进行特征补全,即基于纵向联邦学习的特征值补全方法,利用多个参与方设备的不同特征来联合建立预设目标特征补全模型,避免样本数量较少或者样本特征比较同质时,训练得到的模型的预测准确度低,也即,提高了特征预测模型的预测准确性度。
106.进一步地,基于本申请中第一实施例,在本申请的另一实施例中,所述基于所述特征补全模型对所述待补全样本数据进行补全处理,得到目标补全数据的步骤之后,所述方法包括:
107.步骤s40,将所述目标补全数据输入至预设类型预测模型中;
108.其中,所述预设类型预测模型为基于具有预设类型标签的第一设备样本特征数据,通过执行第二预设纵向联邦学习流程,对预设待训练预测模型进行迭代训练得到的;
109.步骤s50,基于所述预设类型预测模型对所述目标补全数据进行预测处理,得到目标类型。
110.在本实施例中,在得到目标补全数据后,将所述目标补全数据输入至预设类型预
测模型中,基于所述预设类型预测模型对所述目标补全数据进行预测处理,得到目标类型,其中,在基于所述预设类型预测模型对所述目标补全数据进行预测处理,得到目标类型步骤之前,还获取具有预设类型标签的第一设备样本特征数据,基于具有预设类型标签的第一设备样本特征数据,通过执行第二预设纵向联邦学习流程,对预设待训练预测模型进行迭代训练得到预设类型预测模型,其中,第二预设纵向联邦学习流程可以是:基于所述目标补全数据,对所述预设待训练预测模型进行迭代训练,以训练更新所述预设待训练预测模型的模型计算中间变量;判断迭代训练的所述预设待训练预测模型是否达到预设更新条件,若所述预设初始补全模型达到预设更新条件,则将训练更新的所述预设待训练预测模型的模型计算中间变量加密发送至第三方,以供所述第三方对第一设备以及第二设备的对应各预设待训练预测模型的模型计算中间变量进行拼接聚合处理,获得目标中间变量,并将所述目标中间变量反馈至所述第一设备,以持续对预设待训练预测模型进行迭代训练,直至训练完成(模型损失收敛),得到预设类型预测模型,若模型损失收敛未收敛,则基于所述模型损失,优化所述预设待训练预测模型,直至所述模型损失收敛,获得所述预设标签预测模型。基于所述预设类型预测模型对所述目标补全数据进行预测处理,得到目标类型。
111.在本实施例中,通过将所述目标补全数据输入至预设类型预测模型中;其中,所述预设类型预测模型为基于具有预设类型标签的第一设备样本特征数据,通过执行第二预设纵向联邦学习流程,对预设待训练预测模型进行迭代训练得到的;基于所述预设类型预测模型对所述目标补全数据进行预测处理,得到目标类型。在本实施例中,基于目标补全数据进行用户类型的准确确定。
112.进一步地,基于本申请中第一实施例和第二实施例,在本申请的另一实施例中,所述待补全样本数据为待补全贷款样本数据,所述基于所述特征补全模型对所述待补全样本数据进行补全处理,得到目标补全数据的步骤,包括:
113.步骤d1,基于所述特征补全模型对所述待补全贷款样本数据进行补全处理,得到目标补全数据。
114.在本实施例中,基于纵向联邦学习的特征补全方法应用于贷款场景,例如,小额贷,或者是信用贷等场景,在小额贷,或者是信用贷等场景下,待补全样本数据为待补全贷款样本数据,进而,获取待补全贷款样本数据,将所述待补全贷款样本数据输入至预设目标特征补全模型中;其中,所述预设目标特征补全模型为基于具有标签的非缺失贷款样本特征数据,通过执行第一预设纵向联邦学习流程,对预设初始补全模型进行迭代训练得到的;基于所述特征补全模型对所述待补全贷款样本数据进行补全处理,得到目标补全数据。
115.本实施例通过基于所述特征补全模型对所述待补全贷款样本数据进行补全处理,得到目标补全数据,实现准确补全贷款数据。
116.参照图3,图3是本申请实施例方案涉及的硬件运行环境的设备结构示意图。
117.如图3所示,该基于纵向联邦学习的特征补全设备可以包括:处理器1001,例如cpu,存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速ram存储器,也可以是稳定的存储器(non

volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。
118.可选地,该基于纵向联邦学习的特征补全设备还可以包括矩形用户接口、网络接
口、摄像头、rf(radio frequency,射频)电路,传感器、音频电路、wifi模块等等。矩形用户接口可以包括显示屏(display)、输入子模块比如键盘(keyboard),可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如wi

fi接口)。
119.本领域技术人员可以理解,图3中示出的基于纵向联邦学习的特征补全设备结构并不构成对基于纵向联邦学习的特征补全设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
120.如图3所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及基于纵向联邦学习的特征补全方法程序。操作系统是管理和控制基于纵向联邦学习的特征补全设备硬件和软件资源的程序,支持基于纵向联邦学习的特征补全方法程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与基于纵向联邦学习的特征补全方法系统中其它硬件和软件之间通信。
121.在图3所示的基于纵向联邦学习的特征补全设备中,处理器1001用于执行存储器1005中存储的基于纵向联邦学习的特征补全方法程序,实现上述任一项所述的基于纵向联邦学习的特征补全方法的步骤。
122.本申请基于纵向联邦学习的特征补全设备具体实施方式与上述基于纵向联邦学习的特征补全方法各实施例基本相同,在此不再赘述。
123.本申请实施例还提供一种基于纵向联邦学习的特征补全装置,应用于第一设备,所述基于纵向联邦学习的特征补全装置包括:
124.第一获取模块,用于获取待补全样本数据,将所述待补全样本数据输入至预设目标特征补全模型中;
125.其中,所述预设目标特征补全模型为基于具有标签的非缺失样本特征数据,通过执行第一预设纵向联邦学习流程,对预设初始补全模型进行迭代训练得到的;
126.补全模块,用于基于所述特征补全模型对所述待补全样本数据进行补全处理,得到目标补全数据,以使用所述目标补全数据进行机器学习模型的训练。
127.可选地,所述基于纵向联邦学习的特征补全装置包括:
128.第二获取模块,用于获取具有标签的非缺失样本特征数据;
129.迭代训练模块,用于基于所述非缺失特征标签的非缺失样本特征数据,执行第一预设纵向联邦学习流程,对预设初始补全模型进行迭代训练,得到目标模型;
130.设置模块,用于将所述目标模型设置为所述预设目标特征补全模型。
131.可选地,所述第一设备与第二设备进行通信连接,所述第二获取模块包括:
132.对齐单元,用于与第二设备进行样本对齐,以得到非缺失样本数据;
133.特征提取单元,用于基于预设特征提取模型,对所述非缺失样本数据进行特征提取,以将所述非缺失样本数据映射至预设特征维度,获得具有标签的非缺失样本特征数据。
134.可选地,所述迭代训练模块包括:
135.迭代训练单元,用于基于所述非缺失样本特征数据,对所述预设初始补全模型进行迭代训练,以训练更新所述预设初始补全模型的模型计算中间变量;
136.判断单元,用于判断迭代训练的所述预设初始补全模型是否达到预设替换更新条件,若所述预设初始补全模型达到预设替换更新条件,则通过执行所述第一预设纵向联邦
学习流程,对训练更新的所述模型计算中间变量进行替换更新,获得替换更新的所述预设初始补全模型;
137.替换更新单元,用于持续对替换更新的所述预设初始补全模型进行迭代训练和替换更新,直至所述预设待训练模型满足预设训练完成条件,获得所述目标模型。
138.可选地,所述第一设备与第三方进行通信连接,
139.所述判断单元包括:
140.发送子单元,用于将训练更新的所述模型计算中间变量加密发送至与所述第一设备关联的第三方,以供所述第三方对第一设备以及第二设备的对应各模型计算中间变量进行拼接聚合处理,获得拼接聚合中间变量,并将所述拼接聚合中间变量反馈至所述第一设备;
141.接收子单元,用于接收所述第三方反馈的所述拼接聚合中间变量,并将训练更新的所述模型计算中间变量替换更新为所述拼接聚合中间变量,获得替换更新的所述预设初始补全模型。
142.可选地,所述装置还包括:
143.输入模块,用于将所述目标补全数据输入至预设类型预测模型中;
144.其中,所述预设类型预测模型为基于具有预设类型标签的第一设备样本特征数据,通过执行第二预设纵向联邦学习流程,对预设待训练预测模型进行迭代训练得到的;
145.预测模块,用于基于所述预设类型预测模型对所述目标补全数据进行预测处理,得到目标类型。
146.可选地,所述补全模块包括:
147.补全单元,用于基于所述特征补全模型对所述待补全贷款样本数据进行补全处理,得到目标补全数据。
148.本申请基于纵向联邦学习的特征补全装置的具体实施方式与上述基于纵向联邦学习的特征补全方法各实施例基本相同,在此不再赘述。
149.本申请还提供一种计算机程序产品、包括计算机程序,该计算机程序被处理器执行时实现上述的基于纵向联邦学习的特征补全方法的步骤。
150.本申请计算机程序产品的具体实施方式与上述基于纵向联邦学习的特征补全方法各实施例基本相同,在此不再赘述。
151.以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利处理范围内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1