联合建模方法、装置、电子设备及存储介质与流程

文档序号:31383206发布日期:2022-09-03 01:00阅读:101来源:国知局
联合建模方法、装置、电子设备及存储介质与流程

1.本发明实施例涉及计算机技术领域,尤其涉及一种联合建模方法、装置、电子设备及存储介质。


背景技术:

2.随着国家对信息安全和隐私保护的重视,不同企业/机构之间的数据如何规范和打通已经成为了行业热点。
3.现有技术中,最经常使用的就是联邦学习(federated transfer learning,简称fl)和联邦迁移学习(federated transfer learning,简称ftl)。利用联邦学习方法,可以在合法合规的前提下有效地利用各公司相互独立的数据,实现对大数据的利用。
4.然而,当前联邦学习方法主要针对双方联合建模的场景,并不涉及多方联合建模场景,也就是说,目前无法在多方联合场景下构建出高性能的联合模型,从而无法在更为广泛的场景下实现对大数据的利用。


技术实现要素:

5.鉴于此,为解决现有技术中无法在多方联合场景下构建出高性能的联合模型,从而无法在更为广泛的场景下实现大数据的利用的技术问题,本发明实施例提供一种联合建模方法、装置、电子设备及存储介质。
6.第一方面,本发明实施例提供一种联合建模方法,包括:
7.根据主导方的第一原始数据集和各参与方的第二原始数据集确定联邦学习样本集,所述联邦学习样本集至少包括所述第一原始数据集、各所述第二原始数据集中的部分数据;
8.利用所述联邦学习样本集对初始模型进行迭代训练,得到目标联合模型。
9.在一个可能的实施方式中,所述根据主导方的第一原始数据集和各参与方的第二原始数据集确定联邦学习样本集,包括:
10.针对每一所述参与方,得到所述参与方与所述第一原始数据集对应的目标数据集,所述目标数据集是由所述参与方根据所述第一原始数据集和所述参与方的第二原始数据集确定的;
11.将所述第一原始数据集和各所述参与方与所述第一原始数据集对应的目标数据集,确定为联邦学习样本集。
12.在一个可能的实施方式中,所述得到所述参与方与所述第一原始数据集对应的目标数据集,包括:
13.确定所述第一原始数据集的第一标签集;
14.将所述第一标签集发送给参与方,以使所述参与方针对所述第一标签集中的每一标签,以所述标签为关键字查找所述参与方的第二原始数据集,得到包含所述标签的目标第二原始数据,将多个所述目标第二原始数据确定为所述参与方与所述第一原始数据集对
应的目标数据集。
15.在一个可能的实施方式中,所述利用所述联邦学习样本集对初始模型进行迭代训练,得到目标联合模型,包括:
16.利用所述联邦学习样本集中的所述第一原始数据集对初始模型进行训练,得到当前的联合模型;
17.按照预设的组合方式将所述第一原始数据集和各所述第二原始数据集中的部分数据进行组合,得到多个子样本集;
18.按照以下步骤进行迭代训练,直至满足预设的迭代停止条件:
19.从所述多个子样本集中选择一个目标子样本集;
20.利用所述目标子样本集对当前的联合模型进行训练;
21.迭代结束后,将最后一次训练得到的联合模型确定为目标联合模型。
22.在一个可能的实施方式中,所述按照预设的组合方式将所述第一原始数据集和各所述第二原始数据集中的部分数据进行组合,得到多个子样本集,包括:
23.依次将所述第一原始数据集和i个所述第二原始数据集中的部分数据进行组合,得到多个子样本集;所述i为小于或者等于s的自然数,所述s为所述参与方的数量。
24.在一个可能的实施方式中,所述迭代停止条件,包括:
25.当前的联合模型的损失函数最小化;或者,
26.迭代次数达到预设次数。
27.在一个可能的实施方式中,所述方法还包括:
28.对主导方的第一原始数据集和各参与方的第二原始数据集进行预处理,以使所述第一原始数据集和各所述第二原始数据集的数据格式保持一致;
29.利用预处理后的主导方的第一原始数据集和各参与方的第二原始数据集执行所述根据主导方的第一原始数据集和各参与方的第二原始数据集确定联邦学习样本集的步骤。
30.第二方面,本发明实施例提供一种联合建模装置,包括:
31.确定模块,用于根据主导方的第一原始数据集和各参与方的第二原始数据集确定联邦学习样本集,所述联邦学习样本集至少包括所述第一原始数据集、各所述第二原始数据集中的部分数据;
32.训练模块,用于利用所述联邦学习样本集对初始模型进行迭代训练,得到目标联合模型。
33.第三方面,本发明实施例提供一种电子设备,包括:处理器和存储器,所述处理器用于执行所述存储器中存储的联合建模程序,以实现第一方面中任一项所述的联合建模方法。
34.第四方面,本发明实施例提供一种存储介质,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现第一方面中任一项所述的联合建模方法。
35.本发明实施例提供的技术方案,通过根据主导方的第一原始数据集和各参与方的第二原始数据集确定联邦学习样本集,上述联邦学习样本集至少包括第一原始数据集、各第二原始数据集中的部分数据,然后利用联邦学习样本集对初始模型进行迭代训练,得到
目标联合模型。由于是联邦学习样本集包括了来自主导方的第一原始数据集中的所有数据和各第二原始数据集中的部分数据,进一步利用联邦学习样本集对初始模型进行迭代训练,这相较于现有技术中,样本量更大,迭代训练得到的目标联合模型也比仅对初始模型进行训练得到的模型性能更高,从而实现了在多方联合场景下构建出高性能的联合模型,在更为广泛的场景下实现对大数据的利用。
附图说明
36.图1为本发明实施例提供的一种联合建模方法的实施例流程图;
37.图2为本发明实施例提供的另一种联合建模方法的实施例流程图;
38.图3为本发明实施例提供的一种确定联邦学习样本集的示意图;
39.图4(a)为现有技术中一种确定联邦学习样本集的示意图;
40.图4(b)为现有技术中另一种确定联邦学习样本集的示意图;
41.图4(c)为现有技术中又一种确定联邦学习样本集的示意图;
42.图5为本发明实施例提供的又一种联合建模方法的实施例流程图;
43.图6为本发明实施例提供的一种神经网络流程的示意图;
44.图7为本发明实施例提供的另一种神经网络流程的示意图;
45.图8为本发明实施例提供的一种梯度下降法的示意图;
46.图9为本发明实施例提供的一种联合建模装置的实施例框图;
47.图10为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
48.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
49.下面结合附图以具体实施例对本发明提供的联合建模方法做出解释说明,实施例并不构成对本发明实施例的限定。
50.参见图1,为本发明实施例提供的一种联合建模方法的实施例流程图。如图1所示,该方法可包括以下步骤:
51.步骤101、根据主导方的第一原始数据集和各参与方的第二原始数据集确定联邦学习样本集,联邦学习样本集至少包括第一原始数据集、各第二原始数据集中的部分数据。
52.在一实施例中,由于主导方的第一原始数据集和各参与方的第二原始数据集中的数据不一样,格式也可能不相同,因此,本发明实施例的执行主体(例如主导方的服务器、第三方服务器等)可先对主导方的第一原始数据集和各参与方的第二原始数据集进行预处理,以使第一原始数据集和各第二原始数据集的数据格式保持一致。然后根据预处理后的主导方的第一原始数据集和各参与方的第二原始数据集确定联邦学习样本集。上述的预处理可包括:数据归一化、数值化、onehot编码,以及空值填充等基本数据处理方式。
53.举例来说,主导方的第一原始数据集中的性别分为男、女,而参与方的第二原始数据集中的性别分为male、female。按照上述描述,可以将主导方的第一原始数据集对应的数
据格式设定为标准格式,并将该标准格式发给各参与方,控制各参与方通过预处理将第二原始数据集的性别处理为男/女,以使数据格式保持一致。
54.此外,上述所描述的将主导方的第一原始数据集对应的数据格式设定为标准格式仅仅是一种示例,在实践中,还可以采取其他的数据格式设定为标准格式。例如,对于上述性别字段的举例,可以设置为0表示女性,1表示男性。本发明实施例对此不做限制。
55.由于上述对主导方的第一原始数据集和各参与方的第二原始数据集进行预处理,以使第一原始数据集和各第二原始数据集的数据格式保持一致的过程中,仅需要将标准格式发送到多方,并没有将第一原始数据集和各第二原始数据集的原始数据在多方中进行直接传递,保护了多方数据的隐私。
56.由上述描述可见,本发明实施例中,联邦学习样本集至少包括第一原始数据集、各第二原始数据集中的部分数据,这就使得本发明实施例中的联邦学习样本集相对于现有技术中,根据各个参与方数据的交集所确定的联邦学习样本集而言,样本集更大,从而为后续构建出更高性能的目标联合模型提供了基础。
57.至于具体是如何根据主导方的第一原始数据集和各参与方的第二原始数据集确定联邦学习样本集的,在下文中通过图2所示实施例进行说明,这里先不详述。
58.步骤102、利用联邦学习样本集对初始模型进行迭代训练,得到目标联合模型。
59.在步骤102中,首先利用联邦学习样本集进行深度学习,对初始模型训练,进一步对该模型进行迭代,最终得到目标联合模型。
60.至于具体是如何根据利用联邦学习样本集对初始模型进行迭代训练,得到目标联合模型的,在下文中通过图5所示实施例进行说明,这里先不详述。
61.至此,完成图1所示流程的相关描述。
62.通过图1所示流程可以看出,在本发明中,通过根据主导方的第一原始数据集和各参与方的第二原始数据集确定联邦学习样本集,上述联邦学习样本集至少包括第一原始数据集、各第二原始数据集中的部分数据,然后利用联邦学习样本集对初始模型进行迭代训练,得到目标联合模型。由于是联邦学习样本集包括了来自主导方的第一原始数据集中的所有数据和各第二原始数据集中的部分数据,进一步利用联邦学习样本集对初始模型进行迭代训练,这相较于现有技术中,样本量更大,迭代训练得到的目标联合模型也比仅对初始模型进行训练得到的模型性能更高,从而实现了在多方联合场景下构建出高性能的联合模型,在更为广泛的场景下实现对大数据的利用。
63.参见图2,为本发明实施例提供的另一种联合建模方法的实施例流程图。该图2所示流程在上述图1所示流程的基础上,描述如何根据主导方的第一原始数据集和各参与方的第二原始数据集确定联邦学习样本集的。
64.如图2所示,该方法可包括以下步骤:
65.步骤201、针对每一参与方,得到参与方与第一原始数据集对应的目标数据集,目标数据集是由参与方根据第一原始数据集和参与方的第二原始数据集确定的。
66.在一实施例中,针对每一参与方,可先确定第一原始数据集的第一标签集;将上述第一标签集发送给参与方,以使参与方针对该第一标签集中的每一标签,以标签为关键字查找参与方的第二原始数据集,得到包含标签的目标第二原始数据,将多个目标第二原始数据确定为参与方与第一原始数据集对应的目标数据集。
67.参见图3,为本发明实施例提供的一种确定联邦学习样本集的示意图,如图3所示,针对参与方a,可先确定主导方的第一原始数据集的第一标签集,然后将第一标签集发送给参与方a。当参与方a接收到上述第一标签集后,可针对第一标签集中的每一标签,以标签为关键字查找参与方a的第二原始数据集,得到包含标签的各目标第二原始数据,将多个目标第二原始数据确定为参与方a与第一原始数据集对应的目标数据集,也即图3中虚线框

出的数据集。同理可得,参与方b与第一原始数据集对应的目标数据集为图3中虚线框

出的数据集。
68.此外,在上述步骤201中,仅仅将主导方的第一标签集发送给各参与方,并未直接将主导方第一原始数据集发送给各参与方,同时确定各参与方与第一原始数据集对应的目标数据集也是在各参与方的本地完成的,因此保护了多方数据的隐私。
69.步骤202、将第一原始数据集和各参与方与第一原始数据集对应的目标数据集,确定为联邦学习样本集。
70.由步骤202的描述可知,可将第一原始数据集和各参与方与第一原始数据集对应的目标数据集,确定为联邦学习样本集。
71.以图3为例,将主导方的第一原始数据集、参与方a与第一原始数据集对应的目标数据集(虚线框

出的数据集),以及参与方b与第一原始数据集对应的目标数据集(虚线框

出的数据集),确定为联邦学习样本集。
72.参见图4,为现有技术中的确定联邦学习样本集的示意图。如图4所示,以两方数据为例,图4(a)中纵向联邦学习只取两方“标签”重叠的数据部分进行计算,图4(b)中横向联邦学习只取两方“特征”重叠的数据部分进行计算,若是多方求交集,重叠的数据部分就会变得非常少。而图4(c)中联邦迁移学习并不是根据对数据集求交集实现的,而是通过对数据方建立模型提取模型关键参数实现的,更多地用来补充标签内容。
73.通过对比可知,本发明的实施例利用了更多的信息量,包括主导方没有与其他参与方交集的数据,也可以包含与主导方相同(比如说公司在不同区域不能共通的)的横向数据及其相关纵向数据,同时也不会因为参与方的增加,造成联邦学习样本集中数据量的减少。
74.至此,完成图2所示流程的相关描述。
75.通过图2所示流程可以看出,在本发明中,通过针对每一参与方,得到参与方与第一原始数据集对应的目标数据集,其中,目标数据集是由参与方根据第一原始数据集和参与方的第二原始数据集确定的。然后将第一原始数据集和各参与方与第一原始数据集对应的目标数据集,确定为联邦学习样本集。由于本发明确定的联邦学习样本集的有效数据量较现有技术有了明显增加,实际上对于机器学习而言,构建模型的性能与有效数据量相关性较大,因此增加了构建模型的有效数据量,为后续模型的性能的提升提供了基础。
76.参见图5,为本发明实施例提供的又一种联合建模方法的实施例流程图。该图5所示流程在上述图1所示流程的基础上,描述如何利用联邦学习样本集对初始模型进行迭代训练,得到目标联合模型的。如图5所示,该方法可包括以下步骤:
77.步骤501、利用联邦学习样本集中的第一原始数据集对初始模型进行训练,得到当前的联合模型。
78.基于上述确定的联邦学习样本集,为了后续的建模和保护多方数据的隐私性,在
步骤501前,可对联邦学习样本集中的数据进行特征分箱处理和、特征工程处理,以及必要的隐私加密处理。
79.为了保护多方数据的隐私性,可对联邦学习样本集中的数据根据预设的处理方式进行加密和隐私处理。例如:差分隐私、同态加密等处理方式。
80.其中,差分隐私是一种用于在统计数据库中形式化隐私的框架,用来防止去匿名化的技术,它是一种数据扰动方案,数据中添加噪声,或者使用泛化方法对某些敏感属性进行模糊处理,直到第三方无法区分个体,从而使数据无法恢复,保护用户隐私。
81.同态加密是一种加密方案,它允许好像未加密一样对加密数据进行计算。通过同态加密可以在整个计算过程中保留结构。数据通过网络发送,在第三服务器上进行处理,即在不解密密文的条件下,通过对密文执行操作,就能够做到对明文数据的各种计算,满足了隐私保护的安全性需求。
82.在一实施例中,主导方本地还可对第一原始数据集进行差分隐私和同态加密,同时各参与方本地对其对应的目标数据集进行差分隐私和同态加密,在处理后,主导方和个参与方将加密处理后的数据上传至中央服务器,中间服务器接收到加密后的联邦学习样本集。
83.通过上述处理,中央服务器无法分辨出数据是来自哪一方的,满足了隐私保护的安全性需求,在不解密密文的条件下,也可以进行后续的模型训练。
84.可选的,上述特征分箱处理是指可先提取出联邦学习样本集中数据的特征,将连续/离散的特征变成更粗粒度的特征。例如,将连续区间(0,5]分为(0,1],(1,2],(2,3],(3,4],(4,5]五个区间,如此简化了特征,可以方便后续计算。
85.可选的,上述特征工程可包括但不限于:提取出联邦学习样本集中数据的特征,对上述特征进行去除空值、字符型数据处理,以及特征降噪等基本的特征工程,如此,方便了后续的建模。
86.在一实施例中,对联邦学习样本集中的数据进行上述处理之后,可将该联邦学习样本集分为联邦学习训练集和联邦学习验证集,用于执行后续构建目标联合模型的步骤。
87.在本实施例中,可利用联邦学习训练集中的来自主导方的第一原始数据集进行深度学习,采用原始的神经网络流程(参见图6,为本发明实施例提供的一种神经网络流程的示意图)训练出当前的联合模型。
88.步骤502、按照预设的组合方式将第一原始数据集和各第二原始数据集中的部分数据进行组合,得到多个子样本集。
89.在一实施例中,可依次将第一原始数据集和i个第二原始数据集中的部分数据进行组合,得到多个子样本集。其中,i为小于或者等于s的自然数,s为参与方的数量。
90.以联邦学习训练集中的包含主导方的数据、参与方a的数据,以及参与方b的数据为例,可将数据进行组合,得到由主导方的数据构成的第一子样本集;由主导方的数据和参与方a的部分数据构成的第二子样本集;由主导方的数据、参与方a的部分数据,以及参与方b的部分数据构成的第三子样本集;由主导方的数据和参与方b的部分数据构成的第四子样本集。
91.以联邦学习训练集中的包含主导方的数据、参与方a的数据、参与方b的数据,以及参与方c的数据为例,可将数据进行组合,得到由主导方的数据构成的第一子样本集;由主
导方的数据和参与方c的部分数据构成的第二子样本集;由主导方的数据、参与方c的部分数据,以及参与方a的部分数据构成的第三子样本集;由主导方的数据、参与方c的部分数据、参与方a的部分数据,以及参与方b的部分数据构成的第四子样本集;由主导方的数据、参与方c的部分数据,以及参与方b的部分数据构成的第五子样本集;由主导方的数据和参与方a的部分数据构成的第六子样本集;由主导方的数据、参与方a的部分数据,以及参与方b的部分数据构成的第七子样本集;由主导方的数据和参与方b的部分数据构成的第八子样本集。
92.步骤503、按照以下步骤进行迭代训练,直至满足预设的迭代停止条件:
93.步骤503a、从多个子样本集中选择一个目标子样本集;
94.步骤503b、利用目标子样本集对当前的联合模型进行训练。
95.下面对步骤503以及步骤503a、503b进行统一描述:
96.在一实施例中,从多个子样本集中选择一个目标子样本集,然后利用该目标子样本集对当前的联合模型进行训练,直至满足预设的迭代停止条件,迭代训练停止。
97.上述迭代停止条件,可包括但不限于:当前的联合模型的损失函数最小化;或者,迭代次数达到预设次数。
98.在一实施例中,利用多个子样本集优化迭代根据主导方训练出的当前联合模型,训练迭代方法可采用类似dropout的方法改造和按比例的小批量梯度下降法。
99.可选的,在对当前的联合模型进行训练迭代的过程中,可对该训练过程做一个类似于dropout方法的改造,采取类似图7(图7为本发明实施例提供的另一种神经网络流程的示意图)的方式增加输入的神经网络层数。
100.例如,原始神经网络的第一层是6个conv(卷积)网络,当前有一个主导方和两个参与方,神经网络模型的第一层就是18个conv网络,如果一个参与方没有对应的某条数据,即其6个conv网络为空,最后直到全连接层(full connection)对特征进行改造。也即,每一方相当于第零层的输入,当其中一方没有相应数据时相当于置空,这样结合模型本身的dropout方法更大的增加了模型的泛化能力。
101.基于上述步骤502的举例,可按照如下的比例和顺序循环,进行小批量梯度下降对当前的联合模型进行训练迭代:
102.①
第一子样本集:第二子样本集=1:1;
103.②
第二子样本集:第三子样本集=1:1;
104.③
第三子样本集:第四子样本集=1:1;
105.④
第四子样本集:第一子样本集=1:1;
106.直至当前的联合模型在各小场景下都能达到一个相对较优的凸点(即达到最优化模型)。参见图8,为本发明实施例提供的一种梯度下降法的示意图。
107.通过这种处理,可以随时适应参与方的改变,使得模型在各种情况下(例如:主导方、主导方+参与方a、主导方+参与方b、主导方+参与方a+参与方b)都能进行良好的预测。
108.一般而言,联邦学习验证集是从联邦学习样本集中提取出来的具有代表性的数据,能够有效验证训练的模型的好坏。可选的,将联邦学习验证集的数据输入当前的联合模型的损失函数中,若当前损失函数的输出值符合预期,则迭代训练停止。若不符合预期,则重新执行步骤503及其后续步骤。
109.可选的,也可以再传入新的测试数据集对模型进行评估,将上述测试数据集中的数据输入当前的联合模型的损失函数中,若当前损失函数的输出值符合预期,则迭代训练停止。若不符合预期,则重新执行步骤503及其后续步骤。
110.步骤504、迭代结束后,将最后一次训练得到的联合模型确定为目标联合模型。
111.在一实施例中,当迭代结束后,将步骤503中最后一次训练得到的联合模型确定为目标联合模型。
112.至此,完成图5所示流程的相关描述。
113.通过图5所示流程可以看出,在本发明中,通过利用联邦学习样本集中的第一原始数据集对初始模型进行迭代训练,得到当前的联合模型;然后按照预设的组合方式将第一原始数据集和各第二原始数据集中的部分数据进行组合,得到多个子样本集;从多个子样本集中选择一个目标子样本集,利用目标子样本集对当前的联合模型进行训练,直至满足预设的迭代停止条件;最终迭代结束后,将最后一次训练得到的联合模型确定为目标联合模型。由于,整个构建目标联合模型的过程中,只训练出一个具有高度泛化能力的深度学习模型,因此实现了不需要对多个模型进行管理,也能构建出高性能的模型,使得在更为广泛的场景下实现大数据的利用。
114.与前述联合建模方法的实施例相对应,本发明还提供联合建模装置的实施例。
115.参见图9,为本发明实施例提供的一种联合建模装置的实施例框图。
116.如图9所示,该装置包括:
117.确定模块901,用于根据主导方的第一原始数据集和各参与方的第二原始数据集确定联邦学习样本集,所述联邦学习样本集至少包括所述第一原始数据集、各所述第二原始数据集中的部分数据;
118.训练模块902,用于利用所述联邦学习样本集对初始模型进行迭代训练,得到目标联合模型。
119.在一个可能的实施方式中,所述确定模块901包括(图中未示出):
120.目标数据集单元,用于针对每一所述参与方,得到所述参与方与所述第一原始数据集对应的目标数据集,所述目标数据集是由所述参与方根据所述第一原始数据集和所述参与方的第二原始数据集确定的;
121.第一确定单元,用于将所述第一原始数据集和各所述参与方与所述第一原始数据集对应的目标数据集,确定为联邦学习样本集。
122.在一个可能的实施方式中,所述目标数据集单元具体用于:
123.确定所述第一原始数据集的第一标签集;
124.将所述第一标签集发送给参与方,以使所述参与方针对所述第一标签集中的每一标签,以所述标签为关键字查找所述参与方的第二原始数据集,得到包含所述标签的目标第二原始数据,将多个所述目标第二原始数据确定为所述参与方与第一原始数据集对应的目标数据集。
125.在一个可能的实施方式中,所述训练模块902包括(图中未示出):
126.训练单元,用于利用所述联邦学习样本集中的所述第一原始数据集对初始模型进行训练,得到当前的联合模型;
127.组合单元,用于按照预设的组合方式将所述第一原始数据集和各所述第二原始数
据集中的部分数据进行组合,得到多个子样本集;
128.迭代单元,用于按照以下步骤进行迭代训练,直至满足预设的迭代停止条件:
129.从所述多个子样本集中选择一个目标子样本集;
130.利用所述目标子样本集对当前的联合模型进行训练;
131.第二确定单元,用于迭代结束后,将最后一次训练得到的联合模型确定为目标联合模型。
132.在一个可能的实施方式中,所述组合单元具体用于:
133.依次将所述第一原始数据集和i个所述第二原始数据集中的部分数据进行组合,得到多个子样本集;所述i为小于或者等于s的自然数,所述s为所述参与方的数量。
134.在一个可能的实施方式中,所述迭代停止条件,包括:
135.当前的联合模型的损失函数最小化;或者,
136.迭代次数达到预设次数。
137.在一个可能的实施方式中,所述装置还包括(图中未示出):
138.预处理模块,用于对主导方的第一原始数据集和各参与方的第二原始数据集进行预处理,以使所述第一原始数据集和各所述第二原始数据集的数据格式保持一致;
139.执行模块,用于利用预处理后的主导方的第一原始数据集和各参与方的第二原始数据集执行所述根据主导方的第一原始数据集和各参与方的第二原始数据集确定联邦学习样本集的步骤。
140.图10为本发明实施例提供的一种电子设备的结构示意图,图10所示的电子设备1000包括:至少一个处理器1001、存储器1002、至少一个网络接口1004和其他用户接口1003。电子设备1000中的各个组件通过总线系统1005耦合在一起。可理解,总线系统1005用于实现这些组件之间的连接通信。总线系统1005除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图10中将各种总线都标为总线系统1005。
141.其中,用户接口1003可以包括显示器、键盘或者点击设备(例如,鼠标,轨迹球(trackball))、触感板或者触摸屏等。
142.可以理解,本发明实施例中的存储器1002可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-onlymemory,rom)、可编程只读存储器(programmablerom,prom)、可擦除可编程只读存储器(erasableprom,eprom)、电可擦除可编程只读存储器(electricallyeprom,eeprom)或闪存。易失性存储器可以是随机存取存储器(randomaccessmemory,ram),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(staticram,sram)、动态随机存取存储器(dynamicram,dram)、同步动态随机存取存储器(synchronousdram,sdram)、双倍数据速率同步动态随机存取存储器(doubledatarate sdram,ddrsdram)、增强型同步动态随机存取存储器(enhanced sdram,esdram)、同步连接动态随机存取存储器(synchlinkdram,sldram)和直接内存总线随机存取存储器(directrambusram,drram)。本文描述的存储器1002旨在包括但不限于这些和任意其它适合类型的存储器。
143.在一些实施方式中,存储器1002存储了如下的元素,可执行单元或者数据结构,或
者他们的子集,或者他们的扩展集:操作系统10021和应用程序10022。
144.其中,操作系统10021,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序10022,包含各种应用程序,例如媒体播放器(mediaplayer)、浏览器(browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序10022中。
145.在本发明实施例中,通过调用存储器1002存储的程序或指令,具体的,可以是应用程序10022中存储的程序或指令,处理器1001用于执行各方法实施例所提供的方法步骤,例如包括:
146.根据主导方的第一原始数据集和各参与方的第二原始数据集确定联邦学习样本集,所述联邦学习样本集至少包括所述第一原始数据集、各所述第二原始数据集中的部分数据;
147.利用所述联邦学习样本集对初始模型进行迭代训练,得到目标联合模型。
148.在一个可能的实施方式中,所述根据主导方的第一原始数据集和各参与方的第二原始数据集确定联邦学习样本集,包括:
149.针对每一所述参与方,得到所述参与方与所述第一原始数据集对应的目标数据集,所述目标数据集是由所述参与方根据所述第一原始数据集和所述参与方的第二原始数据集确定的;
150.将所述第一原始数据集和各所述参与方与所述第一原始数据集对应的目标数据集,确定为联邦学习样本集。
151.在一个可能的实施方式中,所述得到所述参与方与所述第一原始数据集对应的目标数据集,包括:
152.确定所述第一原始数据集的第一标签集;
153.将所述第一标签集发送给参与方,以使所述参与方针对所述第一标签集中的每一标签,以所述标签为关键字查找所述参与方的第二原始数据集,得到包含所述标签的目标第二原始数据,将多个所述目标第二原始数据确定为所述参与方与所述第一原始数据集对应的目标数据集。
154.在一个可能的实施方式中,所述利用所述联邦学习样本集对初始模型进行迭代训练,得到目标联合模型,包括:
155.利用所述联邦学习样本集中的所述第一原始数据集对初始模型进行训练,得到当前的联合模型;
156.按照预设的组合方式将所述第一原始数据集和各所述第二原始数据集中的部分数据进行组合,得到多个子样本集;
157.按照以下步骤进行迭代训练,直至满足预设的迭代停止条件:
158.从所述多个子样本集中选择一个目标子样本集;
159.利用所述目标子样本集对当前的联合模型进行训练;
160.迭代结束后,将最后一次训练得到的联合模型确定为目标联合模型。
161.在一个可能的实施方式中,所述按照预设的组合方式将所述第一原始数据集和各所述第二原始数据集中的部分数据进行组合,得到多个子样本集,包括:
162.依次将所述第一原始数据集和i个所述第二原始数据集中的部分数据进行组合,
得到多个子样本集;所述i为小于或者等于s的自然数,所述s为所述参与方的数量。
163.在一个可能的实施方式中,所述迭代停止条件,包括:
164.当前的联合模型的损失函数最小化;或者,
165.迭代次数达到预设次数。
166.在一个可能的实施方式中,所述方法还包括:
167.对主导方的第一原始数据集和各参与方的第二原始数据集进行预处理,以使所述第一原始数据集和各所述第二原始数据集的数据格式保持一致;
168.利用预处理后的主导方的第一原始数据集和各参与方的第二原始数据集执行所述根据主导方的第一原始数据集和各参与方的第二原始数据集确定联邦学习样本集的步骤。
169.上述本发明实施例揭示的方法可以应用于处理器1001中,或者由处理器1001实现。处理器1001可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器1001中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1001可以是通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(fieldprogrammablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1002,处理器1001读取存储器1002中的信息,结合其硬件完成上述方法的步骤。
170.可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(applicationspecificintegratedcircuits,asic)、数字信号处理器(digitalsignalprocessing,dsp)、数字信号处理设备(dspdevice,dspd)、可编程逻辑设备(programmablelogicdevice,pld)、现场可编程门阵列(field-programmablegatearray,fpga)、通用处理器、控制器、微控制器、微处理器、用于执行本发明所述功能的其它电子单元或其组合中。
171.对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
172.本实施例提供的电子设备可以是如图10中所示的电子设备,可执行如图1、图2,以及图5中联合建模方法的所有步骤,进而实现图1、图2,以及图5所示联合建模方法的技术效果,具体请参照图1、图2,以及图5相关描述,为简洁描述,在此不作赘述。
173.本发明实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中,存储介质可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘;存储器还可以包括上述种类的存储器的组合。
174.当存储介质中一个或者多个程序可被一个或者多个处理器执行,以实现上述在电
子设备侧执行的联合建模方法。
175.所述处理器用于执行存储器中存储的联合建模程序,以实现以下在电子设备侧执行的联合建模方法的步骤:
176.根据主导方的第一原始数据集和各参与方的第二原始数据集确定联邦学习样本集,所述联邦学习样本集至少包括所述第一原始数据集、各所述第二原始数据集中的部分数据;
177.利用所述联邦学习样本集对初始模型进行迭代训练,得到目标联合模型。
178.在一个可能的实施方式中,所述根据主导方的第一原始数据集和各参与方的第二原始数据集确定联邦学习样本集,包括:
179.针对每一所述参与方,得到所述参与方与所述第一原始数据集对应的目标数据集,所述目标数据集是由所述参与方根据所述第一原始数据集和所述参与方的第二原始数据集确定的;
180.将所述第一原始数据集和各所述参与方与所述第一原始数据集对应的目标数据集,确定为联邦学习样本集。
181.在一个可能的实施方式中,所述得到所述参与方与所述第一原始数据集对应的目标数据集,包括:
182.确定所述第一原始数据集的第一标签集;
183.将所述第一标签集发送给参与方,以使所述参与方针对所述第一标签集中的每一标签,以所述标签为关键字查找所述参与方的第二原始数据集,得到包含所述标签的目标第二原始数据,将多个所述目标第二原始数据确定为所述参与方与所述第一原始数据集对应的目标数据集。
184.在一个可能的实施方式中,所述利用所述联邦学习样本集对初始模型进行迭代训练,得到目标联合模型,包括:
185.利用所述联邦学习样本集中的所述第一原始数据集对初始模型进行训练,得到当前的联合模型;
186.按照预设的组合方式将所述第一原始数据集和各所述第二原始数据集中的部分数据进行组合,得到多个子样本集;
187.按照以下步骤进行迭代训练,直至满足预设的迭代停止条件:
188.从所述多个子样本集中选择一个目标子样本集;
189.利用所述目标子样本集对当前的联合模型进行训练;
190.迭代结束后,将最后一次训练得到的联合模型确定为目标联合模型。
191.在一个可能的实施方式中,所述按照预设的组合方式将所述第一原始数据集和各所述第二原始数据集中的部分数据进行组合,得到多个子样本集,包括:
192.依次将所述第一原始数据集和i个所述第二原始数据集中的部分数据进行组合,得到多个子样本集;所述i为小于或者等于s的自然数,所述s为所述参与方的数量。
193.在一个可能的实施方式中,所述迭代停止条件,包括:
194.当前的联合模型的损失函数最小化;或者,
195.迭代次数达到预设次数。
196.在一个可能的实施方式中,所述方法还包括:
197.对主导方的第一原始数据集和各参与方的第二原始数据集进行预处理,以使所述第一原始数据集和各所述第二原始数据集的数据格式保持一致;
198.利用预处理后的主导方的第一原始数据集和各参与方的第二原始数据集执行所述根据主导方的第一原始数据集和各参与方的第二原始数据集确定联邦学习样本集的步骤。
199.专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
200.结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
201.以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1