本申请属于纵向联邦学习领域,尤其涉及一种模型训练方法和模型训练装置。
背景技术:
1、随着大数据时代的来临,工业互联网中涉及越来越多的数据,如何对数据进行有效的隐私保护成为亟待解决的问题。相关技术中,主要采用拆分学习的方法来进行联邦学习,以基于工业特征数据获取与该工业特征数据对应的标签,从而达到保护本地端的工业特征数据的隐私的目的。然而,该拆分学习的方法涉及较多的数据量,从而影响数据处理效率以及通信速率。
技术实现思路
1、本申请旨在至少解决现有技术中存在的技术问题之一。为此,本申请提出一种模型训练方法和模型训练装置,能够在提高通信效率的基础上提高训练效果,从而提高模型的精确度和普适性。
2、第一方面,本申请提供了一种模型训练方法,应用于纵向联邦学习模型,所述纵向联邦学习模型包括多个第一子模型和第二子模型,所述第一子模型的输出端与所述第二子模型的输入端连接,该方法包括:
3、对第一中间结果进行随机稀疏化处理,获取样本中间结果;
4、对所述样本中间结果进行解压处理,获取样本解压结果;
5、基于所述样本解压结果,确定损失函数对于所述第二子模型的第三梯度和所述损失函数对于所述多个第一子模型中目标第一子模型的第一梯度;
6、基于所述第一梯度和所述样本中间结果,训练所述目标第一子模型;基于所述第三梯度,训练所述第二子模型。
7、根据本申请的模型训练方法,通过在训练过程中采用随机稀疏化算法处理第一中间结果,通过提高训练样本的随机性,可以有效缓解单一稀疏化对拆分学习的模型训练过程导致的不良影响,提高训练效果,从而实现在降低拆分学习的通讯量以提高通讯效率的基础上,提高模型的精确度和普适性。
8、根据本申请的一个实施例,所述对第一中间结果进行随机稀疏化处理,获取样本中间结果,包括:
9、基于所述第一中间结果,获取随机化向量,所述第一中间结果包括第一目标数量的元素;
10、基于所述随机化向量,确定绝对值最大的第二目标数量的下标对应的元素;
11、保留所述第二目标数量的下标对应的元素,获取所述样本中间结果。
12、根据本申请的一个实施例,所述随机化向量基于如下公式确定:
13、r=(r1~u(0,|x1|α),...,rn~u(0,|xn|α))
14、其中,r为所述随机化向量;α为目标实数,用于控制随机程度;n为所述第一目标数量;xn为第n个元素的向量;x1为第1个元素的向量。
15、根据本申请的一个实施例,所述第一中间结果为下标编码的数据。
16、根据本申请的一个实施例,所述基于所述样本解压结果,确定损失函数对于所述第二子模型的第三梯度和所述损失函数对于所述多个第一子模型中目标第一子模型的第一梯度,包括:
17、将所述样本中间结果发送至所述第二子模型,获取所述第二子模型输出的所述样本中间结果对应的预测标签;
18、基于所述预测标签和所述样本工业特征数据对应的真实标签,确定所述损失函数;
19、对所述损失函数进行链式求导,获取所述第一梯度和所述第三梯度。
20、根据本申请的一个实施例,所述基于所述第一梯度和所述样本中间结果,训练所述目标第一子模型,包括:
21、采用链式法则处理所述第一梯度,确定第二梯度;
22、基于所述第二梯度,优化所述目标第一子模型。
23、第二方面,本申请提供了一种模型训练装置,该装置包括:
24、根据本申请的模型训练装置,通过在训练过程中采用随机稀疏化算法处理第一中间结果,通过提高训练样本的随机性,可以有效缓解单一稀疏化对拆分学习的模型训练过程导致的不良影响,提高训练效果,从而提高模型的精确度和普适性。
25、第三方面,本申请提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的模型训练方法。
26、第四方面,本申请提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的模型训练方法。
27、第五方面,本申请提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的模型训练方法。
28、第六方面,本申请提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的模型训练方法。
29、本申请实施例中的上述一个或多个技术方案,至少具有如下技术效果之一:
30、通过在训练过程中采用随机稀疏化算法处理第一中间结果,通过提高训练样本的随机性,可以有效缓解单一稀疏化对拆分学习的模型训练过程导致的不良影响,提高训练效果,从而实现在降低拆分学习的通讯量以提高通讯效率的基础上,提高模型的精确度和普适性。
31、进一步的,通过链式求导法处理基于标签提供方生成的损失函数所得到的第一梯度来优化目标第一子模型,具有较好的训练效果,能够在不影响模型精度的情况下,降低训练过程中的通讯量。
32、本申请的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
1.一种模型训练方法,其特征在于,应用于纵向联邦学习模型,所述纵向联邦学习模型包括多个第一子模型和第二子模型,所述第一子模型的输出端与所述第二子模型的输入端连接,所述方法包括:
2.根据权利要求1所述的模型训练方法,其特征在于,所述对第一中间结果进行随机稀疏化处理,获取样本中间结果,包括:
3.根据权利要求2所述的模型训练方法,其特征在于,所述随机化向量基于如下公式确定:
4.根据权利要求2所述的模型训练方法,其特征在于,所述第一中间结果为下标编码的数据。
5.根据权利要求1-4任一项所述的模型训练方法,其特征在于,所述基于所述样本解压结果,确定损失函数对于所述第二子模型的第三梯度和所述损失函数对于所述多个第一子模型中目标第一子模型的第一梯度,包括:
6.根据权利要求5所述的模型训练方法,其特征在于,所述基于所述第一梯度和所述样本中间结果,训练所述目标第一子模型,包括:
7.一种模型训练装置,其特征在于,应用于纵向联邦学习模型,所述纵向联邦学习模型包括多个第一子模型和第二子模型,所述第一子模型的输出端与所述第二子模型的输入端连接,所述装置包括:
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6任一项所述模型训练方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-6任一项所述的模型训练方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6任一项所述模型训练方法。