模型训练方法、装置、计算机设备和可读存储介质与流程

文档序号:40602548发布日期:2025-01-07 20:43阅读:7来源:国知局
模型训练方法、装置、计算机设备和可读存储介质与流程

本技术涉及人工智能,特别是涉及一种模型训练方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。


背景技术:

1、随着人工智能技术的发展,在模型训练过程中,数据的安全性和隐私性也越来越被人们重视,研究人员通过整合不同来源的数据,构建分布式的模型训练框架,但多样化的数据来源会产生巨大的沟通成本,影响模型的训练效率。例如,在调度配电网的过程中,通常会使用数据处理模型来处理相关的电网业务数据,在训练数据处理模型的过程中,需要用到大量的电网业务数据,然而,电网业务数据通常分布于配电网的多个节点当中,不同节点之间的电网业务数据类型、来源大不相同,即便是构建了分布式的模型训练框架,配电网的多个节点与中心服务器之间仍存在巨大的沟通成本,影响分类模型的训练效率。

2、传统方案中,通过联邦学习框架,由配电网的多个节点在本地对数据处理模型进行初步训练,再由中心服务器整合各节点的训练结果,再次训练得到全局模型。如此,在不交换数据样本的情况下,能够跨越多个节点,基于分布式的数据训练出全局模型,提升了数据处理模型的训练速度。

3、然而,传统方案中,由于联邦学习框架中提供训练数据的客户端或节点众多,不同客户端或节点之间训练数据差异非常大,从而导致客户端或节点在参与联邦学习训练本地模型时,模型参数差异较大,依然存在模型训练精度较低的技术问题。


技术实现思路

1、基于此,有必要针对上述技术问题,提供一种能够提高模型训练精度的模型训练方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

2、第一方面,本技术提供了一种模型训练方法,应用于联邦学习框架的中心服务器,所述联邦学习框架包括所述中心服务器和多个与所述中心服务器连接的客户端,所述方法包括:

3、接收多个客户端反馈的多组第一模型参数,将所述第一模型参数确定为样本点,得到样本数据集,所述第一模型参数由所述客户端基于本地的业务训练数据集对待训练模型进行训练得到;

4、针对每一所述样本点,基于所述样本点与所述样本点的相邻样本点之间的距离,确定所述样本点的距离逆数密度,基于所述距离逆数密度,确定所述样本点的局部密度修正项,基于所述距离逆数密度和所述局部密度修正项,确实所述样本点的局部密度,所述相邻样本点为所述样本点的预设的距离范围内的样本点;

5、基于各所述样本点的局部密度,对所述样本数据集进行聚类,将数据分布相似的客户端划分至相同的客户端集合,得到多个客户端集合;

6、调度多个客户端,使得相同客户端集合中的客户端共享模型参数,通过联邦学习的方式共同训练模型。

7、在其中一个实施例中,调度多个客户端,包括:

8、发送模型训练消息至多个客户端,以使相同客户端集合中的客户端共享模型参数,通过联邦学习的方式共同训练模型;

9、接收各客户端反馈的第二模型参数,基于多个所述第二模型参数,确定全局模型参数;

10、发送携带所述全局模型参数的模型训练消息至不同客户端集合中的客户端,以使相同客户端集合中的客户端基于所述全局模型参数,通过联邦学习的方式共同训练模型,返回接收不同客户端集合中的客户端反馈的第二模型参数的步骤,直至达到预设的训练结束条件,停止模型训练。

11、在其中一个实施例中,所述基于所述距离逆数密度,确定所述样本点的局部密度修正项,包括:

12、基于所述样本点的距离逆数密度、与所述相邻样本点的距离逆数密度之间的大小关系,确定所述局部密度修正项。

13、在其中一个实施例中,所述基于各所述样本点的局部密度,对所述样本数据集进行聚类,将数据分布相似的客户端划分至相同的客户端集合,得到多个客户端集合,包括:

14、根据各所述样本点的局部密度,确定各所述样本点的高局部密度点距离;

15、基于所述局部密度和所述高局部密度点距离,确定各所述样本点的决策值;

16、基于各所述样本点的决策值的二阶差分,从所述样本数据集中筛选出聚类中心、以及为所述聚类中心分配非聚类中心的样本点,得到多个样本聚类簇;

17、基于多个所述样本聚类簇,将数据分布相似的客户端划分至相同的客户端集合,得到多个客户端集合。

18、在其中一个实施例中,所述基于各所述样本点的决策值的二阶差分,从所述样本数据集中筛选出聚类中心,包括:

19、根据所述各样本点的决策值的二阶差分,确定所述二阶差分发生突变的目标样本点;

20、基于所述目标样本点,从所述样本数据集中筛选出聚类中心,所述聚类中心的决策值的二阶差分大于所述目标样本点的决策值的二阶差分。

21、第二方面,本技术方案提供了一种电网业务数据处理方法,所述方法包括:

22、获取电网业务数据;

23、调用已训练的数据处理模型,对所述电网业务数据进行数据处理,得到数据处理结果;

24、其中,所述数据处理模型基于历史电网业务数据、通过权利要求1至5中任意一项的模型训练方法训练得到。

25、第三方面,本技术还提供了一种模型训练装置,包括:

26、数据接收模块,用于接收多个客户端反馈的多组第一模型参数,将所述第一模型参数确定为样本点,得到样本数据集,所述第一模型参数由所述客户端基于本地的业务训练数据集对待训练模型进行训练得到;

27、局部密度确定模块,用于针对每一所述样本点,基于所述样本点与所述样本点的相邻样本点之间的距离,确定所述样本点的距离逆数密度,基于所述距离逆数密度,确定所述样本点的局部密度修正项,基于所述距离逆数密度和所述局部密度修正项,确实所述样本点的局部密度,所述相邻样本点为在所述样本点的预设的距离范围内的样本点;

28、聚类模块,用于基于各所述样本点的局部密度,对所述样本数据集进行聚类,将数据分布相似的客户端划分至相同的客户端集合,得到多个客户端集合;

29、模型训练模块,用于调度多个客户端,使得相同客户端集合中的客户端共享模型参数,通过联邦学习的方式共同训练模型。

30、第四方面,本技术还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述模型训练方法实施例中的步骤。

31、第五方面,本技术还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述模型训练方法实施例中的步骤。

32、第六方面,本技术还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述模型训练方法实施例中的步骤。

33、上述模型训练方法、装置、计算机设备、计算机可读存储介质和计算机程序产品,区别于传统方案,上述方案通过客户端基于本地训练数据训练得到的第一模型参数,对样本数据集进行聚类,进而将数据分布相似的客户端划分至相同的客户端集合,在保护各个客户端的数据隐私性的前提下,将本地训练数据分布相似的客户端划分为一类,从而允许数据分布相似的客户端共享模型训练参数、共同训练和优化模型,使得联邦学习过程能够更好地应对和处理数据特性多样化的训练数据,提高模型的训练精度;并且,在以样本点的局部密度为依据,对对样本数据集进行聚类的过程中,还通过局部密度修正项处理了相邻样本点对样本点的局部密度的影响,提高了稀疏区域的样本点被识别为聚类中心的可能性,得到更为准确的聚类过程,从而进一步提高了模型训练精度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1