大模型训练策略的确定方法、装置及电子设备与流程

文档序号:41621724发布日期:2025-04-15 15:37阅读:3来源:国知局
大模型训练策略的确定方法、装置及电子设备与流程

本技术涉及人工智能领域,具体而言,涉及一种大模型训练策略的确定方法、装置及电子设备。


背景技术:

1、随着大模型的不断发展,模型的大小越来越大,训练数据也越来越多,大模型的训练往往面临模型太大放不下,数据太多训练太久等问题。传统的训练优化需要依赖专家经验,针对显卡、数据、模型等进行多次实验和调整才能确定出相应的训练策略,准确性和效率较低。

2、针对上述的问题,目前尚未提出有效的解决方案。


技术实现思路

1、本技术实施例提供了一种大模型训练策略的确定方法、装置及电子设备,以至少解决相关技术中基于专家经验确定模型的训练策略,存在确定出的训练策略准确性较低的技术问题。

2、根据本技术实施例的一个方面,提供了一种大模型训练策略的确定方法,包括:获取待训练模型对应的硬件参数信息、模型参数信息以及训练参数信息;采用第一训练框架基于硬件参数信息、模型参数信息以及训练参数信息确定第一训练策略,并采用第二训练框架基于硬件参数信息、模型参数信息以及训练参数信息确定第二训练策略,其中,第一训练框架和第二训练框架对应的训练算法不同;依据预设训练步数和预设数据集,从第一训练策略和第二训练策略中确定待训练模型对应的目标训练策略。

3、进一步地,第一训练框架为支持微调训练的训练框架,采用第一训练框架基于硬件参数信息、模型参数信息以及训练参数信息确定第一训练策略包括:配置第一训练框架的算子优化和重计算为开启状态;依据硬件参数信息确定总可用显存;获取第一训练框架中的多个候选训练策略的排列顺序,并基于排列顺序,依据模型参数信息和训练参数信息确定多个候选训练策略中的候选训练策略对应的总训练显存;依据总可用显存和多个候选训练策略中的候选训练策略对应的总训练显存,从多个候选训练策略中确定第一训练策略。

4、进一步地,依据总可用显存和多个候选训练策略中的候选训练策略对应的总训练显存,从多个候选训练策略中确定第一训练策略包括:若当前候选训练策略对应的总训练显存小于或等于总可用显存,则配置重计算为关闭状态,并重新依据模型参数信息和训练参数信息确定当前候选训练策略对应的总训练显存;若重新确定的当前候选训练策略对应的总训练显存小于或等于总可用显存,则将当前候选训练策略作为第一训练策略。

5、进一步地,依据总可用显存和多个候选训练策略中的候选训练策略对应的总训练显存,从多个候选训练策略中确定第一训练策略包括:若当前候选训练策略对应的总训练显存大于总可用显存,则基于排列顺序,依据模型参数信息和训练参数信息确定当前候选训练策略的下一个候选训练策略对应的总训练显存,直至候选训练策略对应的总训练显存小于或等于总可用显存,得到第一训练策略。

6、进一步地,第二训练框架为支持全参训练的训练框架,采用第二训练框架基于硬件参数信息、模型参数信息以及训练参数信息确定第二训练策略包括:配置第二训练框架的序列并行为开启状态,配置重计算为关闭状态;依据硬件参数信息确定总可用显存;基于预设配置信息,对第二训练框架的流水线并行、张量并行以及数据并行进行配置,得到第二训练框架的多个候选训练策略;依据模型参数信息和训练参数信息确定多个候选训练策略中的候选训练策略对应的总训练显存;依据总可用显存和多个候选训练策略中的候选训练策略对应的总训练显存,从多个候选训练策略中确定第二训练策略。

7、进一步地,基于预设配置信息,对第二训练框架的流水线并行、张量并行以及数据并行进行配置,得到第二训练框架的多个候选训练策略包括:配置流水线并行为第一预设值,并配置张量并行按照第一预设取值集合中的预设值依次取值,得到第一候选训练策略集合;配置张量并行为第二预设值,并配置流水线并行按照第二预设取值集合中的预设值依次取值,得到第二候选训练策略集合;配置张量并行为第三预设值,并配置流水线并行按照第二预设取值集合中的预设值依次取值,得到第三候选训练策略集合;配置张量并行为第三预设值,配置流水线并行为第三预设值,并基于多个预设状态依次对重计算的状态进行配置,得到第四候选训练策略集合;依据第一候选训练策略集合、第二候选训练策略集合、第三候选训练策略集合以及第四候选训练策略集合,确定第二训练框架的多个候选训练策略。

8、进一步地,依据总可用显存和多个候选训练策略中的候选训练策略对应的总训练显存,从多个候选训练策略中确定第二训练策略包括:若当前候选训练策略对应的总训练显存小于或等于总可用显存,则将当前候选训练策略作为第二训练策略。

9、进一步地,依据预设训练步数和预设数据集,从第一训练策略和第二训练策略中确定待训练模型对应的目标训练策略包括:依据预设训练步数和预设数据集,按照第一训练策略对待训练模型进行模型训练,以获取第一训练策略对应的吞吐率;依据预设训练步数和预设数据集,按照第二训练策略对待训练模型进行模型训练,以获取第二训练策略对应的吞吐率;将吞吐率大的训练策略作为目标训练策略。

10、根据本技术实施例的另一方面,还提供了一种目标模型的生成方法,包括:获取训练数据;利用目标训练策略和训练数据对待训练的大模型进行训练,得到训练好的目标大模型,其中,目标训练策略采用上述任意一项的大模型训练策略的确定方法得到。

11、根据本技术实施例的另一方面,还提供了一种大模型训练策略的确定方法,包括:获取客户端上传的待训练模型对应的硬件参数信息、模型参数信息以及训练参数信息;在云服务器中采用第一训练框架基于硬件参数信息、模型参数信息以及训练参数信息确定第一训练策略,并采用第二训练框架基于硬件参数信息、模型参数信息以及训练参数信息确定第二训练策略,其中,第一训练框架和第二训练框架对应的训练算法不同;依据预设训练步数和预设数据集,从第一训练策略和第二训练策略中确定待训练模型对应的目标训练策略;将目标训练策略反馈至客户端。

12、根据本技术实施例的另一方面,还提供了一种大模型训练策略的确定装置,包括:第一获取单元,用于获取待训练模型对应的硬件参数信息、模型参数信息以及训练参数信息;第一确定单元,用于采用第一训练框架基于硬件参数信息、模型参数信息以及训练参数信息确定第一训练策略,并采用第二训练框架基于硬件参数信息、模型参数信息以及训练参数信息确定第二训练策略,其中,第一训练框架和第二训练框架对应的训练算法不同;第二确定单元,用于依据预设训练步数和预设数据集,从第一训练策略和第二训练策略中确定待训练模型对应的目标训练策略。

13、进一步地,第一确定单元包括:第一配置子单元,用于配置第一训练框架的算子优化和重计算为开启状态;第一确定子单元,用于依据硬件参数信息确定总可用显存;第二确定子单元,用于获取第一训练框架中的多个候选训练策略的排列顺序,并基于排列顺序,依据模型参数信息和训练参数信息确定多个候选训练策略中的候选训练策略对应的总训练显存;第三确定子单元,用于依据总可用显存和多个候选训练策略中的候选训练策略对应的总训练显存,从多个候选训练策略中确定第一训练策略。

14、进一步地,第三确定子单元包括:第一确定模块,用于若当前候选训练策略对应的总训练显存小于或等于总可用显存,则配置重计算为关闭状态,并重新依据模型参数信息和训练参数信息确定当前候选训练策略对应的总训练显存;第二确定模块,用于若重新确定的当前候选训练策略对应的总训练显存小于或等于总可用显存,则将当前候选训练策略作为第一训练策略。

15、进一步地,第三确定子单元包括:第三确定模块,用于若当前候选训练策略对应的总训练显存大于总可用显存,则基于排列顺序,依据模型参数信息和训练参数信息确定当前候选训练策略的下一个候选训练策略对应的总训练显存,直至候选训练策略对应的总训练显存小于或等于总可用显存,得到第一训练策略。

16、进一步地,第一确定单元还包括:第二配置子单元,用于配置第二训练框架的序列并行为开启状态,配置重计算为关闭状态;第四确定子单元,用于依据硬件参数信息确定总可用显存;第三配置子单元,用于基于预设配置信息,对第二训练框架的流水线并行、张量并行以及数据并行进行配置,得到第二训练框架的多个候选训练策略;第五确定子单元,用于依据模型参数信息和训练参数信息确定多个候选训练策略中的候选训练策略对应的总训练显存;第六确定子单元,用于依据总可用显存和多个候选训练策略中的候选训练策略对应的总训练显存,从多个候选训练策略中确定第二训练策略。

17、进一步地,第三配置子单元包括:第一配置模块,用于配置流水线并行为第一预设值,并配置张量并行按照第一预设取值集合中的预设值依次取值,得到第一候选训练策略集合;第二配置模块,用于配置张量并行为第二预设值,并配置流水线并行按照第二预设取值集合中的预设值依次取值,得到第二候选训练策略集合;第三配置模块,用于配置张量并行为第三预设值,并配置流水线并行按照第二预设取值集合中的预设值依次取值,得到第三候选训练策略集合;第四配置模块,用于配置张量并行为第三预设值,配置流水线并行为第三预设值,并基于多个预设状态依次对重计算的状态进行配置,得到第四候选训练策略集合;第四确定模块,用于依据第一候选训练策略集合、第二候选训练策略集合、第三候选训练策略集合以及第四候选训练策略集合,确定第二训练框架的多个候选训练策略。

18、进一步地,第六确定子单元包括:第五确定模块,用于若当前候选训练策略对应的总训练显存小于或等于总可用显存,则将当前候选训练策略作为第二训练策略。

19、进一步地,第二确定单元包括:第一处理子单元,用于依据预设训练步数和预设数据集,按照第一训练策略对待训练模型进行模型训练,以获取第一训练策略对应的吞吐率;第二处理子单元,用于依据预设训练步数和预设数据集,按照第二训练策略对待训练模型进行模型训练,以获取第二训练策略对应的吞吐率;第七确定子单元,用于将吞吐率大的训练策略作为目标训练策略。

20、根据本技术实施例的另一方面,还提供了一种目标模型的生成装置,包括:第二获取单元,用于获取训练数据;训练单元,用于利用目标训练策略和训练数据对待训练的大模型进行训练,得到训练好的目标大模型,其中,目标训练策略采用上述任意一项的大模型训练策略的确定方法得到。

21、根据本发明实施例的另一方面,还提供了一种电子设备,包括:存储器,存储有可执行程序;处理器,用于运行程序,其中,程序运行时执行上述任意一项的大模型训练策略的确定方法。

22、根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,存储介质存储程序,其中,在程序运行时控制存储介质所在设备执行上述任意一项的大模型训练策略的确定方法。

23、根据本发明实施例的另一方面,还提供了一种计算机程序产品,包括计算机程序或指令,计算机程序或指令在被处理器执行时实现上述任意一项的大模型训练策略的确定方法。

24、在本技术实施例中,通过获取待训练模型对应的硬件参数信息、模型参数信息以及训练参数信息;采用第一训练框架基于硬件参数信息、模型参数信息以及训练参数信息确定第一训练策略,并采用第二训练框架基于硬件参数信息、模型参数信息以及训练参数信息确定第二训练策略,其中,第一训练框架和第二训练框架对应的训练算法不同;依据预设训练步数和预设数据集,从第一训练策略和第二训练策略中确定待训练模型对应的目标训练策略的方式,实现了根据实际的硬件配置、模型参数等自动化地确定出较好的训练策略,依据预设训练步数和预设数据集自动化地进行策略验证,提高了确定出的策略的准确性,有效节省了时间和成本,达到了提升大模型的训练速度的目的,从而实现了提高训练策略选取的准确性和效率的技术效果,进而解决了相关技术中基于专家经验确定模型的训练策略,存在确定出的训练策略准确性较低的技术问题。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1