数据处理方法、装置、电子设备及存储介质与流程

文档序号:36382158发布日期:2023-12-14 16:14阅读:36来源:国知局
数据处理方法、装置、电子设备及存储介质与流程

本申请涉及人工智能,尤其涉及一种数据处理方法、装置、电子设备及存储介质。


背景技术:

1、随着ai(artificial intelligence,人工智能)大模型的突起,执行ai大模型训练时,由于大模型训练需求的异构卡量,即模型训练过程中gpu(graphics processing unit,图形处理器)的数量在万级,而且训练过程中,多机卡间需要频繁执行网络通信、训练程序内存拷贝通信,通信的数据量大且要求性能高,数据通信期间(即传输训练数据包期间),异构卡处于空窗等待数据的时间段;如何缩减等待数据的时间段,充分发挥异构卡的算力,在大模型训练中是亟待解决的问题。

2、相关技术中,会通过建设更大的带宽,即通过压缩通信的时间,用时间来换取异构计算的空间,但更大的带宽建设需要异构计算设备上增加更多的物理网卡,且需要采购更多数据接口的交换机设备,成本的增加较多;但通信的数据属于瞬时的通信,也就存在网络空闲的时间多于数据通信的时间,带宽的利用率低。因此,需要提供更有效可靠的方案,以提升大模型训练过程中异构卡(gpu)的计算性能和模型训练效率。


技术实现思路

1、本申请提供了一种数据处理方法、装置、设备、存储介质及计算机程序产品,可以有效缩减异构计算的等待时间窗口,提升大模型训练过程中异构卡(gpu)的计算性能和模型训练效率。

2、一方面,本申请提供了一种数据处理方法,所述方法包括:

3、在从远端设备拉取待训练模型对应的多个当前训练数据包的过程中,在预设内存中,对已接收到的每个当前训练数据包进行解封处理,得到每个解封样本数据;

4、在得到所述每个解封样本数据的情况下,将所述每个解封样本数据从所述预设内存拷贝到显存,以使gpu基于所述显存中的所述每个解封样本数据对所述待训练模型进行训练。

5、另一方面提供了一种数据处理装置,所述装置包括:

6、解封处理模块,被配置为执行在从远端设备拉取待训练模型对应的多个当前训练数据包的过程中,在预设内存中,对已接收到的每个当前训练数据包进行解封处理,得到每个解封样本数据;

7、数据拷贝模块,被配置为执行在得到所述每个解封样本数据的情况下,将所述每个解封样本数据从所述预设内存拷贝到显存,以使gpu基于所述显存中的所述每个解封样本数据对所述待训练模型进行训练。

8、另一方面提供了一种电子设备,包括:处理器;

9、用于存储所述处理器可执行指令的存储器;

10、其中,所述处理器被配置为执行所述指令,以实现上述任一项所述的数据处理方法。

11、另一方面提供了一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行上述任一数据处理方法。

12、另一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的数据处理方法。

13、本申请提供的数据处理方法、装置、电子设备、存储介质及计算机程序产品,具有如下技术效果:

14、本申请在需要从远端设备拉取数据,以对本地待训练模型进行训练的异构场景中,通过在每次拉取多个当前训练数据包过程中,每接收到一个当前训练数据包就进行解封处理,并在得到每个解封样本数据的情况下,将每个解封样本数据从所述预设内存拷贝到显存,可以在训练数据拉取传输过程中,就将模型训练所需样本数据预先拷贝到显存中,有效缩减异构计算等待训练数据的时间窗口,可以让gpu在传输训练数据过程中,基于已拷贝到显存中的样本数据对待训练模型进行训练,进而提升提升模型训练过程中异构卡(gpu)的计算性能和模型训练效率,同时也可以有效避免了网络带宽浪费的情况,有效降低高计算性能的成本。



技术特征:

1.一种数据处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述预设内存为目标内存容量的预设锁页内存,所述方法还包括:

3.根据权利要求1或2任一所述的方法,其特征在于,所述方法还包括:

4.根据权利要求3所述的方法,其特征在于,所述至少一个性能优化维度包括内存容量维度,所述预设内存为目标内存容量的预设锁页内存,所述在所述待训练模型的训练过程中,从至少一个性能优化维度,优化所述gpu的计算性能包括:

5.根据权利要求4所述的方法,其特征在于,所述至少一个性能优化维度还包括数据包维度,在将所述预设锁页内存的容量,由所述目标内存容量更新为所述优化内存容量之后,所述在所述待训练模型的训练过程中,从至少一个性能优化维度,优化所述gpu的计算性能还包括:

6.根据权利要求5所述的方法,其特征在于,所述在得到所述每个解封样本数据的情况下,将所述每个解封样本数据从所述预设内存拷贝到显存包括:

7.根据权利要求6所述的方法,其特征在于,所述在得到所述每个解封样本数据的情况下,在所述预设内存中对所述每个解封样本数据进行序列化处理,得到每个解封样本数据对应的序列化数据包括:

8.根据权利要求6所述的方法,其特征在于,所述在得到所述每个解封样本数据的情况下,在所述预设内存中对所述每个解封样本数据进行序列化处理,得到每个解封样本数据对应的序列化数据包括:

9.根据权利要求6所述的方法,其特征在于,所述将所述每个解封样本数据对应的序列化数据从所述预设内存拷贝到所述显存包括:

10.根据权利要求1或2任一所述的方法,其特征在于,所述在得到所述每个解封样本数据的情况下,将所述每个解封样本数据从所述预设内存拷贝到显存包括:

11.一种数据处理装置,其特征在于,所述装置包括:

12.一种电子设备,其特征在于,包括:

13.一种计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至10中任一项所述的数据处理方法。


技术总结
本申请公开了一种数据处理方法、装置、电子设备及存储介质,涉及人工智能技术领域,该方法包括:在从远端设备拉取待训练模型对应的多个当前训练数据包的过程中,在预设内存中,对已接收到的每个当前训练数据包进行解封处理,得到每个解封样本数据;在得到每个解封样本数据的情况下,将每个解封样本数据从预设内存拷贝到显存,以使GPU基于显存中的每个解封样本数据对待训练模型进行训练。利用本申请提供的技术方案可以有效缩减异构计算的等待时间窗口,提升大模型训练过程中异构卡(GPU)的计算性能和模型训练效率。

技术研发人员:查冲
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1