通信方法及装置与流程

文档序号:37977452发布日期:2024-05-13 12:32阅读:21来源:国知局
通信方法及装置与流程

本申请涉及通信,尤其涉及一种通信方法及装置。


背景技术:

1、随着大语言模型(英文:large language model,简称:llm)的爆发,数据中心也开始承载训练llm的任务。llm通常包含数十亿、数千亿的参数,为了有效训练上述模型,需要大量的图形处理器(英文:graphics processing unit,简称:gpu)通过数据中心进行网络通信,进而实现协同计算。

2、传统数据中心通信模式的特点为流量较小(持续时间短)、流的数量较多、源/目的分布随机。通常使用等价多路径路由(英文:equal cost multi path routing,简称:ecmp)作为组网内负载分担机制。ecpm利用不同数据流的源/目的ip地址,端口号等进行哈希处理,使用不同路径传输,以此提高网络利用率,降低拥塞概率。

3、在对llm训练场景中,传统数据中心将面临很大挑战。原因在于:lmm训练过程中的通信模式与传统数据中心的通信模式存在较大出入。llm训练过程中通信模式的特点为流量大(持续时间长)、流的数量较少、源/目的确定。而ecmp是按照流进行分担,即源/目的ip,端口号一定的流就会被分配至同一转发路径上。

4、因此,若继续采用ecmp对llm的流量进行负载分担,将会暴露出下述问题:1)由于流的数量较小,点对点之间的流通常为1条,ecmp无法充分利用多条链路的带宽;2)由于流的流量大,ecmp若将两条流哈希至同一转发路径上,很容易造成路径过载,导致丢包或降速。综上,上述问题均将导致对llm训练的效率降低。


技术实现思路

1、有鉴于此,本申请提供了一种通信方法及装置,用以解决现有通过传统数据中心在训练llm时,网络利用率低,易丢包或降速的问题。

2、第一方面,本申请提供了一种通信方法,所述方法应用于第一网络设备,所述第一网络设备处于数据中心网络,所述数据中心网络还包括第二网络设备,所述第一网络设备通过不同接口与所述第二网络设备建立多条等价数据链路,所述方法包括:

3、在llm训练的传播阶段,获取多个样本;

4、根据本地的转发表,分别获取用于转发每个样本的出接口;

5、通过每个出接口,在所述每个出接口对应的数据链路上,分别向所述第二网络设备发送第一数据报文,每个第一数据报文包括一个样本;

6、其中,所述第一网络设备、所述第二网络设备分别承载所述llm的不同层。

7、第二方面,本申请提供了一种通信装置,所述装置应用于第一网络设备,所述第一网络设备处于数据中心网络,所述数据中心网络还包括第二网络设备,所述第一网络设备通过不同接口与所述第二网络设备建立多条等价数据链路,所述装置包括:

8、第一获取单元,用于在llm训练的传播阶段,获取多个样本;

9、第二获取单元,用于根据本地的转发表,分别获取用于转发每个样本的出接口;

10、发送单元,用于通过每个出接口,在所述每个出接口对应的数据链路上,分别向所述第二网络设备发送第一数据报文,每个第一数据报文包括一个样本;

11、其中,所述第一网络设备、所述第二网络设备分别承载所述llm的不同层。

12、第三方面,本申请提供了一种网络设备,包括处理器和机器可读存储介质,机器可读存储介质存储有能够被处理器执行的机器可执行指令,处理器被机器可执行指令促使执行本申请第一方面所提供的方法。

13、因此,应用本申请提供的通信方法及装置,第一网络设备通过不同接口与第二网络设备建立多条等价数据链路,在llm训练的传播阶段,第一网络设备获取多个样本;根据本地的转发表,第一网络设备设备分别获取用于转发每个样本的出接口;通过每个出接口,在每个出接口对应的数据链路上,第一网络设备分别向第二网络设备发送第一数据报文,每个第一数据报文包括一个样本;其中,第一网络设备、第二网络设备分别承载llm的不同层。

14、如此,利用建立的多条等价数据链路,提高了llm训练中网络的并行度、利用率。解决了现有通过传统数据中心在训练llm时,网络利用率低,易丢包或降速的问题。



技术特征:

1.一种通信方法,其特征在于,所述方法应用于第一网络设备,所述第一网络设备处于数据中心网络,所述数据中心网络还包括第二网络设备,所述第一网络设备通过不同接口与所述第二网络设备建立多条等价数据链路,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述第一网络设备与所述第二网络设备建立一条控制链路,所述方法还包括:

3.根据权利要求1所述的方法,其特征在于,所述数据中心网络还包括第三网络设备,所述第三网络设备与所述第一网络设备建立一条数据链路,所述方法还包括:

4.根据权利要求3所述的方法,其特征在于,所述第一网络设备与所述第三网络设备建立一条控制链路;

5.根据权利要求3所述的方法,其特征在于,所述通过所述数据链路,分别向所述第三网络设备发送多个第二数据报文,具体包括:

6.一种通信装置,其特征在于,所述装置应用于第一网络设备,所述第一网络设备处于数据中心网络,所述数据中心网络还包括第二网络设备,所述第一网络设备通过不同接口与所述第二网络设备建立多条等价数据链路,所述装置包括:

7.根据权利要求6所述的装置,其特征在于,所述第一网络设备与所述第二网络设备建立一条控制链路,

8.根据权利要求7所述的装置,其特征在于,所述数据中心网络还包括第三网络设备,所述第三网络设备与所述第一网络设备建立一条数据链路,

9.根据权利要求8所述的装置,其特征在于,所述第一网络设备与所述第三网络设备建立一条控制链路;

10.根据权利要求8所述的装置,其特征在于,所述发送单元具体用于,在逐包转发模式下,通过所述数据链路,分别向所述第三网络设备发送多个第二数据报文;


技术总结
本申请提供一种通信方法及装置,所述方法应用于第一网络设备,所述第一网络设备处于数据中心网络,所述数据中心网络还包括第二网络设备,所述第一网络设备通过不同接口与所述第二网络设备建立多条等价数据链路,所述方法包括:在LLM训练的传播阶段,获取多个样本;根据本地的转发表,分别获取用于转发每个样本的出接口;通过每个出接口,在所述每个出接口对应的数据链路上,分别向所述第二网络设备发送第一数据报文,每个第一数据报文包括一个样本;其中,所述第一网络设备、所述第二网络设备分别承载所述LLM的不同层。

技术研发人员:王洋,魏永强,孟贵,李玉刚,王刚,林长望
受保护的技术使用者:新华三技术有限公司
技术研发日:
技术公布日:2024/5/12
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1