一种自然语言处理模型的流水线并行训练方法、系统、终端及存储介质

文档序号：39099568发布日期：2024-08-21 11:24阅读：来源：国知局

技术特征：

1.一种自然语言处理模型的流水线并行训练方法，其特征在于，包括：

2. 如权利要求1所述的方法，其特征在于，所述自注意力模块包括依次连接的layernorm层，multihead self-attention层，dropout层和add层；所述前向神经网络模块包括依次连接的layer norm层，feed forward层，dropout层和add层。

3.如权利要求1所述的方法，其特征在于，所述按照不同的网络层划分方式，将所述自然语言处理模型中的多个网络层划分为n份网络层，以得到所述自然语言处理模型的多个模型划分方案，包括：

4.如权利要求1所述的方法，其特征在于，所述根据多个所述模型划分方案、各个所述自注意力模块的计算时间和各个所述前向神经网络模块的计算时间，进行模拟计算，得到每个所述模型划分方案所对应的流水线并行方法的迭代时间，包括：

5.如权利要求1所述的方法，其特征在于，所述从多个所述模型划分方案中选取出最小的流水线并行方法的迭代时间所对应的模型划分方案，作为目标模型划分方案之后，还包括：

6.如权利要求5所述的方法，其特征在于，所述通过n个所述计算设备采用流水线并行方式，对所述自然语言处理模型进行迭代训练，得到训练好的自然语言处理模型，包括：

7.如权利要求6所述的方法，其特征在于，在前s个微批次的训练数据的流水级处理过程中，各个流水级所对应的计算设备，在接收到前一流水级所对应的计算设备传递的中间结果时，如果当前计算设备所在的流水级已经进行过后向计算，则对中间结果进行存储，当接收到前s个微批次的训练数据中的某个微批次的训练数据切分后的两份训练数据所对应的两个中间结果后，再开始计算过程。

8.一种自然语言处理模型的流水线并行训练系统，其特征在于，包括：

9.一种自然语言处理模型的流水线并行训练终端，其特征在于，包括：存储介质和处理器；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1至7中任一项所述的方法。

技术总结
本申请提供一种自然语言处理模型的流水线并行训练方法、系统、终端及存储介质，所述方法包括：将自然语言处理模型中的各单层模型划分为自注意力模块和前向神经网络模块，并进行模型预训练，得到各个模块的计算时间；将模型中的多个网络层划分为N份网络层，得到多个模型划分方案，并进行模拟计算，得到每个模型划分方案所对应的流水线并行方法的迭代时间；选取出最小的流水线并行方法的迭代时间所对应的模型划分方案，作为目标模型划分方案；将目标模型划分方案所划分出的N份网络层，分配至N个计算设备中，并通过N个计算设备采用流水线并行方式，对自然语言处理模型进行训练。本申请能够提高自然语言处理模型的流水线并行训练的效率。

技术研发人员：李东升,卢凯,赖志权,乔林波,贾孟涵,柳炜杰
受保护的技术使用者：中国人民解放军国防科技大学
技术研发日：
技术公布日：2024/8/20

完整全部详细技术资料下载

当前第2页1 2