1.一种自然语言处理模型的流水线并行训练方法,其特征在于,包括:
2. 如权利要求1所述的方法,其特征在于,所述自注意力模块包括依次连接的layernorm层,multihead self-attention层,dropout层和add层;所述前向神经网络模块包括依次连接的layer norm层,feed forward层,dropout层和add层。
3.如权利要求1所述的方法,其特征在于,所述按照不同的网络层划分方式,将所述自然语言处理模型中的多个网络层划分为n份网络层,以得到所述自然语言处理模型的多个模型划分方案,包括:
4.如权利要求1所述的方法,其特征在于,所述根据多个所述模型划分方案、各个所述自注意力模块的计算时间和各个所述前向神经网络模块的计算时间,进行模拟计算,得到每个所述模型划分方案所对应的流水线并行方法的迭代时间,包括:
5.如权利要求1所述的方法,其特征在于,所述从多个所述模型划分方案中选取出最小的流水线并行方法的迭代时间所对应的模型划分方案,作为目标模型划分方案之后,还包括:
6.如权利要求5所述的方法,其特征在于,所述通过n个所述计算设备采用流水线并行方式,对所述自然语言处理模型进行迭代训练,得到训练好的自然语言处理模型,包括:
7.如权利要求6所述的方法,其特征在于,在前s个微批次的训练数据的流水级处理过程中,各个流水级所对应的计算设备,在接收到前一流水级所对应的计算设备传递的中间结果时,如果当前计算设备所在的流水级已经进行过后向计算,则对中间结果进行存储,当接收到前s个微批次的训练数据中的某个微批次的训练数据切分后的两份训练数据所对应的两个中间结果后,再开始计算过程。
8.一种自然语言处理模型的流水线并行训练系统,其特征在于,包括:
9.一种自然语言处理模型的流水线并行训练终端,其特征在于,包括:存储介质和处理器;
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至7中任一项所述的方法。