本发明实施例涉及自然语言处理,尤其涉及一种模型训练方法、装置、电子设备及可读存储介质。
背景技术:
1、随着自然语言处理(natural language processing,nlp)技术的快速发展,大模型得到了广泛的应用。大模型通过对输入的指令任务进行自然语言处理,其输出结果可以符合人类的行为规范和交互模式,从而实现人机交互。
2、大模型在人机交互前,通常需要进行训练。通过海量的文本数据,利用自回归的学习模式,构建预训练模型,使预训练模型中具有丰富的知识;通过指令任务的文本数据,对预训练模型进行微调,让预训练模型学习如何利用知识解决实际的指令任务,从而大大提升大模型解决指令任务的能力。
3、目前,对预训练模型进行微调时,通常是随机选择指令任务的文本数据,这样可能会导致大模型在微调过程中存在灾难性知识的遗忘问题,模型训练的效果会比较差。
技术实现思路
1、本发明实施例提供一种模型训练方法、装置、电子设备及可读存储介质,以解决现有技术中大模型在微调过程中存在灾难性知识的遗忘问题,模型训练的效果比较差。
2、第一方面,本发明实施例提供一种模型训练方法,所述方法包括:
3、获取第一文本数据集,所述第一文本数据集包括多个第一指令任务的表述文本;
4、获取每个第一指令任务的层次等级,所述层次等级用于指示所述第一指令任务在自然语言处理的认知难度;
5、基于所述第一文本数据集中第一训练数据集,对第一模型进行训练,所述第一训练数据集包括第一层次等级的第一指令任务的表述文本,所述第一模型用于对输入的指令任务进行自然语言处理;
6、在针对所述第一层次等级的第一指令任务对所述第一模型的训练结束的情况下,基于所述第一文本数据集中第一验证数据集,对所述第一模型的训练达标情况进行评估;所述第一验证数据集包括第一目标层次等级的第一指令任务的表述文本,所述第一目标层次等级包括所述第一层次等级和低于所述第一层次等级的第二层次等级,所述训练达标情况用于表征所述第一模型对所述第一目标层次等级的第一指令任务的自然语言处理结果是否达到预设期望指标;
7、在所述训练达标情况评估不通过的情况下,基于所述第一文本数据集中第二训练数据集,从所述第二层次等级开始按照层次等级在认知难度上从低至高的顺序对所述第一模型进行继续训练;所述第二训练数据集包括所述第二层次等级的第一指令任务的表述文本。
8、第二方面,本发明实施例提供一种模型训练装置,所述装置包括:
9、第一获取模块,用于获取第一文本数据集,所述第一文本数据集包括多个第一指令任务的表述文本;
10、第二获取模块,用于获取每个第一指令任务的层次等级,所述层次等级用于指示所述第一指令任务在自然语言处理的认知难度;
11、第一训练模块,用于基于所述第一文本数据集中第一训练数据集,对第一模型进行训练,所述第一训练数据集包括第一层次等级的第一指令任务的表述文本,所述第一模型用于对输入的指令任务进行自然语言处理;
12、第一评估模块,用于在针对所述第一层次等级的第一指令任务对所述第一模型的训练结束的情况下,基于所述第一文本数据集中第一验证数据集,对所述第一模型的训练达标情况进行评估;所述第一验证数据集包括第一目标层次等级的第一指令任务的表述文本,所述第一目标层次等级包括所述第一层次等级和低于所述第一层次等级的第二层次等级,所述训练达标情况用于表征所述第一模型对所述第一目标层次等级的第一指令任务的自然语言处理结果是否达到预设期望指标;
13、第二训练模块,用于在所述训练达标情况评估不通过的情况下,基于所述第一文本数据集中第二训练数据集,从所述第二层次等级开始按照层次等级在认知难度上从低至高的顺序对所述第一模型进行继续训练;所述第二训练数据集包括所述第二层次等级的第一指令任务的表述文本。
14、第三方面,本发明实施例提供一种电子设备,包括处理器,存储器,存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述模型训练方法的步骤。
15、第四方面,本发明实施例提供一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述模型训练方法的步骤。
16、本发明实施例中,通过将指令任务从认知难度上进行层次等级的划分,并在第一模型学习好高层次等级的指令任务的处理后,通过进行第一模型对低层次等级指令任务的训练达标情况的评估,并在评估不通过的情况下,采用自回忆机制从训练不达标的低层次等级开始,按照层次等级在认知难度上从低至高的顺序进行第一模型的继续训练。如此,可以从低层次等级的处理能力到高层次等级的处理能力无损地迭代微调大模型,使大模型可以持续增加各类指令任务的解决能力而不发生知识遗忘,从而可以提高大模型的训练效果,进而可以提高大模型对指令任务的处理准确性。
1.一种模型训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述获取第一文本数据集,包括:
3.根据权利要求2所述的方法,其特征在于,所述基于所述第二文本数据集中每个第二指令任务的表述文本,获取至少一个所述第一指令任务的表述文本,包括:
4.根据权利要求2所述的方法,其特征在于,所述基于所述第二文本数据集中每个第二指令任务的表述文本,获取至少一个所述第一指令任务的表述文本,包括:
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
8.根据权利要求1所述的方法,其特征在于,所述基于所述第一文本数据集中第一验证数据集,对所述第一模型的训练达标情况进行评估,包括:
9.一种模型训练装置,其特征在于,所述装置包括:
10.根据权利要求9所述的装置,其特征在于,所述第一获取模块包括:
11.根据权利要求10所述的装置,其特征在于,所述第二获取单元,具体用于:
12.根据权利要求10所述的装置,其特征在于,所述第二获取单元,具体用于:
13.根据权利要求9所述的装置,其特征在于,所述装置还包括:
14.根据权利要求9所述的装置,其特征在于,所述装置还包括:
15.根据权利要求9所述的装置,其特征在于,所述装置还包括:
16.根据权利要求9所述的装置,其特征在于,所述第一评估模块,具体用于:
17.一种电子设备,其特征在于,所述电子设备包括:包括处理器,存储器,存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至8中任一项所述的模型训练方法的步骤。
18.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的模型训练方法的步骤。