本公开涉及计算机,尤其涉及一种模型训练、数据构造方法、装置、电子设备和存储介质。
背景技术:
1、随着计算机技术的不断发展,计算机技术开始被用于研究和处理自然语言。
2、例如,大语言模型(large language model,简称llm)可以处理多种自然语言任务,如文本分类、问答、对话等,是通向人工智能的重要途径。但是,大语言模型在执行任务时的目标即机器目标和人类目标可能会不一致,因此需要将机器目标和人类目标对齐。
3、在现有技术中,人类反馈强化学习(reinforcement learning from humanfeedback,rlhf)是一种对齐方法。但是,rlhf需要使用偏好数据对,而偏好数据对的构造依赖人工标注,成本较高。
技术实现思路
1、为了解决上述技术问题或者至少部分地解决上述技术问题,本公开实施例提供了一种模型训练、数据构造方法、装置、电子设备和存储介质,实现了同一输出信息得到的多个回答信息具有天然的质量优劣对比关系,从而无需进行人工排序即可获得具有优劣对比关系的偏好数据对,降低了偏好数据对的构造成本。
2、本公开实施例提供了一种模型训练方法,该方法包括:
3、将提示信息输入多个第一模型,每个第一模型推理得到一组输出信息,每组输出信息包括多个输出信息;
4、对每个输出信息进行正向修改和负向修改,得到针对所述提示信息的具有对比关系的多个回答信息,并根据所述多个回答信息生成第一目标数据;
5、采用所述第一目标数据对至少一个第一模型进行训练,得到至少一个第二模型。
6、本公开实施例提供了一种数据构造方法,该方法包括:
7、将提示信息输入多个第一模型,每个第一模型推理得到一组输出信息,每组输出信息包括多个输出信息;
8、对每个输出信息进行正向修改和负向修改,得到针对所述提示信息的具有对比关系的多个回答信息,并根据所述多个回答信息生成第一目标数据;
9、根据所述第一目标数据,构造偏好数据集,所述偏好数据集用于对至少一个第一模型进行训练。
10、本公开实施例还提供了一种模型训练装置,该装置包括:
11、输入模块,用于将提示信息输入多个第一模型,每个第一模型推理得到一组输出信息,每组输出信息包括多个输出信息;
12、修改模块,用于对每个输出信息进行正向修改和负向修改,得到针对所述提示信息的具有对比关系的多个回答信息;
13、生成模块,用于根据所述多个回答信息生成第一目标数据;
14、训练模块,用于采用所述第一目标数据对至少一个第一模型进行训练,得到至少一个第二模型。
15、本公开实施例还提供了一种数据构造装置,该装置包括:
16、输入模块,用于将提示信息输入多个第一模型,每个第一模型推理得到一组输出信息,每组输出信息包括多个输出信息;
17、修改模块,用于对每个输出信息进行正向修改和负向修改,得到针对所述提示信息的具有对比关系的多个回答信息;
18、生成模块,用于根据所述多个回答信息生成第一目标数据;
19、构造模块,用于根据所述第一目标数据,构造偏好数据集,所述偏好数据集用于对至少一个第一模型进行训练。
20、本公开实施例还提供了一种电子设备,所述电子设备包括:
21、一个或多个处理器;
22、存储装置,用于存储一个或多个程序;
23、当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的方法。
24、本公开实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的方法。
25、本公开实施例提供的技术方案与现有技术相比至少具有如下优点:
26、本公开实施例提供的模型训练、数据构造方法,通过将提示信息输入多个第一模型,使得每个第一模型推理得到一组输出信息,每组输出信息包括多个输出信息。进一步,对每个输出信息进行正向修改和负向修改,得到针对该提示信息的具有对比关系的多个回答信息,即根据同一输出信息得到的多个回答信息具有天然的质量优劣对比关系,从而无需进行人工排序即可获得具有优劣对比关系的偏好数据对,降低了偏好数据对的构造成本。
1.一种模型训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求1所述的方法,其特征在于,对每个输出信息进行正向修改,包括:
4.根据权利要求1所述的方法,其特征在于,对每个输出信息进行负向修改,包括:
5.根据权利要求1所述的方法,其特征在于,根据所述多个回答信息生成第一目标数据,包括:
6.根据权利要求2所述的方法,其特征在于,根据同一组内的输出信息,生成第二目标数据,包括:
7.根据权利要求2所述的方法,其特征在于,根据源自不同组的输出信息,生成第三目标数据,包括:
8.根据权利要求1所述的方法,其特征在于,采用所述第一目标数据对至少一个第一模型进行训练,得到至少一个第二模型之后,所述方法还包括:
9.一种数据构造方法,其特征在于,包括:
10.根据权利要求9所述的方法,其特征在于,所述方法还包括:
11.一种模型训练装置,其特征在于,包括:
12.一种数据构造装置,其特征在于,包括:
13.一种电子设备,其特征在于,所述电子设备包括:
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-10中任一项所述的方法。