一种指令对齐方法、装置、设备及存储介质与流程

文档序号：37919430发布日期：2024-05-10 23:58阅读：10来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本技术涉及计算机，特别是涉及一种指令对齐方法、装置、设备及存储介质。

背景技术：

1、随着人工智能技术的发展，大语言模型(llm)因其具有自然性、较强的泛化能力、以及高效性等优势得到了日益广泛的应用。

2、目前，用户将自然语言指令输入大语言模型后，大语言模型可以通过理解自然语言指令的文本含义，输出该自然语言指令对应的结果。然而受到用户的表达方式、表达角度或表达习惯等因素等影响，表达同一个意图的指令可以有多种多样的表达形式。

3、由于表达同一个意图的不同自然语言指令可以有多种多样的表达形式，不同表达形式的自然语言指令的质量存在差异，导致大语言模型对表达同一个意图的不同自然语言指令的理解可能会存在偏差，使得大语言模型输出结果的准确率降低。

技术实现思路

1、基于上述问题，本技术提供了一种指令对齐方法、装置、设备及存储介质。

2、本技术实施例公开了如下技术方案：

3、第一方面：本技术实施例提供一种指令对齐方法，包括：

4、指令对齐模型接收用户输入的自然语言指令，所述指令对齐模型是基于多组第一指令与第二指令训练得到的，每组中的所述第一指令与第二指令对应相同的任务，所述第一指令的质量高于所述第二指令的质量；

5、所述指令对齐模型根据样例指令，对所述自然语言指令进行转换，获得对齐后的自然语言指令。

6、在一种可能的实现方式中，所述指令对齐模型的训练步骤包括：

7、对至少一个开源指令集中的自然语言指令进行聚类，获得多个指令集，每个所述指令集中的自然语言指令对应相同的任务；

8、针对所述多个指令集中的每个指令集，将所述指令集中的自然语言指令输入大语言模型，根据所述大语言模型的输出结果，获得第一指令和第二指令；

9、将多个所述第二指令作为原指令，将多个所述第一指令作为目标指令，在所述大语言模型上进行训练，得到所述指令对齐模型。

10、在一种可能的实现方式中，所述将所述指令集中的自然语言指令输入大语言模型，根据所述大语言模型的输出结果，获得第一指令和第二指令，包括：

11、将所述指令集中的自然语言指令输入大语言模型，获得所述大语言模型的输出结果；

12、将所述输出结果与预设结果进行比对，获得输入大语言模型的各个所述自然语言指令的质量，将质量最高的自然语言指令确定为第一指令，和将质量最低的自然语言指令确定为第二指令。

13、在一种可能的实现方式中，所述将多个所述第二指令作为原指令，将多个所述第一指令作为目标指令，在所述大语言模型上进行训练，得到所述指令对齐模型，包括：

14、将多个所述第二指令与多个所述第一指令进行映射，获得映射后的多个所述第二指令与映射后的多个所述第一指令；

15、将映射后的多个所述第二指令作为原指令，将映射后的多个所述第一指令作为目标指令，在所述大语言模型上进行训练，得到所述指令对齐模型。

16、在一种可能的实现方式中，所述将多个所述第二指令作为原指令，将多个所述第一指令作为目标指令，在所述大语言模型上进行训练，得到所述指令对齐模型，包括：

17、将多个所述第二指令作为原指令，将多个所述第一指令作为目标指令，在所述大语言模型上进行训练，得到子指令对齐模型；

18、将所述至少一个开源指令集中的自然语言指令输入所述子指令对齐模型进行指令对齐，获得对齐后的指令集；

19、对所述对齐后的指令集中的自然语言指令进行聚类，获得多个子指令集，每个所述子指令集中的自然语言指令对应相同的任务；

20、针对所述多个子指令集中的每个子指令集，将所述子指令集中的自然语言指令输入大语言模型，根据所述大语言模型的输出结果，获得子第一指令和子第二指令，所述子第一指令的质量高于所述子第二指令的质量；

21、将多个所述子第二指令作为原指令，将多个所述子第一指令作为目标指令，在所述大语言模型上进行训练，得到所述指令对齐模型。

22、在一种可能的实现方式中，所述将多个所述第二指令作为原指令，将多个所述第一指令作为目标指令，在所述大语言模型上进行训练，得到所述指令对齐模型之后，还包括：

23、基于质量低于标准的自然语言指令，进行数据增强和/或半监督训练，获得生成的自然语言指令；

24、基于所述生成的自然语言指令和所述至少一个开源指令集，对所述指令对齐模型进行训练，获得更新后的指令对齐模型。

25、在一种可能的实现方式中，所述指令对齐模型根据样例指令，对所述自然语言指令进行转换，获得对齐后的自然语言指令之后，还包括：

26、所述指令对齐模型向大语言模型发送所述对齐后的自然语言指令，获得所述大语言模型的输出结果。

27、第二方面：本技术实施例提供一种指令对齐装置，包括：

28、接收单元和对齐单元；

29、所述接收单元，用于指令对齐模型接收用户输入的自然语言指令，所述指令对齐模型是基于多组第一指令与第二指令训练得到的，每组中的所述第一指令与第二指令对应相同的任务，所述第一指令的质量高于所述第二指令的质量；

30、所述对齐单元，用于所述指令对齐模型根据样例指令，对所述自然语言指令进行转换，获得对齐后的自然语言指令。

31、在一种可能的实现方式中，所述装置包括：

32、聚类单元、第一输入单元、以及第一训练单元；

33、所述聚类单元，用于对至少一个开源指令集中的自然语言指令进行聚类，获得多个指令集，每个所述指令集中的自然语言指令对应相同的任务；

34、所述第一输入单元，用于针对所述多个指令集中的每个指令集，将所述指令集中的自然语言指令输入大语言模型，根据所述大语言模型的输出结果，获得第一指令和第二指令；

35、所述第一训练单元，用于将多个所述第二指令作为原指令，将多个所述第一指令作为目标指令，在所述大语言模型上进行训练，得到所述指令对齐模型。

36、在一种可能的实现方式中，所述第一输入单元，包括：

37、第一输入子单元和比对子单元；

38、所述第一输入子单元，用于将所述指令集中的自然语言指令输入大语言模型，获得所述大语言模型的输出结果；

39、所述比对子单元，用于将所述输出结果与预设结果进行比对，获得输入大语言模型的各个所述自然语言指令的质量，将质量最高的自然语言指令确定为第一指令，和将质量最低的自然语言指令确定为第二指令。

40、在一种可能的实现方式中，所述第一训练单元，包括：

41、映射子单元和第一训练子单元；

42、所述映射子单元，用于将多个所述第二指令与多个所述第一指令进行映射，获得映射后的多个所述第二指令与映射后的多个所述第一指令；

43、所述第一训练子单元，用于将映射后的多个所述第二指令作为原指令，将映射后的多个所述第一指令作为目标指令，在所述大语言模型上进行训练，得到所述指令对齐模型。

44、在一种可能的实现方式中，所述第一训练单元，包括：

45、第二训练子单元、第二输入子单元、聚类子单元、第三输入子单元、以及第三训练子单元；

46、所述第二训练子单元，用于将多个所述第二指令作为原指令，将多个所述第一指令作为目标指令，在所述大语言模型上进行训练，得到子指令对齐模型；

47、所述第二输入子单元，用于将所述至少一个开源指令集中的自然语言指令输入所述子指令对齐模型进行指令对齐，获得对齐后的指令集；

48、所述聚类子单元，用于对所述对齐后的指令集中的自然语言指令进行聚类，获得多个子指令集，每个所述子指令集中的自然语言指令对应相同的任务；

49、所述第三输入子单元，用于针对所述多个子指令集中的每个子指令集，将所述子指令集中的自然语言指令输入大语言模型，根据所述大语言模型的输出结果，获得子第一指令和子第二指令，所述子第一指令的质量高于所述子第二指令的质量；

50、所述第三训练子单元，用于将多个所述子第二指令作为原指令，将多个所述子第一指令作为目标指令，在所述大语言模型上进行训练，得到所述指令对齐模型。

51、在一种可能的实现方式中，所述装置，还包括：获得单元和第二训练单元；

52、所述获得单元，用于基于质量低于标准的自然语言指令，进行数据增强和/或半监督训练，获得生成的自然语言指令；

53、所述第二训练单元，用于基于所述生成的自然语言指令和所述至少一个开源指令集，对所述指令对齐模型进行训练，获得更新后的指令对齐模型。

54、在一种可能的实现方式中，所述装置，还包括：发送单元；

55、所述发送单元，用于所述指令对齐模型向大语言模型发送所述对齐后的自然语言指令，获得所述大语言模型的输出结果。

56、第三方面：本技术实施例提供一种电子设备，所述电子设备包括：处理器以及存储器；

57、所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

58、所述处理器用于根据所述程序代码中的指令执行如上所述的一种指令对齐方法的步骤。

59、第四方面：本技术实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的一种指令对齐方法的步骤。

60、相较于现有技术，本技术具有以下有益效果：

61、本技术提供一种指令对齐方法，由指令对齐模型接收用户输入的自然语言指令，所述指令对齐模型是基于多组第一指令与第二指令训练得到的，每组中的所述第一指令与第二指令对应相同的任务，所述第一指令的质量高于所述第二指令的质量；所述指令对齐模型根据样例指令，对所述自然语言指令进行转换，获得对齐后的自然语言指令。本技术实施例基于指令对齐模型可以对各种表达形式的自然语言指令进行转换，获得对齐后的自然语言指令，提高自然语言指令的质量，进而提高大语言模型输出结果的准确率。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：宋瑞林,张士杰
技术所有人：太保科技有限公司
我是此专利的发明人

上一篇：一种箱式保护气氛电阻炉的制作方法
上一篇：一种电池包热管理系统及车辆的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。