本申请涉及大语言模型,尤其涉及一种大语言模型逻辑推理方法、装置、设备、存储介质及产品。
背景技术:
1、随着模型规模的快速增长,基于transformer的大语言模型(large languagemodels,llm)在指令遵循、编码辅助等领域展示了令人印象深刻的成果。在这些任务中,如何解决复杂问题推理是现有llm方法的一大挑战。通常通过提示llm获得子步骤推理的得分,此类算法获取得分的方式缺乏普遍适用性,并且严重依赖于精心设计的提示语和高级llm的强大功能。其次,评分过程多次调用提示llm会带来庞大的计算开销,现有算法通常被限制在10个子步骤评分内。导致其能力限制在相对简单和浅显的任务上,难以解决需要大量分析深度和长期规划视野的复杂问题,降低了可扩展性。
技术实现思路
1、本申请的主要目的在于提供一种大语言模型逻辑推理方法、装置、设备、存储介质及产品,旨在解决现有的大语言模型在面对复杂问题时准确率低的技术问题。
2、为实现上述目的,本申请提出一种大语言模型逻辑推理方法,所述的方法包括:
3、根据预设问题、逻辑大语言模型生成的中间步骤和推理路径构建逻辑推理树;
4、对逻辑大语言模型和逻辑树评分模型进行交替训练,获得训练后的逻辑大语言模型和训练后的逻辑树评分模型;
5、根据所述训练后的逻辑树评分模型评估所述训练后的逻辑大语言模型根据所述逻辑推理树生成的多个下一步推理路径,获得最佳推理路径。
6、在一实施例中,所述对逻辑大语言模型和逻辑树评分模型进行交替训练,获得训练后的逻辑大语言模型和训练后的逻辑树评分模型的步骤,包括:
7、根据预设评分数据集和逻辑大语言模型对逻辑树评分模型进行训练,获得训练后的逻辑树评分模型,所述逻辑大语言模型的参数为固定不变的;
8、根据所述训练后的逻辑树评分模型对所述逻辑大语言模型进行训练,获得训练后的逻辑大语言模型,所述训练后的逻辑树评分模型的参数为固定不变的。
9、在一实施例中,所述根据所述训练后的逻辑树评分模型对所述逻辑大语言模型进行训练,获得训练后的逻辑大语言模型的步骤,包括:
10、获取指令输出数据集,所述指令输出数据集包括预设指令和所述预设指令对应的期望输出;
11、根据所述训练后的逻辑树评分模型和所述指令输出数据集对所述逻辑大语言模型进行指令微调训练,获得训练后的逻辑大语言模型。
12、在一实施例中,所述根据所述训练后的逻辑树评分模型评估所述训练后的逻辑大语言模型根据所述逻辑推理树生成的多个下一步推理路径,获得最佳推理路径的步骤,包括:
13、根据所述逻辑推理树确定当前任务对应的当前推理路径;
14、根据所述训练后的逻辑树评分模型迭代评估所述训练后的逻辑大语言模型根据所述当前任务和所述当前推理路径生成的多个下一步推理路径,获得最佳推理路径。
15、在一实施例中,所述根据所述训练后的逻辑树评分模型迭代评估所述训练后的逻辑大语言模型根据所述当前任务和所述当前推理路径生成的多个下一步推理路径,获得最佳推理路径的步骤,包括:
16、通过所述训练后的逻辑大语言模型根据所述当前任务和所述当前推理路径迭代生成多个下一步推理路径;
17、根据所述训练后的逻辑树评分模型根据所述当前推理路径评估所述多个下一步推理路径,获得每个所述下一步推理路径对应的评分分数;
18、在达到预设迭代次数时,将所述评分分数最高的所述下一步推理路径作为最佳推理路径。
19、在一实施例中,所述根据预设问题、逻辑大语言模型生成的中间步骤和推理路径构建逻辑推理树的步骤,包括:
20、根据预设问题构建逻辑推理树的根节点;
21、通过逻辑大语言模型根据所述预设问题生成中间步骤,并将所述中间步骤作为逻辑推理树的边;
22、根据所述中间步骤确定推理路径,并根据所述推理路径构建逻辑推理树的子节点。
23、此外,为实现上述目的,本申请还提出一种大语言模型逻辑推理装置,所述大语言模型逻辑推理装置包括:
24、逻辑推理树构建模块,用于根据预设问题、逻辑大语言模型生成的中间步骤和推理路径构建逻辑推理树;
25、模型交替训练模块,用于对逻辑大语言模型和逻辑树评分模型进行交替训练,获得训练后的逻辑大语言模型和训练后的逻辑树评分模型;
26、推理路径模块评分,用于根据所述训练后的逻辑树评分模型评估所述训练后的逻辑大语言模型根据所述逻辑推理树生成的多个下一步推理路径,获得最佳推理路径。
27、此外,为实现上述目的,本申请还提出一种大语言模型逻辑推理设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序配置为实现如上文所述的大语言模型逻辑推理方法的步骤。
28、此外,为实现上述目的,本申请还提出一种存储介质,所述存储介质为计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上文所述的大语言模型逻辑推理方法的步骤。
29、此外,为实现上述目的,本申请还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现如上文所述的大语言模型逻辑推理方法的步骤。
30、本申请提供了一种大语言模型逻辑推理方法,通过根据预设问题、逻辑大语言模型生成的中间步骤和推理路径构建逻辑推理树;对逻辑大语言模型和逻辑树评分模型进行交替训练,获得训练后的逻辑大语言模型和训练后的逻辑树评分模型;根据训练后的逻辑树评分模型评估训练后的逻辑大语言模型根据逻辑推理树生成的多个下一步推理路径,获得最佳推理路径。由于本申请通过训练逻辑树评分模型替代现有的提示大模型评分策略,在评分过程中无需预设提示语或高级的大语言大模型,并交替训练逻辑树评分模型和逻辑大模型,从而在面对复杂问题时,提高了模型推理的准确率。
1.一种大语言模型逻辑推理方法,其特征在于,所述的方法包括:
2.如权利要求1所述的方法,其特征在于,所述对逻辑大语言模型和逻辑树评分模型进行交替训练,获得训练后的逻辑大语言模型和训练后的逻辑树评分模型的步骤,包括:
3.如权利要求2所述的方法,其特征在于,所述根据所述训练后的逻辑树评分模型对所述逻辑大语言模型进行训练,获得训练后的逻辑大语言模型的步骤,包括:
4.如权利要求1所述的方法,其特征在于,所述根据所述训练后的逻辑树评分模型评估所述训练后的逻辑大语言模型根据所述逻辑推理树生成的多个下一步推理路径,获得最佳推理路径的步骤,包括:
5.如权利要求4所述的方法,其特征在于,所述根据所述训练后的逻辑树评分模型迭代评估所述训练后的逻辑大语言模型根据所述当前任务和所述当前推理路径生成的多个下一步推理路径,获得最佳推理路径的步骤,包括:
6.如权利要求1所述的方法,其特征在于,所述根据预设问题、逻辑大语言模型生成的中间步骤和推理路径构建逻辑推理树的步骤,包括:
7.一种大语言模型逻辑推理装置,其特征在于,所述大语言模型逻辑推理装置包括:
8.一种大语言模型逻辑推理设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序配置为实现如权利要求1至6中任一项所述的大语言模型逻辑推理方法的步骤。
9.一种存储介质,其特征在于,所述存储介质为计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的大语言模型逻辑推理方法的步骤。
10.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的大语言模型逻辑推理方法的步骤。