本公开涉及人工智能领域和金融科技领域,具体涉及大语言模型领域,尤其涉及一种模型确定方法、装置、设备、存储介质和程序产品。
背景技术:
1、随着人工智能技术的不断发展,大语言模型(large language model,llm)已经成为自然语言处理领域的重要组成部分之一。然而,如何有效地从多个不同大语言模型中确定回复结果质量最好的大语言模型仍然是一个难题。在实际应用过程中,通常需要依靠人工对多个大语言模型的输出结果进行评估,以确定回复结果的质量较高的大语言模型。
2、在实现本公开构思的过程中,发明人发现相关技术中至少存在如下问题:通过人工的方法确定回复结果质量较高的大语言模型费时费力,且在没有准确答案的文本生成过程中,人工对大语言模型的评测不够客观,导致用户无法选取合适的大语言模型,进而使得用户得到回复结果的质量较低。例如,基于关键字生成一段故事,每个人的评价表准往往难以统一,使得回复结果的质量较低。
技术实现思路
1、鉴于上述问题,本公开提供了模型确定方法、装置、设备、介质和程序产品。
2、根据本公开的第一个方面,提供了一种模型确定方法,包括:利用m个大语言模型对回复结果进行质量评测,得到m组评测结果,其中,上述回复结果包括m个回复子结果,上述m个回复子结果是利用上述m组大语言模型分别对同一个问答数据进行处理后得到的;每组评测结果与一个大语言模型对应,每组评测结果包括对上述m个回复子结果各自的评测子结果,上述m是大于等于2的正整数;
3、基于上述m组评测结果,确定上述m个大语言模型各自的综合评测结果;以及
4、根据上述m个大语言模型各自的综合评测结果,确定目标大语言模型,其中,上述目标大语言模型表征与上述回复子结果所属领域适配的大语言模型。
5、根据本公开的实施例,上述基于上述m组评测结果,确定上述m个大语言模型各自的综合评测结果包括:
6、通过最大期望算法对上述m组评测结果进行拟合,得到目标拟合结果,其中,上述目标拟合结果包括与m个大语言模型对应的m个目标拟合子结果;
7、根据目标拟合结果和上述m组评测结果,确定上述m个大语言模型各自的综合评测结果。
8、根据本公开的实施例,上述根据目标拟合结果和上述m组评测结果,确定上述m个大语言模型各自的综合评测结果,包括:
9、针对第m个大语言模型,从上述m组评测结果中,获取与上述第m个大语言模型的回复子结果对应的m个目标评测子结果,其中,m是大于等于1,且小于等于m的正整数;
10、确定上述目标拟合结果中与上述第m个大语言模型对应的第m个目标拟合子结果;
11、根据上述m个目标评测子结果和上述第m个目标拟合子结果,确定上述第m个大语言模型的综合评测结果。
12、根据本公开的实施例,上述根据上述m个目标评测子结果和上述第m个目标拟合子结果,确定上述第m个大语言模型的综合评测结果,包括:
13、确定每个上述目标评测子结果与上述第m个目标拟合子结果之间的差异信息;
14、根据上述m个目标评测子结果之和、m个差异信息之和,确定上述综合评测结果。
15、根据本公开的实施例,上述利用m个大语言模型对回复结果进行质量评测,得到m组评测结果,包括:针对每个大语言模型,
16、利用上述大语言模型对上述m个回复子结果进行排序,得到排序结果;
17、根据上述排序结果和回复子结果的数量,确定针对上述m个回复子结果的评测结果。
18、根据本公开的实施例,上述方法还包括:
19、响应于接收到来自第一目标对象的第一操作信息,确定上述m个大语言模型;
20、响应于接收到来自上述第一目标对象的第二操作信息,确定上述问答数据;以及
21、将上述问答数据分别输入上述m个大语言模型,输出上述m个回复子结果。
22、根据本公开的实施例,上述方法还包括:
23、获取由第二目标对象确定的目标问答数据,其中,所述目标问答数据与所述问答数据属于相同的领域,所述问答数据的领域包括以至少其中之一:代码文本领域、文本问答领域、文本查询领域;
24、将所述目标问答数据输入所述目标大语言模型,输出与所述目标问答数据对应的回复子结果。
25、本公开的第二方面提供了一种模型确定装置,包括:
26、评测模块,用于利用m个大语言模型对回复结果进行质量评测,得到m组评测结果,其中,上述回复结果包括m个回复子结果,上述m个回复子结果是利用上述m组大语言模型分别对同一个问答数据进行处理后得到的;每组评测结果与一个大语言模型对应,每组评测结果包括对上述m个回复子结果各自的评测子结果,上述m是大于等于2的正整数;
27、结果确定模块,用于基于上述m组评测结果,确定上述m个大语言模型各自的综合评测结果;以及
28、模型确定模块,用于根据上述m个大语言模型各自的综合评测结果,确定目标大语言模型,其中,上述目标大语言模型表征与上述回复子结果所属领域适配的大语言模型。
29、本公开的第三方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个计算机程序,其中,上述一个或多个处理器执行上述一个或多个计算机程序以实现上述方法的步骤。
30、本公开的第四方面还提供了一种计算机可读存储介质,其上存储有计算机程序或指令,上述计算机程序或指令被处理器执行时实现上述方法的步骤。
31、本公开的第五方面还提供了一种计算机程序产品,包括计算机程序或指令,上述计算机程序或指令被处理器执行时实现上述方法的步骤。
32、根据本公开提供的模块确定方法、装置、设备、介质和程序产品,分别通过m个大语言模型对回复结果进行质量评测,解决了由同一模型对回复结果进行质量评测所造成准确率低的问题,从而提高了综合评测结果的准确性。由于对回复结果的评测过程均是通过算法调用m个大语言模型实现的,因此,减少了人力和时间上的浪费。此外,通过算法调用m个大语言模型,确定m个大语言模型各自的综合评测结果,还解决了以人工方式对回复结果进行质量评测过程中,因人的评测标准不统一,导致评测结果不够准确的问题。根据综合评测结果,将m个大语言模型中回复子结果质量较好的大语言模型,作为目标大语言模型,将目标大语言模型作为生成回复子结果所属领域下的回复结果的大语言模型,从而提高了回复子结果所属领域下的回复质量。
1.一种模型确定方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述m组评测结果,确定所述m个大语言模型各自的综合评测结果包括:
3.根据权利要求2所述的方法,其特征在于,所述根据目标拟合结果和所述m组评测结果,确定所述m个大语言模型各自的综合评测结果,包括:
4.根据权利要求3所述的方法,其特征在于,所述根据所述m个目标评测子结果和所述第m个目标拟合子结果,确定所述第m个大语言模型的综合评测结果,包括:
5.根据权利要求1所述的方法,其特征在于,所述利用m个大语言模型对回复结果进行质量评测,得到m组评测结果,包括:针对每个大语言模型,
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
8.一种模型确定装置,其特征在于,所述装置包括:
9.一种电子设备,包括:
10.一种计算机可读存储介质,其上存储有计算机程序或指令,其特征在于,所述计算机程序或指令被处理器执行时实现根据权利要求1~7中任一项所述方法的步骤。
11.一种计算机程序产品,包括计算机程序或指令,其特征在于,所述计算机程序或指令被处理器执行时实现根据权利要求1~7中任一项所述方法的步骤。