本公开涉及人工智能,具体涉及深度学习、自然语言处理和大模型等,尤其涉及一种训练样本的生成方法、评估模型的训练方法和信息评估方法、装置、设备、介质、程序产品。
背景技术:
1、随着计算机技术和网络技术的发展,深度学习模型的应用越来越广泛,且深度学习模型在各个领域也都取得了突破性的进展。其中,人工智能生成内容(ai generatedcontent,aigc)为深度学习的一个重要方向。
2、随着大语言模型(large language model)的快速发展,基于llm生成的文本内容越来越丰富。例如,可以针对音频、视频和文档等,生成总结类内容,以帮助用户提升信息的获取效率。然而,如何对llm生成的内容进行高效评估一直是制约基于llm的应用快速发展的瓶颈。
技术实现思路
1、本公开旨在提供一种训练样本的生成方法、评估模型的训练方法和信息评估方法、装置、设备、介质、程序产品,以期提高生成内容的评估效率和评估精度。
2、根据本公开的第一个方面,提供了一种训练样本的生成方法,包括:获取目标信息对,每个目标信息对包括基于原始信息生成的生成信息及生成信息的参考信息;基于原始信息、每个目标信息对和预定提示信息,采用大语言模型确定与每个目标信息对相对应的评估信息;评估信息指示生成信息与参考信息的相对评估结果以及与相对评估结果相对应的评估原因;以及基于原始信息、每个目标信息对、预定提示信息和评估信息,生成针对评估模型的训练样本。
3、根据本公开的第二个方面,提供了一种评估模型的训练方法,包括:获取训练样本,训练样本是采用本公开的第一个方面所提供的训练样本的生成方法生成的;以及基于训练样本,对评估模型进行训练。
4、根据本公开的第三个方面,提供了一种信息评估方法,包括:获取两个信息生成模型基于原始信息生成的生成信息,得到生成信息对;以及基于原始信息、生成信息对和预定提示信息,采用评估模型确定针对生成信息对的评估信息,其中,评估模型是采用本公开的第二个方面提供的评估模型的训练方法训练得到的。
5、根据本公开的第四个方面,提供了一种训练样本的生成装置,包括:信息对获取模块,用于获取目标信息对,每个目标信息对包括基于原始信息生成的生成信息及生成信息的参考信息;评估信息确定模块,用于基于原始信息、每个目标信息对和预定提示信息,采用大语言模型确定与每个目标信息对相对应的评估信息;评估信息指示生成信息与参考信息的相对评估结果以及与相对评估结果相对应的评估原因;以及样本生成模块,用于基于原始信息、每个目标信息对、预定提示信息和评估信息,生成针对评估模型的训练样本。
6、根据本公开的第五个方面,提供了一种评估模型的训练装置,包括:样本获取模块,用于获取训练样本,训练样本是采用本公开的第四个方面提供的训练样本的生成装置生成的;以及模型训练模块,用于基于训练样本,对评估模型进行训练。
7、根据本公开的第六个方面,提供了一种信息评估装置,包括:信息对获取模块,用于获取两个信息生成模型基于原始信息生成的生成信息,得到生成信息对;以及信息评估模块,用于基于原始信息、生成信息对和预定提示信息,采用评估模型确定针对生成信息对的评估信息,其中,评估模型是采用本公开的第五个方面提供的评估模型的训练装置训练得到的。
8、根据本公开的第七个方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开提供的以下方法中的至少之一:训练样本的生成方法、评估模型的训练方法和信息评估方法。
9、根据本公开的第八个方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开提供的以下方法中的至少之一:训练样本的生成方法、评估模型的训练方法和信息评估方法。
10、根据本公开的第九个方面,提供了一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令存储于可读存储介质和电子设备其中至少之一上,所述计算机程序/指令在被处理器执行时实现本公开提供的以下方法中的至少之一:训练样本的生成方法、评估模型的训练方法和信息评估方法。
11、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
1.一种训练样本的生成方法,包括:
2.根据权利要求1所述的方法,其中,所述评估信息包括至少两组子评估信息;每组子评估信息包括所述质量评估结果以及所述评估原因;所述基于所述原始信息、每个所述目标信息对、所述预定提示信息和所述评估信息,生成针对评估模型的训练样本包括:
3.根据权利要求2所述的方法,其中,所述至少两组子评估信息包括两组以上的子评估信息;确定所述至少两组子评估信息的一致性指标值包括:
4.根据权利要求1所述的方法,其中,所述评估信息包括至少两组子评估信息;每组子评估信息包括所述质量评估结果以及所述评估原因;所述基于所述原始信息、每个所述目标信息对和预定提示信息,采用大语言模型确定与每个所述目标信息对相对应的评估信息包括:
5.根据权利要求1所述的方法,其中,所述评估信息包括至少两组子评估信息;每组子评估信息包括所述质量评估结果以及所述评估原因;所述大语言模型包括至少两个不同的模型;所述基于所述原始信息、每个所述目标信息对和预定提示信息,采用大语言模型确定与每个所述目标信息对相对应的评估信息包括:
6.根据权利要求1所述的方法,其中,所述获取目标信息对包括:
7.根据权利要求6所述的方法,其中,所述相似指标值包括与至少两个相似指标相对应的至少两个指标值;所述第二指标阈值包括与所述至少两个指标值分别对应的至少两个阈值;从所述信息对中筛选所述相似指标值大于等于第二指标阈值的信息对,得到所述目标信息对包括:
8.根据权利要求2所述的方法,还包括:
9.根据权利要求1所述的方法,其中,所述评估信息包括与至少两个评估维度中的每个维度对应的评估结果和评估原因,以及与所述至少两个评估维度对应的整体评估结果。
10.根据权利要求1所述的方法,其中,所述基于所述原始信息、每个所述目标信息对、所述预定提示信息和所述评估信息,生成针对评估模型的训练样本包括:
11.一种评估模型的训练方法,包括:
12.一种信息评估方法,包括:
13.一种训练样本的生成装置,包括:
14.根据权利要求13所述的装置,其中,所述评估信息包括至少两组子评估信息;每组子评估信息包括所述质量评估结果以及所述评估原因;所述样本生成模块包括:
15.根据权利要求14所述的装置,其中,所述至少两组子评估信息包括两组以上的子评估信息;所述一致性确定子模块包括:
16.根据权利要求13所述的装置,其中,所述评估信息包括至少两组子评估信息;每组子评估信息包括所述质量评估结果以及所述评估原因;所述评估信息确定模块包括:
17.根据权利要求13所述的装置,其中,所述评估信息包括至少两组子评估信息;每组子评估信息包括所述质量评估结果以及所述评估原因;所述大语言模型包括至少两个不同的模型;所述评估信息确定模块用于:
18.根据权利要求13所述的装置,其中,所述信息对获取模块包括:
19.根据权利要求18所述的装置,其中,所述相似指标值包括与至少两个相似指标相对应的至少两个指标值;所述第二指标阈值包括与所述至少两个指标值分别对应的至少两个阈值;所述筛选子模块用于:
20.根据权利要求14所述的装置,还包括:
21.根据权利要求13所述的装置,其中,所述评估信息包括与至少两个评估维度中的每个维度对应的评估结果和评估原因,以及与所述至少两个评估维度对应的整体评估结果。
22.根据权利要求13所述的装置,其中,所述样本生成模块包括:
23.一种评估模型的训练装置,包括:
24.一种信息评估装置,包括:
25.一种电子设备,包括:
26.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1~12中任一项所述的方法。
27.一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令存储于可读存储介质和电子设备其中至少之一上,所述计算机程序/指令在被处理器执行时实现根据权利要求1~12中任一项所述方法的步骤。