模型评估方法、电子设备和存储介质与流程

文档序号:37361762发布日期:2024-03-22 10:15阅读:8来源:国知局
模型评估方法、电子设备和存储介质与流程

本申请涉及大模型技术、模型评估领域,具体而言,涉及一种模型评估方法、电子设备和存储介质。


背景技术:

1、随着自然语言处理模型的发展,越来越多的生成式大模型被开发出来,如何准确地对生成式模型的运行效果进行评估,例如判断生成式大模型是否满足市场需求,是否能够生成指定的数据等,成了工作人员的主要研发方向,目前对模型进行评估的方法主要是利用模型处理一些客观的选项题目,例如mmlu(massive multitask languageunderstanding,大规模多任务语言理解)、c-eval(一种面向中文语言模型的综合性考试评测集)等,并根据处理结果来判断模型的运行效果,或者是采用传统的nlp(naturallanguage processing,自然语言处理)评估方法,计算出生成答案和参考答案之间的相似度,例如rouge(recall-oriented understudy for gisting evaluation,用于评估自动文摘以及机器翻译的一组指标)、bleu(bilingual evaluation understudy,双语互译质量评估辅助工具)等,以对模型进行评估。但是这些方法仅能侧面反映出模型在指定任务,例如生成摘要、翻译文档、数据分类等方面的运行效果,可能会与模型真实的运行效果存在偏差,导致对模型进行评估的效果较差。

2、针对上述的问题,目前尚未提出有效的解决方案。


技术实现思路

1、本申请实施例提供了一种模型评估方法、电子设备和存储介质,以至少解决相关技术中对模型的运行情况进行评估的效果差的技术问题。

2、根据本申请实施例的一个方面,提供了一种模型评估方法,包括:获取待评估模型,其中,待评估模型包括:待评估的第一模型,或,第一模型和第二模型;利用待评估模型对目标数据集进行处理,得到目标数据集的处理结果,并对目标数据集进行标注,得到目标数据集的标注结果;基于处理结果和标注结果,生成第一模型的目标评估结果。

3、根据本申请实施例的一个方面,还提供了一种模型评估方法,包括:响应于接收到对第一生成式模型进行评估的评估任务,基于评估任务的评估类型,确定待评估模型,其中,待评估模型包括:第一生成式模型,或,第一生成式模型和第二生成式模型;利用待评估模型对目标文本集进行文本生成,得到目标文本集的生成结果,并基于评估任务对应的标注方法对目标文本集进行标注,得到目标文本集的标注结果;基于生成结果和标注结果,生成第一生成式模型的目标评估结果;输出目标评估结果。

4、根据本申请实施例的一个方面,还提供了一种模型评估方法,包括:响应作用于操作界面上的输入指令,在操作界面上显示对第一模型进行评估的评估任务;响应作用于操作界面上的评估指令,在操作界面上显示第一模型的目标评估结果,其中,目标评估结果是基于处理结果和标注结果生成的,处理结果是利用待评估模型对目标数据集进行处理得到的,标注结果是基于评估任务对应的标注方法对目标数据集进行标注得到的,待评估模型是基于评估任务的评估类型确定的,待评估模型包括:第一模型,或,第一模型和第二模型。

5、根据本申请实施例的一个方面,还提供了一种模型评估方法,包括:通过调用第一接口获取对第一模型进行评估的评估任务,其中,第一接口包括第一参数,第一参数的参数值包括评估任务;基于评估任务的评估类型,确定待评估模型,其中,待评估模型包括:第一模型,或,第一模型和第二模型;利用待评估模型对目标数据集进行处理,得到目标数据集的处理结果,并基于评估任务对应的标注方法对目标数据集进行标注,得到目标数据集的标注结果,其中,不同标注方法对应的标注对象不同;基于处理结果和标注结果,生成第一模型的目标评估结果;通过调用第二接口输出目标评估结果,其中,第二接口包括第二参数,第二参数的参数值包括目标评估结果。

6、根据本申请实施例的一个方面,还提供了一种电子设备,包括:存储器,存储有可执行程序;处理器,用于运行程序,其中,程序运行时执行上述任意一项的方法。

7、根据本申请实施例的一个方面,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的可执行程序,其中,在可执行程序运行时控制计算机可读存储介质所在设备执行上述任意一项的方法。

8、在本申请实施例中,采用获取待评估模型,其中,待评估模型包括:待评估的第一模型,或,第一模型和第二模型;利用待评估模型对目标数据集进行处理,得到目标数据集的处理结果,并对目标数据集进行标注,得到目标数据集的标注结果;基于处理结果和标注结果,生成第一模型的目标评估结果的方式,通过首先获取在模型评估过程中需要使用到的一个或多个模型,确定出待评估模型,保证对模型进行评估的过程能够顺利的执行,然后利用对目标数据集进行标注得到标注结果,来对利用待评估模型对目标数据集进行处理的处理结果进行评估,以生成第一模型的目标评估结果,从而保证根据标注结果和待评估模型对目标数据集的处理结果,生成的目标评估结果的准确度,从而提高对第一模型的运行情况进行评估的精度,进而解决了相关技术中对模型的运行情况进行评估的效果差的技术问题。

9、容易注意到的是,上面的通用描述和后面的详细描述仅仅是为了对本申请进行举例和解释,并不构成对本申请的限定。



技术特征:

1.一种模型评估方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,对所述目标数据集进行标注,得到所述目标数据集的标注结果,包括:

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:

4.根据权利要求2所述的方法,其特征在于,所述方法还包括:

5.根据权利要求1所述的方法,其特征在于,所述方法还包括:

6.根据权利要求1所述的方法,其特征在于,基于所述处理结果和所述标注结果,生成所述第一模型的目标评估结果,包括:

7.根据权利要求6所述的方法,其特征在于,基于所述至少一个评估方式对所述处理结果和所述标注结果进行处理,得到所述至少一个评估方式的评估结果,包括:

8.根据权利要求7所述的方法,其特征在于,所述方法还包括:

9.根据权利要求1所述的方法,其特征在于,所述方法还包括:

10.一种模型评估方法,其特征在于,包括:

11.一种模型评估方法,其特征在于,包括:

12.一种模型评估方法,其特征在于,包括:

13.一种电子设备,其特征在于,包括:

14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的可执行程序,其中,在所述可执行程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至12中任意一项所述的方法。


技术总结
本申请公开了一种模型评估方法、电子设备和存储介质,涉及大模型技术、模型评估领域。其中,该方法包括:获取待评估模型,其中,待评估模型包括:待评估的第一模型,或,第一模型和第二模型;利用待评估模型对目标数据集进行处理,得到目标数据集的处理结果,并对目标数据集进行标注,得到目标数据集的标注结果;基于处理结果和标注结果,生成第一模型的目标评估结果。本申请解决了相关技术中对模型的运行情况进行评估的效果差的技术问题。

技术研发人员:杨旭强,罗雪峰
受保护的技术使用者:杭州阿里云飞天信息技术有限公司
技术研发日:
技术公布日:2024/3/21
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1