智能体评估方法、设备以及存储介质与流程

文档序号:39962523发布日期:2024-11-12 14:21阅读:43来源:国知局
智能体评估方法、设备以及存储介质与流程

本申请涉及人工智能,特别是涉及一种智能体评估方法、设备以及存储介质。


背景技术:

1、随着人工智能技术的高速发展,尤其是深度学习和大数据分析技术的不断突破,大模型已经成为实现智能体的有效途径。这些智能体可被广泛应用于医疗、金融、教育等多个领域,旨在通过模拟和预测行业内的复杂互动和变化,为决策提供支持。

2、尽管大模型的计算能力和数据处理能力已经达到了历史高点,但如何对这些智能体的效能进行系统性地评估和验证,却鲜有标准和模式可循。

3、目前,缺乏详实的评估方法不仅限制了智能体的应用与完善,也制约了相关行业的进一步智能化进程。因此,现缺乏一种准确的智能体评估方法以便于有效地了解智能体的运行效果,继而调整和优化智能体的设计和运作。


技术实现思路

1、本申请至少提供一种智能体评估方法、装置、设备以及计算机可读存储介质。

2、本申请第一方面提供了一种智能体评估方法,包括:获取所述智能体执行目标任务得到的执行信息,所述执行信息包括执行过程信息和执行结果信息;根据预设过程信息对所述执行过程信息进行过程评估处理,得到第一评估结果;根据预设结果信息对所述执行结果信息进行结果评估处理,得到第二评估结果;根据所述第一评估结果和所述第二评估结果确定所述智能体的目标评估结果。

3、在一实施例中,所述预设过程信息包括在所述智能体执行任务过程中预设的业务需求和语义需求,所述第一评估结果包括业务评估结果和语义评估结果,所述根据预设过程信息对所述执行过程信息进行过程评估处理,得到第一评估结果的步骤,包括:根据所述业务需求对所述执行过程信息进行评估处理,得到所述业务评估结果;根据所述语义需求对所述执行过程信息进行评估处理,得到所述语义评估结果。

4、在一实施例中,所述执行过程信息包括所述智能体执行所述目标任务的过程中拆分得到的子任务,所述根据所述业务需求对所述执行过程信息进行评估处理,得到所述业务评估结果的步骤,包括:将各个子任务的任务内容和所述业务需求中的预设子任务内容进行对比,得到任务内容完整度;和/或,将各个子任务之间的执行顺序和所述业务需求中的预设子任务执行顺序进行对比,得到任务顺序合理度;和/或,将各个子任务的业务特征和所述业务需求中预设业务特征进行对比,得到任务相关度;和/或,将各个子任务和所述目标任务对应的参考子任务进行对比,得到任务准确度;基于所述任务内容完整度、所述任务顺序合理度、所述任务相关度以及所述任务准确度中的至少一个确定所述业务评估结果。

5、在一实施例中,所述基于所述任务内容完整度、所述任务顺序合理度、所述任务相关度以及所述任务准确度中的至少一个确定所述业务评估结果的步骤,包括:从所述任务内容完整度、所述任务顺序合理度、所述任务相关度以及所述任务准确度中选取目标数据;将所述目标数据与所述目标数据对应的数据权重进行加权求和处理,得到所述业务评估结果。

6、在一实施例中,所述根据所述语义需求对所述执行过程信息进行评估处理,得到所述语义评估结果的步骤,包括:获取所述智能体在执行所述目标任务的过程中得到的目标语义特征,将所述目标语义特征和预设语义特征进行对比,得到语义理解准确度;和/或,对所述智能体生成的自然语言文本进行流畅性检测处理,得到语义表征流畅度;和/或,对所述智能体生成的自然语言文本和预设关键词之间进行文本匹配处理,得到文本信息丰富度;和/或,对所述智能体生成的自然语言文本进行连贯性检测处理,得到文本连贯度;根据所述语义理解准确度、所述语义表征流畅度、所述文本信息丰富度以及所述文本连贯度中的至少一个确定所述语义评估结果。

7、在一实施例中,所述根据所述语义理解准确度、所述语义表征流畅度、所述文本信息丰富度以及所述文本连贯度中的至少一个确定所述语义评估结果的步骤,包括:从所述语义理解准确度、所述语义表征流畅度、所述文本信息丰富度以及所述文本连贯度中选取目标数据;将所述目标数据与所述目标数据对应的数据权重进行加权求和处理,得到所述语义评估结果。

8、在一实施例中,所述根据预设结果信息对所述执行结果信息进行结果评估处理,得到第二评估结果的步骤,包括:将所述预设结果信息与所述执行结果信息进行特征对比处理,得到特征匹配度;根据所述特征匹配度确定所述第二评估结果。

9、在一实施例中,所述根据所述第一评估结果和所述第二评估结果确定所述智能体的目标评估结果的步骤,包括:获取所述第一评估结果的评估权重和所述第二评估结果的评估权重;基于第一评估结果、所述第二评估结果以及对应的评估权重进行加权求和处理,得到所述目标评估结果。

10、本申请第二方面提供了一种智能体评估装置,包括:获取模块,用于获取所述智能体执行目标任务得到的执行信息,所述执行信息包括执行过程信息和执行结果信息;第一评估模块,用于根据预设过程信息对所述执行过程信息进行过程评估处理,得到第一评估结果;第二评估模块,用于根据预设结果信息对所述执行结果信息进行结果评估处理,得到第二评估结果;综合评估模块,用于根据所述第一评估结果和所述第二评估结果确定所述智能体的目标评估结果。

11、本申请第三方面提供了一种电子设备,包括存储器和处理器,处理器用于执行存储器中存储的程序指令,以实现上述智能体评估方法。

12、本申请第四方面提供了一种计算机可读存储介质,其上存储有程序指令,程序指令被处理器执行时实现上述智能体评估方法。

13、上述方案,获取所述智能体执行目标任务得到的执行信息,能够根据执行信息中的执行过程信息分析智能体的任务执行过程,通过执行信息中的执行结果信息分析智能体的任务执行结果;根据预设过程信息对所述执行过程信息进行过程评估处理,得到第一评估结果;根据预设结果信息对所述执行结果信息进行结果评估处理,得到第二评估结果;综合对智能体的任务执行过程的评估以及对智能体的任务执行结果的评估,由此能够得到对智能体的目标评估结果,实现对智能体进行准确可靠地评估。

14、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本申请。



技术特征:

1.一种智能体评估方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述预设过程信息包括在所述智能体执行任务过程中预设的业务需求和语义需求,所述第一评估结果包括业务评估结果和语义评估结果,所述根据预设过程信息对所述执行过程信息进行过程评估处理,得到第一评估结果的步骤,包括:

3.根据权利要求2所述的方法,其特征在于,所述执行过程信息包括所述智能体执行所述目标任务的过程中拆分得到的子任务,所述根据所述业务需求对所述执行过程信息进行评估处理,得到所述业务评估结果的步骤,包括:

4.根据权利要求3所述的方法,其特征在于,所述基于所述任务内容完整度、所述任务顺序合理度、所述任务相关度以及所述任务准确度中的至少一个确定所述业务评估结果的步骤,包括:

5.根据权利要求2所述的方法,其特征在于,所述根据所述语义需求对所述执行过程信息进行评估处理,得到所述语义评估结果的步骤,包括:

6.根据权利要求5所述的方法,其特征在于,所述根据所述语义理解准确度、所述语义表征流畅度、所述文本信息丰富度以及所述文本连贯度中的至少一个确定所述语义评估结果的步骤,包括:

7.根据权利要求1所述的方法,其特征在于,所述根据预设结果信息对所述执行结果信息进行结果评估处理,得到第二评估结果的步骤,包括:

8.根据权利要求1所述的方法,其特征在于,所述根据所述第一评估结果和所述第二评估结果确定所述智能体的目标评估结果的步骤,包括:

9.一种电子设备,其特征在于,包括存储器和处理器,所述处理器用于执行所述存储器中存储的程序指令,以实现权利要求1至8任一项所述的方法。

10.一种计算机可读存储介质,其上存储有程序指令,其特征在于,所述程序指令被处理器执行时实现权利要求1至8任一项所述的方法。


技术总结
本申请公开了一种智能体评估方法、设备以及存储介质,该智能体评估方法包括:获取智能体执行目标任务得到的执行信息,执行信息包括执行过程信息和执行结果信息;根据预设过程信息对执行过程信息进行过程评估处理,得到第一评估结果;根据预设结果信息对执行结果信息进行结果评估处理,得到第二评估结果;基于第一评估结果和第二评估结果确定智能体的目标评估结果。上述方案,能够从智能体执行任务所得到的多个维度数据出发,对智能体进行多维度评估,得到准确的目标评估结果。

技术研发人员:刘明,江中毅,刘备,张晗,刘伟棠,陈立力,周明伟,邓志吉
受保护的技术使用者:浙江大华技术股份有限公司
技术研发日:
技术公布日:2024/11/11
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1