1.一种多智能体系统分块策略评估方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,在所述联合策略空间中均匀采样若干测试联合策略,得到对应的各智能体奖励值,从而根据各智能体奖励值构建智能体相关性矩阵,包括:
3.根据权利要求1所述的方法,其特征在于,所选联合策略的邻域为所选联合策略的所有相邻联合策略的集合,所选联合策略的相邻联合策略为与所选联合策略相比只有一个智能体的策略发生变化的联合策略。
4.根据权利要求1所述的方法,其特征在于,对于所选联合策略的更优响应,策略发生变化的智能体在更优响应中的奖励值高于在所选联合策略中的奖励值。
5.根据权利要求1所述的策略评估方法,其特征在于,使用所述更优响应更新当前选择的联合策略,并根据所述智能体相关性矩阵建立局部联合策略空间,包括:
6.根据权利要求2所述的策略评估方法,其特征在于,根据所述局部联合策略空间内所有联合策略的奖励更新智能体相关性矩阵,包括:
7.根据权利要求1所述的策略评估方法,其特征在于,基于所述局部奖励矩阵,计算联合策略状态转移矩阵,从而确定劣势个体策略并更新联合策略空间,包括:
8.一种多智能体系统分块策略评估装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如权利要求1-7中任一项所述方法的步骤。