多智能体系统分块策略评估方法及装置

文档序号：34902352发布日期：2023-07-26 14:06阅读：来源：国知局

技术特征：

1.一种多智能体系统分块策略评估方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在所述联合策略空间中均匀采样若干测试联合策略，得到对应的各智能体奖励值，从而根据各智能体奖励值构建智能体相关性矩阵，包括：

3.根据权利要求1所述的方法，其特征在于，所选联合策略的邻域为所选联合策略的所有相邻联合策略的集合，所选联合策略的相邻联合策略为与所选联合策略相比只有一个智能体的策略发生变化的联合策略。

4.根据权利要求1所述的方法，其特征在于，对于所选联合策略的更优响应，策略发生变化的智能体在更优响应中的奖励值高于在所选联合策略中的奖励值。

5.根据权利要求1所述的策略评估方法，其特征在于，使用所述更优响应更新当前选择的联合策略，并根据所述智能体相关性矩阵建立局部联合策略空间，包括：

6.根据权利要求2所述的策略评估方法，其特征在于，根据所述局部联合策略空间内所有联合策略的奖励更新智能体相关性矩阵，包括：

7.根据权利要求1所述的策略评估方法，其特征在于，基于所述局部奖励矩阵，计算联合策略状态转移矩阵，从而确定劣势个体策略并更新联合策略空间，包括：

8.一种多智能体系统分块策略评估装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现如权利要求1-7中任一项所述方法的步骤。

技术总结
本发明公开了一种多智能体系统分块策略评估方法及装置，采用皮尔逊相关性系数，将联合策略空间中采样得到的奖励作为输入，计算了智能体之间的相关性，构建了智能体相关性矩阵并实现了对大规模评估问题的分块评估，减少了评估所需的计算量和时间；采用基于局部评估的结果，根据联合策略向其他策略转移的次数的统计结果，判断劣势个体策略并将其移除，实现了动态更新待评估策略空间，在迭代过程中减少待评估策略数量。在由智能楼宇构成的电网环境中，本申请可以通过选择合适的智能楼宇用电、发电策略，在保证各个智能楼宇收益相对均衡的前提下，优化太阳能发电系统在电网中的使用，降低系统中各个节点的电压波动，提升电网的稳定性。

技术研发人员：张森林,金诚,刘妹琴,董山玲,郑荣濠
受保护的技术使用者：浙江大学
技术研发日：
技术公布日：2024/1/13

完整全部详细技术资料下载

当前第2页1 2