1.一种博弈策略优化方法,该博弈策略优化方法基于多智能体强化学习和虚拟自我对局进行实现,其特征在于,包括如下步骤:
建立基于最大熵的策略递度算法步骤:在最大熵强化学习中,除了要最大化累计期望收益这个基本目标,还要最大化策略熵:
其中
多智能体最优反应策略求解步骤:采用中心化训练分散式执行的方式来求解最优策略,通过基线奖励评估合作博弈中的智能体收益。
2.根据权利要求1所述的博弈策略优化方法,其特征在于,在所述建立基于最大熵的策略递度算法步骤中,温度系数a的损失函数如下:
其中
3.根据权利要求1所述的博弈策略优化方法,其特征在于,在所述多智能体最优反应策略求解步骤中,采用中心化训练分散式执行的方式来求解最优策略的具体技术方案是:在训练阶段允许利用其他智能体的可见信息,在智能体根据策略执行动作时则仅根据自身可见信息做出判断,对于智能体i的估值网络critic的损失函数如下:
其中
对于智能体i的策略网络actor的梯度公式如下:
其中
4.根据权利要求1所述的博弈策略优化方法,其特征在于,在所述多智能体最优反应策略求解步骤中,通过基线奖励评估合作博弈中的智能体收益的具体技术方案是:利用一个集中的评估网络critic评估所有智能体的行为,通过中心化的
第一项表示选取动作
5.一种博弈策略优化系统,该博弈策略优化系统基于多智能体强化学习和虚拟自我对局进行实现,其特征在于,包括:
建立基于最大熵的策略递度算法模块:在最大熵强化学习中,除了要最大化累计期望收益这个基本目标,还要最大化策略熵:
其中
多智能体最优反应策略求解模块:采用中心化训练分散式执行的方式来求解最优策略,通过基线奖励评估合作博弈中的智能体收益。
6.根据权利要求5所述的博弈策略优化系统,其特征在于,在所述建立基于最大熵的策略递度算法模块中,温度系数a的损失函数如下:
其中
7.根据权利要求5所述的博弈策略优化系统,其特征在于,在所述多智能体最优反应策略求解模块中,采用中心化训练分散式执行的方式来求解最优策略的具体技术方案是:在训练阶段允许利用其他智能体的可见信息,在智能体根据策略执行动作时则仅根据自身可见信息做出判断,对于智能体i的估值网络critic的损失函数如下:
其中
对于智能体i的策略网络actor的梯度公式如下:
其中
8.根据权利要求5所述的博弈策略优化系统,其特征在于,在所述多智能体最优反应策略求解模块中,通过基线奖励评估合作博弈中的智能体收益的具体技术方案是:利用一个集中的评估网络critic评估所有智能体的行为,通过中心化的
第一项表示选取动作
9.一种博弈策略优化装置,该博弈策略优化装置基于多智能体强化学习和虚拟自我对局进行实现,其特征在于,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现权利要求1-4中任一项所述的博弈策略优化方法的步骤。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现权利要求1-4中任一项所述的博弈策略优化方法的步骤。