一种博弈策略优化方法、系统及存储介质与流程

文档序号：21105409发布日期：2020-06-16 21:14阅读：来源：国知局

技术特征：

1.一种博弈策略优化方法，该博弈策略优化方法基于多智能体强化学习和虚拟自我对局进行实现，其特征在于，包括如下步骤：

建立基于最大熵的策略递度算法步骤：在最大熵强化学习中，除了要最大化累计期望收益这个基本目标，还要最大化策略熵:

其中在状态下智能体选择动作获得的奖励，表示策略在状态下的策略熵，表示决定策略熵项重要程度的温度系数，相当于用来控制智能体策略的随机性，如果则退化为传统的强化学习算法；

多智能体最优反应策略求解步骤：采用中心化训练分散式执行的方式来求解最优策略，通过基线奖励评估合作博弈中的智能体收益。

2.根据权利要求1所述的博弈策略优化方法，其特征在于，在所述建立基于最大熵的策略递度算法步骤中，温度系数a的损失函数如下：

其中表示在状态下智能体选择动作的概率分布，上述公式的意义就是保持策略熵大于的同时来优化策略，可以实现在博弈策略优化的不同阶段温度系数α可变。

3.根据权利要求1所述的博弈策略优化方法，其特征在于，在所述多智能体最优反应策略求解步骤中，采用中心化训练分散式执行的方式来求解最优策略的具体技术方案是：在训练阶段允许利用其他智能体的可见信息，在智能体根据策略执行动作时则仅根据自身可见信息做出判断，对于智能体i的估值网络critic的损失函数如下：

其中为智能体i估值网络的输出，该网络的输入中的表示智能体之间共享的全局信息，而表示第i个智能体的动作，y为估值网络输出的拟合目标，y中的表示智能体i的奖励，表示智能体i延迟更新的目标策略网络输出；

对于智能体i的策略网络actor的梯度公式如下：

其中表示策略组中的策略网络参数，而则是中心化训练的值网络的输出。

4.根据权利要求1所述的博弈策略优化方法，其特征在于，在所述多智能体最优反应策略求解步骤中，通过基线奖励评估合作博弈中的智能体收益的具体技术方案是：利用一个集中的评估网络critic评估所有智能体的行为，通过中心化的对状态s下的联合动作u进行估值，对于每个智能体a都可以计算一个当前动作的优势函数，其中用到的基线则是由与无关的默认动作产生的，同时需要保持其他智能体的动作固定，可得到以下优势函数：

第一项表示选取动作得到的全局收益,该奖励可以通过中心化的critic计算得到，第二项中表示智能体a基于选择动作的概率，第二项整项表示智能体a在所有可能选择动作下可以获得的全局奖励期望，以此来作为基线奖励，以前后两项的差来衡量智能体当前选择的动作相对于期望全局收益的增益多少。

5.一种博弈策略优化系统，该博弈策略优化系统基于多智能体强化学习和虚拟自我对局进行实现，其特征在于，包括：

建立基于最大熵的策略递度算法模块：在最大熵强化学习中，除了要最大化累计期望收益这个基本目标，还要最大化策略熵:

多智能体最优反应策略求解模块：采用中心化训练分散式执行的方式来求解最优策略，通过基线奖励评估合作博弈中的智能体收益。

6.根据权利要求5所述的博弈策略优化系统，其特征在于，在所述建立基于最大熵的策略递度算法模块中，温度系数a的损失函数如下：

7.根据权利要求5所述的博弈策略优化系统，其特征在于，在所述多智能体最优反应策略求解模块中，采用中心化训练分散式执行的方式来求解最优策略的具体技术方案是：在训练阶段允许利用其他智能体的可见信息，在智能体根据策略执行动作时则仅根据自身可见信息做出判断，对于智能体i的估值网络critic的损失函数如下：

对于智能体i的策略网络actor的梯度公式如下：

其中表示策略组中的策略网络参数，而则是中心化训练的值网络的输出。

8.根据权利要求5所述的博弈策略优化系统，其特征在于，在所述多智能体最优反应策略求解模块中，通过基线奖励评估合作博弈中的智能体收益的具体技术方案是：利用一个集中的评估网络critic评估所有智能体的行为，通过中心化的对状态s下的联合动作u进行估值，对于每个智能体a都可以计算一个当前动作的优势函数，其中用到的基线则是由与无关的默认动作产生的，同时需要保持其他智能体的动作固定，可得到以下优势函数：

9.一种博弈策略优化装置，该博弈策略优化装置基于多智能体强化学习和虚拟自我对局进行实现，其特征在于，包括：存储器、处理器以及存储在所述存储器上的计算机程序，所述计算机程序配置为由所述处理器调用时实现权利要求1－4中任一项所述的博弈策略优化方法的步骤。

10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质存储有计算机程序，所述计算机程序配置为由处理器调用时实现权利要求1－4中任一项所述的博弈策略优化方法的步骤。

技术总结
本发明提供了一种博弈策略优化方法、系统及存储介质，该博弈策略优化方法包括建立基于最大熵的策略递度算法步骤和多智能体最优反应策略求解步骤。本发明的有益效果是：本发明采用中心化训练和分散式执行的方式，提高动作估值网络的准确性，同时引入了全局基线奖励来更准确地衡量智能体的动作收益，以此来解决人博弈中的信用分配问题。同时引入了最大熵方法来进行策略评估，平衡了策略优化过程中的探索与利用。

技术研发人员：王轩;漆舒汉;张加佳;胡书豪;黄旭忠;刘洋;蒋琳;廖清;夏文;李化乐
受保护的技术使用者：哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
技术研发日：2020.05.13
技术公布日：2020.06.16

完整全部详细技术资料下载

当前第2页1 2