1.基于决策注意力机制的多智能体在线学习方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于决策注意力机制的多智能体在线学习方法,其特征在于,通过decision-attention模块为每个智能体的决策分配权重,decision-attention模块通过attention机制捕捉每个智能体决策之间的差异性以及相对重要程度,decision-attention模块通过将目标智能体的期望奖励值作为查询query,剩余智能体的期望奖励值作为键key和值value,计算每个智能体决策的权重,通过decision-attention模块计算每个智能体决策权重的公式为:
3.根据权利要求2所述的基于决策注意力机制的多智能体在线学习方法,其特征在于,目标智能体的期望奖励值通过深度强化学习网络输出获得,期望奖励值的获得步骤为:
4.根据权利要求3所述的基于决策注意力机制的多智能体在线学习方法,其特征在于,使用目标网络计算qa值的具体步骤为:
5.根据权利要求4所述的基于决策注意力机制的多智能体在线学习方法,其特征在于,通过decision-attention模块为每个智能体的决策分配权重,并对决策进行加权处理,对决策进行加权处理的公式为:
6.根据权利要求4所述的基于决策注意力机制的多智能体在线学习方法,其特征在于,步骤二互学习,搭建多智能体系统在线学习框架,使用目标智能体决策权重混合剩余智能体的决策构造监督信号,并引入损失函数使多智能体进行互相学习,以比较智能体决策之间的差异,智能体决策之间的差异通过kl散度进行计算,使用kl散度计算智能体决策之间的差异的公式为: