基于决策注意力机制的多智能体在线学习方法与流程

文档序号:36805210发布日期:2024-01-23 12:33阅读:来源:国知局

技术特征:

1.基于决策注意力机制的多智能体在线学习方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于决策注意力机制的多智能体在线学习方法,其特征在于,通过decision-attention模块为每个智能体的决策分配权重,decision-attention模块通过attention机制捕捉每个智能体决策之间的差异性以及相对重要程度,decision-attention模块通过将目标智能体的期望奖励值作为查询query,剩余智能体的期望奖励值作为键key和值value,计算每个智能体决策的权重,通过decision-attention模块计算每个智能体决策权重的公式为:

3.根据权利要求2所述的基于决策注意力机制的多智能体在线学习方法,其特征在于,目标智能体的期望奖励值通过深度强化学习网络输出获得,期望奖励值的获得步骤为:

4.根据权利要求3所述的基于决策注意力机制的多智能体在线学习方法,其特征在于,使用目标网络计算qa值的具体步骤为:

5.根据权利要求4所述的基于决策注意力机制的多智能体在线学习方法,其特征在于,通过decision-attention模块为每个智能体的决策分配权重,并对决策进行加权处理,对决策进行加权处理的公式为:

6.根据权利要求4所述的基于决策注意力机制的多智能体在线学习方法,其特征在于,步骤二互学习,搭建多智能体系统在线学习框架,使用目标智能体决策权重混合剩余智能体的决策构造监督信号,并引入损失函数使多智能体进行互相学习,以比较智能体决策之间的差异,智能体决策之间的差异通过kl散度进行计算,使用kl散度计算智能体决策之间的差异的公式为:


技术总结
本发明涉及人工智能技术领域,具体公开了基于决策注意力机制的多智能体在线学习方法,利用在线知识蒸馏设计多智能体在线学习方法框架,让多智能体之间互相学习,从而提升每个智能体的性能表现,同时引入Decision‑attention模块,该模块使用attention机制突出不同智能体决策之间的差异性,从而更好地混合不同智能体的决策形成监督信号,有助于提高多智能体系统的学习效率和性能表现,消除决策中的不必要的冲突,并提高合作性能,使其更好地适应复杂和动态的环境。

技术研发人员:安竹林,于新强,徐勇军
受保护的技术使用者:中科(厦门)数据智能研究院
技术研发日:
技术公布日:2024/1/22
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1