一种多智能体强化学习方法及相关装置与流程

文档序号：36411789发布日期：2023-12-19 03:08阅读：来源：国知局

技术特征：

1.一种多智能体强化学习方法，其特征在于，所述方法应用于包括多个智能体的学习环境，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述稠密结构用于基于稠密注意力机制以及所述观测值提取得到所述第一状态特征，所述稀疏结构用于基于稀疏注意力机制以及所述观测值提取得到所述第二状态特征。

3.根据权利要求1或2所述的方法，其特征在于，所述第一价值函数用于指示所述第一智能体在所述第一状态特征下选择不同动作所带来的价值，所述第二价值函数用于指示所述第一智能体在所述第二状态特征下选择不同动作所带来的价值。

4.根据权利要求3所述的方法，其特征在于，所述通过时序差分方法确定所述第一价值函数对应的第一损失函数以及所述第二价值函数对应的第二损失函数，包括：

5.根据权利要求4所述的方法，其特征在于，所述预置策略包括贪心策略或∈-贪心策略，其中所述贪心策略用于选择价值最高的动作，所述∈-贪心策略用于基于第一概率选择价值最高的动作以及基于第二概率选择所述价值最高的动作以外的其他动作。

6.根据权利要求5所述的方法，其特征在于，所述第一概率与所述智能体网络的训练次数具有正相关关系，所述第二概率与所述智能体网络的训练次数具有负相关关系。

7.根据权利要求1-6任意一项所述的方法，其特征在于，所述智能体网络还包括循环神经网络，所述循环神经网络用于对所述观测值以及所述智能体所执行的历史动作进行编码，以得到编码特征；

8.根据权利要求1-7任意一项所述的方法，其特征在于，所述基于所述第一损失函数和所述第二损失函数训练所述智能体网络，包括：

9.根据权利要求1-8任意一项所述的方法，其特征在于，在所述智能体网络训练完毕后，所述智能体网络中的所述稠密结构用于执行推理智能体动作的任务，且所述智能体网络中的所述稀疏结构不用于执行所述任务。

10.根据权利要求1-9任意一项所述的方法，其特征在于，所述学习环境包括自动驾驶环境、机器人协同作业环境或多角色互动游戏环境。

11.一种多智能体强化学习装置，其特征在于，所述装置应用于包括多个智能体的学习环境，所述装置包括：

12.根据权利要求11所述的装置，其特征在于，所述稠密结构用于基于稠密注意力机制以及所述观测值提取得到所述第一状态特征，所述稀疏结构用于基于稀疏注意力机制以及所述观测值提取得到所述第二状态特征。

13.根据权利要求11或12所述的装置，其特征在于，所述第一价值函数用于指示所述第一智能体在所述第一状态特征下选择不同动作所带来的价值，所述第二价值函数用于指示所述第一智能体在所述第二状态特征下选择不同动作所带来的价值。

14.根据权利要求13所述的装置，其特征在于，所述处理单元，具体用于：

15.根据权利要求14所述的装置，其特征在于，所述预置策略包括贪心策略或∈-贪心策略，其中所述贪心策略用于选择价值最高的动作，所述∈-贪心策略用于基于第一概率选择价值最高的动作以及基于第二概率选择所述价值最高的动作以外的其他动作。

16.根据权利要求15所述的装置，其特征在于，所述第一概率与所述智能体网络的训练次数具有正相关关系，所述第二概率与所述智能体网络的训练次数具有负相关关系。

17.根据权利要求11-16任意一项所述的装置，其特征在于，所述智能体网络还包括循环神经网络，所述循环神经网络用于对所述观测值以及所述智能体所执行的历史动作进行编码，以得到编码特征；

18.根据权利要求11-17任意一项所述的装置，其特征在于，所述处理单元，具体用于：

19.根据权利要求11-18任意一项所述的装置，其特征在于，在所述智能体网络训练完毕后，所述智能体网络中的所述稠密结构用于执行推理智能体动作的任务，且所述智能体网络中的所述稀疏结构不用于执行所述任务。

20.根据权利要求11-19任意一项所述的装置，其特征在于，所述学习环境包括自动驾驶环境、机器人协同作业环境或多角色互动游戏环境。

21.一种多智能体强化学习装置，其特征在于，包括存储器和处理器；所述存储器存储有代码，所述处理器被配置为执行所述代码，当所述代码被执行时，所述数据处理装置执行如权利要求1至10任意一项所述的方法。

22.一种多智能体强化学习系统，其特征在于，包括多个如权利要求21所述的多智能体强化学习装置，且不同的多智能体强化学习装置用于处理不同的智能体。

23.一种计算机存储介质，其特征在于，所述计算机存储介质存储有指令，所述指令在由计算机执行时使得所述计算机实施权利要求1至10任意一项所述的方法。

24.一种计算机程序产品，其特征在于，所述计算机程序产品存储有指令，所述指令在由计算机执行时使得所述计算机实施权利要求1至10任意一项所述的方法。

技术总结
一种多智能体强化学习方法，应用于人工智能技术领域。该多智能体强化学习方法通过在智能体网络中引入并行的稠密结构和稀疏结构，基于稀疏结构来使得第一智能体只关注部分智能体，从而忽略部分对第一智能体无关的信息，提高智能体网络的收敛效率；并且，基于稠密结构来使得第一智能体能够有侧重地关注第一智能体之外所有智能体，保证智能体网络能够在训练过程中实现有效收敛。基于并行的稠密结构和稀疏结构，在保证智能体网络能够实现有效收敛的同时，提高智能体网络的收敛效率，从而提高多智能体强化学习的效率。

技术研发人员：李银川,邵云峰
受保护的技术使用者：华为技术有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

当前第2页1 2