1.一种多智能体强化学习方法,其特征在于,所述方法应用于包括多个智能体的学习环境,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述稠密结构用于基于稠密注意力机制以及所述观测值提取得到所述第一状态特征,所述稀疏结构用于基于稀疏注意力机制以及所述观测值提取得到所述第二状态特征。
3.根据权利要求1或2所述的方法,其特征在于,所述第一价值函数用于指示所述第一智能体在所述第一状态特征下选择不同动作所带来的价值,所述第二价值函数用于指示所述第一智能体在所述第二状态特征下选择不同动作所带来的价值。
4.根据权利要求3所述的方法,其特征在于,所述通过时序差分方法确定所述第一价值函数对应的第一损失函数以及所述第二价值函数对应的第二损失函数,包括:
5.根据权利要求4所述的方法,其特征在于,所述预置策略包括贪心策略或∈-贪心策略,其中所述贪心策略用于选择价值最高的动作,所述∈-贪心策略用于基于第一概率选择价值最高的动作以及基于第二概率选择所述价值最高的动作以外的其他动作。
6.根据权利要求5所述的方法,其特征在于,所述第一概率与所述智能体网络的训练次数具有正相关关系,所述第二概率与所述智能体网络的训练次数具有负相关关系。
7.根据权利要求1-6任意一项所述的方法,其特征在于,所述智能体网络还包括循环神经网络,所述循环神经网络用于对所述观测值以及所述智能体所执行的历史动作进行编码,以得到编码特征;
8.根据权利要求1-7任意一项所述的方法,其特征在于,所述基于所述第一损失函数和所述第二损失函数训练所述智能体网络,包括:
9.根据权利要求1-8任意一项所述的方法,其特征在于,在所述智能体网络训练完毕后,所述智能体网络中的所述稠密结构用于执行推理智能体动作的任务,且所述智能体网络中的所述稀疏结构不用于执行所述任务。
10.根据权利要求1-9任意一项所述的方法,其特征在于,所述学习环境包括自动驾驶环境、机器人协同作业环境或多角色互动游戏环境。
11.一种多智能体强化学习装置,其特征在于,所述装置应用于包括多个智能体的学习环境,所述装置包括:
12.根据权利要求11所述的装置,其特征在于,所述稠密结构用于基于稠密注意力机制以及所述观测值提取得到所述第一状态特征,所述稀疏结构用于基于稀疏注意力机制以及所述观测值提取得到所述第二状态特征。
13.根据权利要求11或12所述的装置,其特征在于,所述第一价值函数用于指示所述第一智能体在所述第一状态特征下选择不同动作所带来的价值,所述第二价值函数用于指示所述第一智能体在所述第二状态特征下选择不同动作所带来的价值。
14.根据权利要求13所述的装置,其特征在于,所述处理单元,具体用于:
15.根据权利要求14所述的装置,其特征在于,所述预置策略包括贪心策略或∈-贪心策略,其中所述贪心策略用于选择价值最高的动作,所述∈-贪心策略用于基于第一概率选择价值最高的动作以及基于第二概率选择所述价值最高的动作以外的其他动作。
16.根据权利要求15所述的装置,其特征在于,所述第一概率与所述智能体网络的训练次数具有正相关关系,所述第二概率与所述智能体网络的训练次数具有负相关关系。
17.根据权利要求11-16任意一项所述的装置,其特征在于,所述智能体网络还包括循环神经网络,所述循环神经网络用于对所述观测值以及所述智能体所执行的历史动作进行编码,以得到编码特征;
18.根据权利要求11-17任意一项所述的装置,其特征在于,所述处理单元,具体用于:
19.根据权利要求11-18任意一项所述的装置,其特征在于,在所述智能体网络训练完毕后,所述智能体网络中的所述稠密结构用于执行推理智能体动作的任务,且所述智能体网络中的所述稀疏结构不用于执行所述任务。
20.根据权利要求11-19任意一项所述的装置,其特征在于,所述学习环境包括自动驾驶环境、机器人协同作业环境或多角色互动游戏环境。
21.一种多智能体强化学习装置,其特征在于,包括存储器和处理器;所述存储器存储有代码,所述处理器被配置为执行所述代码,当所述代码被执行时,所述数据处理装置执行如权利要求1至10任意一项所述的方法。
22.一种多智能体强化学习系统,其特征在于,包括多个如权利要求21所述的多智能体强化学习装置,且不同的多智能体强化学习装置用于处理不同的智能体。
23.一种计算机存储介质,其特征在于,所述计算机存储介质存储有指令,所述指令在由计算机执行时使得所述计算机实施权利要求1至10任意一项所述的方法。
24.一种计算机程序产品,其特征在于,所述计算机程序产品存储有指令,所述指令在由计算机执行时使得所述计算机实施权利要求1至10任意一项所述的方法。