本发明涉合作型多智能体强化学习,具体涉及一种基于先验知识超图学习的合作型多智能体强化学习方法。
背景技术:
1、合作型可部分观测的多智能体强化学习可以被建模为分散式部分可观测决策过程(decentralized partially observable decision processes,简称dec-pomdps)。dec-pomdps中智能体与环境的交互过程可用表示。具体来说,每个时间步t,智能体αi,i∈{1,2,3,…,n}根据其局部观测信息选择个体动作并组成联合动作作用于环境中。环境状态根据状态转移函数转移到新状态并给予智能体奖励所有智能体共享奖励函数r(s,u),即得到相同奖励值。智能体随后通过观测函数获得新的局部观测并不断重复上述过程。dec-pomdps的最终目标是令智能体的决策最大化累计折扣奖励的期望值,即最大化其中γ∈[0,1)为折扣因子,τ为动作观测历史。
2、通常情况下,合作型多智能体强化学习的环境将根据智能体的联合动作给予智能体反馈,即所有智能体共享同一个奖励函数,因此准确评估单个智能体的动作决策对团队的贡献是训练阶段的关键问题。价值函数分解算法是通过神经网络拟合智能体个体价值函数与总体价值函数之间的复杂关系,并利用时序差分误差实现总体与个体策略网络的同步更新,但是未能充分利用个体与个体之间潜在的合作关系评估单个智能体对团队的贡献。
3、为表示智能体之间的群组合作关系以更准确估计个体价值函数,[bai,y.;gong,c.;zhang,b.;fan,g.;hou,x.;and lu,y.2022.cooperative multi-agent reinforcementlearning with hypergraph convolution.in international joint conference onneural networks,(ijcnn-22),1-8.]提出利用超图结构对智能体的群组合作关系进行建模,利用超图卷积更新后的个体价值函数拟合与总体价值函数之间的关系。普通的图(graph)结构每条边最多连接两个节点,至多只能表示两个智能体之间的合作关系,无法适应超过两个智能体的群组合作关系表示需求。超图(hypergraph)作为图的扩展结构,不限制每条超边连接节点的数量,可以自然地表示多个智能体之间的群组合作关系,并为合作关系学习提供更大灵活性。然而,该算法仅使用神经网络构建超图的方式在随机性较大的场景中学习有效超图结构变得困难,导致智能体合作效率并未有效提升。将智能体之间的合作关系建模为超边,并将超图结构用于对个体价值函数的估计,可以更准确地评估每个智能体对团队的贡献。所以,构建有助于智能体学习合作策略的超图结构成为亟待解决的核心问题。
技术实现思路
1、本发明的目的是提供一种用于基于先验知识的超图学习方法,解决如何通过对智能体群组合作关系建模以提高智能体之间协作效率的问题。
2、为达到上述目的,本发明提供如下方案:
3、基于先验知识超图学习的合作型多智能体强化学习方法,步骤如下:
4、步骤1:超图的关联矩阵的计算,包括:首先获取所有智能体的局部观测信息向量以及观测信息向量的语义信息;将观测数据分别输入根据先验规则模块和神经网络得到两个超图关联矩阵表示,以及两个矩阵之间的均方误差。
5、步骤2:个体价值函数的计算,包括:获取智能体的局部观测信息和历史信息并输入深度循环q神经网络(deep recurrent q-networks,drqn),输出未考虑合作关系的个体价值函数。将drqn的输出值与步骤1中神经网络输出的超图关联矩阵输入超图卷积模块,得到更新后的个体价值函数。
6、步骤3.总体价值函数的计算,包括:获取环境全局状态的向量表示以及步骤2得到的更新后的个体价值函数,并输入到混合神经网络(mixing networks)中,得到总体价值函数。并利用时序差分误差对和步骤1得到的均方误差更新网络参数。
7、本发明的有益效果:
8、1.本发明提出了一种超图构建的规则,使得依据智能体观测构建的超图结构具有一定解释性,为智能体合作关系学习提供偏好。
9、2.本发明使用基于规则和神经网络结合的方式构建超图,通过先验知识和环境反馈两个误差学习超图结构。在随机性较大的环境中,其提高利于协作的超图构建速度,并提高智能体合作效率。
1.基于先验知识超图学习的合作型多智能体强化学习方法,其特征在于,步骤如下:
2.如权利要求1所述的基于先验知识超图学习的合作型多智能体强化学习方法,其特征在于,所述的步骤1具体操作如下:
3.如权利要求1或2所述的基于先验知识超图学习的合作型多智能体强化学习方法,其特征在于,所述的步骤2具体操作如下:
4.如权利要求1或2所述的基于先验知识超图学习的合作型多智能体强化学习方法,其特征在于,所述的步骤3具体操作如下:
5.如权利要求3所述的基于先验知识超图学习的合作型多智能体强化学习方法,其特征在于,所述的步骤3具体操作如下:
6.如权利要求2所述的基于先验知识超图学习的合作型多智能体强化学习方法,其特征在于,所述的步骤1.2中,λt采用指数衰减形式,λt随训练步数增大而减小,如公式(4)所示,其中λ0为初始权重,μ为衰减因子;