基于时态均衡分析的多智能体多任务分层连续控制方法

文档序号:32871210发布日期:2023-01-07 03:55阅读:95来源:国知局
基于时态均衡分析的多智能体多任务分层连续控制方法

1.本发明涉及多智能体多任务分层连续控制方法,尤其涉及一种基于时态均衡分析的多智能体多任务分层连续控制方法。


背景技术:

2.多智能体系统是多个智能体在同一环境以合作或对抗的方式互动,以最大限度完成任务并实现特定目标的分布式计算系统,目前被广泛应用于复杂环境下的任务调度、资源分配、协同决策支持、自主化作战等领域。随着多智能体与物理环境之间的交互日益密切,系统在连续多任务控制问题上的复杂度也不断增加。ltl(linear temporal logic,线性时态逻辑)是一种可以描述非马尔可夫的复杂规约的形式化语言,在多智能体系统中引入 ltl来设计任务规约,可以捕捉环境和任务的时态属性来表达复杂任务约束,在多无人机路径规划的案例中,ltl可用于描述任务指令,如始终避开某些障碍区域(安全性)、巡回并按顺序经过某几个区域(顺序性)、途经某区域后必须到达另一区域(反应性)、最终会经过某个区域(活性)等。通过对ltl规约进行时态均衡分析可以生成多智能体的顶层控制策略,将复杂任务抽象成子任务并逐步解决。然而时态均衡分析为双指数时间复杂度,在不完美信息条件下的时态均衡分析则更为复杂。同时,子任务的学习通常涉及到连续的状态空间和动作空间,如多无人机的状态空间可为连续的传感器信号,动作空间可为连续的电机指令。近年来,强化学习的策略梯度算法逐渐成为智能体底层连续控制的核心研究方向。然而,将策略梯度算法应用在连续任务控制中存在奖励稀疏、过估计、陷入局部最优等问题,使得算法的可扩展性较差,难以用于涉及到高维度状态空间和动作空间的大规模多智能体系统中。
3.已知的时态均衡分析为双指数时间复杂度,而且在不完美信息条件下的时态均衡分析则更为复杂;同时,子任务的学习通常涉及到连续的状态空间和动作空间,如无人机的状态空间通常为连续的传感器信号,而动作空间通常为连续的电机指令。庞大的状态空间和动作空间的组合可能导致在使用策略梯度算法进行连续控制训练时存在收敛慢、易陷入局部最优、奖励稀疏、参数敏感等实际问题。这些问题也导致算法的可扩展性较差,难以用于涉及到高维度状态空间和动作空间的大规模多智能体系统中。因此需要解决如何进行时态均衡分析生成顶层抽象任务表征并将其应用于底层的连续系统的控制的技术问题。


技术实现要素:

4.发明目的:本发明的目的是提供一种能提高多智能体系统规约的可解释性以及可用性的基于时态均衡分析的多智能体多任务分层连续控制方法。
5.技术方案:本发明的控制方法,包括步骤如下:
6.s1,基于时态逻辑构建多智能体多任务博弈模型,进行时态均衡分析并合成多智能体顶层控制策略;
7.s2,构建规约自动补全机制,通过增加环境假设完善有依赖关系的任务规约;
8.s3,构建顶层控制策略与底层深度确定性策略梯度算法的连接机制,并基于此连接机制构建多智能体的连续任务控制器。
9.进一步,所述构建多智能体多任务博弈模型为:
[0010][0011]
其中,n表示博弈智能体集合;s和a分别表示博弈模型的状态集合以及动作集合;s0为初始状态;表示在单个状态s∈s上所有的智能体采取动作集合后转移到下一个状态的状态转移函数,表示不同智能体的动作集合的一个向量;λ∈s
→2ap
表示状态到原子命题的标记函数;(γi)
i∈n
为每个智能体i的规约;ψ表示整个系统需要完成的规约;
[0012]
对每个智能体i构建不可行域使得智能体i在所在的集合没有偏离当前策略集合的倾向,表达式如下:
[0013][0014]
其中,中存在策略集合使得智能体i的所有策略σi与其他策略组合都不能满足γi;表示策略集合中不包含第i个智能体的策略组合;表示“存在”;表示“不符合”;
[0015]
然后计算判断在这个交集中是否存在轨迹π满足(ψ∧∧
i∈w
γi),并采用模型检验的方法生成每个智能体的顶层控制策略。
[0016]
进一步,步骤s2中,构建规约自动补全机制的详细步骤如下:
[0017]
s21,增加环境假设精化任务规约
[0018]
通过选择ε∈e加入输家l的环境规约ψ,采用反策略模式自动生成新规约能实现,表达式如下:
[0019][0020]
其中,e为环境规约集合;
[0021]
生成新规约的详细步骤如下:
[0022]
s211,计算原规约的取反形式的策略,为合成的有限状态转换器形式的策略;g表示从当前时刻起,规约总是为真;f表示规约在以后某个时刻会真;
[0023]
s212,在有限状态转换器上设计满足形式fgψe规约的模式;
[0024]
s213,通过生成的模式生成规约并取反;
[0025]
s22,对于第一智能体的任务依赖于第二智能体的任务,在时态均衡条件下,首先通过计算对所有智能体a∈n的策略,合成有限状态转换器的形式;然后基于策略设计满足形式gfψe的模式并采用该模式生成εa′
;根据步骤s21寻找所有智能体b∈m 的规约精化集合εb;
[0026]
然后判断对于所有的规约是否满足若满足,则完成存在依赖关系的任
务规约的精化;若不满足,则迭代构建εa′
及εb直至满足以下公式:
[0027][0028]
进一步,在生成新规约的情况下,对于所有的参与者在加入环境假设后规约是否合理且可实现进行判断:
[0029]
若可实现,则完成规约的精化;
[0030]
若合理,但是存在有参与者在加入环境假设后规约不能实现的情况,则迭代构建ε

,使得能实现。
[0031]
进一步,步骤s3中,构建顶层控制策略与底层深度确定性策略梯度算法的连接机制,并基于此连接机制构建多智能体的连续任务控制器的具体实现步骤如下:
[0032]
s31,根据时态均衡分析,获得博弈模型中每个参与者的策略将其扩展为其中其中并将其作为奖励函数用于多智能体环境的扩展马尔可夫决策过程中;多智能体环境的扩展马尔可夫决策过程的表达式如下:
[0033][0034]
其中,n表示博弈智能体集合;p和q分别表示环境的状态以及多智能体采取的动作集合;h表示状态转移的概率;ζ表示t的衰减系数;表示状态转移到原子命题的标记函数;ηu表示环境在采取智能体i策略时获得的收益,为智能体i在p∈p采取动作q∈q后转移到p

∈p,其在ηu上的状态也将从u∈uu∪fu转移到并获得奖励“《》”表示元组,“∪”表示并集;
[0035]
s32,将ηi扩展为状态转移确定的带有衰减函数ζr的mdp形式,初始化所有的使得当时,为0;当时,为1;
[0036]
然后通过值迭代的方法确定每个状态的值函数v(u)
*
,并将收敛后的v(u)
*
作为势能函数加入到奖励函数中,则t的奖励函数r(p,q,p

)的表达式如下:
[0037][0038]
s33,每个智能体i拥有一个包含带有参数θ的动作网络μ(p∣θi),并共享一个带有参数ω评价网络针对评价网络参数ω构建损失函数j(ω),并根据网络的梯度反向传播更新网络,损失函数j(ω)的表达式如下:
[0039][0040]
其中,r
t
是由步骤s32计算所得的奖励值,是由步骤s32计算所得的奖励值,是由步骤s32计算所得的奖励值,以及v(p∣ω,β)设计为全连接层网络分别评估状态值和动作优势,α及β分别为两个网络的参数;d为从经验回放缓冲区数据集d中随机采样的数据;
[0041]
最后根据评价网络参数ω和行为网络参数θi分别对目标评价网络参数和行为网络参数进行软更新。
[0042]
进一步,在采用异策略算法进行梯度更新时,根据蒙特卡罗方法估算的期望值,将随机采样的数据代入如下公式进行无偏差估计:
[0043][0044]
其中,表示微分算子。
[0045]
本发明与现有技术相比,其显著效果如下:
[0046]
1、时态逻辑可用于捕捉环境以及任务的时态属性来表达复杂任务约束,比如按照某个顺序来经过几个区域,即顺序性;始终避开某些障碍区域,即安全性;在到达某些区域之后必须到达另外的某些区域,即反应性;最终经过某个区域,即活性,提高了任务描述的时态属性;
[0047]
2、通过精化多智能体的任务规约,提高多智能体系统规约的可解释性以及可用性;
[0048]
3、通过连接顶层时态均衡策略与底层深度确定性策略梯度算法,解决了目前研究存在的可扩展性差、易陷入局部最优、奖励稀疏等实际问题。
附图说明
[0049]
图1为本发明的流程图;
[0050]
图2为时态均衡分析流程图;
[0051]
图3为实施例中控制器的结构图;
[0052]
图4为移动无人机在实施例中的规约精化过程。
具体实施方式
[0053]
下面结合说明书附图和具体实施方式对本发明做进一步详细描述。
[0054]
如图1所示,本发明的包括步骤如下:
[0055]
步骤一,基于时态逻辑构建多智能体多任务博弈模型,进行时态均衡分析并合成多智能体顶层控制策略。
[0056]
步骤11,首先构建多智能体多任务博弈模型:
[0057][0058]
其中,n表示博弈参与者集合;s和a分别表示博弈模型的状态集合以及动作集合;s0为初始状态集合;表示在单个状态s∈s上所有的参与者采取动作集合后转移到下一个状态的状态转移函数(也就是一个状态对应多个智能体动作的集合,然后再到下一个状态),表示不同智能体的动作集合的一个向量;λ∈s
→2ap
表示状态集合到原子命题的标记函数(ap:atomic proposition,原子命题);(γi)
i∈n
为智能体i的规约,n为智能体总数(或博弈智能体集合);ψ表示整个系统需要完成的规约。
[0059]
为捕捉环境对系统的约束以及任务的时态属性,采用的
形式构建每个参与者的规约γ以及整个系统需要完成的规约ψ,其中g和f为时态算子,g表示从当前时刻起,规约总是为真;f表示规约在以后某个时刻(最终)会真;“∧”表示“与”; m表示在规约中假设规约的数量(≥前gf的数量),n表示保证规约的数量(≥后gf的数量)。智能体i的策略σi可表示为有限状态转换器其中为与智能体 i相关的状态;为初始状态,fi为终止状态;aci表示参与者i采取的动作; ui表示状态转移函数;表示动作确定函数。
[0060]
根据单个状态s以及每个智能体的策略集合即可确定博弈模型的具体轨迹可以通过判断轨迹是否满足智能体i的规约γi来定义其对当前策略集合的倾向智能体的策略集合符合时态均衡,当且仅当对于所有的智能体i及其对应的所有的策略σi,满足倾向的条件。
[0061]
步骤12,然后构建时态均衡分析及策略合成模型。
[0062]
对每个智能体i构建不可行域使得智能体i在所在的集合没有偏离当前策略集合的倾向,公式如下:
[0063][0064]
其中,中存在策略集合使得智能体i的所有策略σi与其他策略组合都不能满足γi;表示“存在”;表示“不符合”。表示策略集合中不包含第i个智能体的策略组合。
[0065]
然后计算判断在这个交集中是否存在轨迹π满足(ψ∧∧
i∈w
γi),并采用模型检验的方法生成每个智能体i的顶层控制策略;w表示可以满足规约的智能体集合;l表示不满足规约的智能体集合,即输家。
[0066]
步骤二,构建规约自动补全机制,通过增加环境假设完善有依赖关系的任务规约。
[0067]
步骤21,增加环境假设精化任务规约。
[0068]
在时态均衡策略中,存在部分输家的规约不可实现的问题。因此反策略自动生成新引入的环境规约集合e的模式,可以通过选择ε∈e加入输家l的环境规约ψ,让如公式(3) 的新规约可实现。
[0069][0070]
其中,反策略模式首先计算原规约的取反形式的策略,即合成其中,反策略模式首先计算原规约的取反形式的策略,即合成的有限状态转换器形式的策略。
[0071]
然后在有限状态转换器上设计满足形式如fgψe规约的模式,即通过深度优先算法寻找有限状态转换器的强连接状态并将其作为符合规约的模式;通过生成的模式生成规约并取反,即生成新规约。在此情况下,判断对于所有的智能体在加入环境假设后规约是否合理且可实现,若可实现,则完成规约的精化;若合理,但是存在有智能体在加入环境假设后规约不可实现的情况,则迭代构建ε

使得可实现。
[0072]
步骤22,精化存在依赖关系的任务规约,对于智能体的任务依赖于智能体
的任务,在时态均衡条件下,首先通过计算对所有智能体a∈n的策略,合成有限状态转换器的形式;然后基于策略设计满足形式如gfψe的模式并采用该模式生成εa′
;采用上述增加环境假设精化任务规约的方法,寻找所有智能体b∈m的规约精化集合εb。然后判断对于所有的规约是否满足若满足,则完成存在依赖关系的任务规约的精化;若不满足,则迭代构建εa′
及εb直至满足公式(4):
[0073][0074]
步骤三,构建顶层控制策略与底层深度确定性策略梯度算法的连接机制,并基于此框架构建多智能体的连续任务控制器,流程图如图2所示。
[0075]
步骤31,根据时态均衡分析可以获得博弈模型中每个参与者的策略将其扩展为其中其中并将其作为奖励函数用于多智能体环境的扩展马尔可夫决策过程中,如公式(5)所示:
[0076][0077]
其中,n表示博弈智能体集合;p和q分别表示环境的状态以及多智能体采取的动作集合;h表示状态转移的概率;ζ表示t的衰减系数;表示状态转移到原子命题的标记函数;ηi表示环境在采取智能体i策略时获得的收益,即智能体i在p∈p采取动作q∈q后转移到p

∈p,其在ηi上的状态也将从u∈ui∪fi转移到并获得奖励“《》”表示元组,“∪”表示并集。
[0078]
步骤32,为计算t的奖励函数r(p,q,p

),将ηi扩展为状态转移确定的带有衰减函数ζr的mdp(markov decision process,马尔科夫决策过程)形式,初始化所有的使得当时,为0;当时,为1;然后通过值迭代的方法确定每个状态的值函数v(u)
*
,即每次迭代选取的最大值,并将收敛后的v(u)
*
作为势能函数加入到奖励函数中,如公式(6)所示:
[0079][0080]
步骤33,每个智能体i拥有一个包含带有参数θ的动作网络μ(p∣θi),并共享一个带有参数ω评价网络
[0081]
如图3所示,首先智能体i根据行为策略选择动作与环境互动,而环境根据基于时态均衡策略的奖励塑造方法返回对应奖励,并将此状态转移过程存入经验回放缓冲区作为数据集d;然后从数据集d中随机采样d个数据作为在线策略网络及在线q网络的训练数据,用于动作网络与评价网络的训练。针对评价网络参数ω构建以公式(7)作为损失函数j(ω),并根据网络的梯度反向传播更新网络。
[0082][0083]
其中,r
t
是由步骤32计算所得的奖励值,
以及v(p∣ω,β)设计为全连接层网络分别评估状态值和动作优势,α及β分别为两个网络的参数。而动作中加入少量符合的随机噪声∈进行正则化防止过拟合。其中,clip为截断函数,截断范围为-c到c,为符合正态分布的噪声。其中为正态分布。
[0084]
在采用异策略算法进行梯度更新时,根据蒙特卡罗方法估算的期望值,即将随机采样的数据代入公式(8)进行无偏差估计:
[0085][0086]
其中,表示微分算子。
[0087]
最后根据评价网络参数ω和行为网络参数θi分别对目标评价网络参数和行为网络参数进行软更新。
[0088]
本实施例中,以多无人机系统协同路径规划完成循环采集任务为例,采用两台无人机作为案例解释本发明的实现步骤。
[0089]
首先无人机同处在一个被分成8个区域的空间内,并且因为安全设置不能同一时刻处在同一个区域中。每台无人机只能待在原地或者移动到相邻的单元格中。本实施例采用表示无人机ri所处的位置,初始状态即无人机r1位于区域1 内,无人机r2位于区域8内,如图4所示。本实施例采用时态逻辑描述任务规约,如始终避开某些障碍区域(安全性)、巡回并按顺序经过某几个区域(顺序性)、途经某区域后必须到达另一区域(反应性)、最终会经过某个区域(活性)等,其中r1和r2的任务规约分别为φ1和φ2。φ1仅包含r1的初始位置、路径规划规则以及无限频繁地访问区域4的目标。φ2包含r2的初始位置,路径规划规则以及无限频繁访问区域4的目标,同时还需要避免与r1发生碰撞。由于r1会不断访问区域4,所以r2的任务依赖于r1的任务。对于r1来说,一个成功的策略是从初始位置移动到2号区域,然后移动到3号区域,然后在4号区域和3号区域之间来回移动,一直这样循环下去。
[0090]
以下是根据用时态逻辑描述的r1规约集合:
[0091]
a)r1最终只在区域3和4之间移动:
[0092]
b)r1最终是位于区域3或者4:
[0093]
c)r1当前位于区域3,那么接下来就是移动到区域4,反之,若位于区域4,则向区域3移动:其中,“〇”表示下一个状态的时态算子,“∧”表示“与”;
[0094]
d)r1最终位于区域3或者4后,就一直处于该位置:
[0095]
e)r1的位置必然是区域1、2、3、4中的一个:
[0096]
f)r1在2号区域后必然移动到3号区域,若在3号,接着必然去到区域4:在2号区域后必然移动到3号区域,若在3号,接着必然去到区域4:
[0097]
首先,根据时态均衡分析,r1与r2不可达到时态均衡,比如r1的策略为从区域1移动到目标区域4,并永远停留在那里,而在这种情况下r2的任务规约永远不能被满足。基于算
法1提出的加入环境假设的规约精化方法,详见表1,可求出对于r2新增的环境规约,如下列时态逻辑规约:
[0098]
g)r1应该无限经常移动出目标区域4:
[0099]
h)r1绝对不能进入目标区域4:
[0100]
i)若r1在目标区域4中,则下一步需要离开该区域:
[0101]
其中,通过专家经验判断g)以及i)为合理的假设,因此可以将此两个规约作为环境假设加入φ2,并作为保证加入φ1,最后由时态均衡分析分别求得r1以及r2的顶层控制策略。
[0102]
表1加入环境假设的规约精化伪代码
[0103][0104][0105]
在得出智能体的顶层控制策略后,应用于多无人机的连续控制中。本实施例中多无人机的连续状态空间如公式(9):
[0106]
p={pj∣pj=[xj,yj,zj,vj,uj,wj]}
ꢀꢀꢀ
(9)
[0107]
其中,j表示为第j∈n台无人机,xj、yj、zj为第j台无人机在空间坐标系中的坐标, vj、uj、wj为第j台无人机在空间上的速度。无人机的状态空间如下公式所示:
[0108][0109]
其中,σ为偏航角控制,为俯仰角控制,ω为滚转角控制。
[0110]
在获得时态均衡的顶层策略之后,首先计算带有势能的奖励函数r

(p,q,p

),并将其应用于算法2-基于时态均衡策略的多智能体深度确定性策略梯度算法中,详见见表2,进行多无人机的连续控制。
[0111]
表2基于时态均衡策略的多智能体深度确定性策略梯度算法伪代码
[0112]
[0113][0114]
在本实施例中,每个无人机j拥有一个动作网络μ(p∣θj),参数为θ,并共享一个评价网络参数为ω。开始,无人机i根据策略θi与环境交互,通过基于势能函数的奖励约束返回对应奖励,并将该状态转移过程存入经验回放缓冲区作为数据集d,并随机抽取经验对评价网络以及动作网络分别进行基于策略梯度算法的网络更新。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1