一种多智能体协作控制方法、设备、介质及产品

文档序号：37464813发布日期：2024-03-28 18:47阅读：14来源：国知局

本发明涉及智能体控制，特别是涉及一种多智能体协作控制方法、设备、介质及产品。

背景技术：

1、信息交互在多智能体强化学习领域扮演着至关重要的角色。在多智能体任务环境中，由于智能体的局部可观测特性，各智能体对场景的感知存在不全面的问题，例如无人机编队中，各无人机对对场景的感知存在不全面的问题。为了克服这一挑战，通常需要通过智能体感知信息的交互共享，以提升它们对场景的感知能力，从而有效提高智能体间的协作效率。然而，实际应用中智能体的多源感知信息存在大量冗余，这为信息交互带来了挑战。另一方面，智能体间的动态可观测性使得确定信息交互的对象变得复杂。这些问题导致了智能体交互效率的降低，进而限制了它们对场景的全面认知，使得生成有效协作策略变得困难。目前的研究方法主要侧重于通过感知数据的广播式或确定性信息交互，以加强智能体对场景的感知能力。

2、广播式信息交互是通过将感知信息广播给其他智能体，实现了全局信息的即时共享。智能体只需将信息发送到共享的通道，其他智能体便能够接收到这些信息，这有助于智能体更全面地了解整个系统的状态，同时简化了通信的复杂性。然而，广播式交互可能导致信息冗余，可能导致一些智能体接收到并处理对它们并不重要的信息，造成计算资源的浪费。确定性信息交互是通过有选择性地与特定的智能体共享关键信息，从而减少整体的信息冗余，提高信息传递的效率。然而，这种方式主要基于事先设定的规则和条件，可能无法实时地适应多智能体系统的变化，尤其是在动态可观测环境中。

3、综上所述，目前的多智能体信息交互技术主要集中在感知数据的广播或确定性信息交互，实际应用中易造成信息冗余与带宽消耗，并且难以适应动态变化的任务场景。

技术实现思路

1、本发明的目的是提供一种多智能体协作控制方法、设备、介质及产品，提高了智能体协作策略的有效性。

2、为实现上述目的，本发明提供了如下方案：

3、一种多智能体协作控制方法，包括：

4、利用任务场景中智能体与环境实体之间的语义关系进行建模，得到场景语义模型；

5、对所述场景语义模型中各智能体的感知数据进行语义表达；

6、根据各智能体感知数据的语义表述所述场景语义模型中智能体与环境实体之间的空间拓扑关系，构建各智能体的语义信息交互链路；

7、根据各智能体的语义信息交互链路，生成各智能体的场景语义交互认知特征；

8、将各智能体当前时刻的场景语义交互认知特征输入智能体决策模型，得到当前时刻的智能体协作策略；所述智能体决策模型为采用训练集对智能体决策网络训练得到的。

9、可选地，所述场景语义模型表示为<n，e，ragent，rentity，pagent，pentity，r，p>，其中，e为环境实体集合，n为智能体的集合，ragent为任务场景中智能体间的关系类型集合，rentity为任务场景中智能体与环境实体的关系类型集合，pagent为智能体的属性类型集合，pentity为环境实体属性类型集合，r为任务场景中智能体以及环境实体间关系对集合，p为任务场景中实体-属性-属性值集合，其中，实体包括智能体和环境实体。

10、可选地，对所述场景语义模型中各智能体的感知数据进行语义表达，具体包括：

11、采用场景感知函数对智能体i在t时刻的局部感知信息进行处理，得到t时刻智能体i在感知区域内的所能观测到的其他智能体集合、智能体i在感知区域内的所能观测到的环境实体集合、以及智能体和环境实体状态信息集合；

12、遍历t时刻智能体i在感知区域内的所能观测到的其他智能体集合中每个智能体j，得到智能体i与智能体j的关系三元组，记为第一关系三元组；

13、遍历t时刻智能体i在感知区域内的所能观测到的环境实体集合中每个环境实体l，得到智能体i与环境实体l的关系三元组，记为第二关系三元组；

14、将所述第一关系三元组和所述第二关系三元组存入关系集合；

15、从t时刻所述智能体和环境实体状态信息集合中分别获取智能体i的状态信息列表、每个智能体j的状态信息列表和每个环境实体l的状态信息列表；

16、遍历智能体i的状态信息列表，得到智能体i的智能体属性三元组；

17、遍历每个智能体j的状态信息列表，得到每个智能体j的智能体属性三元组；

18、遍历每个环境实体l的状态信息列表，得到每个环境实体l的环境实体属性三元组；

19、将智能体i的智能体属性三元组、每个智能体j的智能体属性三元组和每个环境实体l的环境实体属性三元组存入属性集合；

20、由t时刻智能体i在感知区域内的所能观测到的其他智能体集合、智能体i在感知区域内的所能观测到的环境实体集合、关系集合和属性集合构成t时刻智能体i的感知数据进行语义表达。

21、可选地，根据各智能体感知数据的语义表述所述场景语义模型中智能体与环境实体之间的空间拓扑关系，构建各智能体的语义信息交互链路，具体包括：

22、对于智能体i，从当前时刻智能体i在感知区域内的所能观测到的其他智能体集合中，选择与智能体i距离最近的智能体作为当前时刻智能体i的交互智能体j；

23、从当前时刻智能体i在感知区域内的所能观测到的环境实体集合中选择设定数量个与智能体i和交互智能体j距离最近的环境实体，得到第一环境实体集合；

24、从当前时刻交互智能体j在感知区域内的所能观测到的环境实体集合中选择设定数量个与智能体i和交互智能体j距离最近的环境实体，得到第二环境实体集合；

25、由智能体i、交互智能体j、所述第一环境实体集合和所述第二环境实体集合构成当前时刻智能体i的局部交互邻接矩阵；

26、确定所述局部交互邻接矩阵中每个智能体和每个环境实体的初始特征，每个智能体和每个环境实体的初始特征构成当前时刻智能体i的局部交互特征矩阵；智能体的初始特征包括该智能体的关系集合和属性集合，环境实体的初始特征包括该环境实体的属性三元组；

27、由当前时刻智能体i的局部交互邻接矩阵和局部交互特征矩阵，构成当前时刻智能体i的语义信息交互链路。

28、可选地，根据各智能体的语义信息交互链路，生成各智能体的场景语义交互认知特征，具体包括：

29、将智能体i的局部交互特征矩阵输入多层全连接神经网络，得到隐藏特征编码矩阵；

30、将智能体i的局部交互邻接矩阵和所述隐藏特征编码矩阵输入多层图卷积神经网，得到智能体i的场景语义交互认知特征。

31、可选地，所述隐藏特征编码矩阵表示为：

32、hi＝fmlp(xi；wmlp)；

33、其中，hi表示智能体i的隐藏特征编码矩阵，fmlp()表示所述多层全连接神经网络，xi表示智能体i的局部交互特征矩阵，wmlp表示网络参数。

34、可选地，所述智能体决策网络包括多个并列的策略价值网络，每个策略价值网络对应一个智能体；

35、策略价值网络i用于根据当前时刻智能体i的局部观测信息和场景语义交互认知特征输出智能体i的策略价值；

36、所述智能体决策网络用于基于∈-贪心算法根据当前时刻智能体i的策略价值确定当前时刻智能体i的策略。

37、本发明还提供了一种计算机设备，包括：存储器、处理器以存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序以实现上述多智能体协作控制方法的步骤。

38、本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述多智能体协作控制方法的步骤。

39、本发明还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述多智能体协作控制方法的步骤。

40、根据本发明提供的具体实施例，本发明公开了以下技术效果：

41、本发明通过感知数据的语义化表达，降低原始感知数据的冗余，并通过交互对象的动态选择，增强对动态变化环境的适应性，提高智能体对场景的认知能力，从而形成有效的协作策略。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：谢少荣,李洋,骆祥峰,王欣芝,张瀚
技术所有人：上海大学
我是此专利的发明人

上一篇：一种储气筒支架的制作方法
上一篇：一种便于使用的行星轮内孔鼓形滚道加工设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。