本发明涉及大语言模型赋能的异构多机器人协同,具体而言,涉及一种空地协同自适应跟踪方法。
背景技术:
1、机器人被誉为“制造业皇冠顶端的明珠”,以智能化和自主化为主要特征的机器人受到世界各科技强国越来越多的重视。然而,单机器人的通体功能、任务执行效率与容错能力都相对有限,难以适应复杂任务与动态环境。因此,许多研究者开始将目光转向任务执行效率更高且具备环境自适应性的多机器人集群系统。由空中机器人和地面机器人组成的异构多机器人协作系统是一种典型的多机器人集群系统,它结合了空中群体与地面群体的互补优势,将地面机器人运动的二维平面扩展到三维空间,利用空中机器人灵活机动、视角广阔的优势,结合地面机器人高负载、强计算推理的能力,在任务执行效率、环境自适应性与容错能力等方面均显现出较强优势,已成功代替人类在危险、污秽、极端温度的环境中完成搜索救援、自主探索、巡逻修检等任务。
2、然而,面向复杂任务与动态环境,当前的空地协同系统仍面临低智能性、弱自主性等挑战。基于此,将人工智能技术和自然群智理论应用于空地协同系统是提升个体智能和群体智慧的有效方案。尽管近年来以深度学习为代表的人工智能(artificialintelligence, 简称为ai)技术在机器人感知、决策与控制等领域得到广泛应用,但由于空地机器人在动态的环境中执行负责任务,需要为空地机器人设计更加智能的决策方法,以应对动态环境。与此同时,由于空地协同算法设计开发周期较长,需要科研人员投入大量的时间成本,尤其是直接将设计的空地协同算法部署于空地机器人的物理实体,会花费大量的时间调试测试,并且如果协同算法不鲁棒,有可能会损坏物理实体。因此目前大量科研人员选择在算法部署真实环境之前,先在模拟环境中进行测试算法性能。然而目前并没有一款完全面向空地协同的模拟环境,需要科研人员设计考虑空地机器人的结构设计、通信算法和感知算法等空地协同过程中必要步骤。
3、现有许多研究工作开展空地协同的研究。最早的工作从规划的角度出发,基于经典控制理论在静态环境中跟踪目标。这些研究往往忽略了感知层的信息来源,而依赖于预先处理的数据。并且他们为空地机器人设置相同的模型,即采用同构策略来解决空地异构机器人协作问题。然而,这种方法并没有充分利用空中和地面机器人的互补优势。长期以来,多智能体增强深度学习(multi-agent deep reinforcement learning,,简称为madrl)已被广泛应用于机器人协作,尤其是在决策和规划任务中。为了解决环境不稳定的问题,大多数工作都遵循了集中式训练分布式执行(ctde)框架。这种方法需要在训练期间通过实时沟通获得全局信息。然而,由于高带宽传输要求,这种情况在现实世界中并不常见。此外,每个智能体在执行过程中仅依靠局部观测的决策也限制了多个智能体之间的合作能力。最近的研究旨在通过智能体之间有效的通信交流提高合作效率。它们专注于减少协作过程中的通信资源消耗,主要是通过选择通信对象,学习通信内容,以及管理通信的频率。尽管现有工作已经通过管理通信频率在减少通信带宽使用方面做出了许多努力,但它并没有研究如何增强空地机器人的智能性,以便在动态环境开展复杂任务。
技术实现思路
1、本发明实施例提供一种空地协同自适应跟踪方法,以至少解决了现有的空地协同跟踪方法,未充分利用空中和地面机器人的互补优势、未提高空地机器人的智能性,使空地机器人未能在动态环境中开展复杂的工作,导致空地协同跟踪方法跟踪不准确的技术问题。
2、根据本发明实施例的一个方面,提供了一种空地协同自适应跟踪方法。该方法可以包括:大语言模型接收目标用户发送的自然语言的提示词,并将自然语言的提示词发送至空中机器人和地面机器人,其中,自然语言的提示词为目标用户发现目标机器人所产生的;观测编码器获取空中机器人和地面机器人基于自然语言的提示词确定的目标频率的目标环境信息,并将目标频率的目标环境信息分别传输至大语言模型模块和强化学习模块;大语言模型基于自然语言的提示词和目标频率的环境特征信息,得到规划指令,且将规划指令传输至强化学习模块;强化学习模块基于目标频率的环境特征信息和规划指令,得到跟踪信息,且将跟踪信息发送至空中机器人和地面机器人,其中,空中机器人和地面机器人基于跟踪信息对目标机器人进行跟踪。
3、可选地,在空中机器人和地面机器人基于自然语言的提示词对应的固定频率的目标信息之前,该方法还包括:观测编码器获取空中机器人的第一环境信息和地面机器人的第二环境信息,其中,第一环境信息为空中机器人实时采集的环境信息和地面机器人发送的与空中机器人实时采集的环境信息不同的环境信息二者之间的和,第二环境信息为地面机器人实时采集的环境信息和空中机器人发送的与地面机器人实时采集的环境信息不同的环境信息二者之间的和;观测编码器将第一环境信息和第二环境信息进行融合,得到融合环境信息;观测编码器将融合环境信息进行学习,得到目标频率的目标环境信息。
4、可选地,观测编码器将第一环境信息和第二环境信息进行融合,得到融合环境信息的过程为:观测编码器将第一环境信息和第二环境信息与第一环境信息不同的环境信息二者之间的和,确定为融合环境信息。
5、可选地,目标频率的环境特征信息通过独热向量进行表示。
6、可选地,空中机器人和地面机器人基于跟踪信息对目标机器人进行跟踪,包括:空中机器人根据跟踪信息采用连续动作空间进行跟踪,其中,连续动作空间包括方向和速度,速度是一个三维向量,速度包括:绕yaw轴的角速度、沿x、y轴的线速度;地面机器人基于跟踪信息采用麦克纳姆林轮进行跟踪。
7、可选地,所述跟踪信息为控制空中机器人和地面机器人不与目标频率的目标环境信息发生碰撞,碰撞奖励的表达式为:
8、
9、其中,中的为a时,为空中机器人,中的为g时,为地面机器人,为目标频率的目标环境信息中的一个,为碰撞奖励,为安全距离。
10、本发明的有益效果:
11、本发明提出了一种空地协同自适应跟踪方法,通过在空地协同的过程中,通过借鉴人类思考决策过程,利用大语言模型负责空地机器人的高层决策,强化学习负责空地机器人的底层规划,能够让空地机器人自主决策。与此同时,观测编码器会选择固定时间将环境状态传输至大语言模型模块,且将观测信息传输至强化学习模块,解决了现有的空地协同跟踪方法,未充分利用空中和地面机器人的互补优势、未提高空地机器人的智能性,使空地机器人未能在动态环境中开展复杂的工作,导致空地协同跟踪方法跟踪不准确的技术问题,达到了通过设计和现实环境一样的复杂动态环境,大语言模型负责空地机器人的高层决策,强化学习负责空地机器人的底层规划,能够让空地机器人自主决策,使空地协同跟踪方法跟踪准确的技术效果。
1.一种空地协同自适应跟踪方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,在空中机器人和地面机器人基于自然语言的提示词对应的固定频率的目标信息之前,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述观测编码器将第一环境信息和第二环境信息进行融合,得到融合环境信息的过程为:
4.根据权利要求1所述的方法,其特征在于,所述目标频率的环境特征信息通过独热向量进行表示。
5.根据权利要求1所述的方法,其特征在于,所述空中机器人和地面机器人基于跟踪信息对目标机器人进行跟踪,包括:
6.根据权利要求1所述的方法,其特征在于,所述跟踪信息为控制空中机器人和地面机器人不与目标频率的目标环境信息发生碰撞,碰撞奖励的表达式为:
7.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至6中任意一项所述的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至6中任意一项所述的方法。