一种大模型驱动的具身智能体零样本目标导航方法

文档序号:38522041发布日期:2024-07-01 23:02阅读:来源:国知局

技术特征:

1.一种大模型驱动的具身智能体零样本目标导航方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种大模型驱动的具身智能体零样本目标导航方法,其特征在于,具身智能体零样本目标导航的任务表示为:设定任一未曾探索的场景和具身智能体,包括家庭机器人和战场追踪机器人,给定该智能体一自然语言描述的目标物体,要求智能体在有限步或有限时间内从该陌生场景中导航到目标处,并识别出该目标物体。

3.根据权利要求1所述的一种大模型驱动的具身智能体零样本目标导航方法,其特征在于,步骤一中基于智能体传感器的环境感知的实现过程包括:智能体在当前位置旋转一周,通过视频拍摄传感器同时获取场景的多张彩色图像和深度图像;具体来说,使用普通相机进行彩色图像拍摄,供后续视觉目标检测模型的物体识别;使用深度相机拍摄深度图像,作为后续构建slam导航代价图的依据;

4.根据权利要求1所述的一种大模型驱动的具身智能体零样本目标导航方法,其特征在于,步骤二中多模态大模型驱动的场景线索获取的实现过程包含两并行步,分别是:基于目标检测和图像字幕生成的环境探索,具体包括:

5.根据权利要求1所述的一种大模型驱动的具身智能体零样本目标导航方法,其特征在于,步骤三中大语言模型驱动的导航推理决策的实现过程如下:

6.根据权利要求5所述的一种大模型驱动的具身智能体零样本目标导航方法,其特征在于,基于自适应模板的语言模型提示整合,针对涉及到物体标签的场景线索,其自适应提示模板的构造过程采用了多角度语义捕捉策略,具体如下:

7.根据权利要求5所述的一种大模型驱动的具身智能体零样本目标导航方法,其特征在于,基于自适应模板的语言模型提示整合,针对涉及到图像字幕的场景线索,其自适应提示模板同样也采用了多角度语义捕捉策略,具体如下:

8.根据权利要求1所述的一种大模型驱动的具身智能体零样本目标导航方法,其特征在于,步骤四中基于gazebo仿真平台的ros路径规划的实现过程包括:

9.根据权利要求1所述的一种大模型驱动的具身智能体零样本目标导航方法,其特征在于,步骤五中基于视觉大模型的开放语义目标定位的实现过程如下:


技术总结
本发明公开了一种大模型驱动的具身智能体零样本目标导航方法,包括:首先,具身智能体通过旋转拍摄来获取场景的彩色和深度图像;使用YOLO v7和DETR模型处理彩色图像以识别物体标签,同时运用LLaVA和CLIP模型对图像生成字幕,描述场景内容。这些信息作为导航的场景线索;基于这些线索,通过LLaMA和GPT‑4模型推理并决定智能体的导航过渡点;在Gazebo仿真平台上,利用gmapping和hector_slam工具进行路径规划,构建导航代价图,使智能体能够避开障碍物。智能体到达新的导航过渡点后,使用GLIP和InstructDET模型进行开放语义目标定位;如果目标定位准确度达到预设阈值,将触发目标导航成功信号;否则,智能体将继续推理下一步导航过渡点,并重复该流程直至导航成功或失败。

技术研发人员:金伟强,高扬,闫天,王晓田,倪樊基,赵彪,张紫薇,马秋波,杨光
受保护的技术使用者:西安交通大学
技术研发日:
技术公布日:2024/6/30
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1