本发明涉及机器人,具体涉及一种基于大语言模型的用户意图对齐机器人任务规划方法。
背景技术:
1、机器人任务规划是机器人自主规划必不可少的组成部分,旨在令机器人综合根据所处环境、任务目标和自身所允许的能力,来规划合理的行动序列。服务机器人是指用于非制造业、以服务为核心的自主或半自主机器人,其能够保持全天候、质量稳定、高效率的服务作业,目前服务机器人所覆盖的应用场景已涵盖酒店、医疗、教育、物流等多个领域,在现代社会中发挥着日益重要的作用。
2、传统机器人任务规划方法主要借由规划领域定义语言框架实现。近年来,使用大量语料数据进行训练与微调,具备强大理解和生成人类语言能力的大语言模型(largelanguage models, llms)取得了迅速发展。大语言模型具备强大的推理能力和丰富的通用知识,目前已有一系列研究将大语言模型用于机器人任务规划,并取得了较好的效果。然而,对于任务序列相对较为复杂、需要频繁与人类用户交互的服务机器人而言,利用大语言模型通用知识进行任务规划的范式难以满足机器人任务需求。具体而言,服务机器人所面临的人类用户,其下达指令时的意图措辞可能具备不确定性,同时,不同人类用户个体具备自身的偏好特征。此外,在机器人执行任务的过程中,人类用户会产生丰富的任务反馈,机器人需要综合利用上述与人类用户相关的信息,以更好地服务人类用户,完成特定用户指令,针对性地满足用户需求。
技术实现思路
1、为了解决现有技术中存在的上述技术问题,本发明提出了一种基于大语言模型的用户意图对齐机器人任务规划方法,其具体技术方案如下:
2、一种基于大语言模型的用户意图对齐机器人任务规划方法,包括:
3、步骤1、机器人接收人类用户语音指令并进行文本解析;
4、步骤2、结合机器人任务环境对解析后语音指令进行意图歧义消除,生成指令候选集;
5、步骤3、大语言模型调用所维护的用于存储用户偏好信息的用户特征记忆模块,结合人类用户偏好,对候选指令进行筛选,保留下最符合当前用户偏好的精确指令;
6、步骤4、大语言模型对保留下的任务指令进行分解与规划;
7、步骤5、机器人执行分解与规划后的任务,在任务过程中收集人类用户的反馈信息,用于用户特征记忆模块的优化更新;
8、步骤6、设置反思反馈驱动的大语言模型任务规划连续性保障机制。
9、进一步的,在步骤1中,机器人接收人类用户语音指令,并使用语音转换模块,将用户语音转码为自然语言文本格式,作为机器人的大语言模型输入。
10、进一步的,在步骤2中,大语言模型结合机器人任务环境,对人类用户指令进行遣词、描述层面的歧义消除处理,以解析出同时符合当前任务场景和人类用户需求的备选指令即指令候选集。
11、进一步的,在步骤3中,大语言模型根据持续学习维护的用户特征记忆模块,结合当前所服务用户的偏好特征,从上一步解析出的备选指令中,选取最符合当前用户偏好的精确指令,对精确指令进行用户偏好融合。
12、进一步的,在步骤4中,大语言模型对所述精确指令进行任务分解,并对分解后的每一条子任务进行规划,再输出详细的待执行任务步骤序列,指导具身机器人按照所规划的序列执行任务动作。
13、进一步的,在步骤5中,基于大语言模型的机器人在执行任务的过程中,持续收集人类用户是否判定任务为成功的反馈信息,再将反馈信息用于更新维护用户特征记忆模块,进行自主学习与持续优化。
14、进一步的,在步骤6中,大语言模型使用反思架构,利用任务过程中收集的任务执行情况与人类反馈信息,在任务执行失败时,自主地利用反馈信息生成反思文本,再将此反思文本加入下一轮的任务重新规划中,以纠正任务过程中的错误行为,进行持续自我优化。
15、有益效果:本发明方法使得基于大语言模型的服务机器人在进行任务规划时,更加精确地解析并对齐人类用户指令意图,以更好地为人类用户提供定制化服务。
1.一种基于大语言模型的用户意图对齐机器人任务规划方法,其特征在于,包括:
2.如权利要求1所述的基于大语言模型的用户意图对齐机器人任务规划方法,其特征在于,在步骤1中,机器人接收人类用户语音指令,并使用语音转换模块,将用户语音转码为自然语言文本格式,作为机器人的大语言模型输入。
3.如权利要求2所述的基于大语言模型的用户意图对齐机器人任务规划方法,其特征在于,在步骤2中,大语言模型结合机器人任务环境,对人类用户指令进行遣词、描述层面的歧义消除处理,以解析出同时符合当前任务场景和人类用户需求的备选指令即指令候选集。
4.如权利要求3所述的基于大语言模型的用户意图对齐机器人任务规划方法,其特征在于,在步骤3中,大语言模型根据持续学习维护的用户特征记忆模块,结合当前所服务用户的偏好特征,从上一步解析出的备选指令中,选取最符合当前用户偏好的精确指令,对精确指令进行用户偏好融合。
5.如权利要求4所述的基于大语言模型的用户意图对齐机器人任务规划方法,其特征在于,在步骤4中,大语言模型对所述精确指令进行任务分解,并对分解后的每一条子任务进行规划,再输出详细的待执行任务步骤序列,指导具身机器人按照所规划的序列执行任务动作。
6.如权利要求5所述的基于大语言模型的用户意图对齐机器人任务规划方法,其特征在于,在步骤5中,基于大语言模型的机器人在执行任务的过程中,持续收集人类用户是否判定任务为成功的反馈信息,再将反馈信息用于更新维护用户特征记忆模块,进行自主学习与持续优化。
7.如权利要求6所述的基于大语言模型的用户意图对齐机器人任务规划方法,其特征在于,在步骤6中,大语言模型使用反思架构,利用任务过程中收集的任务执行情况与人类反馈信息,在任务执行失败时,自主地利用反馈信息生成反思文本,再将此反思文本加入下一轮的任务重新规划中,以纠正任务过程中的错误行为,进行持续自我优化。