一种强化学习实现RPA流程自动生成的方法与流程

文档序号:41701062发布日期:2025-04-22 17:18阅读:4来源:国知局
一种强化学习实现RPA流程自动生成的方法与流程

本发明涉及一种强化学习实现rpa流程自动生成的方法,属于rpa流程。


背景技术:

1、目前rpa流程自动生成方案大体都遵循以下两个步骤:任务流程分解:根据任务描述,将任务分解为多个可用rpa实现的具体步骤,每个步骤对应一条rpa指令。rpa指令选择生成:将上述的具体步骤描述,转化为可执行的rpa指令,包括rpa动作和操作对象的选择。对于任务流程分解而言,有以下三种解决方案:1、人工生成:用人工的方式,先将任务描述分解成可供rpa执行的步骤描述。但是该方案依旧存在耗时且对人员能力要求较高的问题。2、大语言模型生成:通过非监督学习以及监督学习的方法,微调开源大语言模型,从而实现根据任务描述,生成分解后的流程步骤。该方案仅使用非监督学习以及监督学习的方法,难以将生成的步骤描述与可执行的rpa指令对齐;由于大语言模型不能完整的了解业务具体信息,如网页上存在哪些可点击对象,可能会生成不存在的/无法实现的rpa步骤,即幻觉;由于大语言模型自身难免的幻觉问题,以及上述因信息不足产生的幻觉问题,在长流程的生成中,对整体正确率造成指数级的影响,且还会出现一步错步步错的情况。3、多模态模型反馈:在流程中包含不存在的操作对象时,在rpa指令选择生成步骤中进行反馈,从而使用多模态模型进行页面描述,再由大语言模型基于页面描述重新生成流程步骤。该方案单纯依靠文字的页面描述,无法全部表达出页面的信息,因此难以保证重新生成的流程步骤是可以执行的。


技术实现思路

1、本发明的目的在于,提供一种强化学习实现rpa流程自动生成的方法。本发明极大地降低模型在流程生成中产生的幻觉,提高了模型分解任务流程的能力,增强了rpa指令选择生成的准确率。

2、本发明的技术方案如下:

3、一种强化学习实现rpa流程自动生成的方法,包括如下步骤:

4、步骤1、训练多模态大模型,使多模态大模型具有基于页面截图和任务描述的任务流程分解能力;

5、步骤2、训练过程监督奖励模型,使过程监督奖励模型根据页面截图、任务描述以及上下文,判断下一生成步骤是否正确;

6、步骤3、用过程监督奖励模型对多模态大模型进行强化学习训练,得到任务流程分解模型;

7、步骤4、基于训练后的任务流程分解模型生成详细的rpa步骤,再调取通用大模型api将每一个rpa步骤转化为实际的rpa指令,由rpa指令组成完整的rpa流程。

8、上述的强化学习实现rpa流程自动生成的方法,步骤1中,所述训练多模态大模型包括有监督训练和无监督训练;所述有监督训练用于实现多模态大模型理解rpa任务以及网页截图;所述无监督训练用于实现多模态大模型根据rpa任务以及网页截图输出任务步骤。

9、前述的强化学习实现rpa流程自动生成的方法,所述训练多模态大模型的训练数据包括rpa平台的文档、常见网页相关描述的开源数据集、已有rpa应用的任务描述以及每个步骤的文字描述、rpa应用运行时页面变化的截图。

10、前述的强化学习实现rpa流程自动生成的方法,所述过程监督奖励模型的公式表示如下:

11、rθ=(s,a);

12、式中,s表示任务描述、网页截图和上下文的当前状态,a表示下一个生成的步骤,rθ表示一个任务流程的prm分数,prm分数定义为每一步骤正确性概率的乘积。

13、前述的强化学习实现rpa流程自动生成的方法,所述训练过程监督奖励模型的训练数据是使用通用大模型api,生成大量详细的任务步骤,然后通过人工标注,基于任务描述、网页截图和上下文对生成的每一个任务步骤预测,预测结果共计分为正确、中立、错误三类。

14、前述的强化学习实现rpa流程自动生成的方法,步骤3中,所述强化学习训练是使用ppo策略优化算法,ppo策略优化算法的目标是最大化回报表示为:

15、

16、其中,e为期望,τ表示一个从策略生成的轨迹,rθ是过程监督奖励模型;t表示时间步的索引,代表从环境中得到观测、采取动作并获得奖励的某个时刻。

17、前述的强化学习实现rpa流程自动生成的方法,步骤4中,所述通用大模型api将每一个rpa步骤转化为实际的rpa指令的功能是通过编写prompt来构建智能体,以智能体进行转化。

18、前述的强化学习实现rpa流程自动生成的方法,所述智能体进行转化的过程是给智能体详细描述rpa中有哪些动作以及操作对象可供操作;然后让智能体根据详细步骤描述,选择具体的rpa动作以及操作对象;同时让智能体看见之前所有生成的rpa指令,若之前的指令与当前步骤之间无法自然连接,则让智能体生成多条rpa指令,使流程能够完整运行。

19、与现有技术相比,本发明具有以下有益效果:

20、1、本发明中所采用的多模态大模型,通过输入更完整的信息,可以极大地降低模型在流程生成中产生的幻觉。

21、2、本发明在任务流程分解的步骤上,增加使用了强化学习对多模态大模型进行训练,进一步提高了模型分解任务流程的能力。

22、3、本发明使用过程监督奖励模型进行强化学习,针对多步骤的生成任务而言,比起结果监督奖励模型,更能使多模态大模型认识到幻觉产生的原因,从而进一步减少模型的幻觉。

23、4、本发明在指令生成阶段,使用通用大模型api,通过编写prompt构建智能体,减少训练成本的同时,增强了rpa指令选择生成的准确率。



技术特征:

1.一种强化学习实现rpa流程自动生成的方法,其特征在于:包括如下步骤:

2.根据权利要求1所述的强化学习实现rpa流程自动生成的方法,其特征在于:步骤1中,所述训练多模态大模型包括有监督训练和无监督训练;所述有监督训练用于实现多模态大模型理解rpa任务以及网页截图;所述无监督训练用于实现多模态大模型根据rpa任务以及网页截图输出任务步骤。

3.根据权利要求2所述的强化学习实现rpa流程自动生成的方法,其特征在于:所述训练多模态大模型的训练数据包括rpa平台的文档、常见网页相关描述的开源数据集、已有rpa应用的任务描述以及每个步骤的文字描述、rpa应用运行时页面变化的截图。

4.根据权利要求1所述的强化学习实现rpa流程自动生成的方法,其特征在于:所述过程监督奖励模型的公式表示如下:

5.根据权利要求4所述的强化学习实现rpa流程自动生成的方法,其特征在于:所述训练过程监督奖励模型的训练数据是使用通用大模型api,生成大量详细的任务步骤,然后通过人工标注,基于任务描述、网页截图和上下文对生成的每一个任务步骤预测,预测结果共计分为正确、中立、错误三类。

6.根据权利要求1所述的强化学习实现rpa流程自动生成的方法,其特征在于:步骤3中,所述强化学习训练是使用ppo策略优化算法,ppo策略优化算法的目标是最大化回报表示为:

7.根据权利要求1所述的强化学习实现rpa流程自动生成的方法,其特征在于:步骤4中,所述通用大模型api将每一个rpa步骤转化为实际的rpa指令的功能是通过编写prompt来构建智能体,以智能体进行转化。

8.根据权利要求7所述的强化学习实现rpa流程自动生成的方法,其特征在于:所述智能体进行转化的过程是给智能体详细描述rpa中有哪些动作以及操作对象可供操作;然后让智能体根据详细步骤描述,选择具体的rpa动作以及操作对象;同时让智能体看见之前所有生成的rpa指令,若之前的指令与当前步骤之间无法自然连接,则让智能体生成多条rpa指令,使流程能够完整运行。


技术总结
本发明公开了一种强化学习实现RPA流程自动生成的方法,包括如下步骤:步骤1、训练多模态大模型,使多模态大模型具有基于页面截图和任务描述的任务流程分解能力;步骤2、训练过程监督奖励模型,使过程监督奖励模型根据页面截图、任务描述以及上下文,判断下一生成步骤是否正确;步骤3、用过程监督奖励模型对多模态大模型进行强化学习训练,得到任务流程分解模型;步骤4、基于训练后的任务流程分解模型生成详细的RPA步骤,再调取通用大模型API将每一个RPA步骤转化为实际的RPA指令,由RPA指令组成完整的RPA流程。本发明极大地降低模型在流程生成中产生的幻觉,提高了模型分解任务流程的能力,增强了RPA指令选择生成的准确率。

技术研发人员:金礼剑,代培,吴小女,吴桐
受保护的技术使用者:杭州分叉智能科技有限公司
技术研发日:
技术公布日:2025/4/21
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1