大模型驱动的Web任务自动化执行方法及系统

文档序号：40584913发布日期：2025-01-07 20:24阅读：18来源：国知局

本发明涉及人工智能领域，具体涉及一种大模型驱动的web任务自动化执行方法及系统。

背景技术：

1、web任务自动化是一项自动化技术，旨在基于软件系统对一些web任务实现自动化执行，通过模拟人的动作实现对web网页或应用的实际操作，能够极大地提升工作效率，有效减少人在重复或规则性强的任务中的劳动。

2、而大模型是指一类经过大规模数据预训练，并拥有庞大的参数量的神经网络模型。因为其具有远超传统人工智能模型的参数量，通常以十亿为单位计算，因而也被统称为大模型。大模型通过大数据量的预训练，使其内化了大量的人类世界知识，同时积累到了大量人类语义，成为迄今为止最像人的模型。基于大模型技术，人们进一步构建智能体(agent)，使其具备与环境交互的能力，从而成为真正的人的“代理”，能够代替人完成真实世界的任务。

3、传统的web任务自动化系统主要有基于工程化及基于人工智能方法的实现形式。其中，工程化实现方法主要包括演示编程技术和执行流设计技术。演示编程技术基于录制-重放思想，通过由人工演示web任务流程，并进行录制，实现任务脚本的生成，在需要的适合只需重放该脚本即可执行。而执行流技术则依靠用户以拖拉拽的低代码形式构建web任务的执行流图，并明确每一步动作如点击、输入等，以此构建可执行的执行流并执行。可见，工程化方法仍需大量的人力开销，且并不具备泛化性。

4、而基于传统人工智能的方法则主要利用人工智能模型实现对序列的理解和执行。例如，基于强化学习的技术通过大量的专家演示数据和奖励设计的训练，使得模型学到相关的web任务执行过程知识，从而将模型应用到实际场景的任务执行中，但强化学习奖励设计的困难以及泛化性弱的特点，导致其面对复杂多样的web网站系统的效果灾难性下降。基于动作学习的技术则通过传统语义模型，尝试捕获并学习动作执行中的语义信息，从而掌握任务执行的语义知识。但其仍然需要大量人工成本进行交互痕迹生成以及标注。可见，传统人工智能方法也需大量的数据标注成本，且智能化水平仍有待提升。

5、随着大模型的技术发展，为了进一步解决web任务自动化中存在的人力开销，提升系统的智能性、泛化性，人们开始构建基于大模型的web智能体，以大模型的决策能力为基础，通过为大模型增加感知、行动、记忆等能力，实现直接模拟人在进行web任务时的感知、规划、决策、行动的全部流程，从而实现了真正的全流程自动化，进一步提升了web任务的自动化程度，得到了广泛的关注。

6、然而，现有的相关技术却具有如下的局限：

7、首先，缺乏有效的针对web页面的感知和决策执行方法。web页面相比于其他应用具有更加庞大的元素数量和信息量，一个web页面的html拥有大量的元素以及冗余的信息表示，为web智能体对web内容的理解带来较大困难。此外，由于大模型的输出是自然语言描述，因此，如何将自然语言决策进行解析以正确匹配目标元素并执行正确的动作是需要面临的问题。

8、其次，缺乏有效的web任务知识的表示和引入方法。智能体的正确决策依赖充足的领域知识引入，比如医疗大模型需要充足的医疗知识。而web任务的领域知识就是web网站的操作知识。然而，目前缺少有效的知识表示和引入方式，使得web智能体在任务决策时的正确性难以保证。

9、此外，还缺乏有效的任务记忆管理机制。现有的web智能体受到大模型本身的理解和生成耗时影响，使得单步web操作执行时间较长，在缺乏有效任务记忆管理和调用机制的情况下，即使是重复任务也仍需重新开始，使得实际使用中耗时难以忍受。

10、因此，设计一种能够有效感知web页面内容，通过有效的知识引入方法提升web智能体规划正确性，并进一步通过任务记忆的管理和调用极大降低系统耗时的大模型驱动的web任务自动化方法和系统，从而进一步提升web任务自动化的自动化、智能化水平和效率，就显得十分重要。

技术实现思路

1、为了解决上述问题，本发明提供一种大模型驱动的web任务自动化执行方法及系统，省去了web任务自动化执行过程中的人力操作，提升了整体的智能化水平和执行效率。

2、本发明解决上述问题采用的技术方案如下：

3、一种大模型驱动的web任务自动化执行方法，包括以下步骤：

4、1)根据用户提出的web任务描述，在任务序列库中进行语义匹配，选择最相关的任务序列，并判断其是否满足任务要求；

5、2)若匹配的任务序列满足要求，则执行该任务序列；否则，将web任务描述与已构建的状态-动作图中的状态描述进行语义匹配，从图中选择最相关的状态节点组成路径，并根据路径描述信息生成新的任务序列，判断其是否满足任务要求；

6、3)若新的任务序列满足要求，则执行该任务序列；否则，获取当前web页面的状态信息，构建可访问性树，并获取当前web页面截图；然后，通过对当前web页面截图和可访问性树进行视觉信息与文本信息的对齐，生成当前web页面的描述信息；

7、4)将web任务描述和当前web页面的描述信息输入大模型进行感知，生成单步决策信息；根据单步决策信息解析得到单步web动作，逐步执行这些动作，并在任务执行完成后存储用户的任务。

8、进一步地，步骤1)中进行语义匹配的步骤包括：

9、使用语义向量化模型将用户提出的web任务描述转化为向量化表示；

10、使用语义向量化模型对任务序列库中的所有任务序列进行向量化处理，获得向量化表示；

11、使用语义相似度计算方法，对web任务描述的向量化表示与任务序列库中任务序列的向量化表示进行比较，从任务序列库中选择与用户任务描述最相似的任务序列。

12、进一步地，步骤1)中任务序列库存储并维护任务序列，步骤包括：

13、利用任务序列的状态和动作的语义描述拼接，生成任务的全流程描述；

14、将任务的全流程描述输入多模态大模型，生成任务的总体描述；

15、使用任务的总体描述作为语义索引，结合任务的全流程描述及其状态-动作序列，将任务序列进行向量化表示；

16、将生成的任务序列信息，包括总体描述、全流程描述和状态-动作序列，存入任务序列库中；

17、对任务序列库中的条目进行管理和更新，包括根据存入时间和使用频率删除长时间未使用的任务序列。

18、进一步地，步骤2)中状态-动作图的构建步骤包括：

19、基于web网站的不同状态和对应的动作执行关系，构建原始状态-动作图，图中的状态节点表示网页的不同状态，单向边表示在状态之间执行的动作；

20、根据状态节点存储的原始网页信息，计算状态节点间的相似度，对相似的状态节点进行合并；同时基于动作api和目标元素的相似度，对图中相似的动作进行合并；

21、对合并后的状态-动作图进行状态语义化表示和动作语义化表示，得到一个抽象的状态-动作图。

22、进一步地，步骤2)中将web任务描述与已构建的状态-动作图中的状态描述进行语义匹配的步骤包括：

23、使用语义向量化模型将web任务描述转化为向量表示，并将抽象状态-动作图中的所有状态节点也进行向量化表示；

24、基于上述两种向量化表示，计算web任务描述与状态节点之间的语义相似度，选择语义相似度最高的前k个状态节点作为候选中间节点；

25、从状态-动作图中检索出从初始状态或当前状态出发到达候选中间节点的所有可能路径，组合这些路径的状态及动作的语义描述，生成所有路径的描述信息；

26、判断候选中间节点中是否存在符合web任务描述的状态节点，如果存在符合条件的中间状态节点，则根据路径描述信息选择一条最佳路径，并使用原始状态-动作图自动执行该路径对应的操作流程；

27、如果没有符合的中间状态，则从初始状态或当前状态开始，由大模型逐步进行探索，组合出一条可行路径，直到达到预期目标。

28、进一步地，步骤3)中构建可访问性树的步骤包括：

29、获取当前web页面的所有可访问性元素列表，并遍历列表中元素；

30、根据元素的属性信息对元素进行清洗，去除不相关或无效的元素信息；

31、清洗完成后，根据元素之间的层次结构关系，使用深度优先遍历方法构建可访问性树，树中每个元素节点包含名称、角色、属性及唯一标识符信息。

32、进一步地，步骤3)中对当前web页面截图和可访问性树进行视觉信息与文本信息的对齐的步骤包括：

33、针对构建的可访问性树，根据元素的角色和属性信息，过滤掉不可操作的元素，生成web页面的可操作元素树；

34、基于可操作元素树中的每个元素的坐标和唯一编号，在web页面截图上标注对应位置的可操作元素区域，并为每个区域添加编号标识。

35、进一步地，步骤4)中大模型生成的单步决策信息包括：

36、观察字段：要求大模型对当前web页面的主要内容进行描述，以输出当前页面的主要信息和结构；

37、思考字段：要求大模型分析当前步骤的执行目的及逻辑，并输出对当前任务步骤的分析和推理；

38、目标元素：要求大模型从可访问性树中选取目标元素，并输出该目标元素的唯一编号；

39、动作api：要求大模型从web动作api库中选择动作api以执行当前步骤；

40、动作api参数：要求大模型输出所选动作api所需的参数值，以便正确执行动作api；

41、任务完成判断：要求大模型判断当前任务的执行情况，确认任务是否已完成；

42、后续步骤计划：要求大模型对后续步骤进行规划，生成接下来要执行的操作序列或任务计划。

43、一种大模型驱动的web任务自动化执行系统，包括：

44、多模态web智能体模块，用于理解用户任务需求及web页面内容，通过多模态处理生成执行任务所需的单步决策信息，并执行web动作；

45、状态-动作图模块，用于构建和维护web任务的状态-动作图，支持基于状态和动作的任务序列生成和智能体知识学习；

46、任务序列库模块，用于存储和管理语义化的任务序列，支持任务序列的抽象、语义匹配和执行；

47、调度模块，用于根据调度策略选择对应的模块；

48、执行器模块，用于执行生成的web动作；

49、其中，通过任务序列库模块根据用户提出的web任务描述，在任务序列库中进行语义匹配，选择最相关的任务序列，并判断其是否满足任务要求；

50、若匹配的任务序列满足要求，则通过执行器模块执行该任务序列；否则，通过状态-动作图模块将web任务描述与已构建的状态-动作图中的状态描述进行语义匹配，从图中选择最相关的状态节点组成路径，并根据路径描述信息生成新的任务序列，判断其是否满足任务要求；

51、若新的任务序列满足要求，则通过执行器模块执行该任务序列；否则，通过多模态web智能体模块获取当前web页面的状态信息，构建可访问性树，并获取当前web页面截图；然后，通过对当前web页面截图和可访问性树进行视觉信息与文本信息的对齐，生成当前web页面的描述信息；

52、将web任务描述和当前web页面的描述信息输入大模型进行感知，生成单步决策信息；根据单步决策信息，通过执行器模块解析得到单步web动作，逐步执行这些动作，并在任务执行完成后通过任务序列库模块存储用户的任务。

53、进一步地，多模态web智能体模块执行的步骤包括：

54、基于浏览器cdp接口获取当前页面的可访问性元素列表，对列表中元素属性信息进行清洗，去除无关或无效元素；然后，根据元素间的层次结构关系，构建简化的可访问性树，并对每个元素进行唯一编号，以便在树中进行标识；

55、分析可访问性树中元素的角色和属性信息，利用规则进行匹配，构建web页面的可操作元素树，过滤掉不可操作的元素，确保仅保留可以交互的元素；

56、获取当前web页面的截图，作为页面的视觉模态表示；基于可操作元素树中的元素坐标和编号，在截图上标注相应的可操作元素区域，并为每个区域添加编号标识；

57、将任务执行信息和当前web页面描述输入到多模态大模型中，大模型通过对页面内容和任务要求的理解，生成单步决策信息；

58、对大模型生成的单步决策进行解析，提取目标元素及目标动作，并将这些信息组合成可执行的api调用，执行相关操作；

59、判断当前任务是否已完成，如果任务完成，则结束执行；否则，重复执行上述步骤，直到任务完成。

60、进一步地，状态-动作图模块执行的步骤包括：

61、基于自动化技术快速探索和记录网站的原始状态-动作图，图中的状态节点表示网页的不同状态，并存储相关的网页信息；单向边表示状态之间的动作执行关系，并记录动作的原始信息；

62、对原始状态-动作图中的相似状态进行合并，通过计算状态节点之间的多维度加权相似度，合并相似状态节点；同时基于api和目标元素的相似度，对图中的相似动作进行合并，整合相似的动作；

63、利用大模型对页面信息进行感知，生成页面状态的语义化描述和功能列表；同时通过分析原始执行信息，生成动作的语义化表示，形成一个抽象的状态-动作图。

64、进一步地，状态-动作图模块执行的步骤包括：

65、利用语义向量化模型将用户的自然语言任务描述转化为向量化表示，用于后续的语义相似度计算；

66、对已合并和语义化抽象的状态-动作图进行处理，生成状态节点的向量化表示；通过计算任务描述向量与状态节点向量之间的语义相似度，选择相似度最高的前k个状态节点作为候选中间节点，并检索从初始状态或当前状态到这些候选节点的所有路径，生成路径描述信息；

67、根据生成的路径描述信息，由大模型或用户判断符合任务要求的中间状态节点；如果存在符合条件的中间状态节点，则选择一条合适的路径进行执行；如果没有匹配的中间状态节点，则从原始状态或当前状态逐步抵达；

68、从当前状态节点开始，大模型结合用户任务描述和当前状态的语义描述，进行任务阶段规划，并从后续动作中选择与任务匹配的动作作为下一步骤；根据大模型的决策，利用原始状态-动作图执行动作，到达指定的下一状态节点；

69、判断任务是否完成，如果大模型确认已达到任务最终状态或判断当前状态的后续动作不满足任务要求，则结束任务；否则，重复上一步骤，进行逐步抵达，直至满足任务完成要求。

70、进一步地，任务序列库模块执行的步骤包括：

71、对已执行的任务序列，通过依次排列状态和动作的语义描述，并使用连接词生成该任务的全流程描述；

72、将任务的全流程描述输入多模态大模型，生成任务序列的总体描述；

73、使用总体描述作为语义索引，构建任务序列库中的任务序列存储；将每条任务序列输入向量化模型，生成并存储其向量化表示；

74、将用户提出的web任务描述转化为语义向量，与任务序列库中的向量化表示进行相似度计算，选择最相似的前k个任务序列作为候选序列，由大模型或用户对候选序列进行判断，选择满足要求的序列进行执行。

75、进一步地，调度模块执行的步骤包括：

76、根据用户提出的web任务描述，调度模块调用任务序列库模块进行任务序列匹配；如果任务序列库中存在匹配的任务序列，经用户或大模型确认后，直接执行该任务序列，并在任务完成后结束；

77、如果任务序列库中未找到匹配的任务序列，调度模块则调用状态-动作图模块进行探索；由大模型驱动对状态-动作图进行探索，若找到完整的任务序列，则执行该序列，并将其添加至任务序列库中；

78、如果状态-动作图中也未找到匹配的任务序列，调度模块则整理已探索的信息，并调用多模态web智能体模块进行单步决策；多模态web智能体模块的智能体将逐步执行这些动作，直到任务完成，并将新的状态和动作更新到状态-动作图中；任务完成后，将新任务序列添加至任务序列库中。

79、与现有技术相比，本发明取得了以下技术效果：

80、1.本发明通过大模型驱动的web智能体，显著提高了web任务的自动化水平。相较于传统的web任务自动化技术，本发明在任务执行中减少了对人工干预的需求，实现了更高程度的自动化。

81、2.本发明通过大模型为web智能体提供了网页内容的深度感知能力和智能决策解析，使web智能体能够更好地理解和处理复杂的任务要求，相比于传统方法，具备更强的智能和更优的泛化能力。

82、3.本发明通过状态-动作图模块和任务序列库模块建立了全面的知识记忆机制，这种机制有效地降低了处理重复任务的推理成本，通过快速匹配和重用已有任务序列，提高了系统的执行效率。

83、4.本发明采用经过处理的可访问性树和截图共同表示web页面内容，并对可访问性树元素进行唯一编号。通过对可操作元素进行过滤，并在截图上标注这些元素，实现了视觉模态和文字模态的有效对齐。

84、5.本发明利用封装的web动作api和页面表示时的编号，将大模型的web元素决策转化为程序可直接解析的编号选择，确定唯一目标元素，并通过大模型输出的api选择生成可执行的web动作。

85、6.本发明提供了一个完整的系统，包括智能体模块、图知识库模块和任务序列库模块，及其调度策略，能够实现高效执行和智能决策，快速响应用户需求，减少任务执行时间，提高整体使用效果。

86、7.本发明展示了大模型技术在web任务场景中的实际应用，证明了大模型如何有效解决实际问题，为其在web任务自动化领域的进一步应用奠定了基础。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴国全,魏峻,陈伟,朱家鑫,周子涵,张翼飞
技术所有人：中国科学院软件研究所
我是此专利的发明人

上一篇：一种基于储热材料的主动热防护设备的制作方法
上一篇：利用深度学习的图像识别型手机屏幕缺陷检测装置

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。