一种模拟人工分析网页的智能爬虫方法及系统与流程

文档序号:39393816发布日期:2024-09-18 11:24阅读:6来源:国知局
一种模拟人工分析网页的智能爬虫方法及系统与流程

本发明涉及人工智能,特别是涉及一种模拟人工分析网页的智能爬虫方法及系统。


背景技术:

1、目前,现有的鼠标模拟器通常使用请求包抓取技术来识别页面上的按钮和链接,例如可能采用以下方法:首先,进行dom解析:鼠标模拟器可以分析页面的dom结构,以确定页面上的按钮和链接,还可以使用dom解析库来解析页面的html代码,并提取其中的按钮和链接元素。其次,进行样式分析:通过分析页面的css样式,鼠标模拟器可以确定页面上的可点击元素。从而可以检查元素的样式属性(例如cursor:pointer),以确定元素是否为按钮或链接。

2、因此,现有的鼠标模拟器无法对页面进行自动识别,也无法有效筛除重复请求,以及无法从网络安全风险评估视角出发对相应功能进行爬取;且现有的鼠标模拟器容易触发防护设备拦截机制,造成爬取页面与功能无法全面覆盖,容易遗漏页面,从而效率较低等一系列问题。为此,亟需提出一种模拟人工分析网页的智能爬虫方法及系统,以解决上述问题。


技术实现思路

1、本发明的目的在于提出一种模拟人工分析网页的智能爬虫方法及系统,相较于传统爬虫程序在自动化程度、页面交互能力、反爬虫能力、数据质量和扩展性等方面都具有明显的优势,能够更有效地应对复杂的网络环境和爬取任务,提高爬取效率和数据质量。

2、为解决上述技术问题,本发明提供一种模拟人工分析网页的智能爬虫方法,具体包括如下:

3、输入目标地址;

4、对所述目标地址进行操作,并判断是否需要在多个浏览器页面同时进行异步操作;

5、基于所述浏览器页面,判断页面是否有动态交互页面;

6、基于所述动态交互页面,判断页面是否为表单提交页面;以及

7、对所述表单提交页面进行表单识别并自动填充表单的参数信息。

8、进一步的,所述对所述目标地址进行操作,具体包括:在基于所述目标地址呈现的页面上执行点击操作;然后,模拟真实用户的点击行为;控制并发送请求的发送与处理。

9、进一步的,所述判断是否需要在多个浏览器页面同时进行异步操作,具体包括:若需要,则启动异步操作引擎,并同时打开多个所述浏览器,输入所述目标地址;反之,则直接打开所述浏览器页面。

10、进一步的,所述基于所述浏览器页面,判断页面是否有动态交互页面,具体包括:若存在动态交互页面,则进行所述表单提交页面的判断,以及判断是否还存在其他交互功能;若不存在动态交互页面或不存在其他交互功能,则结束任务并输出结果。

11、进一步的,所述基于所述动态交互页面,判断页面是否为表单提交页面,具体包括:若页面是表单提交页面,则对所述表单提交页面进行表单识别并自动填充表单的参数信息;反之,则启动模拟点击引擎,对当前页面执行点击操作,并拦截当前页面发出的http请求;通过分析所述http请求,确定用户正在访问的页面以及请求的目的,并记录数据,以及再次判断是否还存在其他交互功能。

12、进一步的,当拦截到所述http请求后,通过对所述http请求进行分析,根据需要篡改请求参数或者篡改服务器返回的响应。

13、进一步的,所述对所述表单提交页面进行表单识别并自动填充表单的参数信息,具体包括:启动自动表单识别引擎,并判断是否为验证码;若为验证码,则启动验证码识别引擎,识别出验证码内容并填充至对应的表单中,再通过模拟提交按钮点击,确定需要点击的元素,并模拟鼠标点击事件触发响应的操作;最后,再进行判断是否还存在其他交互功能;当页面上所有需要的操作均完成后,结束任务并输出结果。

14、进一步的,所述判断是否为验证码,具体还包括:如果页面包含敏感信息,则通过启动敏感信息识别模块,识别并标记所述敏感信息,然后,根据表单识别自动填充引擎填充表单的参数信息;最后,再进行判断是否还存在其他交互功能。

15、此外,本发明还提出一种模拟人工分析网页的智能爬虫系统,用于实现如上述所述的模拟人工分析网页的智能爬虫方法,包括:

16、输入模块,用于输入目标地址;

17、页面操作模块,用于对所述目标地址进行操作;

18、判断模块,用于对所述目标地址呈现的页面进行判断是否有动态交互页面和判断是否为表单提交页面;以及

19、表单识别填充模块,用于表单识别并自动填充表单的参数信息至所述表单中。

20、进一步的,还包括用于管理和调度各种功能插件的插件控制模块;所述插件控制模块与所述页面操作模块、判断模块以及表单识别填充模块相连。

21、通过上述技术方案,本发明具有如下有益效果:

22、通过对目标地址进行操作,并判断是否需要在多个浏览器页面同时进行异步操作;基于浏览器页面,判断页面是否有动态交互页面;基于动态交互页面,判断页面是否为表单提交页面;以及对表单提交页面进行表单识别并自动填充表单的参数信息。本方法通过启用各种智能模块,能够自动识别页面上的各种元素和功能,并执行相应的操作,无需人工干预,大大提高了爬虫的自动化程度,减少了人工操作的需求。

23、另外,由于传统爬虫程序通常只能抓取静态页面上的信息,而本发明具有模拟人工点击、填写表单和识别验证码等功能,能够处理更复杂的动态页面,提高了爬取的效率和全面性。此外,本发明能够模拟人类的操作行为,例如随机的鼠标移动和点击位置的随机化等,使得爬虫更难被网站的反爬虫机制所识别和拦截,提高了爬取数据的稳定性和持久性。

24、进一步的,本发明通过智能识别和填充表单、识别验证码等功能,本发明能够确保爬取到的数据是完整和准确的,避免了传统爬虫可能会出现的信息不全或错误的情况,提高了数据的质量和可用性。

25、此外,本发明还设置了插件控制模块,能够灵活调度各种功能插件,使得程序具有较强的扩展性和灵活性。用户可以根据需要随时增加或删除特定功能的插件,满足不同的爬取需求。

26、因此,本发明相较于传统爬虫程序在自动化程度、页面交互能力、反爬虫能力、数据质量和扩展性等方面都具有明显的优势,能够更有效地应对复杂的网络环境和爬取任务,提高爬取效率和数据质量。



技术特征:

1.一种模拟人工分析网页的智能爬虫方法,其特征在于,具体包括如下:

2.如权利要求1所述的模拟人工分析网页的智能爬虫方法,其特征在于,所述对所述目标地址进行操作,具体包括:在基于所述目标地址呈现的页面上执行点击操作;然后,模拟真实用户的点击行为;控制并发送请求的发送与处理。

3.如权利要求1所述的模拟人工分析网页的智能爬虫方法,其特征在于,所述判断是否需要在多个浏览器页面同时进行异步操作,具体包括:若需要,则启动异步操作引擎,并同时打开多个所述浏览器,输入所述目标地址;反之,则直接打开所述浏览器页面。

4.如权利要求1所述的模拟人工分析网页的智能爬虫方法,其特征在于,所述基于所述浏览器页面,判断页面是否有动态交互页面,具体包括:若存在动态交互页面,则进行所述表单提交页面的判断,以及判断是否还存在其他交互功能;若不存在动态交互页面或不存在其他交互功能,则结束任务并输出结果。

5.如权利要求4所述的模拟人工分析网页的智能爬虫方法,其特征在于,所述基于所述动态交互页面,判断页面是否为表单提交页面,具体包括:若页面是表单提交页面,则对所述表单提交页面进行表单识别并自动填充表单的参数信息;反之,则启动模拟点击引擎,对当前页面执行点击操作,并拦截当前页面发出的http请求;通过分析所述http请求,确定用户正在访问的页面以及请求的目的,并记录数据,以及再次判断是否还存在其他交互功能。

6.如权利要求5所述的模拟人工分析网页的智能爬虫方法,其特征在于,当拦截到所述http请求后,通过对所述http请求进行分析,根据需要篡改请求参数或者篡改服务器返回的响应。

7.如权利要求6所述的模拟人工分析网页的智能爬虫方法,其特征在于,所述对所述表单提交页面进行表单识别并自动填充表单的参数信息,具体包括:启动自动表单识别引擎,并判断是否为验证码;若为验证码,则启动验证码识别引擎,识别出验证码内容并填充至对应的表单中,再通过模拟提交按钮点击,确定需要点击的元素,并模拟鼠标点击事件触发响应的操作;最后,再进行判断是否还存在其他交互功能;当页面上所有需要的操作均完成后,结束任务并输出结果。

8.如权利要求7所述的模拟人工分析网页的智能爬虫方法,其特征在于,所述判断是否为验证码,具体还包括:如果页面包含敏感信息,则通过启动敏感信息识别模块,识别并标记所述敏感信息,然后,根据表单识别自动填充引擎填充表单的参数信息;最后,再进行判断是否还存在其他交互功能。

9.一种模拟人工分析网页的智能爬虫系统,用于实现如权利要求1-8中任一项所述的模拟人工分析网页的智能爬虫方法,其特征在于,包括:

10.如权利要求9所述的模拟人工分析网页的智能爬虫系统,其特征在于,还包括用于管理和调度各种功能插件的插件控制模块;所述插件控制模块与所述页面操作模块、判断模块以及表单识别填充模块相连。


技术总结
本发明揭示了一种模拟人工分析网页的智能爬虫方法及系统,所述模拟人工分析网页的智能爬虫方法包括输入目标地址;对目标地址进行操作,并判断是否需要在多个浏览器页面同时进行异步操作;基于浏览器页面,判断页面是否有动态交互页面;基于动态交互页面,判断页面是否为表单提交页面;以及对表单提交页面进行表单识别并自动填充表单的参数信息。本发明相较于传统爬虫程序在自动化程度、页面交互能力、反爬虫能力、数据质量和扩展性等方面都具有明显的优势,能够更有效地应对复杂的网络环境和爬取任务,提高爬取效率和数据质量。

技术研发人员:许磊,杨杰
受保护的技术使用者:上海揽讯科技有限公司
技术研发日:
技术公布日:2024/9/17
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1