一种基于无界面浏览器和可配置代理拦截的网页抓取系统及抓取方法与流程

文档序号:17081045发布日期:2019-03-09 00:16阅读:253来源:国知局
一种基于无界面浏览器和可配置代理拦截的网页抓取系统及抓取方法与流程

本发明涉及互联网网页抓取技术领域,具体涉及一种基于无界面浏览器和可配置代理拦截的网页抓取系统及抓取方法。



背景技术:

随着信息技术发展,互联网已经成为大量信息的载体,而如何利用有效的技术手段提取和利用这些信息成了一个巨大的挑战,目前已有的方案是通过模拟浏览器的发包行为加以获取,但大多需要掌握专业的协议知识,和应对网站反爬的措施,技术门槛相对较高。而模拟浏览器的行为会被服务器认为是恶意访问,会被封锁,导致爬取中断。



技术实现要素:

本发明的目的在于克服现有技术中存在的问题,提供一种基于无界面浏览器和可配置代理拦截的网页抓取系统及抓取方法,它可以通过该系统能将所选取的网页的数据进行缓存,使抓取效果更佳,该抓取方法通过无界面浏览器渲染网页技术,将服务器返回的动静态页面生成纯html静态页面,根据内容选择模块限定的规则,抓取网页的数据。

为实现上述技术目的,达到上述技术效果,本发明是通过以下技术方案实现的:

一种基于无界面浏览器和可配置代理拦截的网页抓取系统,包括:

无界面浏览器启动模块,所述无界面浏览器启动模块用于启动无界面浏览器;

页面下载模块,所述页面下载模块用于将待拦截网页的页面标签加入其内;

内容选择模块,所述内容选择模块用于配置待拦截网页的内容选择规则,并根据所述内容选择规则选取待拦截网页的数据,且将所述数据缓存至缓存区。

进一步地,还包括数据缓存模块,所述数据缓存模块用于接收所述缓存区内缓存满后的数据。

一种抓取方法,包括如下步骤:

步骤1、无界面浏览器启动模块启动无界面浏览器,并指定无界面浏览器的网址、代理参数、网站参数;

步骤2、选择无界面浏览器网址页面链接标签,并加入至页面下载模块中;

步骤3、页面下载模块拦截浏览器的页面返回结果,并保存;

步骤4、内容选择模块配置页面的内容选择规则;

步骤5、内容选择模块根据内容选择规则选取指定区域内容的数据;

步骤6、内容选择模块将数据发送至缓存区内。

进一步地,还包括:步骤7、缓存区内的数据缓存满后,将由内容选择模块将其发送至数据缓存模块。

本发明的有益效果:通过该系统能将所选取的网页的数据进行缓存,使抓取效果更佳,该抓取方法中,通过无界面浏览器渲染网页技术,将服务器返回的动静态页面生成纯html静态页面,根据内容选择模块限定的规则,抓取网页的数据,通过数据缓存模块将抓取的网页数据进行缓存,使能够不断地对网页进行抓取,从而防止网页数据量过大,产生冲突。

附图说明

图1为本发明一种基于无界面浏览器和可配置代理拦截的网页抓取系统的框架示意图;

图2为本发明一种抓取方法的流程示意图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

如图1所示的一种基于无界面浏览器和可配置代理拦截的网页抓取系统,包括:

无界面浏览器启动模块,所述无界面浏览器启动模块用于启动无界面浏览器;

页面下载模块,所述页面下载模块用于将待拦截网页的页面标签加入其内;

内容选择模块,所述内容选择模块用于配置待拦截网页的内容选择规则,并根据所述内容选择规则选取待拦截网页的数据,且将所述数据缓存至缓存区。

还包括数据缓存模块,所述数据缓存模块用于接收所述缓存区内缓存满后的数据。

如图2所示的一种抓取方法,包括如下步骤:

步骤1、无界面浏览器启动模块启动无界面浏览器,并指定无界面浏览器的网址、代理参数、网站参数;

步骤2、选择无界面浏览器网址页面链接标签,并加入至页面下载模块中;

步骤3、页面下载模块拦截浏览器的页面返回结果,并保存,将浏览器返回的动静态页面生成纯html静态页面;

步骤4、内容选择模块配置页面的内容选择规则;

步骤5、内容选择模块根据内容选择规则选取指定区域内容的数据,从而抓取网页的数据;

步骤6、内容选择模块将数据发送至缓存区内,抓取的网页的数据缓存至缓存区内;

还包括:步骤7、缓存区内的数据缓存满后,将由内容选择模块将其发送至数据缓存模块,通过内容选择模块将抓取的网页的数据发送至缓存区内并保存使数据能够源源不断地被抓取,避免网页数据量过大,产生冲突。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。



技术特征:

技术总结
本发明涉及互联网网页抓取技术领域,具体涉及一种基于无界面浏览器和可配置代理拦截的网页抓取系统,包括无界面浏览器启动模块、页面下载模块、内容选择模块。本发明还公开了一种抓取方法,包括无界面浏览器启动模块启动无界面浏览器,并指定无界面浏览器的网址、代理参数、网站参数、选择无界面浏览器网址页面链接标签,并加入至页面下载模块中、页面下载模块拦截浏览器的页面返回结果,并保存、内容选择模块配置页面的内容选择规则、内容选择模块根据内容选择规则选取指定区域内容的数据。本发明通过无界面浏览器渲染网页技术,将服务器返回的动静态页面生成纯HTML静态页面,根据内容选择模块限定的规则,抓取网页的数据。

技术研发人员:朱静轩;刘国庆;章文友;孟彦
受保护的技术使用者:中新网络信息安全股份有限公司
技术研发日:2018.09.03
技术公布日:2019.03.08
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1