网页爬虫系统及网页爬取方法
【技术领域】
[0001]本发明涉及一种网页爬虫系统及网页爬取方法。
【背景技术】
[0002]爬虫技术目前正遭受前所未有的挑战,随着反爬技术的发展,数据抓取变得越来越困难,可以预计今后通过传统手段,将再也无法成功抓取到有价值的数据,现有技术亟需新的爬虫技术来爬取网页数据。
【发明内容】
[0003]本发明要解决的技术问题是为了克服现有技术中反爬技术的发展使得数据抓取变得越来越困难的缺陷,提供一种网页爬虫系统及网页爬取方法。
[0004]本发明是通过下述技术方案来解决上述技术问题的:
[0005]本发明提供了一种网页爬虫系统,其特点在于,包括:
[0006]页面打开模块,用于自动调度浏览器打开目标页面;
[0007]区域爬取模块,用于对目标页面中的指定区域进行自动截图,并将截图回传至OCR (光学字符识别)服务器;
[0008]所述OCR服务器用于根据所述指定区域及样本字库,对截图进行图像识别,并按照预设配置格式,对识别结果进行输出。
[0009]较佳地,所述区域爬取模块还用于对截图进行压缩,并将压缩后的截图回传至OCR服务器。
[0010]较佳地,所述配置格式为可自定义的配置格式。
[0011]较佳地,所述页面打开模块用于基于调度系统下发的任务打开目标页面。
[0012]本发明的目的在于还提供了一种网页爬取方法,其特点在于,其利用上述的网页爬虫系统实现,包括以下步骤:
[0013]S1、页面打开模块自动调度浏览器打开目标页面;
[0014]S2、区域爬取模块对目标页面中的指定区域进行自动截图,并将截图回传至OCR月艮务器;
[0015]S3、所述OCR服务器根据所述指定区域及样本字库,对截图进行图像识别,并按照预设配置格式,对识别结果进行输出。
[0016]较佳地,步骤S2中所述区域爬取模块还对截图进行压缩,并将压缩后的截图回传至OCR服务器。
[0017]较佳地,所述配置格式为可自定义的配置格式。
[0018]较佳地,步骤S1中所述页面打开模块基于调度系统下发的任务打开目标页面。
[0019]本发明的积极进步效果在于:本发明能够突破现有网站的一切前端反爬限制,实现了只要能打开页面,在未被封锁IP(网络之间互连的协议)的情况下,就可以进行信息的识别和抓取,从而提升了爬虫系统的可用性。
【附图说明】
[0020]图1为本发明的较佳实施例的网页爬虫系统的模块示意图。
[0021]图2为本发明的较佳实施例的网页爬取方法的流程图。
【具体实施方式】
[0022]下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
[0023]如图1所示,本发明的网页爬虫系统包括页面打开模块1、区域爬取模块2及OCR服务器3,其中,页面打开模块I用于自动调度浏览器打开目标页面,基于调度系统下发的任务,直接在普通浏览器中,将目标页面打开;
[0024]所述区域爬取模块2用于对目标页面中的指定区域进行自动截图,并将截图回传至OCR服务器3,由于爬虫机性能有限,OCR需要占用大量的CPU (中央处理器)资源,因此,比较合适的方式就是所述区域爬取模块2对截图进行适当压缩,并将压缩后的截图回传至OCR服务器,以便后者进行集中处理;
[0025]所述OCR服务器3则根据所述指定区域及样本字库,对截图进行图像识别,并按照既定配置格式,对识别结果进行输出。其中,所述配置格式可根据用户需求自定义。
[0026]综上可以看出,整套系统的工作方式和真实用户的浏览行为并没有任何差异,模拟人类的视觉系统进行信息的抓取,使目标网站的一切基于前端的反爬策略完全失效,使爬虫可以按需进行数据抓取,保证了系统在大部分时间的可用性,即使网站前端UI (用户界面)进行大面积的改版,本发明的系统也可以通过及时调整相应配置文件进行动态适配。
[0027]如图2所示,本发明利用本实施例的网页爬虫系统实现的网页爬取方法包括以下步骤:
[0028]步骤101、页面打开模块自动调度浏览器打开目标页面;
[0029]步骤102、区域爬取模块对目标页面中的指定区域进行自动截图,并将截图回传至OCR服务器;
[0030]步骤103、所述OCR服务器根据所述指定区域及样本字库,对截图进行图像识别,并按照预设配置格式,对识别结果进行输出。
[0031]其中,步骤S1中所述页面打开模块基于调度系统下发的任务打开目标页面,步骤S2中所述区域爬取模块还对截图进行压缩,并将压缩后的截图回传至OCR服务器,而所述配置格式可根据用户需要自定义。
[0032]虽然以上描述了本发明的【具体实施方式】,但是本领域的技术人员应当理解,这些仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
【主权项】
1.一种网页爬虫系统,其特征在于,包括: 页面打开模块,用于自动调度浏览器打开目标页面; 区域爬取模块,用于对目标页面中的指定区域进行自动截图,并将截图回传至OCR服务器; 所述OCR服务器用于根据所述指定区域及样本字库,对截图进行图像识别,并按照预设配置格式,对识别结果进行输出。2.如权利要求1所述的网页爬虫系统,其特征在于,所述区域爬取模块还用于对截图进行压缩,并将压缩后的截图回传至OCR服务器。3.如权利要求1所述的网页爬虫系统,其特征在于,所述配置格式为可自定义的配置格式。4.如权利要求1所述的网页爬虫系统,其特征在于,所述页面打开模块用于基于调度系统下发的任务打开目标页面。5.一种网页爬取方法,其特征在于,其利用如权利要求1所述的网页爬虫系统实现,包括以下步骤: 51、页面打开模块自动调度浏览器打开目标页面; 52、区域爬取模块对目标页面中的指定区域进行自动截图,并将截图回传至OCR服务器; 53、所述OCR服务器根据所述指定区域及样本字库,对截图进行图像识别,并按照预设配置格式,对识别结果进行输出。6.如权利要求5所述的网页爬取方法,其特征在于,步骤S2中所述区域爬取模块还对截图进行压缩,并将压缩后的截图回传至OCR服务器。7.如权利要求5所述的网页爬取方法,其特征在于,所述配置格式为可自定义的配置格式。8.如权利要求5所述的网页爬取方法,其特征在于,步骤Si中所述页面打开模块基于调度系统下发的任务打开目标页面。
【专利摘要】本发明公开了一种网页爬虫系统及网页爬取方法,网页爬虫系统包括:页面打开模块,用于自动调度浏览器打开目标页面;区域爬取模块,用于对目标页面中的指定区域进行自动截图,并将截图回传至OCR服务器;所述OCR服务器用于根据所述指定区域及样本字库,对截图进行图像识别,并按照预设配置格式,对识别结果进行输出。本发明能够突破现有网站的一切前端反爬限制,实现了只要能打开页面,在未被封锁IP的情况下,就可以进行信息的识别和抓取,从而提升了爬虫系统的可用性。
【IPC分类】G06F17/30
【公开号】CN104933138
【申请号】CN201510334805
【发明人】吴鹏越, 吴凌峰, 华浩锋
【申请人】携程计算机技术(上海)有限公司
【公开日】2015年9月23日
【申请日】2015年6月16日