一种互联网数据采集方法及系统的制作方法

文档序号:9790869阅读:438来源:国知局
一种互联网数据采集方法及系统的制作方法
【技术领域】
[0001]本发明属于网络数据采集技术领域,具体涉及一种互联网数据采集方法及系统。
【背景技术】
[0002]采集机器接收到采集任务后,从互联网上采集网络数据。在采集网络数据时,由于一台采集机器在短时间内频繁采集网络数据,会被目标网站屏蔽,而无法实现正常采集网络数据。由于采集机器本身性能的限制,采集网络数据速度较慢,然后此时其他采集机器并无采集任务,处于空闲状态,不仅延长了采集机器完成采集任务的时间,也造成了一定的资源浪费。
[0003]参考专利文献CN102130759A公开了一种数据采集方法,该方法应用于数据采集机集群中,该方法包括:数据采集机集群中的第一数据采集机进行数据采集;当第一数据采集机发生故障时,由数据采集机集群中的第二数据采集机替换第一数据采集机进行数据采集。该专利是在第一数据采集机发生故障时,再使用第二数据采集机替换第一数据采集机,第二数据采集机为备用,当第一数据采集机正常工作时,第二数据采集机处于空闲状态,浪费了资源。
[0004]参考专利文献CN103188101A公开了一种分布式采集调度方法及装置,该装置中包括一台中心服务器、多台采集机。用户可以配置多台采集机,只需要在中心服务器将需要采集的各种网络设备信息分配给不同的采集机,那么每个采集机就可以单独的调度自己的采集任务。该专利是对采集机进行统一管理,将设备信息分配多些给采集任务多的采集机,但每个采集机的采集任务需要自己完成,不能分配给其他采集机。

【发明内容】

[0005]针对现有技术存在的不足之处,本发明提出了一种互联网数据采集方法及系统,该系统的中心机器不提供采集任务,只是监控采集机器的运行状态。每一个采集机器都提供米集任务添加服务、任务协助米集,以及米集功能,解决米集机器负载均衡的冋题,特别适合以网页为载体的采集服务。采集机器数量不限,可以根据用户需要增减采集机器。
[0006]本发明采用如下技术方案:
[0007]—种互联网数据采集方法,它包括以下步骤,
[0008]SI,采集机器将其机器信息发送给中心机器,中心机器将在线采集机器列表发送给采集机器;
[0009]S2,在线空闲采集机器到其他忙碌采集机器上请求采集任务,忙碌采集机器将自身采集任务发送给空闲采集机器;
[0010]S3,空闲采集机器接收到忙碌采集机器发送的采集任务,完成该采集任务,将采集结果传输给对应的采集机器。
[0011 ]进一步的,步骤SI还包括采集机器在运行过程中产生的运行日志信息发送给中心机器。
[0012]进一步的,步骤S2中忙碌采集机器将自身的采集任务发送给空闲采集机器的步骤包括,
[00?3] S210,空闲米集机器轮询其他在线米集机器,请求米集任务,并发送其机器?目息;
[0014]S211,忙碌采集机器接收到空闲采集机器的采集任务请求,对空闲采集机器的机器?目息验证成功后,查找忙碌米集机器未执行或超时的米集任务,超时的米集任务为其他采集机器执行该采集任务未按时返回采集结果的采集任务;
[0015]S212,判断忙碌采集机器未执行或超时的采集任务是否为空,若为空,则返回给空闲采集机器空信息,若不为空,则将采集任务信息发送给空闲采集机器;
[0016]S213,空闲采集机器对接收到采集任务信息进行验证,验证采集任务有效后,加入待执行任务列表中。
[0017]更进一步的,步骤S213后,将该采集任务添加到采集任务数据库中包括以下步骤,
[0018]S214,采集任务添加模块将采集任务的基本信息发送到采集任务录入模块;
[0019]S215,采集任务录入模块接收到采集任务的基本信息,保存该基本信息,并反馈信息给米集任务添加模块;
[0020]S216,采集任务添加模块接收到采集任务录入模块的反馈信息后,发送采集任务数据给采集任务录入模块;
[0021]S217,米集任务录入模块接收到米集任务数据,根据米集任务的基本彳目息对该米集任务数据进行验证,验证成功,则将采集任务存入到采集任务数据库中,验证失败,返回任务接收失败消息给采集任务添加模块。
[0022]进一步的,步骤S3中采集任务的完成包括以下步骤,
[0023]S310,空闲采集机器获取采集任务后,并向下载服务程序请求连接,发送采集请求;
[0024]S311,采集下载服务程序接收到采集请求后,到互联网上进行采集数据;
[0025]S312,空闲采集机器将采集结果保存到采集任务结果文件中。
[0026]进一步的,步骤S3中采集结果的传输包括以下步骤,
[0027]S320,空闲采集机器采用摘要算法获得的采集结果的摘要,将该摘要和加密后的采集结果发送给忙碌采集机器;
[0028]S321,忙碌采集机器将采集结果解密后,验证采集结果文件的摘要;
[0029]S322,摘要验证成功后,将采集任务数据库中该采集任务状态改为执行成功状态,并将采集结果放入采集任务结果文件中,摘要验证失败后,请求空闲采集机器重新发送采集结果。
[0030]一种互联网数据采集系统,它包括,
[0031]采集机器,用于管理和执行采集任务,并将机器信息发送到中心机器,在线空闲采集机器到其他忙碌采集机器上请求采集任务,忙碌采集机器将自身采集任务发送给空闲采集机器,采集任务完成后将采集结果传输给对应的采集机器;
[0032]中心机器,用于管理采集机器,查看采集机器的运行状态,并将在线采集机器列表发送给在线采集机器。
[0033]进一步的,采集机器包括文件发送端和文件接收端,一个采集机器的文件发送端将其采集任务或采集结果发送给另一个采集机器的文件接收端。
[0034]进一步的,米集机器包括米集任务添加模块、米集任务录入模块和米集任务数据库,采集机器将接收到其他采集机器发送过来的采集任务放入采集任务添加模块中,采集任务添加模块通过采集任务录入模块将采集任务存入采集任务数据库中。
[0035]本发明提供了一种廉价有效透明的方法扩展网络设备和服务器的带宽,增加吞吐量,加强网络数据处理能力,提高网络的灵活性和可用性,且使采集机器之间相互协作,共同完成工作任务。
【附图说明】
[0036]图1是中心机器对采集机器监控流程图;
[0037]图2是采集机器之间任务传递流程图;
[0038]图3是采集任务添加到采集任务数据库中的流程图;
[0039]图4是米集任务执行的流程图;
[0040]图5是采集器之间传输采集结果的流程图;
[0041 ]图6是互联网数据采集系统框架图。
【具体实施方式】
[0042]为进一步说明各实施例,本发明提供有附图。这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。
[0043]现结合附图和【具体实施方式】对本发明进一步说明。
[0044]参阅图1至图6所示,本发明提出了一种互联网数据采集方法,它包括以下步骤,
[0045]SI,采集机器将其机器信息发送给中心机器,中心机器将在线采集机器列表发送给采集机器。
[0046]采集机器将其IP、状态、机器码等自身相关的机器信息,以及
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1