定位文件指针位置到上次实际发送字节数位置,进行读取数据继续发送,从而保证文件发送的完整性。
[0080]S321,忙碌采集机器将采集结果解密后,验证采集结果文件的摘要。
[0081]忙碌采集机器接收端接收到空闲采集机器发送端发送过来的文件头协议包后,循环接收采集任务结果数据,直到接收到该文件大小数量的数据,以保证数据接收完整。文件接收完毕后,对该文件数据进行解密和MD5校验,以检验文件数据的完整性、正确性和可靠性。
[0082]需要说明的是本发明对采集结果获取摘要的摘要算法为MD5,本领域技术人员可知,摘要算法不限于MD5,还可用CRC(Cyclic Redundancy Check,循环冗余校验)算法、SHA(Secure Hash Algorithm,安全哈希算法)等其他类型的摘要算法。
[0083]S322,摘要验证成功后,将采集任务数据库中该采集任务状态改为执行成功状态,并将采集结果放入采集任务结果文件中,摘要验证失败后,请求空闲采集机器重新发送采集结果。
[0084]如果采集任务结果数据MD5校验成功,打开忙碌采集机器的任务数据库,修改该条任务数据状态为执行成功状态,并将接收到的采集任务结果数据写入到采集任务结果文件中。如果采集任务结果数据MD5校验失败,重发采集任务结果文件,以便进行重新采集。
[0085]本发明还提出了一种互联网数据采集系统,参阅图6所示,为互联网数据采集系统框架图,该系统包括采集机器和中心机器。
[0086]采集机器,用于管理和执行采集任务,并将机器信息发送到中心机器,在线空闲采集机器到其他忙碌采集机器上请求采集任务,忙碌采集机器将自身采集任务发送给空闲采集机器,采集任务完成后将采集结果传输给对应的采集机器。采集机器为第三方软件提供采集服务,第三方软件可以添加采集任务,采集机器之间相互协作,上网进行采集任务数据。将本采集机器的相关信息定时上传到中心机器;
[0087]中心机器,用于管理采集机器,查看采集机器的运行状态,并将在线采集机器列表发送给在线采集机器。中心机器负责管理采集机器的运行与停止,查看采集机器的运行状态、日志信息以及自动更新操作。
[0088]此外,采集机器包括文件发送端和文件接收端,一个采集机器的文件发送端将其采集任务或采集结果发送给另一个采集机器的文件接收端。
[0089]采集机器包括采集任务添加模块、采集任务录入模块和采集任务数据库,采集机器将接收到其他采集机器发送过来的采集任务放入采集任务添加模块中,采集任务添加模块通过采集任务录入模块将采集任务存入采集任务数据库中。
[0090]尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式上和细节上可以对本发明做出各种变化,均为本发明的保护范围。
【主权项】
1.一种互联网数据采集方法,其特征在于:它包括以下步骤, SI,采集机器将其机器信息发送给中心机器,中心机器将在线采集机器列表发送给采集机器; S2,在线空闲米集机器到其他忙碌米集机器上请求米集任务,忙碌米集机器将自身米集任务发送给空闲采集机器; S3,空闲采集机器接收到忙碌采集机器发送的采集任务,完成该采集任务,将采集结果传输给对应的采集机器。2.如权利要求1所述的互联网数据采集方法,其特征在于:所述步骤SI还包括采集机器在运行过程中产生的运行日志信息发送给中心机器。3.如权利要求1所述的互联网数据采集方法,其特征在于:所述步骤S2中忙碌采集机器将自身采集任务发送给空闲采集机器的步骤包括, S210,空闲米集机器轮询其他在线米集机器,请求米集任务,并发送其机器?目息; S211,忙碌采集机器接收到空闲采集机器的采集任务请求,对空闲采集机器的机器信息验证成功后,查找忙碌米集机器未执行或超时的米集任务,超时的米集任务为其他米集机器执行该采集任务未按时返回采集结果的采集任务; S212,判断忙碌采集机器未执行或超时的采集任务是否为空,若为空,则返回给空闲采集机器空信息,若不为空,则将采集任务信息发送给空闲采集机器; S213,空闲米集机器对接收到米集任务彳目息进行验证,验证米集任务有效后,加入待执行任务列表中。4.如权利要求3所述的互联网数据采集方法,其特征在于:所述步骤S213后,将该采集任务添加到采集任务数据库中包括以下步骤, S214,采集任务添加模块将采集任务的基本信息发送到采集任务录入模块; S215,采集任务录入模块接收到采集任务的基本信息,保存该基本信息,并反馈信息给米集任务添加模块; S216,采集任务添加模块接收到采集任务录入模块的反馈信息后,发送采集任务数据给米集任务录入模块; S217,采集任务录入模块接收到采集任务数据,根据采集任务的基本信息对该采集任务数据进行验证,验证成功,则将采集任务存入到采集任务数据库中,验证失败,返回任务接收失败消息给采集任务添加模块。5.如权利要求1所述的互联网数据采集方法,其特征在于:所述步骤S3中采集任务的完成包括以下步骤, S310,空闲采集机器获取采集任务后,并向下载服务程序请求连接,发送采集请求; S311,采集下载服务程序接收到采集请求后,到互联网上进行采集数据; S312,空闲采集机器将采集结果保存到采集任务结果文件中。6.如权利要求1所述的互联网数据采集方法,其特征在于:所述步骤S3中采集结果的传输包括以下步骤, S320,空闲采集机器采用摘要算法获得采集结果的摘要,将该摘要和加密后的采集结果发送给忙碌采集机器; S321,忙碌采集机器将采集结果解密后,验证采集结果文件的摘要; S322,摘要验证成功后,将采集任务数据库中该采集任务状态改为执行成功状态,并将采集结果放入采集任务结果文件中,摘要验证失败后,请求空闲采集机器重新发送采集结果O7.一种互联网数据采集系统,其特征在于:它包括, 采集机器,用于管理和执行采集任务,并将机器信息发送到中心机器,在线空闲采集机器到其他忙碌采集机器上请求采集任务,忙碌采集机器将自身采集任务发送给空闲采集机器,采集任务完成后将采集结果传输给对应的采集机器; 中心机器,用于管理采集机器,查看采集机器的运行状态,并将在线采集机器列表发送给在线米集机器。8.如权利要求7所述的互联网数据采集系统,其特征在于:所述采集机器包括文件发送端和文件接收端,一个采集机器的文件发送端将其采集任务或采集结果发送给另一个采集机器的文件接收端。9.如权利要求7所述的互联网数据采集系统,其特征在于:所述采集机器包括采集任务添加模块、采集任务录入模块和采集任务数据库,采集机器将接收到其他采集机器发送过来的采集任务放入采集任务添加模块中,采集任务添加模块通过采集任务录入模块将采集任务存入采集任务数据库中。
【专利摘要】本发明属于网络数据采集技术领域,具体涉及一种互联网数据采集方法及系统。该方法包括以下步骤,S1,采集机器将其机器信息发送给中心机器,中心机器将在线采集机器列表发送给采集机器;S2,在线空闲采集机器到其他忙碌采集机器上请求采集任务,忙碌采集机器将自身采集任务发送给空闲采集机器;S3,空闲采集机器接收到忙碌采集机器发送的采集任务,完成该采集任务,将采集结果传输给对应的采集机器。本发明采集机器之间相互协作,共同完成工作任务。
【IPC分类】H04L12/26, H04L29/08
【公开号】CN105553774
【申请号】CN201510976157
【发明人】林志扬, 胡贞财
【申请人】厦门市美亚柏科信息股份有限公司
【公开日】2016年5月4日
【申请日】2015年12月23日