用于安全产业链的智能垂直搜索装置和方法
【专利摘要】本发明公开了一种用于安全产业链的智能垂直搜索装置和方法,用于安全产业链的智能垂直搜索装置包括,爬行器引擎即搜索器引擎;调度;下载器:下载器抓取网页并将网页内容返还给蜘蛛;蜘蛛:蜘蛛是爬行器用户自己定义用来解析网页并抓取制定URL返回的内容的类,每个蜘蛛能处理一个域名或一组域名,即用来定义特定网站的抓取和解析规则;搜素因子库;项目管道;下载器中间件;蜘蛛中间件;调度中间件:调度中间件是介于爬行器引擎和调度之间的中间件,负责处理从爬行器引擎发送到调度的请求和响应,并提供了一个自定义的代码来拓展爬行器的功能。实现可靠、准确、实时且智能搜索的优点。
【专利说明】用于安全产业链的智能垂直搜索装置和方法
【技术领域】
[0001]本发明涉及用于安全产业链的智能垂直搜索装置和方法,具体地,涉及一种用于药品、食品和医疗器械安全产业链智能垂直搜索装置和方法。
【背景技术】
[0002]大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。据win咨询数据,2005年全球共产生了 1300亿GB (千兆字节)的数据。预计2020年将增至40万亿GB。而每天产生的25GB数据中,仅有0.5%被充分利用,展现出其分析价值。2010年,大数据产业的价值为32亿美元。到2015年预计这一数字将高达169亿美元。
[0003]在药品、食品、医疗器械安全产业链云计算集群服务平台中,2012年积累核心业务数据到200万份,关联文献数据1000万份,2014年核心业务数据积累达到500万份。每年以250%增长。如表一所不:
表一、药品、食品、医疗器械安全产业链云计算集群服务平台Big Data大数据表:
【权利要求】
1.一种用于安全产业链的智能垂直搜索装置,其特征在于,包括 爬行器引擎即搜索器引擎:爬行器引擎用来控制整个系统的数据处理流程,并进行事务处理的触发; 调度:调度程序从爬行器引擎接受请求并排序列入队列,并在爬行器引擎发出请求后返还给调度程序; 下载器:下载器抓取网页并将网页内容返还给蜘蛛; 蜘蛛:蜘蛛是爬行器用户自己定义用来解析网页并抓取制定URL返回的内容的类,每个蜘蛛能处理一个域名或一组域名,即用来定义特定网站的抓取和解析规则; 搜素因子库:包括标准因子库、权重因子库和域库:标准因子库记载药和器械的数据,也就是第一搜素对象,权重因子库,域库:负责权威认证的互联网范围; 项目管道:项目管道的负责处理蜘蛛从网页中抽取的项目,验证和存储数据,当页面被蜘蛛解析后,将被发送到项目管道;项目管道通常执行的过程有:清洗HTML数据,验证解析到的数据即检查项目是否包含必要的字段,检查是否是重复数据如果重复就删除,将解析到的数据存储到数据库中; 下载器中间件:下载中间件是位于爬行器引擎和下载器之间的钩子框架,负责处理爬行器引擎与下载器之间的请求及响应; 蜘蛛中间件:蜘蛛中间件是介于爬行器引擎和蜘蛛之间的钩子框架,负责处理蜘蛛的响应输入和请求输出;提供一个自定义代码的方式来拓展爬行器的功能; 调度中间件:调度中间件是介于爬行器引擎和调度之间的中间件,负责处理从爬行器引擎发送到调度的请求和响应,并提供了一个自定义的代码来拓展爬行器的功能。
2.根据权利要求1所述的用于安全产业链的智能垂直搜索装置,其特征在于,还包括, 安全认证模块:负责内部用户安全认证; 用户行为识别记忆模块:负责垂直闭环搜索中用户的智能行为识别和记忆,为用户提供智能使用导向和服务。
3.—种权利要求2所述的用于安全产业链的智能垂直搜索装置的搜索方法,其特征在于,包括以下步骤: 步骤1、爬行器引擎打开一个域名,蜘蛛处理这个域名,并让蜘蛛获取第一个爬取的URL ; 步骤2、引擎从蜘蛛那获取第一个需要爬取的URL,然后作为请求在调度中进行调度; 步骤3、引擎从调度那获取下一步进行爬取的页面; 步骤4、调度将下一个爬取的URL返回给引擎,引擎通过下载中间件发送到下载器; 步骤5、当网页被下载器下载完成以后,响应内容通过下载中间件被发送到爬行器引擎; 步骤6、爬行器引擎收到下载器的响应并将它通过蜘蛛中间件发送到蜘蛛进行处理; 步骤7、蜘蛛处理响应并返回爬取到的项目,然后给爬行器引擎发送新的请求; 步骤8、爬行器引擎将抓取到的项目发送到项目管道,并向调度发送请求; 步骤9、返回步骤2直到调度中没有请求,然后断开引擎与域之间的联系。
【文档编号】G06F17/30GK103886033SQ201410078014
【公开日】2014年6月25日 申请日期:2014年3月5日 优先权日:2014年3月5日
【发明者】刘欣毅, 李昂生 申请人:无锡香象生物科技有限公司