一种分布式互联网数据快速采集系统及采集方法与流程

文档序号：12177260阅读：来源：国知局

技术特征：

1.一种分布式互联网数据快速采集系统，其特征在于，包括种子网站设置节点，超链接采集层，实时队列，网页下载与解析层，网页数据存储层五个层；

所述种子网站设置节点用于设置存储数据源的各项参数及抽取规则等，为单一节点；

所述超链接采集层用于对数据源的超链接列表网页进行请求并提取目标网页的超链接；

所述实时队列用于存取超链接采集层提取的URL超链接、该超链接对应的抽取规则及已访问过的URL超链接；

所述网页下载与解析层用于请求并解析实时队列中未访问过的URL超链接并格式化提取特定数据；

所述网页数据存储层用于存储网页下载与解析层格式化抽取的目标数据。

2.如权利要求1所述的分布式互联网数据快速采集系统，其特征在于，所述种子网站设置节点使用的是关系型数据库。

3.如权利要求1所述的分布式互联网数据快速采集系统，其特征在于，所述超链接采集层由单个或者若干网络爬虫节点构成，这些网络爬虫彼此物理隔离、逻辑协作完成目标网页的超链接提取工作，根据数据源的规模可横向扩展；超链接采集层是分布式多节点的，单个节点的运行是定时的，该层节点将采集的超链接整合对应的抽取规则存入实时队列。

4.如权利要求1所述的分布式互联网数据快速采集系统，其特征在于，所述实时队列是独立部署的，未访问过的超链接是实时存取的，已访问的超链接是持久存储的。

5.如权利要求1所述的分布式互联网数据快速采集系统，其特征在于，所述网页下载与解析层由多个网络爬虫节点组成，节点间彼此独立工作，主要负责目标数据的结构化信息提取工作，根据超链接采集层提取的超链接规模可横向扩展；每个节点包括一套基于HTML文档树的信息结构化抽取方法与一套通用正文信息抽取方法，对于网页正文部分的抽取可切换使用；

网页下载与解析层是分布式多节点的，可横向扩展的，单个节点的运行是实时的，节点读取实时队列中的超链接后进行过滤、解析、格式化抽取目标数据并存储操作。

6.如权利要求1所述的分布式互联网数据快速采集系统，其特征在于，所述网页数据存储层采用的是开源大数据存储数据库，多节点可扩展的。

7.一种基于分布式网络数据快速采集方法，基于权利要求1～6任一所述的分布式网络数据快速采集系统，其特征在于，具体步骤如下：

步骤1，种子网站设置节点设置所有种子URL、抽取规则、网站编码等信息；

步骤2，超链接采集层中的节点定时读取数据源信息并采集数据源特定列表页的URL，格式化后并同对应的结构化抽取规则存入实时队列；

步骤3，网页下载与解析层中的节点实时读取实时队列中的网页超链接请求下载并结合伴随传递的抽取规则结构化提取数据，若正文数据提取成功则直接存入网页数据存储层中，否则采用通用正文抽取的方法进行正文提取，然后存入网页数据存储层中。

8.如权利要求7所述的基于分布式网络数据快速采集方法，其特征在于，步骤1具体为：用户通过web系统添加所有需要采集的目标网站，这些目标网站中包含用户感兴趣的多个目标版块，然后进行如下设置：

第一步，设置的网站信息包括当前网站的域名、名称、类型、页面编码、该网站通用目标URL过滤正则表达式以及通用信息抽取规则，该网站当前设置的信息适用于该网站下所有采集版块；

第二步，设置网站的版块信息，包括版块的名称、种子URL，若版块的域名、目标URL过滤正则表达式及信息抽取规则与该网站的通用设置不同，则在对应的位置个性化设置该处信息。

9.如权利要求8所述的基于分布式网络数据快速采集方法，其特征在于，步骤2具体为：超链接采集层中的节点定时读取步骤1设置的网站及版块信息，以版块为基本单位进行格式化处理，对于每一个采集版块该过程详细描述为：

第一步，继承当前版块所属网站的所有信息；

第二步，若域名、URL过滤正则表达、页面信息抽取规则版块进行了设置，该版块将使用自身个性化设置替代从网站设置中继承来的相应设置信息；

第三步，请求版块种子URL页面，使用当前版块的URL过滤正则表达式提取目标网页的URL集合，每个版块采集得到一个URL集合；

第四步，以当前的每个URL集合中的单个元素为目标URL，使用当前版块设置的域名拼接完整的目标URL结合对应第二步中设置好的版块信息形成新的多元组，多元组中的信息包括了该目标URL的页面编码、网站名称、版块名称、页面编码、标题抽取规则、作者抽取规则、正文抽取规则、发布时间抽取规则、网站类型等；最后将设置好的多元组压入实时队列中，这个过程将目标URL与抽取规则绑定，做到一一对应。

10.如权利要求9所述的基于分布式网络数据快速采集方法，其特征在于，步骤3具体为：网页下载与解析层中的节点实时读取实时队列中通过步骤2设置好的多元组，请求目标页面，对于请求成功的目标页面，采用多元组中的对应抽取规则对页面进行解析，对于非正文部分的信息抽取，若规则为空或者采用当前规则抽取失效，则报出规则为空异常或者抽取失败异常并记录日志；对于正文抽取，若设置的正文抽取规则为空或者抽取失败，则采用通用正文抽取方法，若抽取失败则报出通用抽取失败异常并记录日志；若抽取成功，则将对应的数据以单条记录的方式存入数据存储层。

完整全部详细技术资料下载

当前第2页1 2 3