面向领域的暗网资源采集方法和系统的制作方法

文档序号:6586105阅读:461来源:国知局
专利名称:面向领域的暗网资源采集方法和系统的制作方法
技术领域
本发明涉及信息检索,尤其涉及采集暗网资源的方法。
背景技术
随着互联网技术的快速发展,在Internet中出现了很多不同类型的数据库,它们存储的信息数量庞大、质量高,形成了一个巨大的在线信息资源库。这些存储在后台数据库中的信息,它们存储规范统一,有良好的数据结构,并且数据质量高,但是这些数据库大都隐藏在查询接口一一表单之后,用户只能通过查询接口键入一系列的关键词提交查询之后才能获取后台数据库的信息。而当前的网络爬虫还不具备自动填写查询接口的能力,因此这些信息无法由网络爬虫通过页面超链接关系直接获取,因此信息不能被搜索引擎索弓I。这些不能被标准搜索引擎索引的信息资源被称为暗网(Hidden Web)资源或深网(DeepWeb)资源。通过搜索引擎无法直接获得这些资源的原因在于搜索引擎采用的爬虫技术是通过超链接关系发现新的Web页面,因此缺乏执行表单查询的能力。然而,相关研究调查结果表明暗网资源是十分重要的:一方面暗网资源比搜索引擎可索引的资源在数量上更大,另一方面暗网资源为用户提供的信息质量更高。如何有效的获取这些高质量的暗网资源已成为一个迫切需要解决的问题。查询接口(表单)是进入暗网数据源的唯一途径,只有通过往表单中键入查询关键词,才能获取暗网后台数据库的信息。现有的暗网资源采集技术实际上是将隐藏在页面查询接口背后的资源转换为搜索引擎可索引的形式。页面查询接口根据输入项的个数可分为:简单查询接口和复杂查询接口,简单查询接口即为包含一个输入项的表单,复杂查询接口则是包含两个或多个输入项的表单。目前,暗网资源采集的相关研究主要分为两类:一类是为特定的领域(如汽车、图书等)创建集成的查询接口中介的方法;另一类是为网站的每个查询接口生成一组查询集合的方法。这两类方法中共有的处理过程包括:(a)在网页中识别暗网资源的查询接口 ;(b)根据查询接口进行查询构造;(C)提交所构造的查询,并基于查询返回的结果来实现暗网资源的采集。但是这两类方法根据查询接口进行查询构造的方法各不相同。第一种方法本质上是数据集成的解决方法:该方法为每个领域创建一个中介表单(Mediator Form),从而建立每个数据源与中介表单之间的语义映射,使得中介表单上的执行的查询可以转换为对应数据源表单上的查询,实现暗网资源采集。这种方法采用面向领域的思想,虽然可以达到较高的资源覆盖率,但是对一个搜索引擎来说,还是存在很多缺陷:(I)没有考虑同一领域网站设计的差异,难以解决简单查询接口与中介表单之间的语义映射,特别是无法有效抓取单输入项的表单背后所隐藏的暗网资源;(2)维护中介表单及为其准备输入数据工作繁重,导致该方法的扩展性差。第二种方法则为每个暗网表单计算所有的最相关的查询集合,然后像处理其他静态网页一样离线提取其中的超链接、创建页面索引。这种方法能够充分利用已有的搜索引擎的爬虫技术进行无缝的暗网资源采集。但是,这个方法需要解决的一个至关重要的问题是爬虫如何自动产生最优化的查询以实现有效的暗网资源采集。目前,这种方法通常利用查询接口所在的页面信息构造初始查询集合,利用查询返回的结果动态产生查询集合,采集暗网资源。该方法比较适用于简单查询接口,但是难以对复杂查询接口进行资源采集,原因在于:复杂查询接口包含多个输入项,很难自动确定每个输入项的值域或接受的数据类型,难以建立查询与输入项之间的自动匹配。

发明内容
因此,本发明的目的在于克服上述现有技术的缺陷,提供一种通用的、可扩展的暗网资源采集方法,同时兼容简单查询接口和复杂查询接口的暗网资源采集需求。本发明的目的是通过以下技术方案实现的:一方面,根据本发明的一个实施例提供了一种面向领域的暗网资源采集方法,包括:步骤1,从抓取的页面中识别与指定领域相关的页面,获取有效表单集合;步骤2,对于有效表单集合中的每个表单,判断其表单类型并按照不同的表单类型构造有效查询,所述表单类型为单输入项的表单或多输入项的表单;步骤3,输出有效的查询所返回的结果,作为采集的暗网资源。上述方法中,所述步骤I可包括:计算页面与指定领域的相关度,并基于所述相关度判断页面是否与指定领域相关;对于与指定领域相关的页面,提取该页面中包含的表单;从所提取的表单中过滤掉不可搜索的表单,以获取有效的表单集合。上述方法中,所述步骤I还包括:提取与指定领域相关的页面中可能包含表单的链接,基于该链接进一步抓取网页。上述方法中,对于单输入项的表单,所述步骤2可包括下列步骤:步骤201,基于领域知识或表单所在页面的内容构造初始的候选查询集合,并为该集合中的每个查询赋予权重;步骤202,从候选查询集合中选择一组查询进行提交;步骤203,根据查询返回的结果选择有效的查询;步骤204,根据有效的查询所返回的结果扩充候选查询集合;重复执行步骤202、203、204,直到满足终止条件为止。上述方法中,所述步骤203可包括:( I)根据查询的返回结果,计算查询的命中率和重叠率,以获取查询提交的收益;(2)根据查询提交的收益来选择有效的查询;其中,采用下述公式来计算查询的重叠率、命中率和收益:查询qi的重叠率OR是在DB上执行该查询返回的结果中与T(1-1,DB)中重复的结果项数占整个查询结果总数的比例,记
权利要求
1.一种面向领域的暗网资源采集方法,所述方法包括: 步骤1,从抓取的页面中识别与指定领域相关的页面,获取有效表单集合; 步骤2,对于有效表单集合中的每个表单,判断其表单类型并按照不同的表单类型构造有效查询,所述表单类型为单输入项的表单或多输入项的表单; 步骤3,输出有效的查询所返回的结果,作为采集的暗网资源。
2.根据权利要求1所述的方法,所述步骤I包括: 计算页面与指定领域的相关度,并基于所述相关度判断页面是否与指定领域相关; 对于与指定领域相关的页面,提取该页面中包含的表单; 从所提取的表单中过滤掉不可搜索的表单,以获取有效的表单集合。
3.根据权利要求2所述的方法,所述步骤I还包括: 提取与指定领域相关的页面中可能包含表单的链接,基于该链接进一步抓取网页。
4.根据权利要求1所述的方法,对于单输入项的表单,所述步骤2包括下列步骤: 步骤201,基于领域知识或表单所在页面的内容构造初始的候选查询集合,并为该集合中的每个查询赋予权重; 步骤202,从候选查询集合中选择一组查询进行提交; 步骤203,根据查询返回的结果选择有效的查询;步骤204,根据有效的查询所返回的结果扩充候选查询集合; 重复执行步骤202、203、204,直到满足终止条件为止。
5.根据权利要求4所述的方法,所述步骤203包括: (1)根据查询的返回结果,计算查询的命中率和重叠率,以获取查询提交的收益; (2)根据查询提交的收益来选择有效的查询; 其中,采用下述公式来计算查询的重叠率、命中率和收益: 查询qi的重叠率OR是在DB上执行该查询返回的结果中与T (1-1, DB)中重复的结果项数占整个查询结果总数的比例,记为:
6.根据权利要求4或5所述的方法,所述步骤203还包括根据查询返回的结果计算候选集合中每个查询的权重,并更新候选查询集合。
7.根据权利要求1所述的方法,对于多输入项的表单,所述步骤2包括下列步骤: 步骤2a,构造指定领域的领域属性及属性同义词集合,并获取每个领域属性的取值集合,并为每个领域属性赋予权重以指示该领域属性能标识该指定领域的重要程度; 步骤2b,判断该表单是否与该指定领域相关; 步骤2c,对于与指定领域相关的表单,根据该表单的输入项构造维度为I的查询模板,所述维度表示查询模板中包含的输入项的个数; 步骤2d,基于领域属性的取值集合对查询模板中包含的输入项赋值,以确定对于该查询模板的查询集合; 步骤2e,根据查询返回的结果选择有效的查询模板; 步骤2f,基于当前的有效查询模板和表单的输入项,构造下一维度的查询模板; 重复执行步骤2d、2e、2f,直到满足终止条件为止。
8.根据权利要求7所述的方法,所述步骤2b包括: 根据表单与指定领域的相关度来判断表单是否与指定领域相关;其中,表单与指定领域的相关度通过计算表单每个输入项与该指定领域的领域属性的文本相似度和领域属性的重要程度的乘积的和获得,采用如下公式:
9.根据权利要求7或8所述的方法,所述步骤2b还包括如果表单包含下拉、单选、复选类型的输入项,则利用这些输入项的取值扩充领域属性的取值集合。
10.根据权利要求7所述的方法,所述步骤2e包括: (a)提交为该查询模板所构造的查询集合中的每个查询; (b)根据查询的返回结果,计算查询模板的命中率和重叠率,以获取查询模板提交的收.、M ; (C)根据查询模板提交的收益来选择有效的查询模板; 其中,采用下述公式来计算查询模板的重叠率、命中率和收益: 查询模板的重叠率OR(QTi)是在DB上执行该查询模板生成的查询集合返回的结果中与T(1-1,DB)中重复的结果项数占整个查询结果总数的比例,记为:
11.根据权利要求7或10所述的方法,所述步骤2e还包括对有效的查询模板的查询集合返回的结果进行属性抽取,以扩充领域属性的取值集合。
12.—种面向领域的暗网资源采集系统,所述系统包括:表单提取模块,用于从抓取的页面中识别与指定领域相关的页面,获取有效表单集合; 表单查询构造模块,用于对于有效表单集合中的每个表单,判断其表单类型并按照不同的表单类型构造有效查询,所述表单类型为单输入项的表单或多输入项的表单; 输出模块,用于输出 有效的查询所返回的结果,作为采集的暗网资源。
全文摘要
本发明提供了一种面向领域的暗网资源采集方法。该方法从抓取的页面中识别与指定领域相关的页面,获取有效表单集合;对于有效表单集合中的每个表单,判断其表单类型并按照不同的表单类型构造有效查询,所述表单类型为单输入项的表单或多输入项的表单;以及输出有效的查询所返回的结果,作为采集的暗网资源。该方法能够实现暗网资源查询接口的自动识别和分类,同时实现简单查询接口和复杂查询接口的查询的有效构造,从而实现暗网资源的采集。该方法不仅能够无缝的集成到现有的搜索引擎当中,而且能够同时进行简单查询接口和复杂查询接口所指向的暗网资源的采集。
文档编号G06F17/30GK103116635SQ20131004931
公开日2013年5月22日 申请日期2013年2月7日 优先权日2013年2月7日
发明者熊锦华, 林海伦, 程学旗, 张永超, 廖华明 申请人:中国科学院计算技术研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1