专利名称:用于深层网数据集成的数据源选择方法
技术领域:
本发明涉及一种基于网络的数据源选择方法,具体涉及一种由网络查询接口连接 的深层网的数据源选择方法,用于深层网数据源的集成服务。
背景技术:
随着网络数据库的广泛应用,网络正在加速的“深化”。互联网上有大量页面是由 后台数据库动态产生,这部分信息不能直接通过静态链接获取,只能通过填写表单提交查 询来获取,由于传统的网络爬虫(Crawler)不具有填写表单的能力,爬不出这些页面。因 此,现有的搜索引擎搜索不出这部分页面信息,从而导致这部分信息对用户是隐藏、不可见 的,被称为深层网(De印Web,又称为Invisible Web, Hidden Web)。Deep Web是一个与 Surface Web相对应的概念,最初由Dr. Jill Ellsworth于1994年提出,指那些由普通搜索 引擎难以发现其信息内容的Web页面。De印Web信息一般存储在数据库中,需要通过查询 接口提交查询进行访问,和静态页面相比通常信息量更大,主题更专一,信息质量更好,信 息结构化更好,增长速度更快。研究表明,De印Web信息是Surface Web信息的500倍,有 近450,000个De印Web站点。实现大规模DeepWeb数据集成是方便用户使用De印Web信 息的一个有效途径。大规模De印Web集成系统主要包含1)数据源发现(De印Web Discovery) ;2) 查询接口抽取(Query Interface Extraction) ;3)数据源选择(Source selection) ;4)查 询转换(Query Transfer) ;5)结果合成(Result Merging)这五个关键部分。Deep Web数据源包括多种主题的数据资源,而且在某个主题上De印Web数据源 也有许多,这些数据源属于同一主题,但数据质量上差别很大有些是过时的、不准确或不 一致的,而有些是更新及时、准确一致的。并且这些数据源包含的数据量大小不一,互相覆 盖,有的覆盖大,有的甚至完全包含其它的数据源。以商业和教育这两个领域为例,根据 Complete Planet的统计,存在上千个Web数据库,由于Complete Planet只是搜集了整个 Deep Web数据源中大约7%的Web数据库,所以在现实中还要远远大于这个数字(Bergman Μ.K. The Deep Web :Surfacing Hidden Value. In Journal of Electronic Publishing, 2002,7(1) =8912-8914)。Kabra G等提出了一种选择那些和用户查询请求内容最为接近的 (Top-k)k个De印 Web数据源进行查询的方法(Kabra G,Li CK,Chang KCC. Query routing Finding Ways in the Maze of the Deep Web. In Proc. of the ICDE,2005,64—73)。上述 方法只处理查询接口简单属性关系,而且是通过关键词进行查询表单,这些方法没有考虑 到查询接口各属性间语义关系,而且进行相应数据源选择过程中数据源选择结果的准确率 低,而且返回数据源结果不全等。随着Web数据库数量的不断增长,使得Deep Web数据源 的选择成为一个亟待解决的关键问题。
发明内容
本发明的目的是针对现有技术的不足,提供一种高效、准确的深层网数据源选择方法,从而提高深层网数据源的选择效率和准确度。数据源选择是指在给定Deep Web数据源查询接口集和某个用户查询的条件下,选 择与用户查询相关度大于某一设定的阈值的查询接口集或者选择相关度值较大的前k个 数据源的查询接口集的过程。数据源选择主要是为了选择覆盖程度高,重叠程度小的数据 库,避免出现大量的冗余和无关信息;用户希望找到相应的高质量的查询结果,又希望能得 到相同结果之间的对比情况。现有数据源选择方法大多是直接计算用户查询与查询接口的 相关度来进行关键词匹配,由于以下三方面原因导致使用现有方法时,用户查询通常是不 准确的,并且具有较高的冗余度,同时会发现一些不相关的数据源首先是由于同一个领域中存在大量可访问De印Web资源,访问Internet上大量 的Deep Web是个费时又费力的过程;其次各数据库的数据质量相差很大,有些是过时的、 不准确或不一致的,而有些是更新及时、准确一致的,并不是每一个Deep Web都能够满足一 个特定的查询,显然任何一个领域的Deep Web不可能包含该领域中所有的信息,因此也不 可能满足这个领域的任意查询;最后就是一个领域中大部分的Deep Web数据源包含的数 据量大小不一,互相覆盖,有的覆盖大,甚至完全包含其它的数据源;而且它们之间还存在 着冗余的信息,而对于一个查询而言,访问Deep Web次数越多,返回信息的冗余度也会越 大,极大地增加冗余信息的处理难度。基于以上分析可知,在De印Web数据源的选择这一步要达到的目标是如何从一个 领域中大量的Deep Web数据源中选择出合适的子集,减少访问Deep Web的数量和使得查 询结果中冗余度足够小,而且查询代价更低。为此,我们利用查询接口语义特征,基于领域本体将用户查询进行了扩展,这样, 所选择的查询接口集更能满足用户的查询要求。具体的说,本发明技术方案如下一种用于深层网数据集成的数据源选择方法,其特征在于,包括以下步骤步骤A、对查询接口进行解析;步骤B、构建本体库并通过本体库把相应查询信息转化为本体信息;步骤C、计算本体信息与各数据源的相关度,根据相关度选择满足预先设定的条件 的数据源;对于给定目标查询接口对象DWIi和查询本体Qi,相关度按照如下公式计算其中,R(DffIi, Qi)表示查询本体Qi与查询接口对象DWIi的相关度,m为查询接口 中的对象个数。本体是一种具有更多语义和结构信息的复杂模型,上述步骤B中的本体库可以使 用现有的公用本体库;也可以通过采集现有的公用本体库,并对这些本体库进行扩充,得到 新的本体库;而本发明采用后者。这类本体学习的主要任务就是分析关系模型中蕴涵的语义信息,并将其映射到本 体中的相应部分。其次,查询接口和数据源结果页面通常包含丰富的信息如概念、实例以及 领域有关的概念之间的关系,查询接口以HTML表单格式出现,在无法获得数据库模式的情 况下,可以通过分析HTML表单的结构和数据来获取Web数据库中的语义,从而构建本体。根
据以上分析,可以通过以下各步骤构建本发明的本体库步骤Bi、通过现有本体库分析HTML表单模式结构来获取查询接口的语义,构建相 应本体库中的类;步骤B2、从查询接口和结果页面抽取概念和实例,提取现有本体库中类的层次关 系和函数关系;步骤B3、从某个主题的多个数据源中提取上述步骤B2中得到的本体类之间关系, 然后推理映射不同的关系,最后合并成一个更高层的领域本体;针对每个本体库中的每个 类,构建与该类对应的关键词集合,组成本体库的词汇层。为了进一步提高数据源选择的准确性,减少信息冗余,降低查询代价;本发明又在 上述技术方案的基础上引入了数据源质量得分的概念,通过数据源的质量得分来度量数据 源的质量,选择质量得分较高的若干数据源而放弃其他质量较低的数据源,从而大大降低 信息冗余,提高了查询的准确性。具体而言,就是在上述步骤C之后继续执行以下各步骤步骤D、建立数据源质量评估模型并利用该数据源质量评估模型计算步骤C中得 到的各数据源的质量得分;步骤E、根据质量得分并按照一定的方法选择若干高质量数据源,得到最终的数据 源集。上述步骤E中所述根据质量得分并按照一定的方法选择若干高质量数据源可以 是选择质量得分大于一个预先设定的阈值的数据源;也可以采用Top-k数据选择方法,即 按照质量得分将数据源从大到小排序,选择前k个数据源,k为预先设定的最终选择的数据 源的个数。本发明方法首先基于查询接口语义特征并结合本体库,选择与用户查询相关度较 大的深层网数据源;接着通过数据源的质量得分来度量数据源的质量,选择质量得分较高 的若干数据源而放弃其他质量较低的数据源,最终得到与客户查询相关度大且质量较高的 数据源。相比现有技术,本发明方法能够提高深层网页查询的准确度,同时降低信息冗余, 提高查询效率。
图1是本发明具体实施方式
的深层网页查询接口示例图;图2是本发明方法的流程图;图3是本体库结构示例具体实施例方式下面结合附图对本发明的技术方案进行详细说明如附图2所示,本发明按照以下各步骤进行深层网数据源的选择步骤A、对查询接口进行解析;如附图1所示,一个查询接口包含一些表单控件让用户输入查询信息,如文本框 (Textbox),单选按钮(Radio Button),复选框(Check box)和下拉列表(Selection List) 等控件。每个控件通常都关联一个标签——一个描述文本,每个控件可以有一个或多个值 (value),例如一个下拉列表有一列值供用户选择,单选按钮和复选框通常有一个值。逻辑上讲,一个控件和它关联的标签构成了一个属性(attribute),对应了深层网页(De印Web) 后台数据库中的一个字段。通常,一个属性包含一个标签,一个或多个表单控件。通过对当 前Deep Web查询接口页面进行解析,得到相应各属性内容的标签、表单控制,再把它们按照 语义关系组成一个个属性(查询条件的一个逻辑单位)。我们可以抽象地将查询接口本体 实例DWI表示为DWI = (S,P,Μ)。其中S反映了接口实例功能等的特定信息,它包含接 口实例的名字(表单标签名)和该接口站点的URL等基本信息。P= {ρι,ρ2,…,ρη}为接 口实例所对应的本体实例模板,M为接口实例所提供的方法。建立了 DWI实例后,用户就可 以提供一个面向本体实例的查询来检索其所需要的信息。Deep Web数据源接口集可以抽象为假定某领域内De印Web数据源接口集为DWS ={Sn,Si2,…,SJ,每个数据源接口 Sii都对应一个出现在查询接口上的实例Ri组成的数 据源本体模板,本体模板中的所有实例的联合为数据源接口集DWS。所谓实例就是指定查询 接口上一个元素对应的标签名、内部属性名、一个或多个修饰语及其值域,它是查询接口上 最小的语义单位。步骤B、构建本体库并通过本体库把相应查询信息转化为本体信息;其中构建本 体库按照以下各步骤执行步骤Bi、通过现有本体库分析HTML表单模式结构来获取查询接口的语义,构建相 应本体库中的类;步骤B2、从查询接口和结果页面抽取概念和实例,提取现有本体库中类的层次关 系和函数关系;步骤B3、从某个主题的多个数据源中提取上述步骤B2中得到的本体类之间关系, 然后推理映射不同的关系,最后合并成一个更高层的领域本体;针对每个本体库中的每个 类,构建与该类对应的关键词集合,组成本体库的词汇层;本发明方法将相应查询信息抽象表示为一种查询模型De印Web表示由一系列查 询接口属性组成的关系表DB =Aq= Iaq1, aq2,…,aqj (接口模式)和一系列查询结果属性 组成Ar= Iaivar2,,arm}(结果模式)。其中,每个属性e A表示通过查询接口得到 的查询属性,而结果属性arj e A表示查询结果中的属性。每个查询操作可以用类似SQL语 句来表不“Select ar1 ar2,,arm from DB WHERE aql = val q1 aq2 = valq2,·..,aqn = valqn”,这里val Qi表示查询表单中填充的属性值。对于查询信息通过本体库进行查询扩展得到一系列的查询接口集。本体结构如附 图3所示,图中所示为以一个交通工具(Vehicle)为核心概念的本体库结构图的一部分。该 本体库结构包括一系列对现实事物的抽象。例如,“VehiCle”、“Car”“TruCk”等这些概念构 成本体库中的类(class),图中还包括了类与类之间关系如“driver”和“price”等,该本体 库还包含各类相应的实体,如BWM,F512M等。通过本体库的扩展,可以将一个概念扩展成一 系列本体层中的概念集。如对于概念“Vehicle”,它所对应的概念还包含“Car”和“Truck” 等概念。步骤C、计算本体信息与各数据源的相关度,根据相关度选择满足预先设定的条件 的数据源;对于给定目标查询接口对象DWIi和查询本体Qi,相关度按照如下公式计算Yj(DWIiXQi) R(DWIliQi) =其中,R(DffIi, Qi)表示查询本体Qi与查询接口对象DWIi的相关度,m为查询接口 中的对象个数。步骤D、建立数据源质量评估模型并利用该数据源质量评估模型计算步骤C中得 到的各数据源的质量得分;通过分析可知,影响评估De印Web数据源质量的主要因素有浏览器、Web数据 库、用户以及网络性能,本具体实施方式
把这四类因素作为一级质量因子;每个一级质量因 子又包含若干二级质量因子,例如,作为一级质量因子,Web数据库包括域完整性、一致性、 冗余性、数据源大小等若干二级质量因子,这样,就可以得到一个包括两级质量因子的质量 因子集,并据此得到数据源质量评估模型如下 其中,Qs e W,100],表示第s个数据源的质量得分;Wn表示质量因子集中第η个
一级质量因子的权重,η = 1,2…K,K为质量因子集中一级质量因子的个数,Σ#"=1; %
为第η个一级质量因子中第j个二级质量因子的权重,Qnj为使用第η个一级质量因子中第 j个二级质量因子评估第s个数据源的质量得分,j = 1,2…L,L为质量因子集中第η个一上述数据源质量评估模型为现有技术,更详细内容可参考文献(鲜学丰,方巍 等.一种De印Web数据源质量评估模型.微电子学与计算机,2008,Vol 25(10) =47-50.) 0步骤Ε、根据质量得分并按照一定的方法选择若干高质量数据源,得到最终的数据 源集。本具体实施方式
在本步骤中采用Top-k的数据选择方法,即按照质量得分将数据 源从大到小排序,选择前k个数据源,k为预先设定的最终选择的数据源的个数。
级质量因子中所包含二级质量因子的个数,二1;
权利要求
一种用于深层网数据集成的数据源选择方法,其特征在于,包括以下步骤步骤A、对查询接口进行解析;步骤B、构建本体库并通过本体库把相应查询信息转化为本体信息;步骤C、计算本体信息与各数据源的相关度,根据相关度选择满足预先设定的条件的数据源;对于给定目标查询接口对象DWIi和查询本体Qi,相关度按照如下公式计算 <mrow><mi>R</mi><mrow> <mo>(</mo> <msub><mi>DWI</mi><mi>i</mi> </msub> <mo>,</mo> <msub><mi>Q</mi><mi>i</mi> </msub> <mo>)</mo></mrow><mo>=</mo><mfrac> <mrow><munderover> <mi>Σ</mi> <mrow><mi>i</mi><mo>=</mo><mn>1</mn> </mrow> <mi>m</mi></munderover><mrow> <mo>(</mo> <msub><mi>DWI</mi><mi>i</mi> </msub> <mo>×</mo> <msub><mi>Q</mi><mi>i</mi> </msub> <mo>)</mo></mrow> </mrow> <mrow><msqrt> <munderover><mi>Σ</mi><mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn></mrow><mi>m</mi> </munderover> <msup><mrow> <mo>(</mo> <msub><mi>DWI</mi><mi>i</mi> </msub> <mo>)</mo></mrow><mn>2</mn> </msup></msqrt><mo>×</mo><msqrt> <munderover><mi>Σ</mi><mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn></mrow><mi>m</mi> </munderover> <msup><msub> <mi>Q</mi> <mi>i</mi></msub><mn>2</mn> </msup></msqrt> </mrow></mfrac><mo>,</mo> </mrow>其中,R(DWIi,Qi)表示查询本体Qi与查询接口对象DWIi的相关度,m为查询接口中的对象个数。
2.如权利要求1所述用于深层网数据集成的数据源选择方法,其特征在于,所述构建 本体库具体按照以下步骤步骤Bi、通过现有本体库分析HTML表单模式结构来获取查询接口的语义,构建相应本 体库中的类;步骤B2、从查询接口和结果页面抽取概念和实例,提取现有本体库中类的层次关系和 函数关系;步骤B3、从某个主题的多个数据源中提取上述步骤B2中得到的本体类之间关系,然后 推理映射不同的关系,最后合并成一个更高层的领域本体;针对每个本体库中的每个类,构 建与该类对应的关键词集合,组成本体库的词汇层。
3.如权利要求1所述用于深层网数据集成的数据源选择方法,其特征在于,步骤C之后 还包括步骤D、建立数据源质量评估模型并利用该数据源质量评估模型计算步骤C中得到的 各数据源的质量得分;步骤E、根据质量得分并按照一定的方法选择若干高质量数据源,得到最终的数据源集。
4.如权利要求3所述用于深层网数据集成的数据源选择方法,其特征在于,步骤E中所 述根据质量得分并按照一定的方法选择若干高质量数据源是指按照质量得分将数据源从 大到小排序,选择前k个数据源;k为预先设定的最终选择的数据源的个数。Yj(DWIiXQi)
全文摘要
本发明公开了一种用于深层网数据集成的数据源选择方法。本发明方法首先基于查询接口语义特征并结合本体库,选择与用户查询相关度较大的深层网数据源;接着通过数据源的质量评估模型对数据源的质量进行评估,最后根据质量评估情况质量较高的数据源,最终得到与客户查询相关度大且质量较高的数据源集。相比现有技术,本发明方法能够提高深层网页查询的准确度,同时降低信息冗余,提高查询效率。
文档编号G06F17/30GK101916272SQ20101025012
公开日2010年12月15日 申请日期2010年8月10日 优先权日2010年8月10日
发明者文学志, 方巍, 毕硕本 申请人:南京信息工程大学