专利名称:基于表单特征的松弛搜索与优化排序方法
技术领域:
本发明涉及一种信息检索的优化方法,尤其涉及基于表单特征的松弛搜索与优化 排序方法。
背景技术:
随着hternet的不断发展,用户通过网络去获取自己所感兴趣的信息已经变得 越来越平常。而在互联网所包含的信息中,相对于静态信息而言De印Web中所包含的信息 更受用户的青睐。因为Deep Web中的信息一般存储在数据库中,通常由各个组织不断的 维护和更新,其具有更好的实时性和更高的结构化程度。同时据2000年的研究,De印Web 信息是surface web信息的500倍,google 2007年的估计De印Web包含的数据源达25, 000,000个;所以De印Web中所包含的信息量也更为丰富。
然而这些De印Web通常只是给用户提供一个查询接口,用户要获取这些高质量的 结构化信息必须通过自己提交查询词来获取。但用户并不了解数据库内数据之间的关系, 而且通常由于输入条件相互约束、查询条件过强等原因,往往会导致查询失败,即获取不到 查询结果。通常对于这类问题的解决办法是对查询条件进行松弛,即放大搜索,提供给用户 与其输入的查询条件最为相近的一些结果供用户选择。相对而言,目前对于数据库的松弛 方法研究的比较多,但针对Deep Web集成领域的松弛方法却比较少。
在将基于属性松弛的方法应用于Deep Web集成领域时,由于众多数据源的异构 性,原有的松弛顺序判定方法不能很好的适用。
目前,关于查询松弛的方法的研究主要集中在数据库方面。大致有如下三类1) 通过对属性匹配进行研究的基础上对查询进行泛化,比较有代表性的是feasterland ;2) 基于样本的查询松弛,Muslea提出了一种LOQR算法,首先对目标数据库进行采样,然后在 样本中寻找出与失败查询最为接近的记录并与查询条件求交集,从而得到松弛后的查询表 达式;幻基于减弱属性的松弛方法,Nambiar等人通过对数据库的探测得到一个随机的样 本,然后利用机器学习的方法来获取属性之间的函数依赖关系,以此来判定属性的重要程 度从而决定属性松弛的顺序,继而以此顺序来松弛查询条件的属性。发明内容
本发明的目的是克服现有技术存在的不足,提供一种基于表单特征的松弛搜索与 优化排序方法。
本发明的目的通过以下技术方案来实现
基于表单特征的松弛搜索与优化排序方法,其特征在于包括以下步骤
(1)利用表单收集器收集大量的查询表单信息,并记录每个表单的所有与属性记 录排名相关的三元组信息OI = {DB_ID, Attribute, Order};
三元组信息OI = {DB_ID, Attribute, Order};
其中,DB_ID指系统给定的某表单所在数据源的标识符,用于唯一标识一个查询接口 ;Attribute指某一属性的名字,用于标识某一属性;Order标名属性在表单内的排名,即 其在位置上的顺序;
(2)采用基于模式匹配的方法,将属性名不同但表达同一语义的属性映射到同一 属性上;
(3)定位查询接口所包含的属性;
(4)计算每个属性的综合排名;
4-1)取出步骤(3)定位后的一个属性,根据其出现次数AC及对应的排名相关信 息,利用下式计算属性的综合排名C0,并放入表COS中,
权利要求
1.基于表单特征的松弛搜索与优化排序方法,其特征在于包括以下步骤(1)利用表单收集器收集大量的查询表单信息,并记录每个表单的所有与属性记录排 名相关的三元组信息OI = {DB_ID, Attribute, Order};三元组信息 OI = {DB_ID, Attribute, Order};其中,DB_ID指系统给定的某表单所在数据源的标识符,用于唯一标识一个查询接口 ; Attribute指某一属性的名字,用于标识某一属性;Order标名属性在表单内的排名,即其 在位置上的顺序;(2)采用基于模式匹配的方法,将属性名不同但表达同一语义的属性映射到同一属性上;(3)定位查询接口所包含的属性;(4)计算每个属性的综合排名;4-1)取出步骤(3)定位后的一个属性,根据其出现次数AC及对应的排名相关信息,利 用下式计算属性的综合排名C0,并放入表COS中, count
2.根据权利要求1所述的基于表单特征的松弛搜索与优化排序方法,其特征在于所 述定位查询接口所包含的属性的步骤是 3-1)设定属性次数阈值;3-2)在步骤( 获得的属性中取出一个属性并统计其出现的次数; 3-3)若属性出现次数大于设定的属性次数阈值,则标记该属性为查询接口区域,否则 检测下一个属性;3-4)重复步骤3- 、3-3),完成定位查询接口所包含的属性。
全文摘要
本发明涉及基于表单特征的松弛搜索与优化排序方法,首先利用表单信息收集器获取大量相关的查询表单信息;构建与每个属性排名相关的三元组信息;根据模式匹配的相关方法,将属性名不同但语义相同的属性映射到同一属性上;过滤掉只在某个特定数据源出现的属性;再利用提出的公式计算每个属性的综合排名;根据所有属性的综合排名进行重新排序;对松弛结果信息排名进行过滤。对排序过滤方法的改进,能够只对影响相似性的属性进行距离值的计算,提高了对松弛结果排名处理的效率。
文档编号G06F17/30GK102043866SQ20111002599
公开日2011年5月4日 申请日期2011年1月25日 优先权日2011年1月25日
发明者孙涌, 崔志明, 张书奎, 赵朋朋, 陈明 申请人:苏州普达新信息技术有限公司