基于表单特征的松弛搜索与优化排序方法

文档序号：6650708阅读：347来源：国知局

专利名称：基于表单特征的松弛搜索与优化排序方法
技术领域：
本发明涉及一种信息检索的优化方法，尤其涉及基于表单特征的松弛搜索与优化排序方法。
背景技术：
随着hternet的不断发展，用户通过网络去获取自己所感兴趣的信息已经变得越来越平常。而在互联网所包含的信息中，相对于静态信息而言De印Web中所包含的信息更受用户的青睐。因为Deep Web中的信息一般存储在数据库中，通常由各个组织不断的维护和更新，其具有更好的实时性和更高的结构化程度。同时据2000年的研究，De印Web 信息是surface web信息的500倍，google 2007年的估计De印Web包含的数据源达25， 000,000个；所以De印Web中所包含的信息量也更为丰富。
然而这些De印Web通常只是给用户提供一个查询接口，用户要获取这些高质量的结构化信息必须通过自己提交查询词来获取。但用户并不了解数据库内数据之间的关系，而且通常由于输入条件相互约束、查询条件过强等原因，往往会导致查询失败，即获取不到查询结果。通常对于这类问题的解决办法是对查询条件进行松弛，即放大搜索，提供给用户与其输入的查询条件最为相近的一些结果供用户选择。相对而言，目前对于数据库的松弛方法研究的比较多，但针对Deep Web集成领域的松弛方法却比较少。
在将基于属性松弛的方法应用于Deep Web集成领域时，由于众多数据源的异构性，原有的松弛顺序判定方法不能很好的适用。
目前，关于查询松弛的方法的研究主要集中在数据库方面。大致有如下三类1) 通过对属性匹配进行研究的基础上对查询进行泛化，比较有代表性的是feasterland ；2) 基于样本的查询松弛，Muslea提出了一种LOQR算法，首先对目标数据库进行采样，然后在样本中寻找出与失败查询最为接近的记录并与查询条件求交集，从而得到松弛后的查询表达式；幻基于减弱属性的松弛方法，Nambiar等人通过对数据库的探测得到一个随机的样本，然后利用机器学习的方法来获取属性之间的函数依赖关系，以此来判定属性的重要程度从而决定属性松弛的顺序，继而以此顺序来松弛查询条件的属性。发明内容
本发明的目的是克服现有技术存在的不足，提供一种基于表单特征的松弛搜索与优化排序方法。
本发明的目的通过以下技术方案来实现
基于表单特征的松弛搜索与优化排序方法，其特征在于包括以下步骤
(1)利用表单收集器收集大量的查询表单信息，并记录每个表单的所有与属性记录排名相关的三元组信息OI = {DB_ID, Attribute, Order}；
三元组信息OI = {DB_ID, Attribute, Order}；
其中，DB_ID指系统给定的某表单所在数据源的标识符，用于唯一标识一个查询接口；Attribute指某一属性的名字，用于标识某一属性；Order标名属性在表单内的排名，即其在位置上的顺序；
(2)采用基于模式匹配的方法，将属性名不同但表达同一语义的属性映射到同一属性上；
(3)定位查询接口所包含的属性；
(4)计算每个属性的综合排名；
4-1)取出步骤(3)定位后的一个属性，根据其出现次数AC及对应的排名相关信息，利用下式计算属性的综合排名C0，并放入表COS中，
权利要求
1.基于表单特征的松弛搜索与优化排序方法，其特征在于包括以下步骤(1)利用表单收集器收集大量的查询表单信息，并记录每个表单的所有与属性记录排名相关的三元组信息OI = {DB_ID, Attribute, Order}；三元组信息 OI = {DB_ID, Attribute, Order}；其中，DB_ID指系统给定的某表单所在数据源的标识符，用于唯一标识一个查询接口； Attribute指某一属性的名字，用于标识某一属性；Order标名属性在表单内的排名，即其在位置上的顺序；(2)采用基于模式匹配的方法，将属性名不同但表达同一语义的属性映射到同一属性上；(3)定位查询接口所包含的属性；(4)计算每个属性的综合排名；4-1)取出步骤(3)定位后的一个属性，根据其出现次数AC及对应的排名相关信息，利用下式计算属性的综合排名C0，并放入表COS中， count
2.根据权利要求1所述的基于表单特征的松弛搜索与优化排序方法，其特征在于所述定位查询接口所包含的属性的步骤是 3-1)设定属性次数阈值；3-2)在步骤( 获得的属性中取出一个属性并统计其出现的次数； 3-3)若属性出现次数大于设定的属性次数阈值，则标记该属性为查询接口区域，否则检测下一个属性；3-4)重复步骤3- 、3-3)，完成定位查询接口所包含的属性。
全文摘要
本发明涉及基于表单特征的松弛搜索与优化排序方法，首先利用表单信息收集器获取大量相关的查询表单信息；构建与每个属性排名相关的三元组信息；根据模式匹配的相关方法，将属性名不同但语义相同的属性映射到同一属性上；过滤掉只在某个特定数据源出现的属性；再利用提出的公式计算每个属性的综合排名；根据所有属性的综合排名进行重新排序；对松弛结果信息排名进行过滤。对排序过滤方法的改进，能够只对影响相似性的属性进行距离值的计算，提高了对松弛结果排名处理的效率。
文档编号G06F17/30GK102043866SQ20111002599
公开日2011年5月4日申请日期2011年1月25日优先权日2011年1月25日
发明者孙涌, 崔志明, 张书奎, 赵朋朋, 陈明申请人:苏州普达新信息技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张书奎;崔志明;陈明;赵朋朋;孙涌
技术所有人：苏州普达新信息技术有限公司
我是此专利的发明人

上一篇：电磁感应的状态识别的信号处理方法
上一篇：压缩感知框架下的多策略图像融合方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。