专利名称:一种基于关键词的web服务器扩展检索方法
技术领域:
本发明属于计算机与通信技术领域,尤其涉及一种基于关键词的TOB服务器扩展 检索方法。
背景技术:
互联网与计算机网络技术的发展给人们带来了前所未有的方便,其蕴涵的大量共 享资源,已成为人类获得信息的重要途径之一。互联网络中的文本信息的数量不断增加,个 人和组织拥有的文档数量也越来越多。随着人们对信息获取所要求的准确性和全面性,从 而如何从海量的信息资源中快速的检索出满足用户所需的信息已成为亟需解决的问题。近几十年来,文本检索的研究取得了很大进展,典型的有决策树、K近邻、朴素贝叶 斯和向量空间模型中基于特征向量与向量机、潜在语义分析(Latent Semantic Analysis, 简称LSA)等。但大多数方法存在严重的鲁棒性问题,这些文本检索系统都是基于词频统计 的向量空间模型(Vector Space Model,简称VSM)的改进或推广,其基本思想是用向量之间 的距离来逼近文本之间的语义相似性,VSM的优点是将文本和检索简化为词项及权重集合 的向量表示,从而把检索操作变成向量空间上的向量运算,从而使得检索简便快捷,适合于 大规模文档库的文本检索。基于现有VSM模型的互联网络检索模式,是将海量的信息以文 本的形式存储在WEB服务器的信息文本数据库中,用户使用计算机客户端输入药检所的关 键词并通过互联网络向WEB服务器发送检索请求,WEB服务器的检索请求解析程序解析获 得关键词,并通过搜索引擎检索信息文本数据库,获得与关键词相匹配的项检索结果返回 至发送检索请求的客户端,完成信息检索。但是,VSM模型假定的关键词仅唯一地代表一个概念或语义单元,这种基于关键词 频统计的文本处理方法,其两个文本的相似度取决于它们包含的公共词语的数量,而无法 体现语义信息。然而,在很多情况下,人们需要检索的信息是包含关键词所体现的语义信息 的,例如外地游客需要查询陌生城市中的住宿地点,输入关键词“住宿”,实际上该游客需要 查询的内容包括了旅社、宾馆、酒店等各种与“住宿”相关的信息,针对这种情况,现有的检 索技术是难以满足用户检索需求的,因此用户只能够针对含有相同语义的不同关键词进行 反复的检索,以从中搜寻自己需要的信息,非常麻烦。
发明内容
针对现有技术中存在的上述问题,本发明综合考虑到人们对于语义信息检索的灵 活性需求,提出一种基于关键词的WEB服务器扩展检索方法,通过该方法增强WEB服务器的 语义扩展检索性能。为实现上述目的,本发明采用了如下的技术手段—种基于关键词的TOB服务器扩展检索方法,包括如下步骤1)在TOB服务器的检索请求解析程序与搜索引擎之间设置关键词扩展程序;所述 关键词扩展程序由扩展信息注册线程、扩展条件生成线程、扩展信息解析线程以及关联词映射表、拼音汉字映射表、英汉对照映射表、同义词映射表、错别字映射别和缩写词映射表 组成;2)通过扩展信息注册线程,将关联词对应关系、拼音与汉字对应关系、英文与汉字 对应关系、同义词对应关系、错别字对应关系和缩写词对应关系分别存入或更新到关联词 映射表、拼音汉字映射表、英汉对照映射表、同义词映射表、错别字映射别和缩写词映射表 中;3)当WEB服务器收到来自客户端的检索请求时,检索请求解析程序解析检索请求 获得检索的关键词以及扩展条件选项,所述扩展条件选项用于指定关联词映射表、拼音汉 字映射表、英汉对照映射表、同义词映射表、错别字映射别、缩写词映射表中的一项或几项 映射表作为扩展条件;扩展条件生成线程将扩展条件选项所选择各项映射表生成为一份扩 展条件映射总表;扩展信息解析线程查询扩展条件映射总表中的各项映射表,获得与关键 词相对应的扩展词;搜索引擎则根据检索请求解析程序解析获得的关键词以及扩展信息解 析线程查询获得的对应的扩展词检索信息文本数据库,获得分别与关键词及其对应的扩展 词相匹配的各项检索结果,并将所述检索结果返回至发送检索请求的客户端。上述的基于关键词的WEB服务器扩展检索方法中,进一步,所述关联词对应关系, 是针对一个候选词,建立一个包含该候选词的文本库,通过基于广义jaccard系数的相似 度算法从所述文本库中计算与该候选词相关度,取相关度排列前三的三个词作为与该候选 词对应的关联词;由此获得关联词对应关系。进一步,所述拼音与汉字对应关系根据汉语词典获得。进一步,所述英文与汉字对应关系根据英汉对照词典获得。进一步,所述同义词对应关系根据同义词词典获得。相比于现有技术,本发明具有如下优点1、本发明方法针对人们对文本检索准确性和高效性的需求,研究了查询扩展技术 以及其在文本检索中的应用,设计出一种基于关键词的WEB服务器扩展检索方法,增强WEB 服务器的语义扩展检索性能,能够更好的满足人们对于语义信息检索的灵活性需求。2、用户可通过扩展条件选项指定关联词映射表、拼音汉字映射表、英汉对照映射 表、同义词映射表、错别字映射别、缩写词映射表中的一项或几项映射表作为扩展条件,更 具自己的实际检索需求进行关键词扩展,使用灵活。3、采用本发明方法的TOB服务器不需要在硬件上作改动,不会增加服务器的硬件 建设成本,并且易于实现,更新和维护都很方便,具有很好的工业实用性。
图1为采用本发明方法的检索过程流程框图。
具体实施例方式采用现有的检索技术,由于输入的关键词不匹配问题的存在,很多时候用户不得 不反复针对含有相同语义的不同关键词进行检索,才能找到所需要的信息。本发明基于关 键词的WEB服务器扩展检索方法就能够减轻用户的这一负担,由WEB服务器提供的检索系 统自动扩展出与用户所输入关键词相对应的扩展词进行辅助检索,即查询扩展技术;简单地说来,就是WEB服务器的检索系统在进行检索之前,先根据扩展条件自动把用户查询的 关键词进行语义扩展,从而形成新的查询条件,并检索相匹配的信息文本返回给用户。本发明基于关键词的TOB服务器扩展检索方法的的流程框图如图1所示,其具体 步骤如下1)在TOB服务器的检索请求解析程序与搜索引擎之间设置关键词扩展程序;所述 关键词扩展程序由扩展信息注册线程、扩展条件生成线程、扩展信息解析线程以及关联词 映射表、拼音汉字映射表、英汉对照映射表、同义词映射表、错别字映射别和缩写词映射表 组成;2)通过扩展信息注册线程,将关联词对应关系、拼音与汉字对应关系、英文与汉字 对应关系、同义词对应关系、错别字对应关系和缩写词对应关系分别存入或更新到关联词 映射表、拼音汉字映射表、英汉对照映射表、同义词映射表、错别字映射别和缩写词映射表 中;3)当WEB服务器收到来自客户端的检索请求时,检索请求解析程序解析检索请求 获得检索的关键词以及扩展条件选项,所述扩展条件选项用于指定关联词映射表、拼音汉 字映射表、英汉对照映射表、同义词映射表、错别字映射别、缩写词映射表中的一项或几项 映射表作为扩展条件;扩展条件生成线程将扩展条件选项所选择各项映射表生成为一份扩 展条件映射总表;扩展信息解析线程查询扩展条件映射总表中的各项映射表,获得与关键 词相对应的扩展词;搜索引擎则根据检索请求解析程序解析获得的关键词以及扩展信息解 析线程查询获得的对应的扩展词检索信息文本数据库,获得分别与关键词及其对应的扩展 词相匹配的各项检索结果,并将所述检索结果返回至发送检索请求的客户端。通过上述的检索方法,WEB服务器即可根据用户通过扩展条件选项指定的关联词 映射表、拼音汉字映射表、英汉对照映射表、同义词映射表、错别字映射别、缩写词映射表中 的一项或几项映射表作为扩展条件,对关键词进行扩展检索,更好的满足人们对于语义信 息检索的灵活性需求。由上述方法可见,要在现有的WEB服务器上实现本发明的检索方法, 不需要在服务器的硬件上添加任何的额外装置,只需要在软件上增加关键词扩展程序即 可,对于熟悉服务器编程的技术人员而言非常容易实现,而且关键词扩展程序中各映射表 的更新和维护都很方便。下面通过具体实施方式
对本发明作进一步的说明。根据目前网络语言的的特点以及汉语意思表达形式的多样化,结合现行所研究出 来的语义扩展方法,本发明基于关键词的WEB服务器扩展检索方法中共设计了六个用于语 义扩展的映射表,分别为关联词映射表、拼音汉字映射表、英汉对照映射表、同义词映射表、 错别字映射别和缩写词映射表。对于不同的映射表,其对应关系需要通过不同的方式获得。A、关联词对应关系的获得基于关键词匹配的现有检索技术中,由于单个的关键词所表达的语义并不明确, 所以对于每个关键词计算其关联词也就是与之相关度高的词汇,以关联词作为体现关键词 语义的一个方面。本发明方法中通过关联词映射表来记录关联词对应关系,而关联词对应 关系则通过计算词汇的相关度来获得。对于词汇相关度的计算方式,现行研究出来的已有很多,具体可参考文献“田萱、 杜小勇、李海华.语义查询扩展中词语-概念相关度的计算[J]软件学报,2008,19 (8)第2043 2053页”以及“Ricardo Baeza Yates.现代信息检索[M],王知津,译.北京机械 工业出版社2004”。为了提高检索效率,结合WEB服务器自身的一些特征,本实施例中采用 基于广义Jaccard系数的相似度计算方法来计算词与词之间的相关度,针对一个候选词, 建立一个包含该候选词的文本库,通过基于广义jaccard系数的相似度算法从所述文本库 中计算与该候选词相关度,取相关度排列前三的三个词作为与该候选词对应的关联词;由 此获得关联词对应关系,从而建立不同词语的关联词。一般数据类型有标称型变量、序数型变量、二元变量、比例标度型变量、混合类型 变量等。综合以上变量类型,文本字符串适合归为二元变量,所以可利用分词技术先将字符 串分成若干个词,每个独立词作为二元变量的一个属性。把全部词设定为一个二元变量属 性集合R,字符串A和字符串B的词包含于这个集合R。设m是字符串A词总数,η是字符 串B词总数,ρ是字符串A、B共有词总数。m、η、ρ是字符串比较的3个状态分量。采用广义Jaccard系数来描述两个字符串间(可以把一个词语看做一个字符串) 的相关程度,即相似度=p/(m+n-p)。根据字符串相似度计算公式,结合向量空间模型中文本的表示,本文所采用的相 关度算法如下假设一文本库中文本集合为W,其中总的文本数为R篇,W中出现词a的文本 集合为Wa,Wa = {ffal, Wa2,...,WaJ。设文本集合W中出现词b的文本集合为Wb,Wb = {ffbl, wb2, ...,Wbn}。设Wa中含有词b的文章集合为Wab e Wa以及Wb中含有词a的文章集合为 Wba e Wb,则出现词a的集合中含有词b的子集应等于出现词b的集合中含有词a的子集, 即Wab = Wba = Wa η Wb, Wab = Iffabl,Wab2,. . .,WabJ。再设W中或者出现词a和或者出现词b 的文本集合为Waub,则Waub = Wa U Wb,WaUb = Wa+Wb-Wab。从而由字符串相似度的定义有词 a和词b的相似度Sim (a,b)必定正比于集合Wab与集合Wa, b大小之比,由此得到词a与词 b相似度计算公式如下
权利要求
1.一种基于关键词的WEB服务器扩展检索方法,其特征在于,包括如下步骤1)在WEB服务器的检索请求解析程序与搜索引擎之间设置关键词扩展程序;所述关 键词扩展程序由扩展信息注册线程、扩展条件生成线程、扩展信息解析线程以及关联词映 射表、拼音汉字映射表、英汉对照映射表、同义词映射表、错别字映射别和缩写词映射表组 成;2)通过扩展信息注册线程,将关联词对应关系、拼音与汉字对应关系、英文与汉字对应 关系、同义词对应关系、错别字对应关系和缩写词对应关系分别存入或更新到关联词映射 表、拼音汉字映射表、英汉对照映射表、同义词映射表、错别字映射别和缩写词映射表中;3)当WEB服务器收到来自客户端的检索请求时,检索请求解析程序解析检索请求获得 检索的关键词以及扩展条件选项,所述扩展条件选项用于指定关联词映射表、拼音汉字映 射表、英汉对照映射表、同义词映射表、错别字映射别、缩写词映射表中的一项或几项映射 表作为扩展条件;扩展条件生成线程将扩展条件选项所选择各项映射表生成为一份扩展条 件映射总表;扩展信息解析线程查询扩展条件映射总表中的各项映射表,获得与关键词相 对应的扩展词;搜索引擎则根据检索请求解析程序解析获得的关键词以及扩展信息解析线 程查询获得的对应的扩展词检索信息文本数据库,获得分别与关键词及其对应的扩展词相 匹配的各项检索结果,并将所述检索结果返回至发送检索请求的客户端。
2.根据权利要求1所述的基于关键词的TOB服务器扩展检索方法,其特征在于所 述关联词对应关系,是针对一个候选词,建立一个包含该候选词的文本库,通过基于广义 jaccard系数的相似度算法从所述文本库中计算与该候选词相关度,取相关度排列前三的 三个词作为与该候选词对应的关联词;由此获得关联词对应关系。
3.根据权利要求1所述的基于关键词的WEB服务器扩展检索方法,其特征在于所述 拼音与汉字对应关系根据汉语词典获得。
4.根据权利要求1所述的基于关键词的WEB服务器扩展检索方法,其特征在于所述 英文与汉字对应关系根据英汉对照词典获得。
5.根据权利要求1所述的基于关键词的WEB服务器扩展检索方法,其特征在于所述 同义词对应关系根据同义词词典获得。
全文摘要
本发明提供了一种基于关键词的WEB服务器扩展检索方法,该方法由WEB服务器提供的检索系统自动扩展出与用户所输入关键词相对应的扩展词进行辅助检索,即WEB服务器的检索系统在进行检索之前,先根据扩展条件自动把用户查询的关键词进行语义扩展,从而形成新的查询条件,并检索相匹配的信息文本返回给用户。本发明方法可增强WEB服务器的语义扩展检索性能,并且扩展条件可灵活选择,能够更好的满足人们对于语义信息检索的灵活性需求。
文档编号G06F17/30GK102110174SQ201110089889
公开日2011年6月29日 申请日期2011年4月11日 优先权日2011年4月11日
发明者刘春伟, 叶蕾, 邹国奇 申请人:重庆大学