一种基于图书内容结构的语义关联方法
【技术领域】
[0001] 本发明设计数字图书领域,尤其涉及结合领域本体和图书内容对用户检索请求进 行语义关联的方法。
【背景技术】
[0002] 数字图书馆的核心竞争力是对数字图书的准确检索,而准确检索的核心是对图书 内容的准确理解和对用户检索意图的准确理解,查询扩展是准确分析用户检索请求,以提 高检索准确率的有效方法。
[0003] 基于本体的查询扩展思想源于1994年Voorhees提出并通过后续不断深入研究而 成。在目前图书检索领域,语义查询扩展方法主要借助领域本体概念间的各种关系进行语 义扩展,大部分算法只找到语义关联词,默认查询扩展词和原查询词权重一样,常导致"主 题偏移"和查准率下降。
[0004] 基于局部分析法的查询扩展思想,利用初始检索结果与前面相关度最高的若干篇 文档来选取扩展词。局部反馈法是多次TREC评测会议公认的最有代表性的局部分析方法, 是一种简单、有效的查询扩展技术。它能够整合关键词在语料集中的全局统计信息,使所 选取的扩展词与初始查询所表征的主题或概念具有更好的相关性。查询扩展是将图书目录 内容作为局部文档,根据语料库中实际关键词见的共现关系进行,较好解决了 "主题偏移" 的现象。
[0005] 因此,本发明公布的一种基于图书内容结构的语义关联方法,综合考虑领域本体 和实际图书内容中关键词的关联性,有效解决因查询"主题偏移"导致的图书检索查全率、 查准率低下的问题。
【发明内容】
[0006] 本发明所要解决的技术问题在于提供一种基于图书内容结构的语义关联方法。该 方法可用于图书搜索引擎中,对用户的检索请求进行语义关联并筛选得到扩展关键词集, 从而提尚图书检索的精度。
[0007] -种基于图书内容结构的语义关联方法包括如下步骤:(1)接收用户检索请求, 并结合领域词典对其进行中文分词,生成用户检索初始关键词集T1。(2)基于领域本体对 初始关键词集Tl进行语义关联度计算,生成经领域本体关联后检索向量VI。(3)关键词集 Tl对图书库检索,取前N本。(4)基于上述前N本图书的内容结构对Tl进行语义关联,生 成经图书内容结构关联后的检索向量V2。(5)对检索向量VI、V2进行融合,生成最终的融 合领域本体语义信息和图书内容结构语义信息的综合检索向量V3。
[0008] 进一步,本发明中的步骤(1)进一步包括:结合领域词典对用户检索请求进行中 文分词、去除停用词,生成用户检索初始关键词集T1,涉及的领域词典在专家参与下构建。
[0009] 进一步,本发明中的步骤(2)进一步包括:将Tl中关键词分别映射到领域本体, 并根据本体概念语义关联度算法进行关键词扩展,并计算出扩展关键词的权重。
[0010] 语义关联度算法见公式(1)包括:语义相似度计算sim(ci,cj)、语义关联度计算 rel(ci,cj)
[0011] simrel (ci, cj) = sim(ci,cj)+rel (ci,cj)+sim(ci,cj) Xrel (ci,cj) (I)
[0012] 生成领域本体关联后的检索向量VI,向量中关键词ci的权重wi代表它与
[0013] 初始关键词的相关程度。
[0014] Vl = ((cl,wl),(c2, w2),(c3, w3),· · ·,(cn,wn)
[0015] 进一步,本发明中的步骤(3)进一步包括:关键词集Tl对图书库检索,对图书库 中的图书进行领域词典参与的中文分词,对图书目录结构的题名、章、节分别赋予不同的权 重构建索引,其中权重根据各部分对主题的贡献程度大小来设置,最后根据关键词在目录 中出现的位置、频率等因素综合计算排序输出,并取出前N本图书参与后续步骤。
[0016] 进一步,本发明中的所述步骤(4):基于上述前N本图书的内容结构对Tl进行语 义关联,图书内容结构本质为树状结构,根节点为图书题名节点,往下各层分别是各章标题 节点、节标题节点、子节标题节点,分别对各节点内容结合领域词典进行中文分词,将Tl中 关键词分别映射到图书内容结构树,根据相应的结构语义关联算法,计算扩展词的权重。
[0017] 结构语义关联算法见公式(2):
[0018] W (k, q ID) = log (stf (k | D) +1. 0) *log (stf (q | D) +1. 0) (2) _9] 上式,Stffkl D:) = 2二(奶_对传统的局部共现公式仅关键词出现的频率做了修 改,考虑了关键词在局部文档所处的位置和频率。
[0020] 生成经图书内容结构树扩展后的检索向量V2,向量中关键词的权重代表它与初 始关键词的相关程度。
[0021] V2 = ((cl,w 'I),(c2, w' 2),(c3, w '3),· · ·,(cn,w' η)
[0022] 进一步,本发明中的所述步骤(5):对检索向量VI、V2进行融合,根据相应融合算 法对VI、V2中相同关键词的权重进行合并、不同关键词权重值进行调整,并根据筛选策略, 保留权重大于某一阈值的关键词,生成最后经过领域本体和图书内容结构双重语义关联的 向量V3。
[0023] V3 = θ Vl+ μ V2
[0024] θ、μ是调节因子,θ + μ = 1,经过融合向量VI、V2使得同时出现在领域本体和 图书内容结构中的关键词具有更高的权重,仅出现在领域本体或者图书目录内容结构中的 关键词权重被削弱,使得图书的语义关联更准确。
[0025] 本发明的有益效果:本发明将关键词映射到图书领域本体进行领域内的语义扩 展。查询扩展是将图书目录内容作为局部文档,根据语料库中实际关键词见的共现关系进 行,采用融合策略将二者综合考虑。能解决目前仅通过领域本体语义扩展过度,而导致查全 率增加、查准率降低现象;能解决传统局部共现概率模型仅考虑初次返回文本中关键词频 率,而不考虑其所处位置对权重影响,导致扩展后关键词权重不能充分代表其相对重要程 度,而导致检索结果偏离用户意图的问题;能解决目前图书检索效果难以满足用户需求的 现象。
【附图说明】
[0026] 图1为本发明方法的逻辑流程图。
【具体实施方式】
[0027] 为使本发明的上述目的、特征和优点更加明显易懂,下面结合附图和具体实施方 式对本发明做进一步的详细说明:
[0028] 图1是本发明所述方法的处理流程图,如图所示本发明包括如下几个步骤:
[0029] 步骤(1):结合领域词典对用户检索请求进行中文分词、去除停用词,生成用户检 索初始关键词集Tl。涉及的领域词典在专家参与下构建。
[0030] 步骤(2):生成经领域本体关联后检索向量VI。将Tl映射到领域本体,根据本体 概念间语义关联度算法分别计算Tl中各关键词与本体中其它节点间的语义相关度,相关 度值为相应关键词的权重,得到向量Vl。
[0031] Vl = ((cl,wl),(c2, w2),(c3, w3),· · ·,(cn,wn)
[0032] 其中:wi代表概念ci的语义关联权重,权重越大代表它与用户意图的关联性越