一种基于领域本体的语义信息检索系统及方法

文档序号:6619829阅读:303来源:国知局
一种基于领域本体的语义信息检索系统及方法
【专利摘要】本发明实施例提供了一种基于领域本体的语义信息检索系统及方法,涉及智能信息检索领域,可以实现用户检索需求的个性化推荐,优化检索结果及提高查准率。所述方法包括:系统对用户输入的初始查询请求进行分析处理,获得最终查询请求。然后根据最后总查询请求从资源库中匹配出符合条件的网络信息文档。在领域本体库的帮助下对网络信息文档进行分析和语义处理,过滤掉无用的不相关的信息。再根据用户兴趣模型进行个性化处理,找出符合用户个性化需求的信息,最后结合语义相关度和兴趣相关度,对检索结果进行相关性排序,并将排序处理后的检索结果返回给用户。
【专利说明】一种基于领域本体的语义信息检索系统及方法

【技术领域】
[0001] 本发明涉及智能信息检索领域,尤其涉及一种基于领域本体的语义信息检索系统 及方法。

【背景技术】
[0002] 随着Internet和移动通信技术的迅猛发展,Web已成为全球的信息源,如何快速、 准确地从浩瀚的信息资源中寻找自己所需的信息,成为困扰用户的一个难题。传统的信息 检索提供给用户的检索方式是以用户输入的关键词进行匹配的检索方式,但是大多数的情 况下这种简单的关键词匹配很难理解用户真正的检索目的,因此导致目前这种信息检索方 式的精确度不高。
[0003] 如何快捷、有效地获取所需信息,是具有现实意义的研究课题。随着网络资源的 增长、用户信息需求的个性化及复杂化,基于关键词的信息检索技术逐渐显示出了"信息过 载"和"信息迷向"等问题。采用现有的语义检索技术多得到的检索结果,可能包含有与用 户兴趣度不一致的大量无关信息,增加了用户从这些无关的检索结果中筛选自己感兴趣信 息的工作量。


【发明内容】

[0004] 本发明的实施例提供一种基于领域本体的语义信息检索系统及方法,可以实现用 户检索需求的个性化推荐,优化检索结果及提高查准率。
[0005] 为达到上述目的,本发明的实施例采用如下技术方案:
[0006] -种基于领域本体的语义信息检索系统,包括:
[0007] 用户界面代理模块,用于接收用户输入的初始信息查询请求;
[0008] 个性化需求分析模块,用于对所述用户界面代理模块接收的所述初始信息查询请 求进行词法分析,获得关键词级的内容,然后基于领域本体库并结合用户兴趣本体库预测 所述用户感兴趣的内容,形成最终查询请求,并将所述最终查询请求提交信息搜索代理模 块;其中,所述领域本体库中的包括:各个领域中最基本的概念、概念的定义以及各个概念 之间的语义关系网络;所述用户兴趣本体库中包括:用户感兴趣的信息以及根据用户兴趣 点挖掘出来的其有潜在兴趣的信息;
[0009] 所述信息搜索代理模块,用于从资源库中搜索与所述最终查询请求相关的网络信 息文档,所述资源库包括:本地信息资源、异地共享资源;
[0010] 文档分析与语义过滤模块,用于针对所述信息搜索代理模块搜索到的网络信息文 档,基于所述领域本体库,根据抽取的关键词判断所述网络信息文档所属领域,然后将所述 网络信息文档转换成所述领域本体库中的术语,获得转换后的网络信息文档,同时根据所 述最终查询请求与所述转换后的网络信息文档之间的语义相关度,过滤掉所述网络信息文 档中与用户查询请求不相关的信息,获得语义过滤后的结果文档;
[0011] 个性化处理模块,用于结合所述用户兴趣本体库中存储的用户知识,对所述结果 文档进行评估,给出所述结果文档与用户兴趣的关联度;
[0012] 排序模块,用于根据所述文档分析与语义过滤模块得到的所述语义相关度,以及 所述个性化处理模块得到的所述关联度,对所述结果文档按照频繁序列树的增量式语义序 列模式挖掘算法进行优化,最后把符合用户请求和兴趣的查询结果通过用户界面代理模块 返回给用户;
[0013] 所述用户界面代理模块,还用于将所述查询结果显示给所述用户;
[0014] 所述用户兴趣本体库,用于根据用户对所述查询结果的反馈信息,更新所述用户 对应在用户兴趣本体库中的内容。
[0015] 一种基于领域本体的语义信息检索方法,包括以下步骤:
[0016] 101、接收用户输入的初始信息查询请求;
[0017] 102、对接收的所述初始信息查询请求进行词法分析,获得关键词级的内容,然后 基于领域本体库并结合用户兴趣本体库预测所述用户感兴趣的内容,形成最终查询请求; 其中,其中,所述领域本体库中的包括:各个领域中最基本的概念、概念的定义以及各个概 念之间的语义关系网络;所述用户兴趣本体库中包括:用户感兴趣的信息以及根据用户兴 趣点挖掘出来的其有潜在兴趣的信息;
[0018] 103、从资源库中搜索与所述最终查询请求相关的网络信息文档,所述资源库包 括:本地信息资源、异地共享资源;
[0019] 104、针对所述网络信息文档,基于所述领域本体库,根据抽取的关键词判断所述 网络信息文档所属领域,然后将所述网络信息文档转换成所述领域本体库中的术语,获得 转换后的网络信息文档,同时根据所述最终查询请求与所述转换后的网络信息文档之间的 语义相关度,过滤掉所述网络信息文档中与用户查询请求不相关的信息,获得语义过滤后 的结果文档;
[0020] 105、结合所述用户兴趣本体库中存储的用户知识,对所述结果文档进行评估,给 出所述结果文档与用户兴趣的关联度;
[0021] 106、根据所述语义相关度以及所述关联度,对所述结果文档按照频繁序列树的增 量式语义序列模式挖掘算法进行优化,最后把符合用户请求和兴趣的查询结果返回给用 户;
[0022] 107、根据用户对所述查询结果的反馈信息,更新所述用户对应在用户兴趣本体库 中的内容。
[0023] 可选的,频繁序列树的增量式语义序列模式挖掘算法,包括:
[0024] (1)语义序列数据库发生变化,最小支持度不小于频繁序列树支持度阈值的情况 下:
[0025] 首先找出新增语义序列数据库db中所有项的集合I-db ;把原有语义序列数据库 中包含I-db中的项的序列构成新的语义序列数据库,同时去掉序列中不包含在I-db中项; 然后对所述新的语义序列数据库与所述新增语义序列数据库构造投影数据库,找到满足支 持度阈值的所有序列模式,对频繁序列树进行更新;
[0026] (2)语义序列数据库发生变化,最小支持度小于频繁序列树支持度阈值的情况 下:
[0027] 对原有语义序列数据库构造投影数据库,找到支持度不小于用户给定的支持度, 并且小于频繁序列树支持度阈值的所有序列模式;把所有的序列模式及其支持度信息存储 到频繁序列树中并把频繁序列树支持度阈值设为用户给定支持度;然后,按(1)中所述的 情况进行处理。
[0028] 上述技术方案提供的系统和方法,通过对用户输入的初始查询请求进行分析处 理,获得最终查询请求。然后根据最后总查询请求从资源库中匹配出符合条件的网络信息 文档。在领域本体库的帮助下对网络信息文档进行分析和语义处理,过滤掉无用的不相关 的信息。再根据用户兴趣本体库进行个性化处理,找出符合用户个性化需求的信息,最后结 合语义相关度和兴趣相关度,对检索结果进行相关性排序,并将排序处理后的检索结果返 回给用户。这样通过对用户兴趣本体库的来运用可以实现用户检索需求的个性化推荐,并 且在排序时按照频繁序列树的增量式语义序列模式挖掘算法进行优化检索结果,可以提高 查准率。

【专利附图】

【附图说明】
[0029] 图1为本发明实施例提供的一种系统框图;
[0030] 图2为本发明实施例提供的一种基于领域本体的语义信息检索方法流程图。

【具体实施方式】
[0031] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0032] 本发明实施例提供了一种基于领域本体的语义信息检索系统,如图1所示,该系 统包括:用户界面代理模块1,个性化需求分析模块2,领域本体库3,用户兴趣本体库4,信 息搜索代理模块5,文档分析与语义过滤模块6,个性化处理模块7,排序模块8。
[0033] 用户界面代理模块1,用于接收用户输入的初始信息查询请求。
[0034] 对于新用户来说,登录本系统后,在接收用户输入的初始信息查询请求之前,本系 统中的用户界面代理模块1需要先提供注册功能,用于完成新用户信息档案的建立,构造 新用户的用户兴趣本体库;而老用户在需要进行检索查询时,可以直接登录后通过用户界 面代理模块1输入初始信息查询请求。
[0035] 个性化需求分析模块2,用于对所述用户界面代理模块1接收的所述初始信息查 询请求进行词法分析,获得关键词级的内容,然后基于领域本体库3并结合用户兴趣本体 库4预测所述用户感兴趣的内容,形成最终查询请求,并将所述最终查询请求提交信息搜 索代理模块5。
[0036] 可选的,所述个性化需求分析模块2,具体用于将所述关键词级的内容与所述用户 兴趣本体库4进行映射,查验是否已有相似的查询请求;若有则将所述用户兴趣本体库4的 中映射到的内容做为最终查询请求,否则查询所述领域本体库3,从中找出出现所述关键词 级的内容的各个相应领域,将所述相应领域的相关概念通过所述用户界面代理模块1罗列 给用户,以使得所述用户根据自己的查询意图,确定所需查找的领域和含义,进而获得最终 查询请求;此时,所述用户兴趣本体库4就需要记录所述用户的这一新的需求信息。
[0037] 其中,所述领域本体库中的包括:各个领域中最基本的概念、概念的定义以及各个 概念之间的语义关系网络;所述用户兴趣本体库中包括:用户感兴趣的信息以及根据用户 兴趣点挖掘出来的其有潜在兴趣的信息。所述信息搜索代理模块5,用于从资源库中搜索与 所述最终查询请求相关的网络信息文档,所述资源库包括:本地信息资源、异地共享资源以 及其他网络资源。
[0038] 文档分析与语义过滤模块6,用于针对所述信息搜索代理模块5搜索到的网络信 息文档,基于所述领域本体库3,根据抽取的关键词判断所述网络信息文档所属领域,然后 转换成所述领域本体库3中的术语,同时根据所述最终查询请求与所述网络信息文档之间 的语义相关度,过滤掉所述网络信息文档中与用户查询请求不相关的信息,获得语义过滤 后的结果文档。
[0039] 个性化处理模块7,用于结合所述用户兴趣本体库4中存储的用户知识,对所述结 果文档进行评估,给出所述结果文档与用户兴趣的关联度。
[0040] 排序模块8,用于根据所述文档分析与语义过滤模块2得到的所述语义相关度,以 及所述个性化处理模块7得到的所述关联度,对所述结果文档按照频繁序列树的增量式语 义序列模式挖掘算法进行优化,最后把符合用户请求和兴趣的查询结果通过用户界面代理 模块1返回给用户。
[0041] 所述用户界面代理模块1,还用于将所述查询结果显示给所述用户。
[0042] 所述用户兴趣本体库4,用于根据用户对所述查询结果的反馈信息,更新所述用户 对应在用户兴趣本体库中的内容。
[0043] 本发明实施例还提供了一种基于领域本体的语义信息检索方法,如图2所示,所 述方法包括以下步骤:
[0044] 101、接收用户输入的初始信息查询请求。
[0045] 102、对接收的所述初始信息查询请求进行词法分析,获得关键词级的内容,然后 基于领域本体库并结合用户兴趣本体库预测所述用户感兴趣的内容,形成最终查询请求。
[0046] 其中,所述领域本体库中的包括:各个领域中最基本的概念、概念的定义以及各个 概念之间的语义关系网络;所述用户兴趣本体库中包括:用户感兴趣的信息以及根据用户 兴趣点挖掘出来的其有潜在兴趣的信息。可以将所述关键词级的内容与所述用户兴趣本体 库进行映射,查验是否已有相似的查询请求;若有则将所述用户兴趣本体库的中映射到的 内容作为最终查询请求,否则查询所述领域本体库,从中找出出现所述关键词级的内容的 各个相应领域,将所述相应领域的相关概念罗列给用户,以使得所述用户根据自己的查询 意图,确定所需查找的领域和含义,进而获得最终查询请求;所述用户兴趣本体库记录所述 用户的这一新的需求信息。
[0047] 103、从相关资源搜索与所述最终查询请求相关的网络信息文档。
[0048] 所述相关资源包括:本地信息资源、异地共享资源以及其他网络资源。
[0049] 104、针对所述网络信息文档,基于所述领域本体库,根据抽取的关键词判断所述 网络信息文档所属领域,然后将所述网络信息文档转换成所述领域本体库中的术语,获得 转换后的网络信息文档,同时根据所述最终查询请求与所述转换后的网络信息文档之间的 语义相关度,过滤掉所述网络信息文档中与用户查询请求不相关的信息,获得语义过滤后 的结果文档。
[0050] 105、结合所述用户兴趣本体库中存储的用户知识,对所述结果文档进行评估,给 出所述结果文档与用户兴趣的关联度。
[0051] 106、根据所述语义相关度以及所述关联度,对所述结果文档按照频繁序列树的增 量式语义序列模式挖掘算法进行优化,最后把符合用户请求和兴趣的查询结果返回给用 户。
[0052] 107、根据用户对所述查询结果的反馈信息,更新所述用户对应在用户兴趣本体库 中的内容。
[0053] 以下具体说明了领域本体库的构建过程:
[0054] -个本体可由概念、分类层次、关系、函数、公理和实例6种元素组成。本体中的 概念是广义上的概念,它除了可以是一般意义上的概念以外,也可以是任务、功能、行为、策 略、推理过程等等。本体中的这些概念通常构成一个分类层次。本体中的关系表示概念之 间的关联,这种关联表现了除分类层次关系之外的概念之间的所有联系。本体中的函数是 一种特殊的关系。公理在许多领域中,表示函数之间或关联之间也存在着关联或约束。实 例是指属于基本概念类的基本元素,即某概念类所指的具体实体,特定领域的所有实例。
[0055] 对本体进行形式化描述可以表示为一个六元组0 := (C,tf,R,rel,A,I);其中, C为领域内所有概念的集合,C= {cl,c2,…,cm} 是一个分类层次,它是一个有向的 传递关系,e CXC,表示概念间或概念与实例间的上下位层次关系,如tf(Ci,Cp表示Ci 是h的上位层次关系;R为概念间语义关系的集合,表示概念之间的一类关联,R = {rl, r2,…,rn},如Composed-of表示概念间部分与整体的关系,Is-a表示概念间继承关系, Instance-of表示概念和所属实例的包含关系等;rel :R - CXC是一个函数,也可以表示 为rel(R) = (C1,C2)或R(C1,C2) ;A表示领域内公理的集合,用于表示领域中函数或关联 之间存在的关联或约束,如一阶逻辑等,A= {al,a2, -^ap} ;1为概念所属的实例集合,实 例是指某概念所指的具体实体,I = Ul,i2,…,iq}。
[0056] 根据本体的形式化描述,构建领域本体库的具体步骤如下:
[0057] (1)确定领域范围;
[0058] (2)确定领域中的概念,构造各个概念类;
[0059] (3)确定概念的属性,构造各个属性类;
[0060] (4)建立属性间的语义关系;
[0061] (5)建立概念间的语义关系;
[0062] (6)建立概念的实例;
[0063] (7)通过已经建立的概念、属性、关系及实例构建本体。
[0064] 确定领域中的概念时,可通过使用Jena API,调用Model-Factory, create Ontology Model方法构建本体模型类Ont Model的一个实例,然后通过调用实例的create Class方法构造各个概念类Ont Class的具体实例得到领域中所有的概念。
[0065] 确定概念的属性时,调用已经创建的本体模型类OntM〇-de 1的实例的create Object Property方法构造各个属性类Object-Property的具体实例得到领域中所有的概 念的属性。
[0066] 领域本体库构建时,概念间的层次关系可以通过概念类Ont Class的add Sub Class方法或add Super Class方法设置。另外,还有两种经常用到的语义关系:①异形 同义词,即不同的词汇表达同一个含义;②同形异义词,即同一个词汇表达不同的含义。其 中,同形异义词间的关系可以用OWL中的语义标签different From、all Different等来描 述,通过概念类Ont Class的add-Disjoint With方法设置。异形同义词间的关系可以用 equivalent_Class、equivalent Property 和 same As 等来描述,通过概念类 Ont-Class 的 add Equivalent Class 方法设置。
[0067] 属性间的层次关系可以通过属性类Object Property的add-Super Property方 法设置。另外,还需要经常设置属性的定义域和值域,通过属性类Object Property的add Domain方法和add-Range方法设置。
[0068] 各个概念本体类的实例的建立可以通过调用本体模型类Ont Model实例的create Individual方法构造各个实例类Indivi-dual的实例。
[0069] 最后,本体的建立可以通过调用本体模型类Ont Model实例的create Ontology 方法构建本体类Ontology的实例,并可通过调用本体类Ontology的add Property方法设 置各个附加属性。
[0070] 在领域本体的基础上针对各个不同的异构数据源,需要构建与之相对应的应用本 体。应用本体可看作领域本体在数据源上的映射,是将数据源中的异构数据转换成由0WL 来描述的本体实例得到的。具体实现时,可以首先创建一个OWL文档,然后每取得一个元数 据信息,就把它作为一个子结点插入到0WL文档中,并且插入元数据的属性信息。然后,通 过Jena API,把应用本体存入到数据库中(比如My SQL)。另外,还可以将0WL描述的本体 转化成RDF三元组,并存入RDF三元组库中。一个复杂的由0WL定义的类或属性可以表示 成一个或多个相应的RDF三元组。
[0071] 以上介绍了领域本体库的构建过程,用户兴趣本体库的构建可以参考以上所述。
[0072] 步骤106具体包括:将步骤105中获得的结果文档转化为语义序列,形成语义序列 数据库,然后采用频繁序列树的增量式语义序列模式挖掘算法,进行优化,获得符合用户请 求和兴趣的查询结果。在这里,所述频繁序列树的增量式语义序列模式挖掘算法,包括:
[0073] (1)语义序列数据库发生变化,最小支持度不小于频繁序列树支持度阈值的情况 下:
[0074] 首先找出新增语义序列数据库db中所有项的集合I-db ;把原有语义序列数据库 中包含I-db中的项的序列构成新的语义序列数据库,同时去掉序列中不包含在I-db中项; 然后对所述新的语义序列数据库与所述新增语义序列数据库构造投影数据库,找到满足支 持度阈值的所有序列模式,对频繁序列树进行更新。
[0075] (2)语义序列数据库发生变化,最小支持度小于频繁序列树支持度阈值的情况 下:
[0076] 对原有语义序列数据库构造投影数据库,找到支持度不小于用户给定的支持度, 并且小于频繁序列树支持度阈值的所有序列模式;把所有的序列模式及其支持度信息存储 到频繁序列树中并把频繁序列树支持度阈值设为用户给定支持度;然后,按(1)中所述的 情况进行处理。
[0077] 上述的频繁序列树的增量式语义序列模式挖掘算法(简称为ISSFST),将所述结 果文档转化为语义序列,挖掘频繁模式,可以实现用户检索需求的个性化推荐、优化检索结 果及提高查准率。
[0078] ISSFST使用频繁序列树结构作为增量式序列模式挖掘算法的存储结构。频繁序列 树是一种序列存储结构,频繁序列树中存储满足频繁序列树支持度阈值的所有序列模式及 其支持度。
[0079] 1、频繁序列树结构
[0080] 频繁序列树是一棵前缀树,频繁序列树中存储数据库中满足频繁序列树支持度阈 值的所有序列模式及其支持度信息。频繁序列树的构造过程与在数据库中使用PrefixSpan 算法挖掘序列模式的过程是相似的。把每一次在投影数据库中挖掘出的所有频繁项作为孩 子结点,插入到以投影数据库前缀的最后一项为父亲结点的频繁序列树中。
[0081] 频繁序列树的定义:频繁序列树的根结点包含一个属性,用于存储频繁序列树支 持度阈值。除了根结点,频繁序列树中每个结点都包含两个属性,分别存储数据库中满足频 繁序列树支持度阈值序列模式及其支持度。从根结点的孩子结点到任何一个叶结点的路径 都代表了数据库中的一个序列模式,其支持度等于叶结点的支持度。频繁序列树中任何结 点的支持度都不小于其子结点的支持度。
[0082] 2、基于频繁序列树的语义序列模式挖掘算法
[0083] ISSFST是一种基于投影的增量式序列模式挖掘算法,其主要思想是通过对频繁序 列进行更新操作,找到满足支持度的所有序列模式。当数据库发生变化时,ISSFST算法分 以下两种情况对频繁序列树进行更新:
[0084] (1)数据库发生变化,最小支持度不小于频繁序列树支持度阈值;
[0085] (2)数据库发生变化,最小支持度小于频繁序列树支持度阈值。
[0086] 第一种情况:首先找出新增数据库db中所有项的集合I-db。把数据库中包含I-db 中的项的序列构成新的数据库,同时去掉序列中不包含在I-db中项。然后对新形成的数据 库与新增数据库构造投影数据库,找到满足支持度阈值的所有序列模式,对频繁序列树进 行更新。
[0087] 第二种情况:对原有数据库构造投影数据库,找到支持度不小于用户给定的支持 度,并且小于频繁序列树支持度阈值的所有序列模式。把所有的序列模式及其支持度信息 存储到频繁序列树中并把频繁序列树支持度阈值设为用户给定支持度。然后,按第一种情 况进行处理。
[0088] 在ISSFST算法中,使用了一种剪枝策略:当数据库发生变化时,由于原有数据库 中与新增数据库中项无关的序列生成的序列模式的支持度不发生变化,因此不需要对这些 序列构造投影数据库。
[0089] 算法 1 :ISSFST(DB,db,min-sup,FST)
[0090] 输入:原有数据库DB,增量数据库db,最小支持度min-sup,频繁序列树FST。
[0091] 输出:更新后的频繁序列树FST,更新后的数据库DB,更新后数据库的频繁序列集 FS,。
[0092] 方法:
[0093] (l)IfFST 为空
[0094] (2) Con-FST (DB,min-sup,FST) ;/* 构造 DB 频繁序列树 */
[0095] (3)Else If新增数据库db不为空
[0096] (4) If min-sup >= FST-sup
[0097] (5) Tree-updated(DB, db, FST);
[0098] (6)Else If min-sup < FST-sup
[0099] (7)对DB构造投影数据库,找到支持度不小于min-sup并且小于频繁序列树支持 度阈值的所有序列模式及其支持度,把这些序列存储到频繁序列树中;
[0100] (8)FST-sup = min-sup ;
[0101] (9) Tree-updated (DB, db, FST);
[0102] (10)遍历频繁序列树,找到FS',DB = DB+db ;
[0103] (11) Return ;
[0104] 算法 2:Tree_updated (DB,db,FST)
[0105] 输入:原有数据库DB,增量数据库db,频繁序列树FST。
[0106] 输出:更新后的频繁序列树FST。
[0107] 方法:
[0108] (1)找到db中所有项的集合Item-db ;
[0109] (2) For each s in DB
[0110] (3) If s 中包含 Item-db 中的项
[0111] (4)删除s中不包含在Item-db中的项,形成s' ;
[0112] (5)DB_new = DB-new+s,;
[0113] (6) db' = db+DB-new ;
[0114] (7)对db'构造投影数据库,找到最小支持度为频繁序列树支持度阈值的所有序 列模式及其支持度,对频繁序列树进行更新;
[0115] (8) Return ;
[0116] 由于频繁序列树中存储了序列数据库中满足频繁序列树支持度阈值的所有序列 模式及其支持度信息,频繁序列树结构在ISSFST算法中的引用,使ISSFST算法能够充分利 用先前的挖掘结果。在最小支持度不小于频繁序列树支持度阈值的情况下,当数据库发生 变化时,ISSFST算法不需要对原有数据库构造投影数据库,只需要对与增量数据库中的项 相关的序列构造投影数据库,大大减小了投影数据库的规模。
[0117] 检索结果的优化是提高信息检索效果的有效手段。实践表明,在个性化语义信 息检索系统中,对结果文档采用基于频繁语义序列的检索优化方法,可以有效地减轻用户 因从大量无关的检索结果中筛选感兴趣信息产生的负担,并提高信息检索的个性化和查准 率。
[0118] 为了验证所提出的系统模型及信息检索中所涉及的相关方法的有效性,项目组实 现了一个基于计算机本体的语义信息检索实验系统。该系统的运行环境是:CPU为Inter Core2,lG的内存,操作系统为Windows XP。系统采用了 Eclipse的集成开发环境,使用了 MySql数据库。
[0119] 实验结果表明,利用本体进行语义信息检索时,可得到较好的查询结果。通过与传 统的语义信息检索方法进行比较分析,表明基于频繁序列树的增量式语义序列频繁模式挖 掘方法的可行性、可靠性及有效性。
[0120] 以上所述,仅为本发明的【具体实施方式】,但本发明的保护范围并不局限于此,任何 熟悉本【技术领域】的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵 盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
【权利要求】
1. 一种基于领域本体的语义信息检索系统,其特征在于,包括: 用户界面代理模块,用于接收用户输入的初始信息查询请求; 个性化需求分析模块,用于对所述用户界面代理模块接收的所述初始信息查询请求进 行词法分析,获得关键词级的内容,然后基于领域本体库并结合用户兴趣本体库预测所述 用户感兴趣的内容,形成最终查询请求,并将所述最终查询请求提交信息搜索代理模块;其 中,所述领域本体库中的包括:各个领域中最基本的概念、概念的定义以及各个概念之间的 语义关系网络;所述用户兴趣本体库中包括:用户感兴趣的信息以及根据用户兴趣点挖掘 出来的其有潜在兴趣的信息; 所述信息搜索代理模块,用于从资源库中搜索与所述最终查询请求相关的网络信息文 档,所述资源库包括:本地信息资源、异地共享资源; 文档分析与语义过滤模块,用于针对所述信息搜索代理模块搜索到的网络信息文档, 基于所述领域本体库,根据抽取的关键词判断所述网络信息文档所属领域,然后将所述网 络信息文档转换成所述领域本体库中的术语,获得转换后的网络信息文档,同时根据所述 最终查询请求与所述转换后的网络信息文档之间的语义相关度,过滤掉所述网络信息文档 中与用户查询请求不相关的信息,获得语义过滤后的结果文档; 个性化处理模块,用于结合所述用户兴趣本体库中存储的用户知识,对所述结果文档 进行评估,给出所述结果文档与用户兴趣的关联度; 排序模块,用于根据所述文档分析与语义过滤模块得到的所述语义相关度,以及所述 个性化处理模块得到的所述关联度,对所述结果文档按照频繁序列树的增量式语义序列模 式挖掘算法进行优化,最后把符合用户请求和兴趣的查询结果通过用户界面代理模块返回 给用户; 所述用户界面代理模块,还用于将所述查询结果显示给所述用户; 所述用户兴趣本体库,用于根据用户对所述查询结果的反馈信息,更新所述用户对应 在用户兴趣本体库中的内容。
2. 根据权利要求1所述的系统,其特征在于, 所述个性化需求分析模块,具体用于将所述关键词级的内容与所述用户兴趣本体库进 行映射,查验是否已有相似的查询请求;若有则将所述用户兴趣本体库的中映射到的内容 作为最终查询请求,否则查询所述领域本体库,从中找出出现所述关键词级的内容的各个 相应领域,将所述相应领域的相关概念通过所述用户界面代理模块罗列给用户,以使得所 述用户根据自己的查询意图,确定所需查找的领域和含义,进而获得最终查询请求; 所述用户兴趣本体库,还用于记录所述用户的这一新的需求信息。
3. -种基于领域本体的语义信息检索方法,其特征在于,包括以下步骤: 101、 接收用户输入的初始信息查询请求; 102、 对接收的所述初始信息查询请求进行词法分析,获得关键词级的内容,然后基于 领域本体库并结合用户兴趣本体库预测所述用户感兴趣的内容,形成最终查询请求;其中, 所述领域本体库中的包括:各个领域中最基本的概念、概念的定义以及各个概念之间的语 义关系网络;所述用户兴趣本体库中包括:用户感兴趣的信息以及根据用户兴趣点挖掘出 来的其有潜在兴趣的信息; 103、 从资源库中搜索与所述最终查询请求相关的网络信息文档,所述资源库包括:本 地信息资源、异地共享资源; 104、 针对所述网络信息文档,基于所述领域本体库,根据抽取的关键词判断所述网络 信息文档所属领域,然后将所述网络信息文档转换成所述领域本体库中的术语,获得转换 后的网络信息文档,同时根据所述最终查询请求与所述转换后的网络信息文档之间的语义 相关度,过滤掉所述网络信息文档中与用户查询请求不相关的信息,获得语义过滤后的结 果文档; 105、 结合所述用户兴趣本体库中存储的用户知识,对所述结果文档进行评估,给出所 述结果文档与用户兴趣的关联度; 106、 根据所述语义相关度以及所述关联度,对所述结果文档按照频繁序列树的增量式 语义序列模式挖掘算法进行优化,最后把符合用户请求和兴趣的查询结果返回给用户; 107、 根据用户对所述查询结果的反馈信息,更新所述用户对应在用户兴趣本体库中的 内容。
4. 根据权利要求3所述的方法,其特征在于,步骤102具体包括: 将所述关键词级的内容与所述用户兴趣本体库进行映射,查验是否已有相似的查询请 求;若有则将所述用户兴趣本体库的中映射到的内容作为最终查询请求,否则查询所述领 域本体库,从中找出出现所述关键词级的内容的各个相应领域,将所述相应领域的相关概 念罗列给用户,以使得所述用户根据自己的查询意图,确定所需查找的领域和含义,进而获 得最终查询请求; 所述用户兴趣本体库记录所述用户的这一新的需求信息。
5. 根据权利要求3述的方法,其特征在于,频繁序列树的增量式语义序列模式挖掘算 法,包括: (1) 语义序列数据库发生变化,最小支持度不小于频繁序列树支持度阈值的情况下: 首先找出新增语义序列数据库db中所有项的集合I-db ;把原有语义序列数据库中包 含I-db中的项的序列构成新的语义序列数据库,同时去掉序列中不包含在I-db中项;然后 对所述新的语义序列数据库与所述新增语义序列数据库构造投影数据库,找到满足支持度 阈值的所有序列模式,对频繁序列树进行更新; (2) 语义序列数据库发生变化,最小支持度小于频繁序列树支持度阈值的情况下: 对原有语义序列数据库构造投影数据库,找到支持度不小于用户给定的支持度,并且 小于频繁序列树支持度阈值的所有序列模式;把所有的序列模式及其支持度信息存储到频 繁序列树中并把频繁序列树支持度阈值设为用户给定支持度;然后,按(1)中所述的情况 进行处理。
【文档编号】G06F17/27GK104090958SQ201410329258
【公开日】2014年10月8日 申请日期:2014年7月4日 优先权日:2014年7月4日
【发明者】姬朝阳, 姚林, 陈雪 申请人:许昌学院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1