专利名称:基于概念关系的领域数据语义的处理方法和检索方法
基于概念关系的领域数据语义的处理方法和检索方法
技术领域:
本发明涉及一种基于概念关系的领域数据语义的处理方法和检索方法。
背景技木常见的检索是关键字检索,查询结果是在字面意义上的匹配,使得查询率和查准率不尽人意。语义检索则是基于对信息资源的语义处理实现效率更高的检索,它是ー种根据知识库,通过逻辑判断和推理得出检索结果的检索方法,使信息检索从目前基于关键字的层面提高到基于知识的层面,具有一定的智能化。目前语义检索采用的主要方法就是提 取和处理语义信息,但对概念之间关系的理解不够通用和全面,因此对关系的利用也很欠缺。尽管目前语义检索的方法都已经开始关注概念间的关系,但仅是简单的属性链关系,仍然缺少对概念间各种复杂关联关系的处理方法,更不能根据用户提供的检索目标对关系做自适应的修正。2006-03-29公开的,公开号为1752966的中国发明掲示了ー种语义处理模块中,基于本体论方法,语义处理模块的基本部件包括一个语义知识库,ー个本体论知识库,和/或一个专家知识库。所述方法包括存贮ー个结构化描述的或者非结构化描述的用户检索式,对非结构化的检索式进行语义分析形成检索式的ー种正式语义表示式,对正式的语义检索式进行语义扩展,扩展后的检索式用于在专家知识库中查找相关的解决方案,并且根据语义关系对找到的解决方案进行分类。该发明主要是通过对正式的语义检索式进行语义扩展来检索,而没有提到对概念间各种复杂关联关系的处理方法。2006-04-26公开的,公开号为1763739的中国发明揭示了ー种文件搜索引擎中的基于语义的检索方法,包括建立资源信息库,同时建立该资源信息库与文件、用户输入查询词的匹配关系;用户输入查询词后,首先到资源信息库去匹配,若匹配成功,则利用该资源信息库中的资源信息与文件的匹配关系去匹配相应文件,并返回捜索结果;若匹配失败,则直接利用该查询词搜索文件,并返回捜索結果。利用包含了每个基本资源的多个信息对文件进行查询,因此对于用户使用ー种名称来查询时,在本发明的系统内部同时也利用其它资源信息进行查询,查全率得到提高。该发明虽然建立了资源信息库,但是该资源信息库不能更新,也没有使用相关度模型对概念进行语义推理,得到与用户潜在相关的信息。2008-04-30公开的,公开号为101169780的中国发明掲示了ー种基于语义本体的检索系统和方法,该系统包括语义本体索引数据库和语义本体索引处理单元。语义本体搜索处理单元获取文本命中文件列表,并将文本命中文件列表与语义本体索引数据库中的语义本体索引进行匹配处理,得到文档语义分类表。使得该检索系统能够识别待检索文件的语义信息,并且使搜索结果呈现出了语义的分类結果。本发明的实施例还公开了一种基于语义本体的检索方法,该方法先为已建立文本索引的文件建立语义本体索引,在用户进行搜索时,对文本匹配结果进行语义本体索引匹配处理,使得最后的输出结果在传统的文本匹配结果上呈现出了语义的分类,方便了用户的查询。该发明是对待检索的文件建立索引,然后再为索引文件建立语义本体索引,用户搜索时,使用索引匹配的方法查找相关文件,而没有对已有的知识库检索并在检索的知识库的基础上进行模型推理,即对概念间各种复杂关联关系的处理方法。2006-03-01公开的,公开号为1741012的中国发明掲示了文本检索装置和方法,其对传统的检索手段进行改良,引入自然语言深层的语义信息进行信息比较及检索。该发明采用将语义信息同向量空间模型相结合的方法,通过赋予语义信息附加的权重来改进向量空间模型的向量特征值,以提高向量特征值同文本语义之间的相关度,实现高精度的信息比较及检索。由于采用向量特征值之间的相似度(距离)来衡量文本之间的相似度,所以其比较及检索速度等同于向量空间模型。
发明内容本发明要解决的技术问题之一,在于提供一种基于概念关系的领域数据语义的处理方法,通过语义相关度计算模型,对概念间各种复杂关联关系进行处理,为大幅提高语义检索精度做准备。本发明要解决的技术问题之一,是这样实现的基于概念关系的领域数据语义的处理方法,其特征在于包括如下步骤步骤10、准备知识库该知识库中存储有根据领域的相关知识以及词表而定义该领域内的概念,及各概念之间的相关度;步骤20、建立语义推理模型该语义推理模型用于求解未定义的概念相关度;步骤30、语义推理通过所述语义推理模型利用知识库中与目标相关的已知概念的已知相关度计算出与目标相关的未知概念的未知相关度。其中,所述语义推理模型具体是如下计算公式
权利要求
1.基于概念关系的领域数据语义的处理方法,其特征在于包括如下步骤 步骤10、准备知识库该知识库中存储有根据领域的相关知识以及词表而定义该领域内的概念,及各概念之间的相关度; 步骤20、建立语义推理模型该语义推理模型用于求解未定义的概念相关度; 步骤30、语义推理通过所述语义推理模型利用知识库中与目标相关的已知概念的已知相关度计算出与目标相关的未知概念的未知相关度。
2.根据权利要求I所述的基于概念关系的领域数据语义的处理方法,其特征在于所述语义推理模型具体是如下计算公式
3.基于概念关系的领域数据语义的检索方法,其特征在于包括如下步骤 步骤10、准备知识库该知识库中存储有根据领域的相关知识以及词表而定义该领域内的概念,及各概念之间的相关度; 步骤20、建立语义推理模型该语义推理模型用于求解未定义的概念相关度; 步骤30、检索及语义推理 步骤31、根据目标概念TC直接在知识库中进行检索,检索出和目标概念TC相关的第一批概念 MC1, MC2,…,MCm,相应的相关度为 Rel (TC,MC1),Rel (TC,MC2),…,Rel (TC,MCm);步骤32、按相关度从大到小排序后,经过设定的阈值或者用户人工筛选,去除不相关的概念,得到初选结果集MC = (MC1, MC2,…,MCJ ; 步骤33、对概念集MC = (MC1, MC2, . . .,MCJ,逐一检索知识库,得到检索结果集{KCn,KC12,.. ,KC1J,{KC21,KC22,. ,KC2J,.. ,{KCnl,KCn2,.,KCnp},按相关度从大到小排序后,经过设定的阈值或者用户人工筛选,去除不相关的概念后得到结果集KC = (KC1, KC2,KCJ ;其中q和n为自然数,且q彡n ; 步骤34、采用所述语义推理模型,计算任意一个概念MCi和KCi之间的相关度Rel (MCi,KCi)。
4.根据权利要求I所述的基于概念关系的领域数据语义的处理方法,其特征在于所述步骤34之后还包括 步骤35、将计算所得的概念MCi和KCi之间的相关度Rel (MCi, KCi),保存到知识库;步骤36、把KC1, KC2,. . . , KCq当做目标概念集MC,回到步骤33,直到没有满足阈值的查询结果或者用户人工选取结果为止结束。
5.根据权利要求3所述的基于概念关系的领域数据语义的处理方法,其特征在于所述步骤20具体是所述语义推理模型具体是如下计算公式
6.根据权利要求3所述的基于概念关系的领域数据语义的处理方法,其特征在于所述步骤10具体是 步骤11、获取领域概念从领域叙词表获取领域概念,其中领域叙词表都是经过领域专家定义、审核的专业词汇; 步骤12、定义知识库中的领域概念领域专家根据领域概念之间的相关程度定义相关度,保存到知识库,相关度的取值范围为0到I之间的小数,包括0和I ;0表示两个概念完全不相关,I表示两个概念最大程度相关; 步骤13、确定知识库中领域概念间的相关度的平均值计算步骤13中不同的领域专家对相同概念的领域相关度值的平均值,并存入知识库中,作为平均相关度,且用于相关度计算模型中的计算值和最终概念间相关度检索的依据。
全文摘要
本发明提供一种概念关系的领域数据语义的处理方法和检索方法,包括步骤10、准备知识库该知识库中存储有根据领域的相关知识以及词表而定义该领域内的概念,及各概念之间的相关度;步骤20、建立语义推理模型该语义推理模型用于求解未定义的概念相关度;步骤30、语义推理通过所述语义推理模型利用知识库中与目标相关的已知概念的已知相关度计算出与目标相关的未知概念的未知相关度。
文档编号G06F17/30GK102651014SQ20121008755
公开日2012年8月29日 申请日期2012年3月29日 优先权日2012年3月29日
发明者徐晓文, 李海波, 熊颖 申请人:华侨大学