本发明涉及大数据的处理技术领域,尤其涉及一种大数据环境下基于本体语义的查询方法及系统。
背景技术:
在现在的大数据时代环境下,数据具有多源异构、分布广泛、动态增长等特性,传统的数据管理模式已不适应大数据环境,目前的系统检索功能已不再能满足人们多样的需求。
传统的数据检索方法依据检索对象的不同,可以分为文本检索和多媒体检索。文本检索是指基于文字的检索,它是最早也是最常见的信息表现形式,在信息检索研究中占有基础地位。多媒体检索的对象包括图像、动画、音频和视频,但大多数多媒体检索系统扔采取基于文本关键字的搜索技术。依据检索的不同,文本检索可以分为全文检索和字段检索。全文检索的特点是把用户的查找请求和全文中的每一个词进行比较,不考虑请求与文本语义上的匹配,这种方式虽然可以保证查全率,但是查准率却大大降低了。字段检索只在某些信息点进行匹配,它的性能取决于所使用的标识字段的方法和用户对这种方法的理解,因此具有很大的局限性,字段检索支持语义匹配的能力也较差。
在传统基于关键词检索方法中,产生误检、漏检的一个重要原因是用户的需求表达与信息系统的表示方式不一致,实质上是对领域知识理解的不一致,要解决这个问题必须采取某种人和机器都能理解的中间语言来促进人机交流,消除人和机器对同一信息的认同误区。本体论可以用来捕获相关的领域知识,形成对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇和词汇之间相互关系的明确定义。
技术实现要素:
本发明的目的在于解决现有的数据检索方法中的语义匹配能力较差的问题,提供一种大数据环境下基于本体语义的查询方法及系统以通过本体语义采用属性扩展和和分解的方式实现快速、准确的查询。
一方面,本发明实施例提供一种大数据环境下基于本体语义的查询方法,包括以下步骤:
根据用户在查询界面提出的查询请求提取本体语义以生成第一查询语句;
通过本体推理机进行推理将所述第一查询语句转换为第二查询语句,所述第二查询语句与全局本体相关;
将所述第二查询语句分解为第三查询语句,所述第三查询语句与局部本体相关;
根据所述局部本体和关系数据库之间的映射关系,将所述第三查询语句转换第四查询语句,所述第四查询语句与所述关系数据库相关;以及
利用所述第四查询语句查询所述关系数据库,生成查询结果并返回给用户。
优选地,通过本体推理机进行推理将所述第一查询语句转换为第二查询语句的所述步骤包括:
利用所述本体推理机,在全局本体库中检索与用户的所述查询请求中包含的数据语义相关的全局本体;
根据检索到的所述全局本体,重新构造查询语句,将所述第一查询语句转换为所述第二查询语句。
优选地,在将所述第二查询语句分解为第三查询语句的所述步骤中,利用查询控制返回的结果和全局本体和局部本体之间的映射表,将所述第二查询语句分解为所述第三查询语句。
优选地,利用资源描述框架RDF来描述所述全局本体和所述局部本体。
相应地,本发明还提供一种大数据环境下基于本体语义的查询系统,包括:
用户交互模块,用于用户输入查询请求,并显示返回的查询结果;
本体语义提取模块,连接于用户交互模块,用于根据所述查询请求提取本体语义以生成第一查询语句;
本体推理机,连接于所述本体语义提取模块,用于进行推理将所述第一查询语句转换为第二查询语句,所述第二查询语句与全局本体相关;
分解模块,连接于所述本体推理机,用于将所述第二查询语句分解为与局部本体相关的第三查询语句;
映射模块,连接于所述分解模块,用于根据所述局部本体和关系数据库之间的映射关系,将所述第三查询语句转换第四查询语句,所述第四查询语句与所述关系数据库相关;
查询模块,连接于所述映射模块和所述用户交互模块,用于利用所述第四查询语句查询所述关系数据库,生成查询结果并返回给所述用户交互模块。
优选地,所述本体推理机用于在全局本体库中检索与用户的所述查询请求中包含的数据语义相关的全局本体,根据检索到的所述全局本体,重新构造查询语句,将所述第一查询语句转换为所述第二查询语句。
优选地,所述分解模块利用查询控制返回的结果和全局本体和局部本体之间的映射表,将所述第二查询语句分解为所述第三查询语句。
优选地,利用资源描述框架RDF来描述所述全局本体和所述局部本体。
实施本发明实施例,具有如下有益效果:本发明提供的大数据环境下基于本体语义的查询方法,根据用户输入的查询请求提取本体语义,通过将本体语义转换为全局本体进行属性扩展,以挖掘隐含在语义中的属性,再通过本体推理机,将全局本体分解为局部本体,利用局部本体与关系数据库之间的映射关系进行查询,由此,可以提高语义的匹配速度和查询的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明第一实施例提供的大数据环境下基于本体语义的查询方法的流程图。
图2为本发明第二实施例提供的大数据环境下基于本体语义的查询方法的流程图。
图3为本发明一实施例提供的大数据环境下基于本体语义的查询系统的原理图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
图1为本发明第一实施例提供的大数据环境下基于本体语义的查询方法的流程图。如图1所示,大数据环境下基于本体语义的查询方法包括以下步骤:
步骤S110:根据用户在查询界面提出的查询请求提取本体语义以生成第一查询语句。
本体论具有较好的逻辑推理功能,对于用户给出的检索词,利用本体论的逻辑推理功能,判断其所属的可能领域,然后分别将该领域及其属下的相关概念与定义以本体化的形式提供给用户。这样一方面可以帮助用户明确其信息需求,把未意识到的、未清晰表达的客观信息需求进一步显性化另一方面让系统确定检索词在本体论中的确切位置,从而帮助机器理解用户的检索意图,为用户提供更精确、更相关的知识与信息。
步骤S120:通过本体推理机进行推理将所述第一查询语句转换为第二查询语句,所述第二查询语句与全局本体相关。
具体地,在本发明一实施例中,通过本体推理机可以将根据用户的查询请求提取的本体语义进行属性扩展,将于本体语义有关的第一查询语句转换为与全局本体相关的第二查询语句。
具体地,全局本体是指将《中国图书馆分类法》提供的分类体系与《中国分类主题词表》提供的系统的知识分类系统融合起来,实现二者的一对一、一对多的对应转换关系。根据等值对应、近似对应、从属对应等关系,可显现这种隐含的对应关系。通过相应的软件实现二者之相互控制和转换,并在此基础上建立基于《中国分类主题词表》的分布式主体的全局本体库。在此基础上,可以实现分类语言、主题语言一体化,根据分类语言、主题语言兼容互换的原理,实现自动标引和分类。形成机器标引的样本语料映射到现成分类体系上形成全局本体库,并与权威的标引数据库整合起来建立一个高质量、高效率的用于自动分类的知识库。
步骤S130:将所述第二查询语句分解为第三查询语句,所述第三查询语句与局部本体相关。
具体地,在本发明一实施例中,通过属性分解,可以将与全局本体相关的第二查询语句转换为与局部本体相关的第三查询语句。
具体地,在全局本体库的基础上,以各学科的细化及应用建立的具体应用级本体形成局部本体库,由局部本体库为特定的网络用户服务,这样某一特定领域的本体可以被分解成若干局部本体,分解后局部本体可能分别由不同的开发者开发,然后对本体分别进行编译和修改,最终完成对整个领域本体的开发。
进一步地,将局部本体库中本体分为上层本体与下层本体。局部上层本体库中存储的本体主要来自于全局本体库,是全局本体库中一个或多个类的本体或是某一类下属的若干个子类本体。
进一步地,下层本体是在服务用户过程中不断产生的,通过用户使用过程中关键词的积累而形成,并在经过统计精炼后实现局部上层本体库的更新或说是修正,进而完成部分或全部上层本体库的补充,它涉及全局本体库的更新。比如:利用全文检索后控词技术,通过对用户输入的一些关键词标引、统计与分类,再进一步进行词频的统计,筛选出含有高词频的词串,形成局部本体库的下层本体,并不断由用户的使用去验证其规范性及是否符合全局本体库的一致性要求。如果符合,则纳入上层本体,进而纳入全局本体库,以达到全局本体库的增补、扩充之目的。但若所产生的新词(概念)的分类属性与全局本体库相悖则应仔细考证全局本体库的概念,以做好及时修正。
步骤S140:根据所述局部本体和关系数据库之间的映射关系,将所述第三查询语句转换第四查询语句,所述第四查询语句与所述关系数据库相关。
优选地,利用资源描述框架RDF来描述所述全局本体和所述局部本体。RDF使用XML语法和RDF Schema(RDFS)来将元数据描述成为数据模型。一个RDF文件包含多个资源描述,而一个资源描述是由多个语句构成,一个语句是由资源、属性类型、属性值构成的三元组,表示资源具有的一个属性。资源描述中的语句可以对应于自然语言的语句,资源对应于自然语言中的主语,属性类型对应于谓语,属性值对应于宾语,在RDF术语中称其分别为主语、谓词、宾语。
具体地,关系数据库一般采用“三元组”存储数据,数据库表通常包含“主体”、“谓词”、“客体”三列,每行表示一个RDF陈述。
步骤S150:利用所述第四查询语句查询所述关系数据库,生成查询结果并返回给用户。
本实施例提供的大数据环境下基于本体语义的查询方法,根据用户输入的查询请求提取本体语义,通过将本体语义转换为全局本体进行属性扩展,再通过本体推理机,将全局本体分解为局部本体,利用局部本体与关系数据库之间的映射关系进行查询,以提高查询的准确率。
实施例二
图2为本发明第二实施例提供的大数据环境下基于本体语义的查询方法的流程图。如图2所示,大数据环境下基于本体语义的查询方法包括以下步骤:
步骤S210:根据用户在查询界面提出的查询请求提取本体语义以生成第一查询语句。
步骤S220:利用所述本体推理机,在全局本体库中检索与用户的所述查询请求中包含的数据语义相关的全局本体。
步骤S230:根据检索到的所述全局本体,重新构造查询语句,将所述第一查询语句转换为所述第二查询语句。
步骤S240:利用查询控制返回的结果和全局本体和局部本体之间的映射表,将所述第二查询语句分解为所述第三查询语句。
步骤S250:根据所述局部本体和关系数据库之间的映射关系,将所述第三查询语句转换第四查询语句,所述第四查询语句与所述关系数据库相关。
步骤S260:利用所述第四查询语句查询所述关系数据库,生成查询结果并返回给用户。
本实施例提供的大数据环境下基于本体语义的查询方法,采用本体语义生成、属性扩展、挖掘属性的语义表达和解释,利用语义的推理机制实现基于属性的数据间的关联模式的提取和数据语义表达,并且实现挖掘隐含在语义中的属性,提高语义的匹配速度和准确率。
图3为本发明一实施例提供的大数据环境下基于本体语义的查询系统的原理图。如图3所示,该大数据环境下基于本体语义的查询系统包括:
用户交互模块310,用于用户输入查询请求,并显示返回的查询结果;
本体语义提取模块320,连接于用户交互模块310,用于根据所述查询请求提取本体语义以生成第一查询语句;
本体推理机330,连接于所述本体语义提取模块320,用于进行推理将所述第一查询语句转换为第二查询语句,所述第二查询语句与全局本体相关;
分解模块340,连接于所述本体推理机330,用于将所述第二查询语句分解为与局部本体相关的第三查询语句;
映射模块350,连接于所述分解模块340,用于根据所述局部本体和关系数据库之间的映射关系,将所述第三查询语句转换第四查询语句,所述第四查询语句与所述关系数据库相关;
查询模块360,连接于所述映射模块350和所述用户交互模块310,用于利用所述第四查询语句查询所述关系数据库,生成查询结果并返回给所述用户交互模块。
进一步地,本体推理机330用于在全局本体库中检索与用户的所述查询请求中包含的数据语义相关的全局本体,根据检索到的所述全局本体,重新构造查询语句,将所述第一查询语句转换为所述第二查询语句。
进一步地,所述分解模块340利用查询控制返回的结果和全局本体和局部本体之间的映射表,将所述第二查询语句分解为所述第三查询语句。
优选地,在本发明一实施例中,利用资源描述框架RDF来描述所述全局本体和所述局部本体。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。