本体数据导入/导出方法及装置的制作方法

文档序号:6612816阅读:237来源:国知局
专利名称:本体数据导入/导出方法及装置的制作方法
技术领域
本发明涉及数据管理领域,更具体地,涉及一种灵活的本体数据 导入/导出方法及装置,能够导入/导出从公认标准格式到私有格式的 本体,使得本体管理系统能够服务于更多的应用。
背景技术
本体是一种重要的数据语义表示方法,本体数据管理是为了让应 用更好地使用本体数据来达到智能化的目的,其中本体数据的导入和 导出是本体数据管理中的重要功能。导入能够将来源不同的本体数据 存储到本体管理系统中去,导出可以将本体管理系统中的本体数据表 示成不同的格式,供不同的应用使用。本体信息可以被组织成多种形式,包括工业界公认的标准格式, 企业内部广泛使用的企业内部格式以及特定应用使用的私有格式。在本体导入方面,如何处理未知的私有格式的导入;在本体导出方面,如何根据不同的条件导出成私有格式;是当前本体数据管理中困难但重要的未解决问题。目前已经存在一些和本体导入/导出相关的工作和方法。US0156253,该系统可以导入已知格式的本体,并且可以根据XML (可扩展置标语言)查询语言(XQL, XML Query Language)来导出符 合查询条件的本体数据,导出的格式也是固定的已知格式。图12示出了 US0156253的整体操作流程,其中这个系统能够接 受的格式固定,为已知格式1;导出的格式也己经固定,为已知格式2; 该系统的格式判断器判断输入的格式是否为格式1,如果不是,则简 单地拒绝导入。对于导出,该系统支持不带条件的全部导出和利用査 询语言的导出。因为该系统的本体表示语言为XML,所以采用了 XML
数据库来存储本体,同时导出语言采用了 XML的査询语言XQL。US0163450,该系统可以导入固定格式1的本体,导出固定格式2的本体,其中不对本体进行存储,导入和导出在一个流水线上完成。 JP10333952,该方法可以将某个应用内部的数据自动的用分隔符分隔成表格形式或者列表形式的数据,然后导出给别的应用使用。 JP8190479,该方法在数据库转换的时候根据数据库列类型的取值范围以及取值长度来进行数据转换,决定转换源和转换目的的列之 间如何对应。综合现有的本体导入/导出方法,它们可以对已知固定格式的本 体进行导入/导出,同时在导出的时候,可以根据查询语言导出符合查询条件的本体数据,但是,仍有如下的问题没有解决(1) 不能导入私有的未知格式的本体,私有未知格式本体的导入 包括数据切分以及对属性取值范围和属性值类型的确定,目前方法可 以进行数据切分,但无法进行属性取值范围和属性值类型的确定;(2) 不能根据关键词的搜索条件导出已知格式和私有的未知格 式的本体;(3) 不能根据关键词和查询语言相结合的方式导出已知格式和 私有的未知格式的本体。基于文本和数据库的导入导出方法可以根据数据类型来进行格 式的转换,但是文本和数据库和本体数据具有较大的不同,主要体现 在文本和数据库是一种数据载体,而本体数据中存在概念、属性和实 例,在转换本体数据的时候,需要分别考虑概念、属性和实例的转化。 所以,基于文本和数据库的数据转化方法在使用到本体导入的时候需 要较大的改变。发明内容考虑到上述问题,本发明提出了一种灵活的本体数据导入/导出 方法及装置。不但可以处理己知格式的本体数据导入/导出,还可以处 理未知格式的本体数据导入/导出,并且能够结合关键词和査询语句导 出一部分符合条件的本体数据,存储成已知或者未知格式。因为对格
式的良好的适应性,根据本发明的本体数据导入/导出方法及装置能够 满足更多种类的应用的需要。根据本发明的第一方案,提出了一种本体数据导入装置,包括 本体数据格式分析器,用于分析输入的本体格式,如果为私有未知格 式,则利用存储己成功导入的本体的格式的本体格式库进行格式的确 定;未知格式导入器,用于根据本体数据格式分析器的格式确定结果, 对数据进行切分并且导入存储本体的关系数据库的本体库。根据本发明的第二方案,提出了一种本体数据导入方法,包括 分析输入的本体格式,如果为私有未知格式,则利用存储已成功导入 的本体的格式的本体格式库进行格式的确定;根据格式确定结果,对 数据进行切分并且导入存储本体的关系数据库的本体库。根据本发明的第三方案,提出了一种本体数据导出装置,包括 基于关键词和查询语言相结合的本体导出器,用于接收关键词和/或导 出格式,处理成查询语言后,对存储本体的关系数据库的本体库中所 存储的本体数据进行査询,以及向本体数据导出格式分析器请求导出 格式;本体数据导出格式分析器,用于根据基于关键词和查询语言相 结合的本体导出器的请求,直接返回导出格式,或通过利用存储己成功导入的本体的格式的本体格式库的査询,获得导出格式;基于关键词和查询语言相结合的本体导出器还用于按照本体数据导出格式分析 器返回的导出格式,输出从本体库返回的查询结果。根据本发明的第四方案,提出了一种本体数据导出方法,包括接收关键词和/或导出格式,处理成査询语言后,对存储本体的关系数据库的本体库中所存储的本体数据进行査询,并请求导出格式;根据 导出格式请求,直接返回导出格式,或通过利用存储已成功导入的本体的格式的本体格式库的查询,获得导出格式;按照本体数据导出格式分析器返回的导出格式,输出从本体库返回的查询结果。 根据本发明的第五方案,提出了一种本体数据导入/导出装置,包括根据上述本发明的本体数据导入装置;以及根据上述本发明的本体数据导出装置。


通过下面结合

本发明的优选实施例,将使本发明的上述 及其它目的、特征和优点更加清楚,其中图1描述了根据本发明的本体数据导入/导出装置100的整体方 框图。图2给出了利用关系型数据库110'表示本体库110的示意性结构图。图3示出了根据本发明的本体格式库120的示意性结构图。 图4a和4b是分别示出了未知格式本体数据的两种输入情况的示 意图。图5a示出了本体数据格式分析器130的未知格式导入操作的流 程图。图5b是给出了用于详细说明图5a所示步骤S504的示例的示意图。图6示出了已知格式导入器140的示意图。 图7示出了未知格式导入操作的具体示例。 图8a 8c示出了查询输入界面的示意图。图9示出了根据本发明的关键词和査询语言相结合的导出方法的 流程图。图IO是示出了本体数据的两种导出情况的示意图。图11示出了本体数据导出格式分析器170的操作流程。图12示出了 US0156253的整体操作流程。
具体实施方式
下面参照附图对本发明的优选实施例进行详细说明,在描述过程 中省略了对于本发明来说是不必要的细节和功能,以防止对本发明的 理解造成混淆。图1描述了根据本发明的本体数据导入/导出装置100的整体方 框图。
如图1所示,根据本发明的本体数据导入/导出装置100包括本体库110,用于存储本体的关系数据库;本体格式库120,该本体格 式库120包含了导入成功的私有格式的本体的格式,并且包含对这些 格式所包含的分隔符进行统计的结果;本体数据格式分析器130,用 于分析输入的本体格式,如果为标准的已知格式,则直接返回该格式, 如果为私有的未知格式,则需要利用本体格式库120进行格式的确定; 己知格式导入器140,用于对已知格式的本体进行导入;未知格式导 入器150,用于根据本体数据格式分析器130的结果,对数据进行切 分并且导入,在导入的时候需要生成属性的值范围和对属性值的类型 进行确定;基于关键词和查询语言相结合的本体导出器160,用于接 收一个或者多个关键词和/或导出格式,处理成查询语言后,对本体数 据进行查询,以及向本体数据导出格式分析器170请求导出格式;本 体数据导出格式分析器170,用于根据基于关键词和查询语言相结合 的本体导出器160的请求,直接返回导出格式,或通过利用本体格式 库120的査询,获得导出格式;基于关键词和查询语言相结合的本体 导出器160还用于按照本体数据导出格式分析器170返回的导出格式, 输出从本体库110返回的査询结果。以下将结合附图,对本发明的本体数据导入/导出装置100的各 个组成部分及其相应的操作方法进行详细的描述。本体库110图2给出了利用关系型数据库110'表示本体库110的示意性结 构。如图2所示,在本体库中,概念、属性和实例都可以利用三元组 来进行表示,其中三元组可以表示成主语(Subject)、谓语(Predicate) 和宾语(Object)。在关系数据库中,利用不同的列分别表示主语、谓 语和宾语,如图2所示。本体库包含概念、属性和实例,这三者都用 三元组来表示,而一个三元组包括了主语、谓语和宾语。在实际表示 中, 一个概念和属性都能够用一个三元组来表示,但是一个实例可能 会用多个三元组来表示。1)概念部分
所有的概念都必须是i^/^zch"的实例,也就是说,任何概念义,在本体库中,都会存在一个如下的三元组「x7^/.'ty/ er(/^.'c7ass入 而概念之间的继承关系通过rttfs.^t^67sss0/表示,也就是说,如果 义是/的子类,那么存在三元组Oro^.'s"6C7a"^V入例如,在图 2中,条目200是概念Company的定义。表示概念的三元组的谓语和 宾语已经确定,可以表示为(?x rdf:type rdf s : class),其中?x就是所表示的概念的名字。2) 属性部分属性定义了概念的性质以及概念和概念之间的关系。其中表示概 念性质的属性称作数值类型属性,表示概念和概念之间关系的属性称 作对象属性,其中无论是数值属性还是对象属性,都有定义域和值域, 定义域指的是该属性作用在哪些概念上,比如"年龄"这个属性的定 义域是"人"这个概念,也就是说,"年龄"是"人"这个概念的属性 而不是其他概念的属性。值域则确定了该属性的取值的范围,如果是 数值类型的属性,值域可以是数据类型,比如整数,实数或者字符串, 如果是对象属性,那么值域则为概念。比如"朋友"这个对象属性的 定义域为"人",值域也为"人"。例如,在图2中,条目201和202 是属性hasProduct和revenue的定义。表示属性的三元组的谓语和宾 语已经确定,可以表示为(?x rdf:type rdfs.'property),其中?x就 是所表示的属性的名字。3) 实例部分实例是某个概念下的具体事务,比如"Jack"是人的一个实例。 某个概念的实例具有定义域在该概念上的属性的属性值。比如"Jack" 具有"年龄"为35岁的属性值。例如,在图2中,条目210和条目 220是Co即any的实例幼CT和存6b/7y的定义。实例由多个三元组组成, 分别表示实例类型和实例所具有的属性的取值。在导入的时候,根据输入的本体数据,分别将概念、属性和实例 生成相应的三元组,并且将这些三元组存储到本体库中去。导出的时 候,将符合条件的三元组的记录导出。
本体格式库120本体格式库120用于格式分析,其中本体格式库120存放的信息 包括如下三种类型,如图3所示1. 已经注册的己知本体类型和格式310,比如OWL, MISP等;2. 历史上使用过的私有未知格式320;3. 统计信息330,包括导入私有未知格式的本体的记录3310, 还有用于私有未知格式的分隔符的统计记录3320。私有未知格式320 —般被组织成用某种分隔符分隔的三元组模 式,分别对应本体中三元组的主语、属性和宾语, 一个私有格式的例 子如下这个私有未知格式所对应的分隔的三元组模式就是 5T;Zu'ectW7^opert/W(9/u'ect,在存储私有未知格式的同时,本体格式 库120也会把每个分隔符在这些格式中所使用的次数进行存储,比如 在这个格式进入本体格式库后,"$"的使用频率将会被加1 (参见统 计信息330中的统计记录3320)。本体数据格式分析器130本体数据格式分析器130负责分析输入的本体的格式,根据输入 本体格式的不同选用已知格式导入器140或者未知格式导入器150来 导入本体数据,其中本体数据格式分析器130的操作总流程如下(1) 如果该本体数据为已知的格式,则返回该本体的格式;(2) 如果该本体数据为未知的格式,则分析该未知格式,其中未 知格式的输入可以有两种情况如图4a和图4b所示,其中一种情况是 在未知格式导入命令中包含本体内容和该格式的说明,例如图4a;另 外一种情况是在未知格式导入命令中只包含本体内容,没有包含格式 说明,例如图4b。更具体地,本体数据格式分析器130的未知格式导入操作如图5a所示步骤S501.如果该未知格式的输入包含了格式信息(图4a所
示),则进行到步骤S505,直接提取出格式信息,并将格式添加到本 体格式库120中,把内容和格式信息直接输入到未知格式导入器150 中;步骤S502.如果未知格式的输入没有包含格式信息(图4b所 示),则首先从本体格式库120中的未知格式表中取出所有的未知格 式,利用未知格式来进行分析,如果成功,则该格式就是所输入的本 体的格式,跳转到步骤S505,把内容和该格式信息直接输入到未知格 式导入器150中;步骤S503.如果所有的本体格式库120中的历史未知格式都不 能满足要求,则从分隔符库中取出最常用的"个分隔符,比如"$",《tf # ,,W , ,," * ,," % ,, 等 步骤S504.分别针对这/7个字符的每一个字符,重复进行如下操作在输入内容中的某一行(对应于单一实例),用这个字符进行査 找,如果能够找到相应的出现位置,则从该位置开始不断地进行前向 和后向分隔符探测。具体地,如图5b所示示例,对于例子 7V2a賴s^^oo^c"'Kei^3"W,如果在位置3上发现了 "$",则首先, 在小于3的位置(位置2)上查找,此时发现'C'(不在常用的字符 集中);然后,在大于3的位置(位置4)上査找,此时发现字符(在常用字符集中),继续向后查找,发现字符'h'(不在常用的字 符集中)。于是,把(位置3,位置4)当作一个分隔区域,在针对该实 例的继续搜索中,已经成为分隔区域的位置,将不再进行搜索。也就 是说,在针对该实例的随后的搜索中,跳过上面的(位置3,位置4)。 如果针对该实例能够找到2个分隔区域,则生成相应的分隔格式;并 执行步骤S505,并将所生成的分隔格式和内容一起输入到未知格式导 入器150中。步骤S505.返回提取出的、解析得到的或是通过格式探测而生成 的格式。已知格式导入器140
每个己知格式都会在已知格式导入器140中注册一个导入模块, 所以对于已知格式导入器140来说,只需要根据输入的格式调用相应 的导入模块进行导入即可,参见图6。在图6中,OWL是已知的公开标 准,MISP是企业内部的已知标准,己知格式导入器140只需要调用相 应的模块进行导入即可(例如,OWL格式标准可参见参考文献 http:〃www. w3. org/TR/owl-features/)。因为标准是公开的,所以已知格式导入器140能够从输入的本体 内容中提取出概念、属性和实例,生成相应的三元组,然后导入到本 体库110中。未知格式导入器150未知格式导入器150从本体数据格式分析器130接收到格式和内 容信息后,需要对主语、谓语和宾语进行分析,以确定导入方式。其 中对于主语、谓语和宾语将采取不同的处理。具体的处理方法如下1. 对于主语,都处理成2Y/ZV2^sowrce,因为主语必然是一个 实体;2. 对于谓语,将定义域处理成!^f.了eso〃rce,以便与主语相对应,但是确定值域的时候需要进行以下判断1) 分析出现了该谓语的三元组中,是否针对该谓语出现了数 值,包括整数、实数,如果针对该谓语出现过数值,则将该谓语的值 域定义为数值型,同时把该谓语生成为数值类型属性。2) 如果针对该谓语的取值并没有出现过数值,那么还存在两 种情况第一种情况是针对该谓语的取值为某个rcy/Vre"i/7Y7e的URI (统 一资源标识),这时候该谓语的值域为2^/Vresowrce的对象类型属性。 (可参见参考文献hUp:〃www, w3. org/TR/owl-features/)。第二种情况是该谓语是值域为字符串的数值类型属性;其中图7中的①表示第一种情况,②表示第二种情况。 通过以下分析来确定该谓语的取值属于上述两种情况中的哪一种
得到该谓语的所有取值,如果这些取值的URI部分或者全部能够 在主语中找到,那么该谓语应该为对象类型属性,在主语中存在的URI对应着主语的相应!^/Vresowce,而不存在于主语中的URI则对应着 新的/^/Vresowxe,需要在本体库中创建出这些新的T^/Vr"o"rce。 如果这些URI的取值全部无法在主语中找到,那么将它们输入本体库 中查找,因为URI是全局唯一的,所以如果能够在本体库中查找到相 应的i^/Vw^)W^e,那么仍然将其认为是对象类型属性。如果还是找 不到,则将其认为是值域为字符串的数值类型属性。3.对于宾语,①当谓语被识别为数值类型属性(包括值域为整 数或实数的数值类型属性和值域为字符串的数值类型属性)时,直接 导入该三元组;②当谓语被识别为对象类型属性时,如果宾语的URI 在本体库中存在,则直接导入该三元组;如果宾语的URI在本体库中 不存在,则需要创建该7^/:2^ 0"2^^,然后再导入该三元组。在上面的步骤完成后,未知的本体格式将被导入到本体库110中。 图7示出了未知格式导入操作的具体示例。参考图7,对于未知 格式的本体数据-首先,取得主语NEC,因为主语NEC还未存在,创建相应的( VFC r,.加e rc/ZVi^owrceJ 然后,取得谓语hasProduct,并进行类型判断取得宾语 Versal100,因为VersallOO也出现在主语中,因此hasProduct为对象类型,生成对应的对象类型属性之后,取得宾语Versal100,因为VersallOO未存在,创建相应 最后,导入NEC的这个属性值
另一方面,对于未知格式的本体数据Ke,7满糊as尸"'ceU, 首先,取得主语P^rss77^ ,因为主语已经存在,不用创建该然后,取得谓语/ s^^i'ce,并进行类型判断取得宾语M^^, 因为7WW为数值类型,因此,创建数值类型属性之后,取得宾语"0W,最后,导入^wa77W的这个属性值基于关键词和查询语言相结合的本体导出器160在本体数据的导出中,有两种类型的导出, 一类是导出所有的本 体数据,这可以看作是不带条件的导出;还有一类是导出部分的本体 数据,这可以看作带条件的导出。其中,条件可以通过关键词和査询 语句进行,在这里首先定义关键词和査询语句。关键词指的是一个或者多个由自然语言组成的词汇,关键词的输 入比较简单,适合初级用户使用,系统中关键词的输入界面可参见图 8a。由图8a可知,关键词的输入形式比较简单,没有本体知识的普通 用户也可以使用关键词进行本体导出。关键词的例子包括"清华大学"、 "日电公司"等。査询语句指的是具有某种查询语言的语法,能够进行复杂的条件 指定,对特定结构的数据进行査询的一种査询方式,系统中査询语句 的输入界面可参见图8b。由图8b可知,査询语句具有一定的语法, 需要很强的专业知识才可以使用。 一个简单的查询语句的例子如下所 示& & w/ are , & 乂 这个语句的查询目标是本体中的所有三元组。 关键词的查询优点是简单,普通用户也可以轻松使用,缺点是能 够指定的査询目标不够明确,不能很好地利用本体中的语义。比如查
询"清华大学"的时候,并不能指定这个"清华大学"出现在实例的 哪个位置上。而查询语句能够清晰地指定出"清华大学"具体的语义。 考虑如下的两个实例-工nstancel, name:清华大学,location:北京中关村东路1号 Instance2, name:仓ll新大厦,location:清华大学 在利用关键词进行导出的时候,输入"清华大学",则这两个实例都满足条件,可以被导出,所以,关键词不能够很好的利用本体的语义。因为它不能表达如下的这种导出目标名字为"清华大学"的实例。但是查询语言可以完成这个任务,名字为"清华大学"的实例,可以被表示成如下的查询语言Wect x由re卩& <7 雄> ,举丈学".乂同时,査询语言还能够进行AND、 0R、 NOT等复杂的条件操作,能够充分地利用本体数据中的语义。在本发明中,综合了这两者的优势,提供了关键词和查询语句相结合的查询方式(参见图8c),能够让普通用户方便的输入关键词,又能够利用查询语句对本体数据的査询优势。图9示出了根据本发明的关键词和査询语言相结合的导出方法的流程图。步骤S901.取得本体库中的所有领域本体,列出给用户,等待用 户选择;步骤S902.用户选择了某一个领域本体后,得到该领域本体中的 所有概念,列出给用户,等待用户选择查询目标;步骤S903.用户选择某一个概念作为查询目标,这时候,得到该 概念的所有属性,等待用户添加/删除/编辑查询条件;步骤S904.开始用户添加/删除/编辑查询条件的过程;步骤S905.添加查询条件用户选中某个属性,然后可以选择如下7种条件设定的形式等于,"=",对于数值类、对象类属性都起作用,严格的等于;不等于,"!=",对于数值类、对象类属性都起作用,严格的不等于;
小于或者等于,"〈=",对于取值为整数或者实数的数值类型起作 用,小于或者等于;大于或者等于,"二>",对于取值为整数或者实数的数值类型起作用,大于或者等于;小于,"<",对于取值为整数或者实数的数值类型起作用,严格的小于;大于,"〉",对于取值为整数或者实数的数值类型起作用,严格 的大于;包含,"contain",对于取值为字符串的数值类型起作用,包含 某个字符串。然后,对选中的属性和条件,输入关键词,或者数值。 步骤S906.删除或编辑査询条件,对已经添加的査询条件可以进 行删除或编辑;步骤S907.如果所有的査询条件已经编辑完毕,则可以进行查 询,否则退回到步骤S904。步骤S908.得到满足条件的本体数据并进行导出。比如用于查询名字为"清华大学"的实例,就可以通过以上步骤 进行。在步骤S901.首先选择"MISP"本体; 在步骤S902.在"MISP"本体中,列出了所有的类别; 在步骤S903.选择其中的类别"学校"; 在步骤S904.开始添加查询条件;在步骤S905.选择"name"属性,然后选择"等于",然后填入 关键词"清华大学";在步骤S907.所有査询条件已经编辑完毕,可以进行查询; 在步骤S908. 得到导出结果。可见在这个过程中,用户只需要选择和输入关键词,这样就使得 用户可以不需要对本体查询语言具有了解,扩大了能够使用本体语义 的用户群。
系统接收到查询条件和关键词后,会生成相应的查询语句在本体 库110中査询,得到满足查询条件的本体部分,从而进入基于关键词和查询语言相结合的本体导出器160。在上面的例子中,系统根据用户的一系列动作所产生的最后结果,生成如下的查询语句-se7e" & r力ere x <7 a/7 e> "獰华;t学〃,乂 通过该査询语句得到了满足条件的本体数据,然后进行导出。导出的格式由本体数据导出格式分析器170确定。导出的数据也有两种格式,如图10所示。对第一种格式而言,因为用户在导出命令中已经带有导出格式,所以导出的数据不再需要携带格式;对第二种格式而言,因为用户在导出命令中并没有说明格式,所以需要把系统推荐的格式提供给用户,以方便用户利用该格式对本体数据进行操作。本体数据导出格式分析器170符合导出条件的本体数据也可能被导出成为已知的业界标准格 式(比如OWL)或者已知的企业内部标准格式(比如MISP),也可以导出未知的格式。其中在要求数据导出的时候,导出命令包括导出条件 和导出的格式,导出命令的一个例子如下所示这是一个不带导出条件但要求导出格式为0WL的导出命令,因此, 本体数据将会导出成OWL文件。另一个导出命令的例子如下所示 (Criteria, select xwhere{ x<name>清华大学};9 这是一个只有导出条件但没有导出格式的导出命令,在接到这种 命令的时候,。本体数据导出格式分析器170的操作流程如图11所示步骤S1101.判断导出命令中是否要求了导出格式,如果要求了导出格式,则执行步骤S1103,直接返回该格式;步骤S1102.如果导出命令中未要求导出格式,则需要进行格式推荐,推荐方法可以基于最近最常用的导入格式进行,需要两个参数,一个是时间段/7, 一个是阈值threshold;
a)在时间段/7内,从本体格式库120中选出所有曾经被用来成功导入过未知格式本体的格式,记为格式集合/^;W对于格式集合^中的每个格式r ,计算使用率,使用率rate: "te二潜式r ^使賴游汰教/潜式桌合"^游,萄游式凝使厉腺总汰 教'.c)选出最高使用率r"e^,如果2^z^J二^res力o7A则该条格式将被使用来作为导出本体数据的格式;如果最高使用率 rate證"Ares力oJd,贝U令/7二/7氺人5 Z^res力oJ(/二Z^res力(x/a^0. 5",返回 子步骤a),重新执行;当然,以上推荐操作仅作为示例,本领域普通技术人员完全可以 根据需要进行调整。例如,为了降低操作复杂度,也可以直接选择与 最高使用率"&^相对应的格式作为导出格式,而不必进行循环操作。步骤S1103.返回导出命令中所包含的导出格式或通过步骤 S1102而选中的导出格式。至此己经结合优选实施例对本发明进行了描述。应该理解,本领 域技术人员在不脱离本发明的精神和范围的情况下,可以进行各种其 它的改变、替换和添加。因此,本发明的范围不局限于上述特定实施 例,而应由所附权利要求所限定。
权利要求
1. 一种本体数据导入装置,包括本体数据格式分析器,用于分析输入的本体格式,如果为私有未知格式,则利用存储已成功导入的本体的格式的本体格式库进行格式的确定;未知格式导入器,用于根据本体数据格式分析器的格式确定结果,对数据进行切分并且导入存储本体的关系数据库的本体库。
2. 根据权利要求l所述的本体数据导入装置,其特征在于 所述本体库中包括采用由主语、谓语和宾语构成的三元组表示的概念、属性和实例。
3. 根据权利要求2所述的本体数据导入装置,其特征在于 如果本体数据格式分析器分析确定输入的本体格式为标准的已知格式,则直接返回该格式,所述本体数据导入装置还包括已知格式导入器,用于将己知格 式的本体数据导入本体库;其中-本体格式库所存储的已成功导入的本体的格式包括 己经注册的已知本体类型和格式、历史上使用过的私有未知格式和统计信息,其中所述统计信息包括已成功导入的私有未知格式和用于私有未知格式的分隔符的统计记录。
4. 根据权利要求3所述的本体数据导入装置,其特征在于私有未知格式表示为由特定分隔符分隔的三元组模式。
5. 根据权利要求l所述的本体数据导入装置,其特征在于本体数据格式分析器在分析输入的本体格式时,针对私有未知格 式,如果所述私有未知格式包含格式信息,则直接提取所述格式信息, 并将所述私有未知格式添加到本体格式库中,将本体数据的内容和格 式信息直接提供给未知格式导入器。
6. 根据权利要求5所述的本体数据导入装置,其特征在于 本体数据格式分析器在分析输入的本体格式时,针对私有未知格式,如果所述私有未知格式不包含格式信息,则提取本体格式库中已 存储的所有私有未知格式,当所输入的私有未知格式与已存储的任一 私有未知格式匹配时,确定采用该匹配私有未知格式,并将本体数据 的内容和格式信息提供给未知格式导入器。
7. 根据权利要求6所述的本体数据导入装置,其特征在于本体数据格式分析器在分析输入的本体格式时,针对私有未知格 式,如果所述私有未知格式不包含格式信息,则提取本体格式库中已 存储的所有私有未知格式,当所输入的私有未知格式与己存储的任一私有未知格式均不匹 配时,从所述本体格式库中的分隔符库中取出最常用的"个分隔符,分别针对这/7个字符的每一个字符,重复进行如下操作在输入的内容中,用这个字符进行查找,如果能够找到相应的出 现位置,则从该位置开始不断地进行前向和后向分隔符探测,将连续 的分隔符区域确定为一个分隔区域,当找出两个分隔区域时,确定并 生成相应的分隔格式,作为探测出的私有未知格式,并将本体数据的 内容和格式信息提供给未知格式导入器。
8. 根据权利要求2 4之一所述的本体数据导入装置,其特征在于在导入输入数据时,未知格式导入器首先导入主语,然后确定谓 语的类型属性,并生成该属性的值域,最后根据所确定的谓语的类型 属性,导入宾语。
9. 根据权利要求8所述的本体数据导入装置,其特征在于 未知格式导入器分析出现了该谓语的三元组中,是否针对该谓语出现了数值,如果针对该谓语出现过数值,则确定该谓语为数值类型 属性,并将该属性的值域定义为数值型。
10. 根据权利要求9所述的本体数据导入装置,其特征在于 未知格式导入器分析出现了该谓语的三元组中,是否针对该谓语出现了数值,如果针对该谓语未出现过数值,则判断与该谓语关联的 宾语是否部分能够在主语中找到,如果能够找到,则确定该谓语为对象类型属性;如果未能找到,则确定该谓语为数值类型属性,并将该属性的值域定义为字符串型。
11. 一种本体数据导入方法,包括分析输入的本体格式,如果为私有未知格式,则利用存储已成功导入的本体的格式的本体格式库进行格式的确定;根据格式确定结果,对数据进行切分并且导入存储本体的关系数 据库的本体库。
12. 根据权利要求ll所述的本体数据导入方法,其特征在于 所述本体库中包括采用由主语、谓语和宾语构成的三元组表示的概念、属性和实例。
13. 根据权利要求12所述的本体数据导入方法,其特征在于 如果本体数据格式分析器分析确定输入的本体格式为标准的已知格式,则直接返回该格式,所述本体数据导入方法还包括将已知格式的本体数据导入本体库;g中-本体格式库所存储的已成功导入的本体的格式包括 已经注册的已知本体类型和格式、历史上使用过的私有未知格式和统计信息,其中所述统计信息包括已成功导入的私有未知格式和用于私有未知格式的分隔符的统计记录。
14. 根据权利要求13所述的本体数据导入方法,其特征在于私有未知格式表示为由特定分隔符分隔的三元组模式。
15. 根据权利要求l所述的本体数据导入方法,其特征在于 在分析输入的本体格式时,针对私有未知格式,如果所述私有未知格式包含格式信息,则直接提取所述格式信息,并将所述私有未知 格式添加到本体格式库中。
16. 根据权利要求15所述的本体数据导入方法,其特征在于 在分析输入的本体格式时,针对私有未知格式,如果所述私有未 知格式不包含格式信息,则提取本体格式库中已存储的所有私有未知 格式,当所输入的私有未知格式与己存储的任一私有未知格式匹配时, 确定釆用该匹配私有未知格式。
17. 根据权利要求16所述的本体数据导入方法,其特征在于在分析输入的本体格式时,针对私有未知格式,如果所述私有未 知格式不包含格式信息,则提取本体格式库中已存储的所有私有未知 格式,当所输入的私有未知格式与已存储的任一私有未知格式均不匹 配时,从所述本体格式库中的分隔符库中取出最常用的/7个分隔符, 分别针对这/7个字符的每一个字符,重复进行如下操作在输入的内容中,用这个字符进行查找,如果能够找到相应的出 现位置,则从该位置开始不断地进行前向和后向分隔符探测,将连续 的分隔符区域确定为一个分隔区域,当找出两个分隔区域时,确定并 生成相应的分隔格式,作为探测出的私有未知格式。
18. 根据权利要求12 14之一所述的本体数据导入方法,其特 征在于在导入输入数据时,首先导入主语,然后确定谓语的类型属性, 并生成该属性的值域,最后根据所确定的谓语的类型属性,导入宾语。
19. 根据权利要求18所述的本体数据导入方法,其特征在于分析出现了该谓语的三元组中,是否针对该谓语出现了数值,如 果针对该谓语出现过数值,则确定该谓语为数值类型属性,并将该属 性的值域定义为数值型。
20. 根据权利要求19所述的本体数据导入方法,其特征在于 分析出现了该谓语的三元组中,是否针对该谓语出现了数值,如果针对该谓语未出现过数值,则判断与该谓语关联的宾语是否部分能够在主语中找到,如果能够找到,则确定该谓语为对象类型属性;如果未能找到,则确定该谓语为数值类型属性,并将该属性的值域定义 为字符串型。
21. —种本体数据导出装置,包括基于关键词和查询语言相结合的本体导出器,用于接收关键词和 /或导出格式,处理成查询语言后,对存储本体的关系数据库的本体库 中所存储的本体数据进行查询,以及向本体数据导出格式分析器请求导出格式;本体数据导出格式分析器,用于根据基于关键词和查询语言相结 合的本体导出器的请求,直接返回导出格式,或通过利用存储已成功导入的本体的格式的本体格式库的查询,获得导出格式;基于关键词和查询语言相结合的本体导出器还用于按照本体数 据导出格式分析器返回的导出格式,输出从本体库返回的查询结果。
22. 根据权利要求21所述的本体数据导出装置,其特征在于所述本体库中包括釆用由主语、谓语和宾语构成的三元组表示的 概念、属性和实例。
23. 根据权利要求22所述的本体数据导出装置,其特征在于 本体格式库所存储的已成功导入的本体的格式包括-已经注册的已知本体类型和格式、历史上使用过的私有未知格式和统计信息,其中所述统计信息包括已成功导入的私有未知格式和用于私有未知 格式的分隔符的统计记录。
24. 根据权利要求23所述的本体数据导出装置,其特征在于私有未知格式表示为由特定分隔符分隔的三元组模式。
25. 根据权利要求21所述的本体数据导出装置,其特征在于 基于关键词和查询语言相结合的本体导出器通过执行以下操作,生成查询语言取得并列出本体库中的所有领域本体;得到并列出用户所选领域本体中的所有概念;得到并列出用户所选概念的所有属性;添加由用户所选属性和用户针对该属性而输入的关键词所构成 的查询条件;根据用户所添加的全部查询条件,生成査询语言。
26. 根据权利要求25所述的本体数据导出装置,其特征在于 基于关键词和査询语言相结合的本体导出器还通过执行以下操作,生成查询语言在用户已确定添加了全部查询条件之前,删除或编辑用户所选的 任一已添加查询条件,直至用户确定已添加了全部査询条件时,才生 成查询语言。
27. 根据权利要求21所述的本体数据导出装置,其特征在于本体数据导出格式分析器判断查询语言中是否包含导出格式,如 果包含导出格式,则直接返回该导出格式。
28. 根据权利要求27所述的本体数据导出装置,其特征在于 如果本体数据导出格式分析器判断查询语言中未包含导出格式,则返回本体格式库中最近最常用的导入格式。
29. 根据权利要求28所述的本体数据导出装置,其特征在于本体数据导出格式分析器如下确定最近最常用的导入格式 从本体格式库中选出在预定时间段/7内,所有曾经被用来成功导 入过未知格式本体的格式,记为格式集合i^;对于格式集合w中的每个格式r,计算该格式的使用率w"; 选出与最高使用率"k,相对应的格式,作为导出格式,返回给基于关键词和查询语言相结合的本体导出器。
30. 根据权利要求29所述的本体数据导出装置,其特征在于 当且仅当最高使用率raz^M大于预设阈值z^^力oW时,本体数据导出格式分析器才将与最高使用率rste^相对应的格式作为导出格 式。
31. 根据权利要求30所述的本体数据导出装置,其特征在于 当最高使用率raz^M不大于预设阈值"7^WWJ时,本体数据导出格式分析器增加预定时间段"的长度,减小预设阈值"re^ o7A 然后,重新执行导出格式的选择。
32. —种本体数据导出方法,包括接收关键词和/或导出格式,处理成查询语言后,对存储本体的 关系数据库的本体库中所存储的本体数据进行查询,并请求导出格式;根据导出格式请求,直接返回导出格式,或通过利用存储己成功 导入的本体的格、式的本体格式库的查询,获得导出格式;权利要求书第7/8页按照返回的导出格式,输出从本体库返回的査询结果。
33. 根据权利要求32所述的本体数据导出方法,其特征在于 所述本体库中包括采用由主语、谓语和宾语构成的三元组表示的概念、属性和实例。
34. 根据权利要求33所述的本体数据导出方法,其特征在于本体格式库所存储的已成功导入的本体的格式包括 已经注册的已知本体类型和格式、历史上使用过的私有未知格式和统计信息,其中所述统计信息包括已成功导入的私有未知格式和用于私有未知格式的分隔符的统计记录。
35. 根据权利要求34所述的本体数据导出方法,其特征在于私有未知格式表示为由特定分隔符分隔的三元组模式。
36. 根据权利要求32所述的本体数据导出方法,其特征在于生成査询语言的步骤包括以下子步骤 取得并列出本体库中的所有领域本体; 得到并列出用户所选领域本体中的所有概念; 得到并列出用户所选概念的所有属性;添加由用户所选属性和用户针对该属性而输入的关键词所构成 的查询条件;根据用户所添加的全部査询条件,生成查询语言。
37. 根据权利要求36所述的本体数据导出方法,其特征在于生成查询语言的步骤还包括以下子步骤在用户已确定添加了全部査询条件之前,删除或编辑用户所选的 任一已添加查询条件,直至用户确定已添加了全部查询条件时,才生 成査询语言。
38. 根据权利要求32所述的本体数据导出方法,其特征在于 判断查询语言中是否包含导出格式,如果包含导出格式,则直接返回该导出格式。
39. 根据权利要求38所述的本体数据导出方法,其特征在于如果判断査询语言中未包含导出格式,则返回本体格式库中最近 最常用的导入格式。
40. 根据权利要求39所述的本体数据导出方法,其特征在于 确定最近最常用的导入格式的步骤包括以下子步骤 从本体格式库中选出在预定时间段/7内,所有曾经被用来成功导入过未知格式本体的格式,记为格式集合r^对于格式集合rs中的每个格式i",计算该格式的使用率ra";选出与最高使用率^&_相对应的格式,作为导出格式。
41. 根据权利要求40所述的本体数据导出方法,其特征在于 当且仅当最高使用率rate^大于预设阈值z^re^ Wd时,才将与最高使用率ra^,相对应的格式作为导出格式。
42. 根据权利要求41所述的本体数据导出方法,其特征在于 当最高使用率raZie,不大于预设阈值t力2^s力o2^时,增加预定时间段/7的长度,减小预设阈值^^m力oJA然后,重新执行导出格式 的选择。
43. —种本体数据导入/导出装置,包括 根据权利要求1 10之一所述的本体数据导入装置;以及 根据权利要求21 31之一所述的本体数据导出装置。
全文摘要
本发明提出了一种灵活的本体数据导入/导出方法及装置。具体地,根据本发明的本体数据导入装置,包括本体数据格式分析器,用于分析输入的本体格式,如果为私有未知格式,则利用存储已成功导入的本体的格式的本体格式库进行格式的确定;未知格式导入器,用于根据本体数据格式分析器的格式确定结果,对数据进行切分并且导入存储本体的关系数据库的本体库。此外,根据本发明的本体数据导出装置包括基于关键词和查询语言相结合的本体导出器和本体数据导出格式分析器,其中基于关键词和查询语言相结合的本体导出器按照本体数据导出格式分析器返回的导出格式,输出从本体库返回的查询结果。
文档编号G06F17/27GK101398831SQ20071016292
公开日2009年4月1日 申请日期2007年9月27日 优先权日2007年9月27日
发明者丰强泽, 梁邦勇, 齐红威 申请人:日电(中国)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1