基于语义网本体数据的集成方法

文档序号:9471465阅读:555来源:国知局
基于语义网本体数据的集成方法
【技术领域】
[0001] 本发明涉及语言处理技术,特别是涉及一种基于语义网本体数据的集成方法。
【背景技术】
[0002] 语义网及其本体,是一种标准化、分布式、且机器可读的一种数据模式。它可以快 速有效地将分布在不同地区、不同源头、不同形式的各种数据融合到一起,成为一个语义层 面链接的整体。它不仅支持一般的查询,同时也支持带有推理的查询,更具有特色的是还可 以融入基于本体数据的一阶逻辑推理。在语义网的背景下,链接数据(LinkedData)是用 来发布和链接各类数据、信息和知识的一套规范,是语义网的最佳实践方法,其最大的特点 是可以在不同数据源之间建立语义链接,对不同资源进行整合。
[0003] 链接数据融合方法的研究已有很多,其中较为轻便快捷的算法是基于词袋模型算 法,但传统词袋模型有很多不足。

【发明内容】

[0004] 本发明提供的基于语义网本体数据的集成方法,可以在不同数据之间建立语义链 接,对不同资源进行整合和推理。
[0005] 根据本发明的一方面,提供一种基于语义网本体数据的集成方法,包括:获取数据 信息,并对所述数据信息进行处理得到本体格式的数据信息;将所述本体格式的数据信息 通过渐进式消歧算法进行数据整合得到不同数据源的相同实体之间的链接关系;通过自 动化挖掘获取关键信息,所述关键信息包括摘要信息和标题信息;根据所述摘要信息和所 述标题信息构建关联图谱;根据所述关联图谱推理出潜在关联信息并扩充所述关联图谱; 将不同数据源的数据信息、所述相同实体之间的链接关系和所述关联图谱构建为知识数据 库。
[0006] 本发明实施例提供的基于语义网本体数据的集成方法,获取数据信息,并对所述 数据信息进行处理得到本体格式的数据信息,将所述本体格式的数据信息通过渐进式消歧 算法进行数据整合得到不同数据源的相同实体之间的链接关系,通过自动化挖掘获取关键 信息,关键信息包括摘要信息和标题信息,根据摘要信息和所述标题信息构建关联图谱,根 据关联图谱推理出潜在关联信息并扩充关联图谱,将不同数据源的数据信息、相同实体之 间的链接关系和关联图谱构建为知识数据库,从而可以在不同数据之间建立语义链接,对 不同资源进行整合和推理。
【附图说明】
[0007]图1为本发明实施例提供的基于语义网本体数据的集成方法流程图;
[0008]图2为本发明实施例提供的消歧方法流程图;
[0009] 图3为本发明实施例提供的脑结构层次图;
[0010] 图4为本发明实施例提供的关联关系自动化挖掘过程示意图;
[0011] 图5为本发明实施例提供的领域词典的分类以及关系示意图;
[0012] 图6为本发明实施例提供的神经元信息获取和统计过程示意图。
【具体实施方式】
[0013] 下面结合附图对本发明实施例提供的基于语义网本体数据的集成方法进行详细 描述。
[0014]图1为本发明实施例提供的基于语义网本体数据的集成方法流程图。
[0015] 参照图1,在步骤S101,获取数据信息,并对所述数据信息进行处理得到本体格式 的数据信息。
[0016] 这里,数据信息的格式可以是XML、Excel、TXT和RDF格式,将这些格式的数据信息 转化为本体格式的数据信息。以下列出了对于不同格式的数据信息的处理方法:
[0017] 本体(RDFS/0WL)格式:某些数据库中包括本体数据,其本身可以直接下载和融 合,如MeSH和NeuroLex数据,其中,MeSH为一种医学本体数据,NeuroLex为一种神经科学 概念的本体数据。
[0018] 并直接导入LBD(LinkedBrainData的简称,是本专利对应的已上线的系统平台 名称)。
[0019]XML文件:本系统通过抽取信息和转化信息的方式生成RDF格式(利用Jena框架 编程),如美国艾伦脑研究院数据的文件都是XML形式,通过采用D0M4J抽取信息,并根据其 信息结构对应地转化为RDF的三元格式并存储。
[0020] Excel文件:像哺乳动物脑本体(CommonUpperMammalianBrain Ontology,CUMBO)数据,这样的哺乳动物脑本体数据,是通过手动编写的Excel文件,本 发明制定了一套简单的输入Excel的标准,使其能够自动化的抽取和转化,并按照类和对 象的思维方式去设定一个数据表格里类的信息。其标准概括大致如下,其中第一行为属性 (第一行看成一个类定义),其他行中,每一行都是一个实例,第一个值为ID,确定唯一性的 URI,最后指定宾语为类的属性(设置参数)。
[0021] 其他可能还有TXT格式的文件,TXT格式较为灵活,通常采用基于ApacheJena框 架手动编写程序进行读取和转化,其中,ApacheJena为一种语议网编程框架。
[0022] 以上被转化为本体格式的数据会被导入ApacheJena里的TDB数据库或Apache Jena的Fuseki数据库中,从而完成数据格式上的统一和融合。
[0023]TDB数据库是支持网站平台服务的,Fuseki数据库主要是方便远程调用本系统的 数据和服务的。Fuseki是Jena提供的一个SPARQL协议的服务器,它通过HTTP利用SPARQL 协议支持SPARQL语言查询和更新,利用Fuseki对存储在TDB中的数据进行远程访问和获 取。
[0024] 在步骤S102,将所述本体格式的数据信息通过渐进式消歧算法进行数据整合得到 不同数据源的相同实体之间的链接关系。
[0025] 在步骤S103,通过自动化挖掘获取关键信息,所述关键信息包括摘要信息和标题 fg息。
[0026] 在步骤S104,根据所述摘要信息和所述标题信息构建关联图谱。
[0027] 在步骤S105,根据所述关联图谱推理出潜在关联信息并扩充所述关联图谱。
[0028] 在步骤S106,将不同数据源的数据信息、所述相同实体之间的链接关系和所述关 联图谱构建为知识数据库。
[0029] 进一步地,所述将所述本体格式的数据信息通过渐进式消歧算法进行数据整合得 到不同数据源的相同实体之间的链接关系包括:
[0030] 输入目标实体名和第一上下文参数;
[0031 ] 根据所述目标实体名从所述知识数据库中进行查找,获取与所述目标实体名相同 的个数;
[0032] 如果所述个数为第一数量,则判断所述目标实体名是否为原始实体名词;
[0033] 如果所述个数为第二数量,则输出与所述目标实体名相同的第一实体名;
[0034] 如果所述个数为第三数量,则将所述多个第二实体名进行消歧处理。
[0035] 这里,第一数量为0,第二数量为1,第三数量为多个1。
[0036] 进一步地,所述判断所述目标实体名是否为原始实体名词包括:
[0037] 如果所述目标实体名为所述原始实体名词,则将所述原始实体名词进行分割得到 多个实体名词;
[0038] 根据所述多个实体名词分别从所述知识数据库中进行查找,获取与所述目标实体 名相同的实体名。
[0039] 这里,如果第一数量为0时,则判断目标实体名是否为原始实体名词,如果为原始 实体名词,则将原词实体名词分割为多个实体名词。例如,目标实体名为"巴拉克?奥巴 马",如果从知识数据库中查找的实体名与目标实体名相同的数量为〇,则判断"巴拉克?奥 巴马"是否为原始实体名词,如果是原始实体名词,则将"巴拉克?奥巴马"分割为"巴拉克" 和"奥巴马"。
[0040] 分别对"巴拉克"和"奥巴马"从知识数据库中进行查找,查找与"巴拉克"和"奥 巴马"相同实体名的数量,如果数量仍为0,则结束;如果数量为1,则输出;如果数量为多个 1,则进行消歧处理。
[0041] 进一步地,所述将所述多个第二实体名进行消歧处理包括:
[0042] 将所述目标实体名的上下文参数和所述多个第二实体名的上下文参数分别进行 自然语言处理得到词袋和词袋集;
[0043] 将所述词袋和所述词袋集分别进行相似度计算,获取相似度最大的词频;
[0044] 输出所述相似度最大的词频。
[0045] 进一步地,所述将所述目标实体名的上下文参数和所述多个第二实体名的上下文 参数分别进行自然语言处理得到词袋和词袋集包括:
[0046] 将所述目标实体名的上下文参数和所述多个第二实体名的上下文参数分别进行 词性标注、词性选择、去停词和词原型还原得到所述词袋和所述词袋集。
[0047] 这里,如果个数为多个,则对多个第二实体名进行消歧处理,具体可参照如图2所 示的消歧方法流程示意图。
[0048] 在步骤S201,将所述目标实体名的上下文参数和所述多个第二实体名的上下文参 数分别进行词性标注、词性选择、去停词和词原型还原得到所述词袋和所述词袋集。
[0049] 具体地,词性标注可以把一个句子分解成单词或短语的形式。该工具可以鉴别出 名词、动词、形容词等并将它们标注出来。<
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1