一种面向中文语言的大规模本体映射方法
【技术领域】
[0001] 本发明涉及中文本体映射领域。
【背景技术】
[0002] 语义Web的愿景是建立一数据之网Il (Web of Data),以使机器能够理解网络上 的语义信息。本体作为语义Web的核心元素,是描述特定领域共享概念的形式化、规范化说 明,是实现网络知识共享和语义互操作的基础。目前由于不同本体之间存在异构性,导致了 本体间的重用和共享变得困难。
[0003] 本体映射(Ontology Alignment)的任务就是要发现异构本体之间的概念语义关 联。但是由于文化和背景原因,目前尚缺乏成熟的面向中文语言描述的本体映射系统。而随 着语义网的发展,大规模的中文语言描述的本体和知识库也越来越多地被构建和共享。同 时,中文本体映射系统的构建尚处于起步阶段。因此,本发明主要解决面向中文描述的大规 模本体映射系统的构建问题。
[0004] 国内外研究人员已提出了多种映射方法和典型系统。文献[Cohen W, Ravikumar Pj Fienberg S. A comparison of string distance metrics for name-matching tasks[C]. Proceedings of the IJCAI Workshop on Information Integration on the Web (IIWeb). Acapulco, Mexico, 2003: 73-78]中列出了 基于编辑距离和基于 Token的几种典型元素级相似度计算算法,并对几种算法的性能进行了评测。Melnik S 等[Melnik Sj Garcia-Molina Hj Rahm E.Similarity flooding:A versatile graph matching algorithm and its application to schema Matching[C]. Proceedings of the 18th International Conference of Data Engineering (ICDE). San Jose,California,2002:117-128]提出了 一种结构级本体映射算法:Similarity flooding,该系统利用本体的概念体系构造相似度传播图,并对概念之间的相似度进行传 播和修正。Zhong Qian 等[Zhong Qj Li Hj Li Jj Xie Gj Tang Jj Zhou Lj Pan Y. A gauss function based approach for unbalanced ontology matching[C] · Proceedings of the 28th International Conference on Management of Data (SIGMOD). Rhode Island,USA,2009:669-680]开发了 RiMOM系统,该系统基于本体实例、概念名称以及本体 结构等特征的多策略映射方式,并通过引入普适的场论思想,使其适用于大规模本体的映 射任务。但其缺乏针对中文特定语言特点的优化。Giunchiglia F等[Giunchiglia F.,Yat skevich M. . Element level semantic matching[D]· Italy:Dept. of Information and Communication Technology University of Trento, 2004]提出基于语言学方法,并引 入共享知识词典(如:WordNet),利用语言关系进行语义关系发现。文献[Isaac A,Meij LjSchlobach SjWang S. An empirical study of instance-based ontology matching[C]. Proceedings of the 6th International Semantic Web Conference and the 2nd Asian Semantic Web Conference(ISWC/ASWC).Busan,Korea,2007:253-266]提出一种实例级的 本体映射算法,它根据本体概念的公共实例数量来度量概念之间的相似度。
[0005] 近年来,大规模中文本体库和本体映射系统构建的相关研究工作正逐步展开。 李佳等提出了一种基于知网(Hownet)的元素层概念相似度计算的方法,并实现了一个 中文本体映射系统[李佳,祝铭,刘辰,等.中文本体映射研究与实现[J].中文信 息学报,2007, 21 (4) :27-33],该系统在面对大规模本体映射任务时,其适用性有待验 证。田久乐等提出一种基于同义词词林的中文词语语义相似度计算算法[田久乐,赵 蔚.基于同义词词林的词语相似度计算方法[J].吉林大学学报,2010,28(6):602-608], 但其成果并未在语义网环境下应用。Wang Zhi-chun等学者[Z. Wang, Z. Wang, J.Li et al. Knowledge extraction from Chinese wiki encyclopedias[J]. Journal of Zhejiang University-Science C, voI 13, no. 4, pp. 268 - 280, 2012]提出基于中文百科的分类体 系抽取概念间的层次关系、获取含有Infobox的词条web页面中的概念属性及百科词条 实例,最终建立起基于百度百科和互动百科的两大中文大规模本体库,并根据简单的关 键字匹配策略,与DBpedia建立起实例间的共指关系。Niu Xing等[Niu X,Sun X,Wang H, et al. Zhishi. me-weaving Chinese linking open data[C]. ISffC 2011. Springer Berlin Heidelberg, 2011:205-220]研究人员将百度百科、互动百科以及中文维基百科 进行语义集成,并开发出基于中文描述的语义web数据查询应用系统。Yidong Chen等 [Chen Yidong, Chen Liwei, Xu Kun. Learning Chinese entity attributes from online encyclopedia[C]. APWeb 2012:179-186]提出利用中文百科Infobox中的属性-值对信息, 自动提取良构的训练样本,进而基于统计学习模型从百科的非结构化文本中抽取海量的知 识三元组,最终构建了一个面向开放域的中文知识库。
[0006] 现有系统存在的不足以及本发明的主要贡献为:
[0007] 1)提出一种新的面向中文大规模本体映射模型的总体框架。
[0008] 目前对于中文环境中的语义数据集之间的本体概念等价关系发现的研究还较少。 在语义web环境中,随着本体的规模越来越大,如何保证本体映射的效率就成为亟待解决 的问题。因此,本研究提出的一种面向中文的框架级本体映射模型。首先,采用基于编辑距 离和同义词词林相结合的多策略融合方法来计算待映射本体之间的概念初始相似度。其 次,基于数据场理论并以概念初始相似度为输入,对待映射本体的规模进行压缩。最后,根 据中文概念和百科知识库所含有的语义特征,通过引入生物信息学中的序列比对思想,提 出了一种新的中文本体概念等价关系确定性映射策略。
[0009] 2)提出了一种对大规模本体映射规模进行压缩约简的新方法。
[0010] 传统的本体映射系统和方法往往只注重映射结果,而忽视了映射效率。因此在面 对大规模本体映射任务时,传统方法显得实用性不强。本研究在对中文大规模本体进行等 价关系的确定性映射前,为了将时间复杂度控制在可以接受的范围内,提出了一种新的数 据场势函数,并以此为基础,对大规模本体首先进行映射规模的约简和压缩。具体来说,在 对原始拟核力场势函数进行改进的基础上,基于《同义词词林》(扩展版),提出一种综合计 算概念间语义相似度和相异度值来衡量数据对象势值的新方法,并以此为依据设计了一种 针对大规模本体的映射规模进行约简的新算法。
[0011] 3)提出了一种基于生物信息学全局双序列比对思想的概念语义相似度计算新方 法。
[0012] 文献[Zhong Q,Li H,Li J,Xie G,Tang J,Zhou L,Pan Y. A gauss function based approach for unbalanced ontology matching[C] · Proceedings of the 28th International Conference on Management of Data (SIGMOD). Rhode Island,USA,2009:669-680]的研究工作目前只适用于基于英文描述的本体及其映射任务, 而其缺乏对多语言本体的支持,特别是没有针对中文本体的特点进行优化。同时,传统的中 文本体映射系统中的概念相似度计算方法并未考虑组合概念中的原子概念顺序差异及一 词多义现象对构建两个组合概念之间映射关系质量的影响,而忽视