一种基于机器学习的图书本体匹配方法
【专利摘要】本发明公开了一种基于机器学习的图书本体匹配方法,主要用于处理图书领域的本体匹配问题。本发明首先对于给定的两个图书本体生成所有待匹配的实例对与概念对,再利用启发式实例匹配规则与基于监督学习的决策模型从所有待匹配的实例对中挖掘实例间的等价关系,即得到实例匹配结果。然后对于所有待匹配的概念对使用基于半监督学习的标签传播算法挖掘概念间的上下位与等价关系,从而得到概念匹配结果。最终,将实例匹配结果与概念匹配结果共同作为图书本体匹配的结果。
【专利说明】一种基于机器学习的图书本体匹配方法
【技术领域】
[0001] 本发明属于本体匹配领域,涉及一种基于机器学习的图书本体匹配方法。
【背景技术】
[0002] 近年来,随着语义万维网的不断发展,越来越多的知识以本体的形式发布在万维 网中。本体作为一种新的且具有代表性的知识表现形式,在语义万维网的发展与部署中扮 演着不可忽视的作用,越来越多的组织及个人构建不同领域的基于本体的应用,包括电子 商务、生命科学、社交媒体、地理信息等。随着互联网中本体数量的不断增加,必然存在多个 本体来源于相关或相同的应用领域。由于来源于相关或相同领域的不同本体的构建方式不 同,必然具有很大的信息互补性,这样对于使用不同但相关的本体构建而成的应用而言,隐 含了很大的交互空间。所以,使用本体匹配技术将相关本体联系在一起是一件极富意义而 且极具挑战的工作。
[0003] 由于本体的构建方式不同,因此语义异构的问题是本体匹配技术所面对的最大的 挑战。近年来,国内外研宄人员为了解决本体匹配中的语义异构问题,许多实用系统被研制 而成,包括东南大学的Falcon系统、Lily系统,卡尔斯鲁厄大学的FOM系统、APFEL系统, 清华大学与香港科技大学的RMOM系统,以及伊利诺伊大学的GLUE系统等。但是目前并未 出现针对图书领域的本体匹配系统,仅仅使用领域无关的本体匹配系统来对图书领域的本 体进行匹配,无法分析与挖掘出图书领域本体固有的特点,因此匹配效果并不尽如人意,达 不到实用要求。
[0004] 本文中提出的基于机器学习的图书本体匹配方法,分析图书本体中所固有的属性 特征,使用了启发式实例匹配规则与基于监督学习的决策模型进行实例匹配。在实例匹配 完成的基础之上。定义了概念间的不对称的字符串相似度、相关概念集合相似度、相关概念 向量相似度、文本上下文相似度以及实例集合相似度作为每个概念对的特征,再使用基于 半监督学习的标签传播算法进行概念匹配,从而完成图书领域本体匹配的任务。
【发明内容】
[0005] 技术问题:本发明提供一种对于给定的两个图书本体,不仅能够自动挖掘不同图 书本体中实例间的等价关系,而且可以挖掘不同图书本体中概念间的上下位与等价关系的 基于机器学习的图书本体匹配方法。
[0006] 技术方案:本发明的基于机器学习的图书本体匹配方法,首先从给定的两个图书 本体中抽取出待匹配的实例对与概念对;对于所有实例对,顺序使用启发式实例匹配规则 与基于监督学习的决策模型进行实例间等价关系的判断;然后为所有待匹配的概念对生 成反向概念对,再利用基于半监督学习的标签传播算法进行概念间上下位与等价关系的判 断;从而获得所有实例匹配与概念匹配的结果。
[0007] 本发明的基于机器学习的图书本体匹配方法,包括如下步骤:
[0008] 1)分别遍历两个给定待匹配图书本体的实例集合与概念集合,生成待匹 配实例对集合IP与待匹配的概念对集合CP,其中IP= {(In,I21),(In,I22),… ,(I11,I2111),(I12,I21),…(I12,I2111),…,(II(n-1),I2111),(IIn,I21),…,(IIn,I2111)},CP- {(C11,C21),(Cn,C22),…,(C11,C2t),(C12,C21),…(C12,C2t),…,(C1(H),C2t),(Cls,C21),… ,(Cls,C2t)},1"与Clk分别为第一个图书本体的实例与概念,ie{1,2,…,n},ke{1,2,… ,s},η与s分别为第一个图书本体中实例与概念的总量,&_与C21)分别为第二个图书本体 的实例与概念,je{1,2,…,m},ρe{1,2,…,t},m与t分别为第二个图书本体中实例与 概念的总量,(Ili,I2j)为待匹配实例对,(Clk,C2p)为待匹配的概念对;
[0009] 2)对于所述步骤1)中生成的所有待匹配的实例对,利用启发式实例匹配规则与 基于监督学习的决策模型进行实例匹配,匹配过程如下:
[0010] 2a)对所有待匹配实例对,利用如下启发式实例匹配规则进行关系的判断:如果 待匹配的一对实例均具有国际标准书号,则进一步判断两者的国际标准书号是否相同,若 相同,则判定两实例等价,若不同,则判定不等价;若待匹配的一对实例的国际标准书号有 缺失,则认为无法判定该实例对之间是否存在等价关系;
[0011] 完成对所有待匹配实例对的上述判断后,若存在无法判定关系的实例对,则进入 步骤2b),否则实例匹配结束,进入步骤3);
[0012] 2b)从判定出关系的实例对中进行抽样,并提取图书实例的有效特征,包括:书 名、作者、译者、出版社、页数、开本、出版时间、原始定价,用于训练基于监督学习的决策模 型,进而将无法判定关系的实例对的有效特征输入所述基于监督学习的决策模型,得出各 实例对的两个实例之间是否存在等价关系;
[0013] 3)对于所述步骤1)中生成的所有待匹配的概念对,利用基于半监督学习的标签 传播算法进行概念匹配,匹配过程如下:
[0014] 3a)将每个待匹配的概念对(Clk,C2p)作为正向概念对,为其生成反向概念对 (C2P,Clk);
[0015] 3b)分别为每个正向概念对和每个反向概念对构造不对称的字符串相似度、相关 概念集合相似度、相关概念向量相似度、文本上下文相似度、实例集合相似度,作为其自身 的特征;
[0016] 3c)针对所有正向概念对和反向概念对,利用显式图书概念间上下位关系匹配规 则挖掘出上下位关系和非上下位关系,对并对其添加标签作为已标注概念对,然后将所有 正反向概念对作为节点构建一个完全图,再根据所述步骤3b)中得到的正向概念对的特征 和反向概念对的特征计算所有节点间边的权重,最后利用基于半监督学习的标签传播算法 判断每个正向概念对的两个概念之间,以及每个反向概念对的两个概念之间是否存在上下 位关系,若一个正向概念对(Clk,C2p)的两个概念之间,以及其反向概念对(C2p,Clk)的两个 概念之间均存在上下位关系,则判定概念Clk与C2p间为等价关系;
[0017] 4)将所述步骤2)中生成的实例匹配结果与所述步骤3)中生成的概念匹配结果, 共同作为最终的图书本体的匹配结果。
[0018] 本发明方法的优选方案中,所述步骤3b)中按照如下方法为每个正向概念对和每 个反向概念对构造不对称的字符串相似度、相关概念集合相似度、相关概念向量相似度、文 本上下文相似度、实例集合相似度:
[0019] 1)字符串相似度:给定一个概念对(Clk,C2p),概念Clk与C2p之间的字符串相似度 CLsim(Clk,C2p)的定义如下所示:
[0020]
【权利要求】
1. 一种基于机器学习的图书本体匹配方法,其特征在于,该方法包括如下步骤: 1) 分别遍历两个给定待匹配图书本体的实例集合与概念集合,生成待匹配实例对集
一个图书本体的实例与概念,ie{1,2,…,n},kG{1,2,…,s},n与s分别为第一个图书本 体中实例与概念的总量,12」与C2p分别为第二个图书本体的实例与概念,jG{1,2,…,m}, pG{1,2,…,t},m与t分别为第二个图书本体中实例与概念的总量,(In,I2j)为待匹配实 例对,(Clk,C2P)为待匹配的概念对; 2) 对于所述步骤1)中生成的所有待匹配的实例对,利用启发式实例匹配规则与基于 监督学习的决策模型进行实例匹配,匹配过程如下: 2a)对所有待匹配实例对,利用如下启发式实例匹配规则进行关系的判断:如果待匹 配的一对实例均具有国际标准书号,则进一步判断两者的国际标准书号是否相同,若相同, 则判定两实例等价,若不同,则判定不等价;若待匹配的一对实例的国际标准书号有缺失, 则认为无法判定该实例对之间是否存在等价关系; 完成对所有待匹配实例对的上述判断后,若存在无法判定关系的实例对,则进入步骤 2b),否则实例匹配结束,进入步骤3); 2b)从判定出关系的实例对中进行抽样,并提取图书实例的有效特征,包括:书名、作 者、译者、出版社、页数、开本、出版时间、原始定价,用于训练基于监督学习的决策模型,进 而将无法判定关系的实例对的有效特征输入所述基于监督学习的决策模型,得出各实例对 的两个实例之间是否存在等价关系; 3) 对于所述步骤1)中生成的所有待匹配的概念对,利用基于半监督学习的标签传播 算法进行概念匹配,匹配过程如下: 3a)将每个待匹配的概念对(Clk,C2p)作为正向概念对,为其生成反向概念对(C2p,Clk); 3b)分别为每个正向概念对和每个反向概念对构造不对称的字符串相似度、相关概念 集合相似度、相关概念向量相似度、文本上下文相似度、实例集合相似度,作为其自身的特 征; 3c)针对所有正向概念对和反向概念对,利用显式图书概念间上下位关系匹配规则挖 掘出上下位关系和非上下位关系,对并对其添加标签作为已标注概念对,然后将所有正反 向概念对作为节点构建一个完全图,再根据所述步骤3b)中得到的正向概念对的特征和反 向概念对的特征计算所有节点间边的权重,最后利用基于半监督学习的标签传播算法判断 每个正向概念对的两个概念之间,以及每个反向概念对的两个概念之间是否存在上下位关 系,若一个正向概念对(Clk,C2p)的两个概念之间,以及其反向概念对(C2p,Clk)的两个概念 之间均存在上下位关系,则判定概念Clk与C2P间为等价关系; 4) 将所述步骤2)中生成的实例匹配结果与所述步骤3)中生成的概念匹配结果,共同 作为最终的图书本体的匹配结果。
2. 根据权利要求1所述的基于机器学习的图书本体匹配方法,其特征在于,所述步骤 3b)中按照如下方法为每个正向概念对和每个反向概念对构造不对称的字符串相似度、相 关概念集合相似度、相关概念向量相似度、文本上下文相似度、实例集合相似度: 1) 字符串相似度:给定一个概念对(clk,c2p),概念clk与c2p之间的字符串相似度 CLsim(Clk,C2p)的定义如下所示:
其中1 (Clk)是Clk的标签字符串,11(Clk) |是Clk的标签字符串长度,而LCS(1 (Clk),1 (C2p))表示1 (Clk)与1 (C2p)的最长公共子串的长度; 2) 相关概念集合相似度:给定任意一个概念C,将其概念标签1(C)提交到百度知道后, 收集返回的前十页面中的所有相关问题,然后抽取这些问题所关联的分类,将这些分类构 成了概念C的一组相关概念RCS(C),RCS(C) = {rCi,rc2,…,rcj,其中rcx是第X个相关概 念,对应给定的概念对(Clk,C2p),概念Clk与C2p之间的相关概念集合相似度RCSsim(Clk,C2p) 的定义如下所示:
其中|RCS(Clk)nRCS(C2p) |指Clk与C2p的相关概念集合的交集的大小,而|RCS(Clk) 表不clk的相关概念集合的大小; 3) 相关概念向量相似度:定义概念C的相关概念向量RCV(C),RCV(C)= 〈rcJC),rc2(C),…,rcn(C)>,其中rcy(C)表示第y个相关概念rcy出现的次数;对于给定一 个概念对(Clk,C2p),概念Clk与C2p之间的相关概念向量相似度RCVsim(Clk,C2p)的定义如下 所示:
4) 文本上下文相似度:对于给定的任意一个概念C,首先将其标签1(C)作为关键词提 交到搜索引擎,将返回的前二十个搜索结果作为C的文本上下文并进行分词与去停用词处 理,最后采用词频-逆向文件频率方法对得到的每个词组u进行加权,u的权重wu的计算公 式如下所示:
其中tfu指u在其文本上下文中的出现次数,dfu是包含u的文本上下文的数量,而N为文本上下文的总数; 定义概念C的文本上下文向量为TC(C) =〈wJChwJC), --?,》"(〇>,其中第v个词 组TC(C)V的权重是《^〇,n是所有概念的文本上下文进行分词与去停用词处理后的词 组的总量;对于给定的一个概念对(Clk,C2p),概念Clk与C2p之间的文本上下文的相似度 TCsim(Clk,C2p)的定义如下所示:
5)实例集合相似度:此处定义概念C的实例集合为IS(C),利用两个不同图书本体的实 例匹配后得到的属于不同图书本体的等价实例,根据下式得到给定的概念对(Clk,C2p)中概 念Clk与C2p之间的实例集合相似度ISsim(Clk,C2p):
其中|is(clk)nis(c2p) |指clk与c2p的实例集合的交集,即等价实例的数量,而IS(Clk)I表示clk的实例集合的大小。
3.根据权利要求1所述的基于机器学习的图书本体匹配方法,其特征在于,所述步骤 3c)中的上下位关系匹配规则为: 1) 当一个图书概念Clk字符串是另一个图书概念C2P的字符串的后缀,并且C2P中不包 含"与"、"和"、"&"符号时,则判定C2P是Clk的子概念; 2) 当一个图书概念C2P包含"与"或"和"或"&"符号时,以这些符号作为分隔符对C2P 进行分词,若分词后得到的词组中有一个词与图书概念Clk的字符串完全相同,则判定Clk是 c2p的子概念; 3) 分别计算给定的一个图书概念对(Clk,C2p)的两个概念间的不对称的字符串相似度、 相关概念集合相似度、相关概念向量相似度、文本上下文相似度、实例集合相似度,若得到 的上述五种相似度均小于0. 5时,则判定这两个图书概念间不存在上下位关系。
【文档编号】G06F17/30GK104484433SQ201410799922
【公开日】2015年4月1日 申请日期:2014年12月19日 优先权日:2014年12月19日
【发明者】吴天星, 漆桂林, 罗斌, 陆彬 申请人:东南大学