一种基于图模型的实体链接算法

文档序号:9326912阅读:1117来源:国知局
一种基于图模型的实体链接算法
【技术领域】
[0001] 本发明涉及信息库文本处理技术领域,尤其是一种基于图模型的实体链接算法。
【背景技术】
[0002] 实体链接任务的研究对象是包含任务、机构和地方三种类型的实体名词,其研究 目标是:给定一个包含目标实体以及支撑该查询词的背景文档的查询,将次目标实体与已 有知识库中具有互相指代关系的实体进行正确连接,若知识库中不存在与查询实体相连接 的实体节点称为非KB实体,对此类非KB实体进行聚类。将普遍性查询需求的实体加入到 知识扩种,对知识库进行扩展和维护。因此,实体链接任务一方面可以准确的反馈用户的查 询结果,另一方面还可以对已有知识库进行扩展,丰富知识库的信息。实体链接可以与信息 抽取、知识检索、问答系统、文本挖掘等技术结合,具有极为广泛地应用场景。
[0003] 目前,实体链接可以分为候选实体形成和候选实体排名两个模块,候选实体形成 就是利用相关信息,给出待链接实体可能表示的实体列表,主要有分为基于命名词典的技 术,基于局部文档的表面形式扩展。候选实体排名就是对从待链接实体中选择待链接实体 真正的映射实体,主要分为监督学习的方法和无监督学习的方法。监督的排序方法的优点 是:利用了训练语料中的特征信息,对其中的规律进行了挖掘和利用。不足之处在于,此种 方法需要人工标注数据集,需要大量人力和时间,并且并未对文章中存在的一些描述目标 实体的语义信息进行挖掘,而是将文章中出现的所有实体同等看待,忽略了目标实体的语 义信息的作用。无监督学习的方法优点在于不需要标注数据,省去的大量的人力和时间,缺 点在于特征不好融合。

【发明内容】

[0004] 本发明的目的是针对现有技术的不足而设计的一种基于图模型的实体链接算法, 采用LDA对维基百科知识库形成候选实体之间构造语义特征,同时利用利用维基百科的链 接结构对实体和实体之间的构建关系形成图模型,然后将实体特征融入图模型中,利用改 进的PageRank算法对实体进行排名,得到实体链接的结果,方法简便,无需人工标注数据 集,省时省力,实体特征融合好。
[0005] 本发明的目的是这样实现的:一种基于图模型的实体链接算法,其特点是利用 维基百科知识库形成候选实体,然后运用LDA对实体之间构造语义特征,以维基百科的链 接结构对实体和实体之间构建关系形成图模型,并将相关语义特征特征融入图模型中,以 PageRank算法对实体进行排名,得到实体链接的结果,实体链接算法包括以下具体步骤:
[0006] ( 一)、命名词典
[0007] 对维基百科下载的无规则数据利用JWPL工具转化为有规则的数据后导入维基百 科离线数据库,得到实体页面、重定向页面、消歧页面和维基百科中超链接的特征,将不同 类型的特征合并为不同名称的实体,并以哈希映射这些实体建立离线词典。
[0008] (二)、构造待链接实体的候选实体集
[0009] 对不同名称的实体与文本中待链接实体进行匹配,将一些名称与待链接实体相似 性高的实体被征入候选,生成待链接实体的候选实体集;所述匹配为实体名称全包含或部 分包含待链接实体,且实体名称精确匹配了待链接实体中所有单词的首字母,实体名称和 待链接实体共享若干共同的单词;所述相似性采用字符Dice系数和海明距离测量。
[0010](三)、相关特征的计算
[0011] ⑴、实体流行度
[0012] 采用下述(a)公式计算实体流行度:
[0014] 其中:实体;m为待链接实体;count Je1)为实体的链接数;
[0015] ⑵、文本相似性
[0016] 根据实体所在的上下文,利用LDA得到待链接实体和候选实体所在文本中词语关 于主题的分布,以及每一文本的词语得到关于主题的概率分布,采用下述(b)和(C)公式计 算Zero-KL距离,取Zero-KL距离的倒数为待链接实体和其候选实体所在的文本之间的文 本相似性SimText (e;);
[0019] 其中:γ为阈值。
[0020] (四)、图模型的构建
[0021] (1)、相关特征的融合
[0022] 将实体流行度和文本相似性采用下述(d)杰卡德相似性公式计算实体之间主题 一致性,进行两相关特征的融合;
[0024] ⑵、图模型的形成
[0025] 以维基百科的链接结构对实体和实体之间构建关系形成图模型,并将候选实体的 流行度、文本相似性和实体之间主题一致性的语义特征融入图模型。
[0026](五)、候选实体的排名
[0027] ⑴、将实体流行度和文本相似性采用下述(e)式进行特征合并,得到节点的初始 的权重;
[0028] Weight(Gi) = λ pop (e;) + (1-λ ) SimText (e;) (e)
[0029] 其中:λ为平衡实体流行度和文本相似性的参数;
[0030] (2)、采用下述(f)和(g)公式计算图模型中节点的权重;
[0033] (3)、采用下述(h)和(i)公式对图模型中节点的权重与初始权重进行计算排名, 得到两个得分排名最高的实体;
[0034] Rm(Sij j) = IConf Ceij j) XPR(Gij j) (h)
[0035] Rs(Gij j) = IConf Ceij ^+PR(Gij j); ⑴
[0036] ⑷、将上述两个得分排名最高的实体采用下述(j)和(k)公式计算两实体之间的 差异;
[0039] 根据上述计算结果,挑选每个待链接实体的候选实体列表中得分最高的实体为实 体链接的结果。
[0040] 本发明与现有技术相比具有实体特征融合好,实体链接的结果可靠性高,利用维 基百科下载数据,不需要额外成本,尤其无需人工标注数据集,方法简便,使用方便,省时省 力。
【附图说明】
[0041] 图1为本发明操作流程图。
【具体实施方式】
[0042] 参阅附图1,本发明利用维基百科知识库形成候选实体,然后运用LDA对实体之间 构造语义特征,以维基百科的链接结构对实体和实体之间构建关系形成图模型,并将相关 语义特征特征融入图模型中,以PageRank算法对实体进行排名,得到实体链接的结果,实 体链接算法包括以下具体步骤:
[0043] ( 一)、命名词典
[0044] 对维基百科下载的无规则数据利用JWPL工具转化为有规则的数据后导入维基百 科离线数据库,得到实体页面、重定向页面、消歧页面和维基百科中超链接的特征,将不同 类型的特征合并为不同名称的实体,并以哈希映射这些实体建立离线词典。
[0045] 维基百科提供一系列对于构建候选实体有用的特征结构,例如,实体页面、重定向 页面、消歧页面、在维基百科中的超链接。这些实体链接系统利用不同的特征合并不同名称 和它们的映射实体来建立离线词典D,同时利用构建的词典D生成实体候选,命名词典D包 含了关于不同命名实体的名称大量信息,利用名称变化、名称缩写、名称混淆名、名称拼写 变化以及小名等等。命名词典D是(key, value)哈希映射,在这里,键(key)为一系列名称 列表,假设k是键中的一个名称,那么它映射的值k. value是一系列能表示该名称k的实 体。词典D是利用维基百科的特征构建的,其实体页面特征为:维基百科中的每个实体页面 描述单一的实体,并包含这个实体的相关信息。通常用每个页面标题代表该实体的名称,例 如页面标题"Microsoft"为大型的软件公司,总部设在雷德蒙德。因此,实体页面的标题被 添加到词典D中的键作为名称k,该页面被描述的实体被添加作为k. value。
[0046] 所述重定向页面特征为:记录同义词术语、缩写或其它指向的实体的变体。例 如,文章标题为〃Microsoft Corporation〃,这是"Microsoft"的全名,它包含一个对实体 "Microsoft"这篇文章的指向。因此,重定向的标题页被添加到词典D中的键列中作为名称 k,同时指向实体被添加作为k. value。
[0047] 所述消歧页面特征为:当同一个名称在维基百科中有多个对应的实体时,维基百 科提供消歧页面来区分这些实体,该消歧页面包含了表示这些实体的一个列表。例如,消歧 页面"New York"包含了 44个和"New York"有相同名称的实体,其中包括国际大都市纽约 市和纽约时报等。消歧页面对提取实体缩写和别名非常有帮助,对于每个消歧页面,页面标 题被添加到词典D中的键作为名称k,而消歧页面中的实体列表被添加作为k. value。
[0048] 所述维基百科中超链接特征为:在维基百科中的文章通常包括链接到这篇 文章中提到的实体的页面,一个指向实体页面链接的锚文本提供了非常有用的同义词 资源,以及其它指向实体的变体,这些变体能够被当作链接实体的一个名称。例如,在 "Hewlett-Packard"这个实体页面中,有一个超链接指向实体"William Reddington Hewlett",它的锚文本为 "Bill Hewlett",这是一个实体 "William Reddington Hewlett" 的别名,一个超链接的锚文本被添加到词典D中的键作为名称k,指向的实体被添加作为 k. value〇
[0049] 利用上述的维基百科特征,具体来说,首先下载离线的维基百科数据,然后利用 JWPL工具,将无规则的数据转化为有规则的速度,然后导入到数据库中,然后可以从数据库 中得到以上四种类型的特征(实体页面,重定向页面,消歧页面,维基百科中的超链接),利 用以上的维基百科特征,构建了词典D。
[0050](二)、构造待链接实体的候选实体集
[0051 ] 对不同名称的实体与文本中待链接实体进行匹配,将一些名称与待链接实体相似 性高的实体被征入候选,生成待链接实体的候选实体集;所述匹配为实体名称全包含或部 分包含待链接实体,且实体名称精确匹配了待链接实体中所有单词的首字母,实体名称和 待链接实体共享若干共同的单词;所述相似性采用字符Dice系数和海明距离测量。
[0052] 基于词典构建的这种方
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1