本发明涉及数据库领域,具体为一种基于深度学习的实体链接方法。
背景技术
互联网的迅猛发展使得数字资源随处可见,接触频率最高的信息载体就是文字信息,如新闻、博客、评论等。同时,随着生活节奏的加快,用户对高效阅读的需求更加强烈,数字资源内包含有大量具有明确语义信息的文本实体,如何在文本中高效地获取出实体并加以利用是具有现实意义的事情。特别地,实体链接是利用实体的流程中最为关键的步骤之一。例如,通过分析用户浏览或者分享的数字资源来提取实体并进行知识库链接,将链接过的实体作为关键字或者标签,为用户进行更精准的兴趣建模;再如,在数字资源中增加针对实体的用户可能感兴趣的内容链接,这些链接可能指向实体相关概念解释或者指向另一篇以此实体为主题的新闻,从而提升用户阅读体验;最后,针对数字资源中链接上的实体,可根据对被连接的数字资源进行统计和分析来实现对不同类型如人物、机构等进行舆情监控。
目前,常见的实体链接方法在进行实体指称链接时,仍旧会出现一些问题。如,传统的实体链接方法在进行候选实体筛选时,只考虑实体指称和候选实体的概念相似度,但是如果待识别文本给出的实体指称背景信息不足时无法保证链接到的候选实体为正确实体;当到所有的候选实体都不是待识别文本中的实体时,概念相似度最高的候选实体仍旧会被链接到待识别文档的实体上。同时,在概念相似度的判断上,一般只是通过主题模型抽取关键词,没有获得语义层面上的信息,如果待识别文档中的关键词与实体文档关检测是同一词,就无法进行正确的重合度的衡量;主题模型仅考虑了实体主题层面的高层次语义特征,未考虑低层次细粒度的词级别特征,对背景相似的候选实体也无法较精细区分。
技术实现要素:
本发明的目的是为了提供一种基于深度学习的实体链接方法,能够结合候选实体的属性信息以及概念相似度对候选实体能否与实体指称进行链接进行判断,将确定候选实体与实体指称的概念相似度、候选实体是否链接实体指称两过程进行联合建模,模型训练过程中将自动学习候选实体能否与实体指称进行链接,使得对是否进行链接的判断更加准确。
为了实现上述发明目的,本发明采用了以下技术方案:一种基于深度学习的实体链接方法,包括
s1:获取待识别文档中待链接的实体指称,并抽取库中与所述实体指称对应的候选实体集;
s2:计算候选实体集中每个候选实体与实体指称的概念相似度,抽取候选实体集中与实体指称的概念相似度最高的候选实体为待链接实体;
s3:获取待链接实体的属性信息,结合所述属性信息判断所述待链接实体能否与相应的实体指称进行链接,并将能够链接的待链接实体与实体指称进行链接。
与现有技术相比,采用了上述技术方案的基于深度学习的实体链接方法,具有如下有益效果:
一、采用本发明的基于深度学习的实体链接方法,在抽取候选实体集中与相应的实体指称概念相似度最高的候选实体之后,对该候选实体与实体指称之间是否能够链接进行进一步判断,提高实体链接的准确率。
二、在判断概念相似度最高的候选实体与实体指称是否能够链接时,抽取了该候选实体本身的属性信息作为判断的依据,判断过程中结合了该候选实体本身、候选实体内部词义以及实体指称在候选实体中的上下文等多个不同级别的语义特征,从不同层面对候选实体与实体指称能够链接进行判断,保证本发明实体链接方法的准确性。
三、将候选实体与实体指称的概念相似度计算、最接近的候选实体与实体指称是否连接的两个过程进行联合建模,模型训练过程中将自动学习候选实体能否与实体指称进行链接,使得对是否进行链接的判断更加准确。
优选的,步骤s2中所述计算候选实体集中每个候选实体与实体指称的概念相似度包括:
s21:获取实体指称的指称特征编码;
s22:获取候选实体集中每个候选实体对应的候选实体特征编码;
s23:计算指称特征编码和每个候选实体特征编码之间的编码距离。
优选的,步骤s21中所述获取实体指称的指称特征编码包括:
s211:获取待识别文档的待识别文档向量:
对待识别文档的文本进行分词,查询得到每个分词的词向量,根据所有词向量确定待识别文档向量;
s212:获取待识别文档中实体指称所在句子的上下文向量:
对待识别文档的文本进行分词,获得包含所述实体指称的句子中长度最长的最长句,抽取最长句对应的分词结果集,查询所述分词结果集中每个词的词向量,确定是上下文特征向量集,通过上下文特征向量集确定上下文向量;
s213:根据待识别文档向量和上下文向量确定指称特征编码。
优选的,步骤22中所述获取候选实体集中每个候选实体对应的候选实体特征编码包括:
s221:获取候选实体的特征词向量:
对候选实体的百科页面正文进行分词,抽取分词结果中的特征词集,查询得到特征词集中每个特征词的词向量,根据所有词向量确定特征词向量;
s222:获取候选实体的重合特征向量:
对待识别文档的文本进行分词,抽取该分词结果中与所述特征词集中特征词重合的重合词,查询得到每个重合词的词向量,根据所有词向量确定重合特征向量;
s223:获取候选实体的候选文档向量:
对候选实体的百科页面正文进行分词,查询得到每个分词的词向量,根据所有词向量确定候选文档向量;
s224:根据所述特征词向量、重合特征向量和候选文档向量确定相应候选实体的候选实体特征编码。
优选的,步骤s3中所述获取待链接实体的属性信息包括:
获取待链接实体的统计特征信息:
获取待链接实体的百科页面中的统计信息,对统计信息做对数化处理得到统计特征信息;所述统计信息包括infobox信息、浏览次数、编辑次数、收藏次数、分享次数、参考次数以及通过数学统计直接获取的信息。
优选的,步骤s3中所述获取待链接实体的属性信息还包括:
获取待链接实体的实体类型信息:
获取待链接实体百科页面的词条标签和infobox信息,通过词条标签和infobox信息建立模型确定所述待链接实体的实体类型信息。
优选的,采用欧式距离确定实体指称和候选实体的概念相似度。
优选的,步骤s213中所述根据待识别文档向量和上下文向量确定指称特征编码包括:将待识别文档向量和上下文向量进行拼接和处理得到矩阵,将矩阵通过全连接层得到指称特征编码。
优选的,步骤s224中所述的根据所述特征词向量、重合特征向量和候选文档向量确定相应候选实体的候选实体特征编码包括:将特征词向量、重合特征向量和候选文档向量进行拼接和处理得到矩阵,将矩阵通过全连接层得到候选实体特征编码。
附图说明
图1为本发明基于深度学习的实体链接方法的流程示意图;
图2为本实施例中候选实体的筛选过程图;
图3为本实施例中步骤s2中具体步骤示意图;
图4为本实施例中步骤s3中具体步骤示意图;
图5为本实施例中各个过程量的转换图;
图6为本实施例中从上下文特征向量集到指称特征编码过程的流程图;
图7为本实施例中确定概念相似度的流程图;
图8为本实施例中判断待链接实体能否与实体指称进行连接的流程图;
图9为本实施例中某新闻的链接结果图。
具体实施方式
下面参考附图来更加详细地描述本发明的实施方式。
实施例的提供是为了使本发明更加详尽,并且向本领域技术人员充分的传达保护范围。阐述了众多的特定细节如特定部位、装置的例子,以提供对本发明的实施方式的详尽理解。对于本领域技术人员而言将会明显的是,实施例可以用许多不同的形式来实施而不一定适用这些特定的细节,因此它们都不应该被理解为限制本发明的范围。另外,在本发明的一个附图或者一种实施方式中描述的元素和特征可以与一个或更多个其他附图或实施方式中示出的元素和特征相结合。在某些实施例中,为了清楚目的,没有在附图和说明中详细地进行描述的众所周知的过程、结构和技术。
如图1所示为本发明基于深度学习的实体链接方法整体流程图,图2为本发明候选实体的筛选过程图,能够显示出使用本方法中涉及到的实体指称和候选实体等之间的关系变化。本发明的实体链接方法的步骤大致为:s1获取待识别文档中待链接的实体指称,并抽取库中与所述实体指称对应的候选实体集;s2:计算候选实体集中每个候选实体与实体指称的概念相似度,抽取候选实体集中与实体指称的概念相似度最高的候选实体为待链接实体;s3:获取待链接实体的属性信息,结合所述属性信息判断所述待链接实体能否与相应的实体指称进行链接,并将能够链接的待链接实体与实体指称进行链接。在使用本发明进行实体链接时,运行过程中会产生很多过程量,图5为实体链接过程中各个过程量的转换图。
其中,步骤s1获取待识别文档中待链接的实体指称,并抽取库中与所述实体指称对应的候选实体集。例如,对一篇新闻稿或博客文章等进行实体链接时,这篇新闻稿或者博客文章即为待识别文档,文章中的词即为待链接的实体指称。一般地,待识别文档中存在多个待链接的实体指称。在实体指称确定后可以根据每个实体指称直接在库中进行搜索与该实体指称对应的实体作为候选实体,每个实体指称对应的多个候选实体组成这个实体指称的候选实体集。例如,在待识别文档中,有一待链接的实体指称为“林群”,在百度百科等知识库中能够搜索到的许多同姓名不同身份的多个候选实体,这些候选实体组成实体指称“林群”相对应的候选实体集。上述的库包括但不限于与该方法所应用场景对应的特定知识库,例如维基百科、百度百科、互动百科、搜狗百科等。
如图3所示,在步骤s2中,计算候选实体集中每个候选实体与实体指称的概念相似度的过程包括:
s21获取实体指称的指称特征编码vjanchor。实体指称编码中包含有待识别文档的整个文档的特征和实体指称在待识别文档中上下文特征。用待识别文档向量v(dj)代表整个待识别文档的特征,用上下文特征向量集表示待识别文档中实体指称的上下文特征。
待识别文档向量v(dj)的获取方法包括但不限于:利用分词工具将待识别文档进行分词,得到待识别文档的分词结果;根据分词结果得到每个分词对应的词向量,得到待识别文档对应的词向量列表;对待识别文档中的所有词向量求平均得到待识别文档向量v(dj)。其中,可以对待识别文档采用ansj或hanlp等分词工具进行分词;对分词结果采用词向量训练方法获取对应的词向量,词向量训练方法包括但不限于google的word2vec及相关变种,如glove,svd分解以及gensimword2vec等。
上下文特征向量集的获取方法包括但不限于:从待识别文档的分词结果中抽取包含该实体指称句子的分词结果,统计每个句子的分词长度并且取出长度最长的句子分词结果作为该实体指称的句子上下文。查询该句子中每个分词的词向量,得到最长句的词向量序列,即上下文特征向量集,形式为:[v(s0),v(s1),……,v(si),……,v(sl-1),v(sl)],其中l为句子长度,v(si)为该句第i个词的词向量。
如图6所示为通过上下文特征向量集确定上下文向量
其中,wl为bi-lstm待训练参数。
与此同时,本实施例将待识别文档的待识别文档向量v(dj)对隐编码向量序列加入注意力模型,得到带注意力的实体指称所在句子的上下文向量
其中fatt为注意力函数,tij为待识别文档向量v(dj)作用于bi-lstm输出的隐编码向量序列
注意力模型包括本发明所使用的注意力模型及其变种,注意力函数还包括除上述列举的注意力函数之外的其他各类注意力函数。在本实施例中,隐编码向量序列
确定带注意力的实体指称句子的上下文向量
其中wconv1,bconv1为待训练参数,将矩阵dj’重构成单行向量得到
其中,wfc1,bfc1为待训练参数。网络层激活函数除本发明中使用的sigmoid函数外,也包括tanh、relu等其他激活函数。
上述步骤s21获取到实体指称的指称特征编码之后,执行步骤s22。
s22:获取候选实体集中每个候选实体对应的候选实体特征编码
其中,wconv2,bconv2,wfc2,bfc2为待训练参数。
上述步骤s22获取到候选实体集中每个候选实体对应的候选实体特征编码
分别将正负样本实体的特征按照参数共享方式经过以上操作后得到为
其中d为距离函数,本发明采用欧式距离:
在上述步骤s22中,特征词向量v(fk)的获取方法包括但不限于:将候选实体进行分词,抽取分词结果中的特征词集,并得到特征词集中每个特征词的词向量,将该候选实体中的所有特征词向量求平均得到特征词向量v(fk)。其中,特征词主要包括三类:第一类为根据分词工具标注的词性,抽取带有实体词性的词,如hanlp中包括词性为nr开头的人名相关词性、ns开头的地名相关词性、ni和nt开头的机构名相关词性;第二类为实体百科页面摘要及正文介绍中带有超链接的锚文本;第三类为对实体百科页面的摘要及正文介绍进行关键词抽取方法获得的词。
在上述步骤s22中,重合特征向量v(uk)的获取方法包括但不限于:从待识别文档的分词结果中抽取与上述特征词集中特征词重合的重合词,查询得到每个重合词的重合词向量,并且对所有重合词向量求平均得到重合特征向量v(uk)。
在上述步骤s22中,候选文档向量v(ek)的获取方法包括但不限于:候选文档向量v(ek)与上述待识别文档向量v(dj)的获取方法相近似,对候选实体的百科页面正文进行分词,查询得到每个分词的词向量,所有词向量求平均得到候选文档向量
通过上述步骤后,得到待识别文档中的所有实体指称(m1……mn),并且对每个实体指称mi获取相应的多个候选码实体,并将每个候选实体经过计算得到实体指称mi对应的每个候选实体的候选实体特征编码组成的候选实体特征编码序列
对于一个实体指称,得到的欧氏距离为实体指称与候选实体之间的概念相似度,抽取其中欧式距离最小的对应的待链接实体ei。相应地,对待识别文档中的每个实体指称获取相应的欧式距离最小的待链接实体,组成待链接实体集(e1……en)。
得到每个实体指称相应的最接近的待链接实体后,进行步骤s3获取待链接实体的属性信息,根据候选实体的属性信息判断待链接实体能否和相应的实体指称进行链接,并将能够链接的待链接实体与实体指称进行链接。
结合附图8,对实体指称和待链接实体之间是否能够进行链接的判断方法和候选实体属性信息的获取方法包括但不限于:获取待链接实体的属性信息,将获取到的属性信息和上述候选实体特征编码
cls_loss=-∑kpklog(qk)
其中wfc3,bfc3为待训练参数,di为向量qk的维度,由于网络输出用于预测正负样本,因此qk维度大小为2,pk为该实体属于正或负样本的基于one-hot表达的监督向量,若该候选实体为被参考实体则为正样本,pk=[0,1],若该候选实体为被参考实体的其他同名实体则为负样本,pk=[1,0]。
其中,候选实体中的属性信息包括统计特征信息
采用本实施例中的方法对实体进行链接前需要进行预处理,对库中的样本采用mini-batch方式随机抽取正样本实体,对应的负样本实体及实体百科参考资料,及正样本实体对应的负样本实体,根据前述的三元组损失函数首先对用于概念相似度计算的网络结构进行预训练,保证指称特征编码和候选实体特征编码能得到较稳定的表达,然后对链接判断的网络结果进行预训练,最后再将两个网络进行联合训练。
图9如某篇新闻《中纪委原副书记出任“扫黑钦差”》在经过本发明所述实体链接后得到的链接结果。从图中可以看出,本发明的实体链接方法从这篇新闻中抽取出了三种类型的实体指称,类型为人物、地点以及机构,实体指称链接有对应的实体。
以上所述是本发明的优选实施方式,对于本领域的普通技术人员来说不脱离本发明原理的前提下,还可以做出若干变型和改进,这些也应视为本发明的保护范围。