
1.本发明属于计算机领域,网络信息技术。
背景技术:2.同名消歧的目的是区分有相同姓名的不同人,同名消歧广泛应用于许多数字图书馆,比如谷歌学术、微软学术、dblp等,更广义地,也在知识图谱(如维基百科、百度百科等),语义搜索(如百度、必应)等方面有很多应用。已有工作通常着眼于冷启动的同名消歧[zhang,2018],这些工作的目标是将含有相同姓名的论文划分为多个互不相交的聚类簇。另一方面的工作关注于增量的同名消歧[chen,2020],其目的是将新发表的论文在线分配给已有的作者。然而,已有的工作几乎没有关注于纠正现有的同名消歧结果,尤其是通过利用外源知识来纠正现有的论文-作者匹配关系。
[0003]
为此,本专利提出一个新的任务,利用跨数据源的方式纠正学术图谱中的同名消歧结果。为了纠正现有的论文-作者匹配关系,直观的想法是首先度量论文和作者之间的相似度,然后通过比较不同数据源的同名消歧结果来发现不一致的论文-作者匹配关系,进而推断出不正确的论文-作者匹配关系。但是,这个思路面临两个挑战:1.由于现有的论文-作者匹配关系可能包含噪音,因此需要设计一个能够同时达到好的匹配效果并且能够抵抗噪音的匹配模型。然而,现有的匹配模型难以同时达到这两个要求。2.对于跨数据源不一致的论文-作者匹配关系,难点在于确定哪个数据源的论文-作者匹配关系是不正确的。关于第二点挑战的研究尚处于空白。
技术实现要素:[0004]
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
[0005]
为此,本发明的第一个目的在于提出一种基于跨源交叉纠错的同名消歧改进方法,用于利用跨数据源的方式纠正学术图谱中的同名消歧结果。
[0006]
本发明的第二个目的在于提出一种基于跨源交叉纠错的同名消歧改进装置。
[0007]
为达上述目的,本发明第一方面实施例提出了一种基于跨源交叉纠错的同名消歧改进方法,包括:获取跨数据源数据集,跨数据源数据集包括多个三元组,三元组包括论文、论文在内部学术图谱中所关联的作者以及论文在外部学术图谱中所关联的作者;构建初始匹配模型,初始匹配模型用于获取论文和作者之间的相似度;比较论文在内部学术图谱中所关联的作者与论文在外部学术图谱中所关联的作者的相似度,根据相似度对跨数据源数据集进行划分,得到置信集合、不置信集合和模糊集合;获取模糊集合中的第一数据,利用原始标签和模型预测之间的线性组合将第一数据的硬标签转换为软标签,并根据软标签生成第一目标损失函数;获取置信集合中的第二数据和不置信集合中的第三数据,采用预设的交叉纠错方法对第二数据和第三数据进行交叉纠错,以生成第二目标损失函数;根据第一目标损失函数和第二目标损失函数对初始匹配模型进行训练,得到增强后的目标匹配模型,以利用增强后的目标匹配模型纠正同名消歧结果。
[0008]
本发明实施例提出的基于跨源交叉纠错的同名消歧改进方法,包括3个阶段。阶段1:匹配模型设计。为了设计一个有效的论文-作者匹配模型,本发明提出一种基于“核卷积”的匹配方法,它结合了卷积神经网络和核聚合方法的优点。阶段2:通过外源知识进行数据增强。通过利用外源知识计算不同源的作者相似度,可以识别出置信的和不置信的论文-作者匹配关系。阶段3:跨源纠错。对于不置信的论文-作者匹配关系,本发明提出两个交叉纠错的方法来推断哪个源的论文-作者关系更有可能是错的,这两种交叉纠错方法可以用来增强匹配模型。
[0009]
另外,根据本发明上述实施例的基于跨源交叉纠错的同名消歧改进方法还可以具有以下附加的技术特征:
[0010]
进一步地,在本发明的一个实施例中,构建初始匹配模型,包括:
[0011]
构造一个相似度矩阵sk,其中每个元素表示论文p的单词ti和论文pk的单词之间向量表示的余弦相似度得分,是单词的向量表示;
[0012]
基于相似度矩阵sk,核卷积运算定义如下:
[0013][0014]
其中,μc和是第c个rbf核的均值和方差,n是卷积滤波器的大小,是提取的n-gram相似度特征,x/x
′
表示论文p/pk的n-gram索引值;其中,对应的特征矩阵表示为其中,每个元素是c是rbf核的数量;
[0015]
通过保留第一个维度并展平其他维度改变zk的格式,连接所有论文对的特征zk以获得h
x
,定义如下:
[0016]hx
=[reshape(z1)
x
||...||reshape(zr)
x
],
[0017]
其中,h
x
表示论文p的第x个n-gram与作者a
in
的所有论文之间的相似度;采用注意力机制来学习论文p的n-gram的注意力权重,定义如下:
[0018][0019]
h=∑
x
α
xhx
,
[0020]
其中,wa和ba是可训练参数,a
x
是论文p的第x个n-gram的注意力权重,h是加权后的隐层表示,包含论文作者匹配的语义信息;
[0021]
结合人工特征作为补充,包括作者、关键词、标题的相似度得分,隐层表示h和人工特征f
man
被加权组合,然后传递到全连接层以生成匹配分数,定义如下:
[0022][0023]oin
=fc(δh+(1-δ)h),
[0024]
其中,h
man
是人工特征的隐层向量,act(
·
)是激活函数,w
man
和b
man
是可训练参数,o
in
表示输出匹配概率,fc(
·
)表示全连接层,δ是一个可训练参数,用于平衡隐层向量h和手工特征之间的重要性。进一步地,在本发明的一个实施例中,根据相似度对所述跨数据源数据集进行划分,得到置信集合、不置信集合和模糊集合,其特征在于,包括:
[0025]
给定跨数据源数据集给定跨数据源数据集其中p代表论文,p是消歧过后的论文集合,a
in
/a
out
分别是论文p在a
in
/a
out
所关联的作者,则置信集合不置信集合和模糊集合定义如下:
[0026][0027][0028][0029]
其中,sim(a
in
,a
out
)表示作者a
in
和a
out
的相似度。
[0030]
进一步地,在本发明的一个实施例中,基于比较的交叉纠错方法包括:
[0031]
利用初始匹配模型预测两边数据源(p,a
in
)和(p,a
oyt
)正确的概率;其中,预测输出被定义为:
[0032][0033]
目标函数是交叉熵损失函数,定义为:
[0034][0035]
其中,yi=1表示样例属于置信集合,yi=0表示样例属于不置信集合。
[0036]
进一步地,在本发明的一个实施例中,基于psl的交叉纠错方法包括:
[0037]
将三元组(p,α
in
,a
out
)建模成逻辑规则,进而判断(p,a
in
)的匹配程度;其中,基于psl的交叉纠错方法的损失函数定义为:
[0038][0039]
其中,yi=1表示样例属于置信集合,yi=0表示样例属于不置信集合,ne表示置信集合和不置信集合中样例的总数,分别为置信集合/不置信集合中定义的距离度量。
[0040]
进一步地,在本发明的一个实施例中,根据第一、第二目标损失函数对初始匹配模型进行训练,得到增强后的目标匹配模型,包括:
[0041]
标签自纠错定义了目标函数交叉纠错定义了目标函数将目标函数和加权作为整体的目标函数,整体的损失函数定义为:
[0042][0043]
其中,λ是平衡两种类型损失函数的权重参数。
[0044]
进一步地,在本发明的一个实施例中,给定内部学术图谱g
in
={e
in
,r
in
}和外部学术图谱g
out
={e
out
,r
out
},其中,e
in
/e
out
是实体集合,r
in
/r
out
是关系集合,并且所述内部学术和外部学术图谱的论文实体是消歧后的。
[0045]
为达上述目的,本发明第二方面实施例提出了一种基于跨源交叉纠错的同名消歧改进装置,其特征在于,包括:输入模块,用于获取跨数据源数据集,所述跨数据源数据集包括多个三元组,所述三元组包括论文、所述论文在内部学术图谱中所关联的作者以及所述论文在外部学术图谱中所关联的作者;设计模块,用于构建初始匹配模型,所述初始匹配模型用于获取论文和作者之间的相似度;分类模块,用于比较所述论文在内部学术图谱中所关联的作者与所述论文在外部学术图谱中所关联的作者的相似度,根据所述相似度对所述跨数据源数据集进行划分,得到置信集合、不置信集合和模糊集合;标签自纠错模块,用于获取所述模糊集合中的第一数据,利用原始标签和模型预测之间的线性组合将所述第一数据的硬标签转换为软标签,并根据所述软标签生成第一目标损失函数;交叉纠错模块,用于获取所述置信集合中的第二数据和所述不置信集合中的第三数据,采用预设的交叉纠错方法对所述第二数据和所述第三数据进行交叉纠错,以生成第二目标损失函数;消歧模块,用于根据所述第一目标损失函数和所述第二目标损失函数对所述初始匹配模型进行训练,得到增强后的目标匹配模型,以利用所述增强后的目标匹配模型纠正同名消歧结果。
[0046]
为达上述目的,本发明第三方面实施例提出了一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如基于跨源交叉纠错的同名消歧改进方法中任一所述的方法。
[0047]
为达上述目的,本发明第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如基于跨源交叉纠错的同名消歧改进方法中任一所述的方法。
附图说明
[0048]
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0049]
图1为本发明实施例所提供的一种基于跨源交叉纠错的同名消歧改进方法的流程示意图。
[0050]
图2为本发明实施例所提供的一种基于跨源交叉纠错的同名消歧改进装置的流程示意图。
[0051]
图3为本发明实施例所提供的一种基于跨源交叉纠错的同名消歧改进方法整体流程示意图。
[0052]
图4为本发明实施例所提供的一个跨数据源同名消歧示例图。
具体实施方式
[0053]
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终
相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
[0054]
下面参考附图描述本发明实施例的基于跨源交叉纠错的同名消歧改进方法和装置。
[0055]
图1为本发明实施例所提供的一种基于基于跨源交叉纠错的同名消歧改进方法的流程示意图。
[0056]
如图1所示,该基于跨源交叉纠错的同名消歧改进方法包括以下步骤:
[0057]
s1:获取跨数据源数据集,跨数据源数据集包括多个三元组,三元组包括论文、论文在内部学术图谱中所关联的作者以及论文在外部学术图谱中所关联的作者;
[0058]
其中,给定一个内部学术图谱g
in
={e
in
,r
in
}和另一个外部学术图谱g
out
={e
out
,r
out
},这里e
in
/e
out
是实体集合,r
in
/r
out
是关系集合。对于这两个图谱,我们只考虑作者和论文两种实体。另外,我们假设两个图谱的论文实体是消歧好的,因为大部分的论文可以通过题目和作者列表进行识别(也就是说歧义性小)。此外,我们主要考虑的关系为作者和论文之间的匹配关系。
[0059]
本发明的目标是从现有的论文-作者匹配关系中发现错误。给定数据集作者匹配关系中发现错误。给定数据集这里p代表论文,p是消歧过后的论文集合,a
in
/a
out
分别是论文p在a
in
/a
out
所关联的作者。更加具体地,每篇论文有多个属性,例如题目和出版地点。我们把论文的所有属性的内容合并,把每篇论文表示为p=[t1,t2,
…
,t
l
],这里ti表示论文p的第i个单词,l表示对每篇论文选取的最大单词数量。如果把每个作者视为一个论文列表,作者a
in
可以表示为a
in
=[p1,p2,
…
pr]。另外,其中每篇论文我们的目标是学习一个匹配函数来判断论文-作者对(p,a
in
)的正确性。
[0060]
本专利的算法框架的基本流程如图3所示。
[0061]
s2:构建初始匹配模型,初始匹配模型用于获取论文和作者之间的相似度;
[0062]
论文作者匹配模型是本技术方法的基本组成部分。因为任何作者都可以看作是一个论文列表,论文-作者匹配的核心问题可以转化为论文-论文匹配。把论文当成文本,论文p和pk之间的匹配实际上是一个文本匹配问题。
[0063]
由于cnn用少量参数可以实现参数共享特性,一般认为基于cnn的方法比基于transformer的方法更能抵抗噪音,但是cnn的卷积不是为相似性匹配而设计的。另一方面,最先进的conna模型采用富有表达能力的核聚合模块来提取多层次的匹配特征,但它提取的是粗粒度的“单词-论文”之间的匹配模式。
[0064]
为了设计一个匹配能力强,并且能够抵御噪音数据的匹配模型,本发明设计了一个轻量级的匹配模型crond-base,该模型能够同时具备目前先进的基于cnn的匹配模型和基于核聚合的匹配模型的优点。
[0065]
进一步地,在本发明的一个实施例中,构建初始匹配模型,包括:
[0066]
构造一个相似度矩阵sk,其中每个元素表示论文p的单词ti和论文pk的单词之间向量表示的余弦相似度得分,是单词的向量表示;
[0067]
构造一个相似度矩阵sk,其中每个元素表示论文p的单词ti和论文pk的单词之间向量表示的余弦相似度得分,是单词的向量表示;
[0068]
基于相似度矩阵sk,核卷积运算定义如下:
[0069][0070]
其中,μc和是第c个rbf核的均值和方差,n是卷积滤波器的大小,是提取的n-gram相似度特征,x/x
′
表示论文p/pk的n-gram索引值;其中,对应的特征矩阵表示为其中,每个元素是c是rbf核的数量;
[0071]
通过保留第一个维度并展平其他维度改变zk的格式,连接所有论文对的特征zk以获得h
x
,定义如下:
[0072]hx
=[reshape(z1)
x
||...||reshape(zr)
x
],
[0073]
其中,h
x
表示论文p的第x个n-gram与作者a
in
的所有论文之间的相似度;采用注意力机制来学习论文p的n-gram的注意力权重,定义如下:
[0074][0075]
h=∑
x
α
xhx
,
[0076]
其中,wa和ba是可训练参数,a
x
是论文p的第x个n-gram的注意力权重,h是加权后的隐层表示,包含论文作者匹配的语义信息;
[0077]
结合人工特征作为补充,包括作者、关键词、标题的相似度得分,隐层表示h和人工特征f
man
被加权组合,然后传递到全连接层以生成匹配分数,定义如下:
[0078][0079]oin
=fc(δh+(1-δ)h),
[0080]
其中,h
man
是人工特征的隐层向量,act(
·
)是激活函数,w
man
和b
man
是可训练参数,o
in
表示输出匹配概率,fc(
·
)表示全连接层,δ是一个可训练参数,用于平衡隐层向量h和手工特征之间的重要性。
[0081]
训练时,我们使用现有的论文作者对(p,a
in
)作为正对,并在内部图中对与a
in
同名的其他作者进行采样得到使作为负例。我们采用交叉熵损失作为目标函数。
[0082]
s3:比较所述论文在内部学术图谱中所关联的作者与所述论文在外部学术图谱中所关联的作者的相似度,根据所述相似度对所述跨数据源数据集进行划分,得到置信集合、不置信集合和模糊集合;
[0083]
其中,通过比较跨数据源的作者的相似度,可以识别出内部学术图谱中置信的和不置信的论文-作者匹配关系。训练集可以划分为3个子集,置信集合不置信集合
和模糊集合置信集合中,作者a
in
和a
out
相似度较高;不置信集合中,作者a
in
和a
out
相似度较低;模糊集合中,作者a
in
和a
out
相似度介于前面两者中间。
[0084]
具体而言,现有的论文作者对视为正例可能是有问题的,因为由于同名消歧问题,某些论文可能会被分配给不正确的作者。在本专利中,通过使用外部知识,我们可以从现有的论文作者匹配关系中区分置信的和不置信的论文-作者匹配关系。
[0085]
我们考虑三元组(p,a
in
,a
out
),并进一步考虑作者a
in
和a
out
的相似度,记为sim(a
in
,a
out
)。sim(a
in
,a
out
)高意味着关系(p,a
in
)的匹配关系被外部知识认可,而sim(a
in
,a
out
)低则表明(p,a
in
)和(p,a
out
)中至少有一个是不正确的。
[0086]
sim(a
in
,a
out
)可以通过多种方式衡量。为了更准确地估计作者相似度,我们定义了一些统计特征并使用严格的规则来发现相似和不同的作者。统计特征包括两位作者论文/合著者/出版地点的重叠率等。
[0087]
进一步地,在本发明的一个实施例中,根据相似度对跨数据源数据集进行划分,得到置信集合、不置信集合和模糊集合,其特征在于,包括:
[0088]
给定跨数据源数据集给定跨数据源数据集其中p代表论文,p是消歧过后的论文集合,a
in
/a
out
分别是论文p在a
in
/a
out
所关联的作者,则置信集合不置信集合和模糊集合定义如下:
[0089][0090][0091][0092]
其中,sim(a
in
,a
out
)表示作者a
in
和a
out
的相似度。
[0093]
s4:获取模糊集合中的第一数据,利用原始标签和模型预测之间的线性组合将所述第一数据的硬标签转换为软标签,并根据所述软标签生成第一目标损失函数;
[0094]
其中,对于模糊集合中的论文-作者对,我们认为它们的标签可能是有噪音的。为了解决这个问题,我们采用了一种基于标签平滑的自纠错方法。具体来说,我们通过利用原始标签和模型预测之间的线性组合将硬标签转换为软标签。
[0095][0096][0097]
其中,是软标签,∈是超参数,kl表示kl散度,是标签自纠正的目标函数。
[0098]
s5:获取所述置信集合中的第二数据和所述不置信集合中的第三数据,采用预设的交叉纠错方法对所述第二数据和所述第三数据进行交叉纠错,以生成第二目标损失函
数;下面将详细介绍近邻相似度及结构相似度的计算方法。
[0099]
以两个学术图谱aminer和microsoft academic graph(mag)为例。在图4中,aminer中所在单位为ucla的作者quanquan gu著有3篇论文,然而,最下边的论文在另一个学术图谱mag中被分配给了浙江大学的quanquan gu。仔细观察右边三篇论文可知,靠上的两篇论文和最下面的论文研究领域不同,因此它们应该属于不同的作者。我们的目标是希望利用外部的知识(如mag)去修正内部系统中(如aminer)的论文-作者分配错误。
[0100]
对于不置信集合中的数据,需要推断哪个数据源中的作者-论文对是不正确的。本发明提出了两种交叉纠错方法,包括基于比较的交叉纠错和基于psl的交叉纠错。
[0101]
对于不置信集合中的数据,想法是比较模型对(p,a
in
)和(p,a
out
)的预测,即和其中是根据crond-base模型输出的匹配概率。如果率。如果则(p,a
in
)对很可能是不正确的。然而,一些研究表明神经网络往往会逐渐过度拟合有噪音的标签。因此,我们使用从早期训练的模型进行比较,表示为此外,如果匹配概率低于某个阈值ξ,我们将(p,a
in
)视为负例。
[0102]
进一步而言,在本发明的一个实施例中,基于比较的交叉纠错方法包括:
[0103]
利用所述初始匹配模型预测两边数据源(p,a
in
)和(p,a
out
)正确的概率;其中,预测输出被定义为:
[0104][0105]
目标函数是交叉熵损失函数,定义为:
[0106][0107]
其中,yi=1表示样例属于置信集合,yi=0表示样例属于不置信集合。
[0108]
上述交叉纠错方法没有考虑作者对(a
in
,a
out
)的匹配相似度。在这里,我们将三元组(p,a
in
,a
out
)建模为逻辑规则,因为任何两个实体匹配与否取决于三元组中剩余的实体。
[0109]
为此,我们引入了概率软逻辑probabilistic soft logic(psl)(kimmig et al.,2012)来对三元组中对的匹配概率的依赖性进行建模。psl将每个规则与一个概率值相关联,以表示该规则为真的概率。
[0110][0111]
其中,表示规则u的置信度分数,值为vu。在psl中,lukasiewicz t-norm用于定义基本的逻辑运算。
[0112]
[0113][0114][0115]
当头部为真的概率值等于或高于其主体为真的概率值时,psl认为规则推导满足。对于规则γ:u1∧u2→
u3,
[0116][0117]
当η
γ
≤0时,规则γ被认为是满足的。
[0118]
具体来说,我们的目标是从(p,a
out
)和(a
in
,a
out
)的匹配关系中推导出(p,a
in
)的匹配关系。例如在中,我们定义v2=sim(a
in
,a
out
)和其中和和基于比较的交叉纠错方法中含义相同。因此,对于中的数据,我们计算
[0119][0120]
这里引入作为一个灵活的“间隔”超参数,而不是采用常数1,的缺省值为1.3。
[0121]
相比之下,不置信集合的情形更为复杂。我们使用的情形更为复杂。我们使用表示u1和u2是否匹配,其中表示为真,表示为假。我们利用来表示u1和u2的匹配概率。中的任何三元组必定满足以下规则之一:
[0122][0123][0124][0125]
为了对这些规则进行联合建模,我们定义了如下距离:
[0126][0127]
在上面公式中,满足规则[1]和[3]需要η
uf
偏小,而满足规则[2]需要η
uf
偏大。因此,小的η
uf
与我们在内部图谱中推断不正确的论文-作者对(p,a
in
)的目标一致。在这里,我们也同样使用了间隔参数
[0128]
进一步而言,基于psl的交叉纠错方法包括:
[0129]
将三元组(p,a
in
,a
out
)建模成逻辑规则,进而判断(p,a
in
)的匹配程度;其中,基于psl的交叉纠错方法的损失函数定义为:
[0130][0131]
在这里,我们通过min操作优化值小的η,因为其对应的三元组更可能满足相应的规则,如规则[1]和[3]。
[0132]
s6:根据第一目标损失函数和第二目标损失函数对初始匹配模型进行训练,得到增强后的目标匹配模型,以利用增强后的目标匹配模型纠正同名消歧结果。
[0133]
其中,自纠错方法和交叉纠错方法联合训练,用于增强论文-作者匹配模型。
[0134]
进一步而言,在本发明的一个实施例中,根据第一目标损失函数和第二目标损失函数对初始匹配模型进行训练,得到增强后的目标匹配模型,包括:
[0135]
所述标签自纠错定义了目标函数所述交叉纠错定义了目标函数将目标函数和加权作为整体的目标函数,整体的损失函数定义为:
[0136][0137]
其中,λ是平衡两种类型损失函数的权重参数。指的是或这两种类型的损失是联合训练的,用于更新匹配模型的参数,增强匹配模型。
[0138]
以实际数据而言,把一个公开的人工标注的同名消歧数据集whoiswho作为真实标注数据,利用mag作为外源知识,旧版本的公开的aminer数据作为包含错误的原始数据。本发明中的匹配模型crond-base比先进的conna模型预测结果auc值高3.9%,map值低0.2%。crond-base模型预测结果auc为75.26%,map值为50.23%。在模糊集合上使用自纠错方法,auc提升为75.43%,map提升为50.67%。结合自纠错方法和基于比较的交叉纠错方法,auc提升为75.80%,map提升为51.26%。结合自纠错方法和基于psl的交叉纠错方法,auc提升为75.81%,map提升为52.10%。因此,本发明采用交叉纠错的方法可以提升同名消歧的准确率。
[0139]
本发明实施例提出的基于跨源交叉纠错的同名消歧改进方法,利用跨数据源的方式纠正学术图谱中的同名消歧结果,实现了比已有方法更高的论文作者匹配准确率。本发明提出的基础匹配模型crond-base通过建模更加细粒度的匹配特征,比先进的conna模型有更好的拟合能力;并且由于crond-base模型参数量小,比基于transformer的匹配模型有更好的泛化性能。本专利提出的交叉纠错方法能够通过比较跨数据源的数据识别出可能错误的论文-作者匹配关系,这样避免了人工纠错,能够在不利用人工标注的情况下,提升论文作者的匹配准确率。
[0140]
为了实现上述实施例,本发明还提出一种基于跨源交叉纠错的同名消歧改进装置。
[0141]
图2为本发明实施例提供的一种基于跨源交叉纠错的同名消歧改进装置的结构示意图。
[0142]
如图2所示,该基于基于跨源交叉纠错的同名消歧改进装置包括:输入模块10,设计模块20,分类模块30,标签自纠错模块40,交叉纠错模块50,消歧模块60,其中,输入模块,用于获取跨数据源数据集,所述跨数据源数据集包括多个三元组,所述三元组包括论文、所述论文在内部学术图谱中所关联的作者以及所述论文在外部学术图谱中所关联的作者;设计模块,用于构建初始匹配模型,所述初始匹配模型用于获取论文和作者之间的相似度;分类模块,用于比较所述论文在内部学术图谱中所关联的作者与所述论文在外部学术图谱中所关联的作者的相似度,根据所述相似度对所述跨数据源数据集进行划分,得到置信集合、不置信集合和模糊集合;标签自纠错模块,用于获取所述模糊集合中的第一数据,利用原始标签和模型预测之间的线性组合将所述第一数据的硬标签转换为软标签,并根据所述软标签生成第一目标损失函数;交叉纠错模块,用于获取所述置信集合中的第二数据和所述不置信集合中的第三数据,采用预设的交叉纠错方法对所述第二数据和所述第三数据进行交叉纠错,以生成第二目标损失函数;消歧模块,用于根据所述第一目标损失函数和所述第二目标损失函数对所述初始匹配模型进行训练,得到增强后的目标匹配模型,以利用所述增强后的目标匹配模型纠正同名消歧结果。
[0143]
为了实现上述实施例,本发明还提出一种计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如基于跨源交叉纠错的同名消歧改进方法中任一所述的方法。
[0144]
为了实现上述实施例,本发明还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如基于跨源交叉纠错的同名消歧改进方法中任一所述的方法。
[0145]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0146]
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
[0147]
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。