一种文献作者重名检测方法

文档序号:10655264阅读:616来源:国知局
一种文献作者重名检测方法
【专利摘要】本发明公开了一种文献作者重名检测方法,属于数据挖掘技术领域。本发明方法充分利用了科技文献中单特征相似度以及单特征融合在对重名作者进行消歧的特点,首先对要使用到的文献对象进行建模,其次利用一种单特征相似度检测方法计算两两单特征的相似度,然后利用基于单特征相似度的消歧方法计算每一个单特征的鉴别力,在此基础上设计多特征融合的消歧规则,并提出一种文献作者重名检测方法。由于本检测方法融合了单特征各自在进行作者实体消歧时的优点,使得方法在识别过程中具有较好的精确度和召回率。
【专利说明】
-种文献作者重名检测方法
技术领域
[0001] 本发明设及一种文献作者重名检测方法,属于数据检索技术领域。
【背景技术】
[0002] 随着每年科技文献数量的剧增,大量的作者重名现象降低了知识检索与调研工作 的准确性,影响后续的科研工作,延长了整个科研工作的周期。然而,当前的网络文献知识 库系统还不具备对重名作者进行辨识的能力,W国内的中国知识资源总库(China National Knowledge Infrastructure,CNKI)为例,当检索条件限定在"作者"时,输入一个 作者名后往往出现许多不相干的同名作者,后续的分类工作只能由用户自己去人工识别, 运样既花费精力又浪费时间。因此,在许多知识管理领域,例如网络文献知识库检索系统、 数字图书馆和动态Web检索领域,作者重名鉴别变成一个非常严峻的问题,如何准确地检索 到想要的文献资料是目前知识管理领域亟待解决的问题。
[0003] 目前,针对重名作者的鉴别问题已有很多国内外学者进行了研究与探讨,并提出 了一系列的鉴别方法,比如人工鉴别方法、基于用户反馈的半自动化鉴别方法和基于机器 学习的鉴别方法。人工鉴别方法依靠用户自己对检索到的文献进行主题识别,加重了用户 的工作量,使得用户体验非常不理想;基于用户反馈的半自动化鉴别方法,要求作者自己提 供详细的个人信息,包括E-mail,家庭住址,对用户的隐私造成了破坏,而且一旦论文作者 出现搬家等问题,还要及时更改系统中的个人信息,使得用户体验也不是很理想;目前研究 最多的领域是基于机器学习的鉴别的方法,该方法又可W分为监督式的机器学习、无监督 式的机器学习和半监督式的机器学习。但是运些方法都或多或少的存在一些问题,比如每 一种方法都有自己适合的领域,并不能直接应用到文献重名作者的识别问题中,而且大部 分消岐方法主要针对英文作者的重名问题,又比如在设置消歧的判断因子时考虑地不够充 分,仅利用文献的单特征鉴别,影响了鉴别的准确性,有些作者使用二元分类法进行重名作 者的鉴别,但是没有考虑到作者文献的全局分类特征,导致分类的精度不够高。
[0004] 名称为"一种学者重名的消歧方法及其系统"(公开号CN104111973A)的专利公开 了一种学者重名的消歧方法,其基于异质学术网络数据通过标注获取标注数据集,并基于 标注数据集,构建文档对二元分类的训练数据集,并基于训练数据集采用分类算法进行二 元分类模型训练,采用迭代分类算法对需要消歧的数据集合进行迭代判别,得到最终对应 真实学者的聚团,实现学者重名的消歧处理。但该消歧方法采用了人工标注的方式和二元 分类模型,代价较大,且消歧效率比较低。
[0005] 名称为"Author Disambiguation"(App.NO.US9305083)的美国专利的核屯、思想同 样是期望利用机器学习和人工判断相结合的方式来实现高重名识别率,仍然带来较大的开 销。
[0006] 综上所述,客观上需要一种简单、有效的方法对科技文献中出现的重名现象进行 检测。

【发明内容】

[0007] 本发明所要解决的技术问题在于克服当前的网络文献知识库系统在重名辨识能 力方面存在的鉴别精度低、成本高的不足。
[0008] 为此本发明提出一种文献作者重名检测方法,具有更强的鉴别精度和更稳定的召 回率。技术方案如下:
[0009] -种文献作者重名检测方法,包括如下步骤:
[0010] 步骤1:判断初始训练集是否为空,如果为空,进入步骤7,否则,贝赃入步骤2;
[0011] 步骤2:从初始训练集中提取一个文献聚类,判断终止训练集是否为空,若不为空, 则进入步骤4,若为空,进入步骤3;
[0012] 步骤3:将从初始训练集中提取的文献聚类添加到终止训练集,进入步骤2;
[0013] 步骤4:从终止训练集中提取文献聚类,进入步骤5;
[0014] 步骤5:判断从初始训练集中提取的文献聚类与从终止训练集中提取的文献聚类 是否满足消歧规则,若满足条件,则合并两个文献聚类,进入步骤6,若不满足,进入步骤3;
[0015] 步骤6:将已经提取的文献聚类从初始训练集中移除,进入步骤1;
[0016] 步骤7:进行二次聚类,将终止训练集赋值给二次聚类的初始聚类,进入步骤8;
[0017] 步骤8:判断二次聚类的初始训练集是否为空,若为空,算法结束,否则进入步骤9;
[0018] 步骤9:从二次聚类的初始训练集中提取一个文献聚类,判断二次聚类的终止训练 集是否为空,若不为空,则进入步骤11,若为空,进入步骤10;
[0019] 步骤10:将提取的文献聚类添加到二次聚类的终止训练集中,进入步骤9;
[0020] 步骤11:逐次从终止训练集中提取文献聚类,进入步骤12;
[0021] 步骤12:对二次聚类初始训练集提取的文献聚类与终止训练集的文献聚类进行合 作者相似度判断,若结果满足相似度阔值,则合并两个文献聚类,进入步骤13,若不满足,进 入步骤10;
[0022] 步骤13:将已提取的文献聚类从二次聚类初始训练集中移除,进入步骤8。
[0023] 特别地,步骤12中所述的相似度判断采用单特征相似度检测方法计算每个单特征 相似度的阔值,包括如下步骤:
[0024] 步骤1:从初始训练集中提取出两个单特征;
[0025] 步骤2:计算已提取的两个单特征之间的相似程度;
[0026] 步骤3:判断初始训练集是否为空,如果否,转步骤1,否则顺序执行;
[0027] 步骤4:结束。
[0028] 进一步,上述单特征相似度检测方法可W计算出每个单特征相似度的阔值。
[0029] 进一步,步骤12中所述消歧规则的判断采用单特征消歧方法,该方法包括如下步 骤:
[0030] 步骤1:判断初始训练集是否为空,如果初始训练集为空,则算法结束;若初始训练 集不为空,则进入步骤2;
[0031 ]步骤2:从初始训练集中提取一个文献实体,判断终止训练集是否为空,如果为空, 进入步骤3,如果不为空,进入步骤4;
[0032]步骤3:将从初始训练集中提取的文献实体作为一个文献聚类加入终止训练集,进 入步骤2;
[0033] 步骤4:将初始训练集的文献实体逐次与终止训练集中的文献聚类的文献实体进 行相似度对比,若满足条件,则将从初始训练集中提取的文献实体合并到终止训练集的文 献聚类,进入步骤5,若不满足,进入步骤3;
[0034] 步骤5:将提取的文献实体从初始训练集中移除,进入步骤1。
[0035] 进一步,前述单特征消歧方法可W判断出每个单特征属性单独消歧时鉴别力的强 弱和科学聚类次数,避免过度识别的问题。
[0036] 进一步,步骤12中所述的消歧规则为多特征融合,包含W下步骤:
[0037] 步骤1:用0代表单特征属性,用We表示每个单特征在单独消歧方面的能力,即单特 征的消歧权重,使用F值作为单特征消歧能力强弱的指标,则单特征的权重计算公式如下:
[00;3 引
[0039] 步骤2:用Ve表示每个单特征相似度的阔值,为每一个单特征定义一个布尔变量B, 则有化,声令?
[0040]

[0041] 步骤3:用Sim(ai,a2)表示两个作者实体的相似度,则定义作者重名消歧规则公式:
[0042]
[0043] 前述消歧规则融合了每一个单特征的消歧能力,当消歧力强的单特征不满足要求 时,规则会顺次考虑其他的单特征。
[0044] 本发明方法具有W下有益效果:
[0045] (1)在进行单特征的相似度匹配时,通过字符串的模糊匹配公式对文献单特征属 性进行适当的模糊匹配,避免了过度精确匹配反而达不到理想效果的情况。
[0046] (2)通过单特征消歧方法判断出每个单特征属性单独消歧时鉴别力的强弱和科学 聚类次数,避免过度识别的问题,对于后续制定消歧规则很有意义。
[0047] (3)由于每个单特征在进行重名作者的消歧鉴别时发挥的影响力是不一样的,有 的单特征消歧力强,有的单特征消歧力弱,制定的消歧规则融合了每一个单特征属性的消 歧能力,避免了单一单特征在消歧过程中带来的误差,在初次聚类的基础上再对合作者特 征进行二次聚类,避免聚类不全问题。
【附图说明】
[004引图1是单特征相似度检测方法的流程图。
[0049] 图2是单特征消歧方法的流程图。
[0050] 图3是文献作者重名检测方法的流程图。
【具体实施方式】
[0051 ]现结合附图对本发明的具体实施做进一步详细的说明。
[0052] 为便于公众理解本发明的技术方案,下面先对本发明所设及的概念及模型进行简 要介绍。
[0053] 一、单特征相似度
[0054] 用L表示一篇文献,Al表示文献的作者集,化表示作者的单位,Kl表示关键词,Pl表 示除去同名作者W外的合作者集,化表示期刊,化表示标题。下面先分析一下五个单特征在 消歧方面的作用:
[0055] 作者单位化nit):作者单位具有很强的消歧能力。任意一篇文献都可W找到作者 的单位信息,如果两篇文章有相同的作者名,并且又具有相同的作者单位,那么就可W粗略 的假设运两个同名作者应该为同一个作者实体,本发明设定,两篇具有同名作者的文献^ 和L2的作者单位的相似度表示为:心V而)。
[0056] 关键词化eyword):本发明用关键词来表示作者的研究方向,同一个作者实体的研 究方向总是保持着某种连贯性,任意一篇文献都可W找到关键词,如果两篇文章有相同的 作者名,并且又具有相似的关键词,那么就可W粗略的假设运两个同名作者应该为同一个 作者实体,当然不排除两个同名作者研究方向也相同的情况,但如果考虑的过于仔细,反倒 使鉴别能力下降,因此本发明设定,两篇具有同名作者的文献^和12研究方向的相似度表示 为:况"!俗,乂
[0057] 合作者(Partner):如果两篇文章有相同的作者名,并且又具有相同的一到两个合 作者,那么就可W假设运两个同名作者应该为同一个作者实体,当然不排除两个同名作者 的合作者也出现同名的情况,但如果考虑的过于仔细,反倒使鉴别能力下降,因此本发明设 定,两篇具有同名作者的文献。和12合作者的相似度表示为:Sm巧.,,巧。)。
[005引期刊(Journal):-般情况下,每个作者都有偏好的一到多个期刊,因此期刊也有 一定的连贯性,如果两篇文章有相同的作者名,并且又发表在同一个期刊上,那么就可W假 设运两个同名作者应该为同一个作者实体,当然不排除同一个期刊上刊载两个同名作者的 情况,但在考虑单特征的消歧能力时,不用考虑的过于仔细,因此本发明设定,两篇具有同 名作者的文献^和12期刊的相似度表示为:)。
[0059] 标题(Title):-般情况下,如果两篇文章有相同的作者名,并且文献标题也相似, 那么就可W粗略的假设运两个同名作者应该为同一个作者实体,因此本发明发明设定,两 篇具有同名作者的文献。和1^2标题的相似度表示为:巧,。
[0060] 二、单特征的选择与分析
[0061] 面向科技文献的作者重名识别问题的关键在于合理单独利用和组合利用每个单 特征,因此,提前判断出每个单特征属性鉴别力的强弱对于后续的消歧工作很有意义。有些 单特征属性,比如作者单位、合作者具有很强的鉴别力,在制定消歧规则时可W将其作为消 歧强因子重点考虑,另外一些单特征属性的消歧能力不强,在制定消歧规则时可W作为弱 因子。因此,有必要检验一下各单特征在消歧过程中起的作用,即对不同的特征信息在构建 的测试集上进行测试。
[0062] 技术方案具体步骤为:
[0063] 步骤1:作者对象建模。在面向科技文献的重名消歧过程中,每一个作者对象都可 W用科技文献的其他单特征来表示,因此在本发明中,我们对作者对象进行建模,每个对象 实例包含六个属性,用一个六元组来表示,则有:
[0064] A=(N,U,K,P,J,T) (4)
[0065] 式(1)中,N代表序号,U代表作者单位,K代表关键词,P代表合作者,J代表期刊,T代 表标题。所有的作者对象将W六元组的形式写入文件,每一行表示一篇文献即一个作者实 体
[0066] 步骤2:单特征的模糊匹配。面向科技文献的作者重名消歧工作重点是充分、合理 利用文献中的单特征属性进行辨识,因此需要对每一个单特征进行匹配。但是,如果每个单 特征属性都进行过度的精确匹配,反而会收不到理想的鉴别效果,因为科技文献自身,其单 特征属性就带有一定的模糊性,比如作者单位中的"大学"与"学院"、关键词中的"多移动 Agent"与"多Agent",因此,通过适当的模糊匹配反而会达到较好的匹配效果。本发明采用 模糊匹配公式作为单特征相似度检测方法的数学基础,并通过实验验证每个单特征的模糊 匹配阔值,W期当达到该阔值时,单特征会有比较好的匹配效果。
[0067] 假设Si是一个单特征字符串,SU是其中的字符,则:
[006引 Si={sii,Si2,...Sij,...Sin},iG[l,m]jG[l,n] (5)
[0069] 两个字符串的相似度可W记作Sim(Sa,Sb),则:
[0070]
[0071] 步骤3:单特征相似度检测方法。用0代表单特征属性,即0可表示六元组中的任意 一个单特征,单特征相似度检测方法的处理过程如下:首先,从初始训练集中提取每篇文章 的e;其次,将全部e属性进行两两比较,计算其相似度;最后,将相似度输出在本地文件。
[0072] 步骤4:单特征消歧方法,方法W层次聚类作为聚类思想,用文献聚类表示具有同 名作者的文献集合,初始训练集的每一个文献实体都是一个文献聚类。算法首先遍历并提 取初始训练集中的每一个文献实体,将提取出来的文献实体与终止训练集中的文献聚类中 的文献实体进行单特征相似度对比,计算相似度均值,若均值满足已有的阔值时,就可W判 定两篇文献的作者为同一个作者,即合并两个文献实体为同一个文献聚类,若相似度条件 不满足,则逐次与终止训练集的其他文献聚类进行比较,若都不满足条件,将该文献实体认 为是一个新的文献聚类加入终止训练集中,同时从初始训练集中移除该文献实体,重复上 述操作,直到初始训练集为空,算法结束。
[0073] 步骤5:制定消歧规则。
[0074] ①单特征的权重。每个单特征在进行重名作者的消歧鉴别时发挥的影响力是不一 样的,有的单特征消歧力强,有的单特征消歧力弱,设计合理的消歧规则,有必要掌握每个 单特征在消歧方面的影响因子,运个影响因子就是单特征的消歧权重,本发明用We表示。在 介绍单特征相似度检测方法时,提到使用F值作为单特征消歧能力强弱的指标,因此,本发 明提出五个单特征的权重计算公式如下:
[0075]
[0076] ②基于多特征融合的作者重名消歧规则。由单特征相似度检测方法可W计算出每 个单特征相似度的阔值,则有Ve。为每一个单特征定义一个布尔变量B,则有化,定义:
[0077]
[0078] 用Sim(ai,a2)表示两个作者实体的相似度,则定义的基于多特征融合的作者重名 消歧规则公式:
[0079]
[0080] 由W上方法制定的消歧规则融合了每一个单特征的消歧权重,当权重优先的单特 征不满足时,规则会顺次考虑其他的单特征,运样就结合了精确匹配和模糊匹配的优点。
[0081] 步骤6:文献作者重名检测方法基于多特征融合进行作者重名消歧工作,本方法在 单特征相似度检测方法、单特征消歧方法的基础上,结合消歧规则,避免了单一单特征在消 歧过程中带来的误差,在初次聚类的基础上再对合作者特征进行二次聚类,避免聚类不全 问题。本方法W层次聚类作为聚类思想,时间复杂度为(Kk*t*m*n),k为初始训练集的大小, t为终止训练集的大小,m为初始训练集中每个文献聚类的大小,n为终止训练集中每个文献 聚类的大小。开始时,初始训练集中每一个文献实体都是一个文献聚类,方法首先遍历并提 取初始训练集中的每一个文献聚类即每一个文献实体,提取出来的文献聚类与终止训练集 中的文献聚类中的文献实体进行对比,当满足消歧规则时,就可W判定两篇文献的作者为 同一个作者,即合并两个文献聚类为一个文献聚类,若消歧规则不满足,则逐次与终止训练 集中的其他文献聚类进行比较,若都不满足消歧规则,则将该文献聚类认为是一个新的文 献聚类加入终止训练集中,同时从初始训练集中移除该文献聚类,重复上述操作,直到初始 训练集为空,此时,初次聚类结束;将初次聚类的终止训练集作为二次聚类的初始训练集, 重复上述操作,将消歧规则指定为判断两个训练集的合作者特征的相似度,避免初次聚类 中对于合作者之间的关系考虑不全的情况,当二次聚类的初始训练集为空时,方法结束。
[0082] 本发明方法的思路是首先提出单特征相似度检测方法,对文献间的单特征相似度 进行检测并计算其阔值,具体流程如图1所示;其次提出单特征消岐方法,基于文献的单特 征进行作者重名的消歧工作,引入权重评估每个单特征的消歧力,具体流程如图2所示;最 后,基于W上工作,制定多特征融合的作者重名消歧规则,提出一种文献作者重名检测方 法,进行重名消歧工作,具体流程如图3所示。
[0083] 具体而言,本发明采用W下技术方案解决上述技术问题。
[0084] 步骤1:对作者对象建模。在面向科技文献的重名消歧过程中,每一个作者对象都 可W用科技文献的其他单特征来表示,因此,对作者对象进行建模,为后续重名检测方法奠 定基础。
[0085] 步骤2:定义单特征的模糊匹配公式。面向科技文献的作者重名消歧工作重点是充 分、合理利用文献中的单特征属性进行辨识,因此需要对每一个单特征进行匹配。假设Si是 一个单特征字符串,SU是其中的字符,则:
[0086] Si= {sii,Si2, ...Sij, ...Sin}, i G [1 ,m], j G [1 ,n] (10)
[0087] 两个字符串的相似度可W记作Sim(Sa,Sb),则:
[008引 (11)
[0089] 步骤3:通过单特征相似度检测方法对两两单特征的相似度进行计算。
[0090] 步骤4:每个单特征在进行重名作者的消歧鉴别时发挥的影响力是不一样的,有的 单特征消歧力强,有的单特征消歧力弱,通过单特征消岐方法分别对每个单特征的消歧能 力进行评估。
[0091] 步骤5:制定消歧规则。基于步骤3和步骤4制定多特征融合的消歧规则,吸取了单 特征在单独进行消歧时的优点,做为文献作者重名检测方法的数学基础。
[0092] 步骤6:文献作者重名检测方法在单特征相似度检测方法、单特征消歧方法的基础 上,结合消歧规则,避免了单一单特征在消歧过程中带来的误差,在初次聚类的基础上再对 合作者特征P进行二次聚类,避免聚类不全问题。
[0093] 本发明W科技文献中作者重名问题为切入点,选取与作者紧密联系的五个单特 征,首先分析单特征相似度阔值选取问题,然后分析单特征消歧问题,制定消歧规则,最后 提出一种文献作者重名检测方法,完成作者重名的消歧工作。
[0094] 本发明所要解决的技术问题在于克服当前的网络文献知识库系统在重名辨识能 力的不足,提供一种文献作者重名检测方法,具有更强的鉴别精度和更稳定的召回率。同名 作者的辨识是一个非常重要和复杂的研究课题。在科技文献的检索与调研工作中,大量的 作者重名现象降低了工作的准确性,降低捜索质量,导致科研周期的不必要延长。通过合理 的方法对重名作者进行鉴别,可W有效改善检索质量,节约科研工作的时间成本。本发明提 出一种文献作者重名检测方法,通过制定多特征融合的消歧规则对科技文献中的重名现象 进行聚类分析。本发明不仅充分利用字符串的模糊匹配公式对文献单特征属性进行适当的 模糊匹配,避免了过度精确匹配反而达不到理想效果的情况,而且判断出每个单特征属性 单独消歧时鉴别力的强弱和科学聚类次数,避免过度识别的问题,同时融合了每一个单特 征属性的消歧能力,避免了单一单特征在消歧过程中带来的误差,提高了检测精度。
[00%]本发明方法基于多特征融合进行作者重名消歧工作,W层次聚类作为聚类思想, 所述方法在单特征相似度检测方法、单特征消歧方法的基础上,结合消歧规则,避免了单一 单特征在消歧过程中带来的误差,在初次聚类的基础上再对合作者特征进行二次聚类,有 效地避免了聚类不全的问题。
【主权项】
1. 一种文献作者重名检测方法,其特征在于包括如下步骤: 步骤1:判断初始训练集是否为空,如果为空,进入步骤7,否则,则进入步骤2; 步骤2:从初始训练集中提取一个文献聚类,判断终止训练集是否为空,若不为空,则进 入步骤4,若为空,进入步骤3; 步骤3:将从初始训练集中提取的文献聚类添加到终止训练集,进入步骤2; 步骤4:从终止训练集中提取文献聚类,进入步骤5; 步骤5:判断从初始训练集中提取的文献聚类与从终止训练集中提取的文献聚类是否 满足消歧规则,若满足条件,则合并两个文献聚类,进入步骤6,若不满足,进入步骤3; 步骤6:将已经提取的文献聚类从初始训练集中移除,进入步骤1; 步骤7:进行二次聚类,将终止训练集赋值给二次聚类的初始聚类,进入步骤8; 步骤8:判断二次聚类的初始训练集是否为空,若为空,算法结束,否则进入步骤9; 步骤9:从二次聚类的初始训练集中提取一个文献聚类,判断二次聚类的终止训练集是 否为空,若不为空,则进入步骤11,若为空,进入步骤10; 步骤10:将提取的文献聚类添加到二次聚类的终止训练集中,进入步骤9; 步骤11:逐次从终止训练集中提取文献聚类,进入步骤12; 步骤12:对二次聚类初始训练集提取的文献聚类与终止训练集的文献聚类进行合作者 相似度判断,若结果满足相似度阈值,则合并两个文献聚类,进入步骤13,若不满足,进入步 骤10; 步骤13:将已提取的文献聚类从二次聚类初始训练集中移除,进入步骤8。2. 根据权利要求1所述的文献作者重名检测方法,其特征在于步骤12中所述的相似度 判断采用单特征相似度检测方法计算每个单特征相似度的阈值,包括如下步骤: 步骤1:从初始训练集中提取出两个单特征; 步骤2:计算已提取的两个单特征之间的相似程度; 步骤3:判断初始训练集是否为空,如果否,转步骤1,否则顺序执行; 步骤4:结束。3. 根据权利要求2所述的文献作者重名检测方法,其特征在于所述单特征相似度检测 方法可以计算出每个单特征相似度的阈值。4. 根据权利要求1所述的文献作者重名检测方法,其特征在于步骤12中所述消歧规则 的判断采用单特征消歧方法,该方法包括如下步骤: 步骤1:判断初始训练集是否为空,如果初始训练集为空,则算法结束;若初始训练集不 为空,则进入步骤2; 步骤2:从初始训练集中提取一个文献实体,判断终止训练集是否为空,如果为空,进入 步骤3,如果不为空,进入步骤4; 步骤3:将从初始训练集中提取的文献实体作为一个文献聚类加入终止训练集,进入步 骤2; 步骤4:将初始训练集的文献实体逐次与终止训练集中的文献聚类的文献实体进行相 似度对比,若满足条件,则将从初始训练集中提取的文献实体合并到终止训练集的文献聚 类,进入步骤5,若不满足,进入步骤3; 步骤5:将提取的文献实体从初始训练集中移除,进入步骤1。5. 根据权利要求4所述的文献作者重名检测方法,其特征在于所述单特征消歧方法可 以判断出每个单特征属性单独消歧时鉴别力的强弱和科学聚类次数,避免过度识别的问 题。6. 根据权利要求1所述的文献作者重名检测方法,其特征在于步骤12中所述的消歧规 则为多特征融合,包含以下步骤: 步骤1:用β代表单特征属性,用We表示每个单特征在单独消歧方面的能力,即单特征的 消歧权重,使用F值作为单特征消歧能力强弱的指标,则单特征的权重计算公式如下:步骤2:用Ve表示每个单特征相似度的阈值,为每一个单特征定义一个布尔变量Β,则有 Be,定义:步骤3:用Sim(ai,a2)表示两个作者实体的相似度,则定义作者重名消歧规则公式:7. 根据权利要求6所述的文献作者重名检测方法,其特征在于:所述消歧规则融合了每 一个单特征的消歧能力,当消歧力强的单特征不满足要求时,规则会顺次考虑其他的单特 征。
【文档编号】G06F17/30GK106021424SQ201610320129
【公开日】2016年10月12日
【申请日】2016年5月13日
【发明人】徐小龙, 李永萍, 孙雁飞, 杨维荣, 王勇
【申请人】南京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1