命名排歧方法及系统的制作方法
【技术领域】
[0001] 本发明涉及计算机技术领域,尤其涉及一种命名排歧方法及系统。
【背景技术】
[0002] 命名歧义主要是指"一个名字实际对应到多个人"或者"多个名字实际对应于同一 个人"的问题。命名歧义在现实生活中普遍存在,例如,据统计美国有1. 14亿人共用300个 名字;在同名查询网上搜索"张伟",可以知道全中国有29万多个名叫"张伟"的人。
[0003] 命名排歧是通过一定的技术手段去除名字中的歧义。它是近年来自然语言处理、 数据挖掘、数字图书馆和信息检索研宄中的热点问题。其中,学术论文中的作者命名排歧是 这一技术的典型应用场景。由于作者存在大量同名,以及不同学术数据库、会议和期刊对于 作者姓名的规范标准不同而导致名字写法不同,不同的作者可能以相同的名字出现。将名 字按照实际指代的作者区分合并是学术搜索引擎和数字图书馆提升搜索质量及进一步挖 掘知识的核心问题。通过命名排歧技术,精确地将来自异构数据源的有噪声作者信息归类 到正确的作者实体中,对于进一步建立研宄人员档案,对研宄人员进行学术能力评价,搜索 特定研宄领域的研宄人群,分析研宄人员的合作与引用关系,以及构建特定研宄领域的社 会化网络等应用都有着重要意义。
[0004] 目前命名排歧技术已经取得了一定的进展,根据命名排歧的机器学习模型,主要 分为三类:基于监督学习,基于无监督学习和基于半监督学习。基于监督学习的方法可以取 得最好的命名排歧的效果。然而,在实际应用中,很难获得高质量的训练数据集来保证基于 监督学习的命名排歧方法获得较高性能。另外,现有的命名排歧方法缺乏对先验约束知识 和用户反馈信息的运用。整体准确率低、主动性差、成本高。
【发明内容】
[0005] 本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的 一个目的在于提出一种高正确率的命名排歧方法。
[0006] 本发明第二方面目的在于提出一种命名排歧系统。
[0007] 为了实现上述目的,本发明第一方面实施例的命名排歧方法,包括以下步骤:S1, 从原始论文集合中选取预定样本容量的论文集;S2,根据已标注数据集将所述论文集进行 分类,以获取多个原子论文集团,每个所述原子论文集团中的论文相关联;S3,根据作者对 每个所述原子论文集团进行聚类分析,以得到与所述作者对应的论文集合;S4,通过主动学 习策略从所述论文集合中选取特定的论文,并对所述论文进行标注以得到标注结果;S5,将 所述标注结果加入所述已标注数据集,重复执行步骤Sl?S4直至所述原始论文集合中的 论文标注完成。
[0008] 根据本发明实施例的命名排歧方法,根据已标注数据集将所述论文集进行分类, 以获取多个原子论文集团,对每个原子论文集团进行聚类分析,以获取多个与预定作者对 应的论文集合,得到了较为可信的重名排歧结果。通过主动学习策略从所述论文集合中选 取特定的论文,并对论文进行标注以获取标注结果,借鉴标注结果,即使系统中获得了新的 "知识",因此可以重新进行高正确率原子论文集团的发现,进而进行下一轮的聚类和主动 学习,开始下一次循环操作,进一步提高了命名排歧的性能。
[0009] 在一些示例中,所述步骤S2包括:S21,根据所述论文特征关系从所述已标注数据 集获取偏差分类器;S22,利用所述偏差分类器将所述论文集划分成多个所述原子论文集 团。
[0010] 在一些示例中,所述偏差分类器包括:初始化所述已标注数据集的权重;利用分 类算法对所述已标注数据集进行分类,获取多个弱分类器;利用偏差错误量值计算所述弱 分类器的偏差误差;从所述多个弱分类器中获取具有最小所述偏差误差的弱分类器;更新 所述已标注数据集的权重;获取所述偏差分类器。
[0011] 在一些示例中,所述步骤S3包括:S31,获取所述多个原子论文集团两两之间的相 似度关系;S32,利用隐式马尔科夫随机场模型将每个所述原子论文集团分配给最接近的 论文中心结点所在的集合,并使得某篇论文属于某位作者的条件概率最大;S33,根据步骤 S32的分配结果,更新每个所述集合的所述中心结点以及所述隐式马尔科夫随机场模型的 参数;S34,重复执行S32?S33直至每个所述集合的所述中心结点的固定不变,并获取多个 与预定作者对应的论文集合。
[0012] 本发明第二方面实施例的命名排歧系统,包括:提取模块、分类模块、聚类模块和 标注模块。提取模块,用于从原始论文集合中选取预定样本容量的论文集。分类模块,用于 根据已标注数据集将所述论文集进行分类,以获取多个原子论文集团,每个所述原子论文 集团中的论文相关联。聚类模块,用于根据作者对每个所述原子论文集团进行聚类分析, 以得到与所述作者对应的论文集合。标注模块,用于通过主动学习策略从所述论文集合中 选取特定的论文,并对所述论文进行标注以得到标注结果;以及将所述标注结果加入所述 已标注数据集。
[0013] 根据本发明实施例的命名排歧系统,分类模块根据已标注数据集将论文集进行分 类,以获取多个原子论文集团,聚类模块对每个原子论文集团进行聚类分析,以获取多个与 预定作者对应的论文集合,得到了较为可信的重名排歧结果。标注模块通过主动学习策略 从所述论文集合中选取特定的论文,并对论文进行标注以获取标注结果,借鉴标注结果,即 使系统中获得了新的"知识",因此可以重新进行高正确率原子论文集团的发现,进而进行 下一轮的聚类和主动学习,开始下一次循环操作,进一步提高了命名排歧的性能。
[0014] 在一些示例中,所述分类模块还用于,根据所述论文特征关系从所述已标注数据 集获取偏差分类器;及利用所述偏差分类器将所述论文集划分成多个所述原子论文集团。
[0015] 在一些示例中,所述偏差分类器包括:初始化所述已标注数据集的权重;利用分 类算法对所述已标注数据集进行分类,获取多个弱分类器;利用偏差错误量值计算所述弱 分类器的偏差误差;从所述多个弱分类器中获取具有最小所述偏差误差的弱分类器;更新 所述已标注数据集的权重;获取所述偏差分类器。
[0016] 在一些示例中,所述聚类模块还用于,获取所述多个原子论文集团两两之间的相 似度关系;利用隐式马尔科夫随机场模型将每个所述原子论文集团分配给最接近的论文中 心结点所在的集合,并使得某篇论文属于某位作者的条件概率最大;根据上述的分配结果, 更新每个所述集合的所述中心结点以及所述隐式马尔科夫随机场模型的参数;重复执行上 述过程直至每个所述集合的所述中心结点的固定不变,并获取多个与预定作者对应的论文 集合。
[0017] 本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变 得明显,或通过本发明的实践了解到。
【附图说明】
[0018] 图1是根据本发明一个实施例的命名排歧方法的流程图;
[0019] 图2是本发明一个实施例的命名排歧方法的过程示意图;
[0020] 图3是隐式马尔科夫随机场示意图;
[0021] 图4是根据本发明一个实施例的命名排歧系统的结构框图。
【具体实施方式】
[0022] 在本发明的描述中,需要理解的是,术语"中心"、"纵向"、"横向"、"长度"、"宽度"、 "厚度"、"上"、"下"、"前"、"后"、"左"、"右"、"竖直"、"水平"、"顶"、"底" "内"、"外"、"顺时 针"、"逆时针"、"轴向"、"径向"、"周向"等指示的方位或位置关系为基于附图所示的方位或 位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置