命名排歧方法及系统的制作方法

文档序号：8282417阅读：473来源：国知局

命名排歧方法及系统的制作方法
【技术领域】
[0001] 本发明涉及计算机技术领域，尤其涉及一种命名排歧方法及系统。
【背景技术】
[0002] 命名歧义主要是指"一个名字实际对应到多个人"或者"多个名字实际对应于同一个人"的问题。命名歧义在现实生活中普遍存在，例如，据统计美国有1. 14亿人共用300个名字；在同名查询网上搜索"张伟"，可以知道全中国有29万多个名叫"张伟"的人。
[0003] 命名排歧是通过一定的技术手段去除名字中的歧义。它是近年来自然语言处理、数据挖掘、数字图书馆和信息检索研宄中的热点问题。其中，学术论文中的作者命名排歧是这一技术的典型应用场景。由于作者存在大量同名，以及不同学术数据库、会议和期刊对于作者姓名的规范标准不同而导致名字写法不同，不同的作者可能以相同的名字出现。将名字按照实际指代的作者区分合并是学术搜索引擎和数字图书馆提升搜索质量及进一步挖掘知识的核心问题。通过命名排歧技术，精确地将来自异构数据源的有噪声作者信息归类到正确的作者实体中，对于进一步建立研宄人员档案，对研宄人员进行学术能力评价，搜索特定研宄领域的研宄人群，分析研宄人员的合作与引用关系，以及构建特定研宄领域的社会化网络等应用都有着重要意义。
[0004] 目前命名排歧技术已经取得了一定的进展，根据命名排歧的机器学习模型，主要分为三类：基于监督学习，基于无监督学习和基于半监督学习。基于监督学习的方法可以取得最好的命名排歧的效果。然而，在实际应用中，很难获得高质量的训练数据集来保证基于监督学习的命名排歧方法获得较高性能。另外，现有的命名排歧方法缺乏对先验约束知识和用户反馈信息的运用。整体准确率低、主动性差、成本高。

【发明内容】

[0005] 本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的一个目的在于提出一种高正确率的命名排歧方法。
[0006] 本发明第二方面目的在于提出一种命名排歧系统。
[0007] 为了实现上述目的，本发明第一方面实施例的命名排歧方法，包括以下步骤：S1，从原始论文集合中选取预定样本容量的论文集；S2,根据已标注数据集将所述论文集进行分类，以获取多个原子论文集团，每个所述原子论文集团中的论文相关联；S3,根据作者对每个所述原子论文集团进行聚类分析，以得到与所述作者对应的论文集合；S4,通过主动学习策略从所述论文集合中选取特定的论文，并对所述论文进行标注以得到标注结果；S5,将所述标注结果加入所述已标注数据集，重复执行步骤Sl?S4直至所述原始论文集合中的论文标注完成。
[0008] 根据本发明实施例的命名排歧方法，根据已标注数据集将所述论文集进行分类，以获取多个原子论文集团，对每个原子论文集团进行聚类分析，以获取多个与预定作者对应的论文集合，得到了较为可信的重名排歧结果。通过主动学习策略从所述论文集合中选取特定的论文，并对论文进行标注以获取标注结果，借鉴标注结果，即使系统中获得了新的 "知识"，因此可以重新进行高正确率原子论文集团的发现，进而进行下一轮的聚类和主动学习，开始下一次循环操作，进一步提高了命名排歧的性能。
[0009] 在一些示例中，所述步骤S2包括：S21，根据所述论文特征关系从所述已标注数据集获取偏差分类器；S22,利用所述偏差分类器将所述论文集划分成多个所述原子论文集团。
[0010] 在一些示例中，所述偏差分类器包括：初始化所述已标注数据集的权重；利用分类算法对所述已标注数据集进行分类，获取多个弱分类器；利用偏差错误量值计算所述弱分类器的偏差误差；从所述多个弱分类器中获取具有最小所述偏差误差的弱分类器；更新所述已标注数据集的权重；获取所述偏差分类器。
[0011] 在一些示例中，所述步骤S3包括：S31，获取所述多个原子论文集团两两之间的相似度关系；S32,利用隐式马尔科夫随机场模型将每个所述原子论文集团分配给最接近的论文中心结点所在的集合，并使得某篇论文属于某位作者的条件概率最大；S33,根据步骤 S32的分配结果，更新每个所述集合的所述中心结点以及所述隐式马尔科夫随机场模型的参数；S34,重复执行S32?S33直至每个所述集合的所述中心结点的固定不变，并获取多个与预定作者对应的论文集合。
[0012] 本发明第二方面实施例的命名排歧系统，包括：提取模块、分类模块、聚类模块和标注模块。提取模块，用于从原始论文集合中选取预定样本容量的论文集。分类模块，用于根据已标注数据集将所述论文集进行分类，以获取多个原子论文集团，每个所述原子论文集团中的论文相关联。聚类模块，用于根据作者对每个所述原子论文集团进行聚类分析，以得到与所述作者对应的论文集合。标注模块，用于通过主动学习策略从所述论文集合中选取特定的论文，并对所述论文进行标注以得到标注结果；以及将所述标注结果加入所述已标注数据集。
[0013] 根据本发明实施例的命名排歧系统，分类模块根据已标注数据集将论文集进行分类，以获取多个原子论文集团，聚类模块对每个原子论文集团进行聚类分析，以获取多个与预定作者对应的论文集合，得到了较为可信的重名排歧结果。标注模块通过主动学习策略从所述论文集合中选取特定的论文，并对论文进行标注以获取标注结果，借鉴标注结果，即使系统中获得了新的"知识"，因此可以重新进行高正确率原子论文集团的发现，进而进行下一轮的聚类和主动学习，开始下一次循环操作，进一步提高了命名排歧的性能。
[0014] 在一些示例中，所述分类模块还用于，根据所述论文特征关系从所述已标注数据集获取偏差分类器；及利用所述偏差分类器将所述论文集划分成多个所述原子论文集团。
[0015] 在一些示例中，所述偏差分类器包括：初始化所述已标注数据集的权重；利用分类算法对所述已标注数据集进行分类，获取多个弱分类器；利用偏差错误量值计算所述弱分类器的偏差误差；从所述多个弱分类器中获取具有最小所述偏差误差的弱分类器；更新所述已标注数据集的权重；获取所述偏差分类器。
[0016] 在一些示例中，所述聚类模块还用于，获取所述多个原子论文集团两两之间的相似度关系；利用隐式马尔科夫随机场模型将每个所述原子论文集团分配给最接近的论文中心结点所在的集合，并使得某篇论文属于某位作者的条件概率最大；根据上述的分配结果，更新每个所述集合的所述中心结点以及所述隐式马尔科夫随机场模型的参数；重复执行上述过程直至每个所述集合的所述中心结点的固定不变，并获取多个与预定作者对应的论文集合。
[0017] 本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。
【附图说明】
[0018] 图1是根据本发明一个实施例的命名排歧方法的流程图；
[0019] 图2是本发明一个实施例的命名排歧方法的过程示意图；
[0020] 图3是隐式马尔科夫随机场示意图；
[0021] 图4是根据本发明一个实施例的命名排歧系统的结构框图。
【具体实施方式】
[0022] 在本发明的描述中，需要理解的是，术语"中心"、"纵向"、"横向"、"长度"、"宽度"、 "厚度"、"上"、"下"、"前"、"后"、"左"、"右"、"竖直"、"水平"、"顶"、"底" "内"、"外"、"顺时针"、"逆时针"、"轴向"、"径向"、"周向"等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：唐杰;刘德兵;刘静远;
技术所有人：清华大学;
我是此专利的发明人

上一篇：一种基于分布式内存的并行数字地形分析优化方法
上一篇：一种关系型数据标准性的评估方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。