一种面向英文文献中中国作者的姓名消歧方法与流程

文档序号:12364251阅读:5079来源:国知局

本发明涉及一种英文文献中的中国作者姓名的消歧方法。

技术背景

作者重名问题由来已久,一直是信息科学、计算机科学等领域的热门议题。近年来,随着中国发表国际论文的数量大幅攀升,中国作者在国际学术界的受关注程度持续走高。同时,英文学术文献数据库中,中国作者重名问题日益突显。中文姓名转化为拼音(或英文名)之后,丢失了汉字特征,重名几率大幅度提升,这使得英文文献中中国作者重名问题更复杂、更难以解决。作者重名的问题就成了干扰检索精确度的一个重要因素,判断两篇论文的同名作者是否为同一人,往往会耗费大量的时间。



技术实现要素:

本发明要克服现有技术的上述缺点,提供一种英文文献中的中国作者姓名的消歧方法。

一种面向英文文献中中国作者的姓名消歧方法,操作步骤如下:

1.预处理数据;

从英文文献题录信息中抽取作者个人信息、构建作者之间的合著关系与引用关系等。作者的个人信息包括:姓名、邮箱、所属机构、院/系/所/中心、学科属性等;作者之间的合著关系来源于同一篇论文的作者两两之间的关系;作者之间的引用关系来源于文献与其参考文献之间的引用关系;

2.比对重名作者的邮箱;

邮箱具有唯一性。因此,使用同一邮箱的作者必然为同一人,但使用不同邮箱的作者并不必然不是同一人;

3.计算重名作者所属机构与学科的相似度;

作者所属机构与学科的特征信息包括:工作单位、院/系/所/中心系所、所属学科等,每个特征值的表达形式都是字符型;分别提取两位重名作者的特征值,计算特征值的余弦相似度;

4.计算重名作者合著关系的相似度;

作者的合著关系,是解决作者重名问题的一个重要参考因素;若两位重名作者的合著网络高度相似,那么,这两位作者可能为同一人;

5.计算重名作者引用关系的相似度;

作者在发表新的论文时,会更倾向于引用自己之前发表的文献(“自引”)。因此,一篇文献的作者与其参考文献的作者中存在重名,那么,这种重名可能为同一人。作者有相对固定的引用偏好(“引用认同”)。因此,两位重名作者的引用偏好相近(计算余弦相似度),那么,两位作者可能为同一人;

6.基于三类相似度聚类;

当上述三种相似度全部计算完成后,可根据当前的结果进行聚类。具有较高相似度的重名作者可被聚为同一类。层次聚类可以避免相似度判断过程中阈值的主观设定。

本发明的优点是:

本发明综合考虑了英文学术文献中作者的邮箱、作者所属的机构、院/系/所/中心、文献所属的学科、作者之间的合著关系、作者之间的引用关系等特征,从多个维度消歧,比单一维度更有效;本发明在机构相似度、合著关系相似度、引用关系相似度的基础上,借助层次聚类算法消歧,比设定阈值的方式更客观。

附图说明

图1是本发明的方法流程图。

具体实施方式

下面参照附图进一步说明本发明的技术方案。

两篇英文文献中,两位中国作者姓名重名(实际可能并非同一人)主要包括以下几种情况:

(1)两位作者全名的拼音拼写方式相同,“LI,JIANG”与“LI,JIANG”;

(2)两位作者中,有一位作者的名仅有首字母缩写,例如,“LI,J.”与“LI,JIANG”。

(3)两位作者的名均只有首字母缩写,例如,“LI,J.”与“LI,J.”。

为了解决“一(拼)音多(汉)字”导致的英文文献中大量中国作者重名的问题,本发明提供一种综合考虑作者的机构与学科特征、合著关系、引用关系的相似度的人名消歧算法,该算法的逻辑如下:

本发明所述的一种面向英文文献中中国作者的姓名消歧方法,操作步骤如下:

1.预处理数据;

1.1获取数据;

Web of Science是最为常用的英文学术文献数据库,其中SCI、SSCI、A&HCI三个子库被称为三大引文索引。从Web of Science数据库中可以获取以下字段,以作为解决人名消歧的辅助信息:

(1)作者姓名AF,拼音或英文名写法;

(2)工作单位C1,作者同一时间段对应的多个工作单位;

(3)院/系/所/中心C2,工作单位里对应的具体工作部门;

(4)学科WC,文献类别分类中对应的第一学科;

(5)作者邮箱EM;

(6)引用关系CR,一篇文献的作者与该文献的参考文献的作者之间存在引用关系;

1.2清理数据;

1.2.1分割字段;

从Web of Science数据库导出的数据中,每篇文献的所有作者合在一起,以“;”分隔,如“yang liu;yang li;yang LUO”。每位作者对应的邮箱等信息也合在一起,以“;”分隔。这种格式无法满足算法批量处理的基本要求,因此,需要将其分割为独立的姓名、邮箱(该步骤可在Excel中用“分列”功能完成)。

1.2.2匹配姓名与邮箱;

由于数据缺失等原因,每位作者的姓名与邮箱等信息并非一一对应。因此,需要借助程序将作者与邮箱等信息一一匹配。

电子邮箱地址的命名规则为:用户名+@+域名。其中用户名是由用户自定义的;域名是电子邮箱服务提供商的识别码,由提供商定义。“用户名”的命名规划大致包含如下几类:

①作者姓名字母组合,包括全拼、首字母缩写等写法;

②作者姓名字母加其他字符组合,其他字符包括数字或字母等,主要是为

了增加作者的辨识度,例如,作者的生日、工作单位等信息;

③与作者姓名无关的字符组合,例如,手机号、QQ号、虚拟ID等。“域名”包含以下两类:

①工作单位的域名,例如,中国各个高校或研究机构提供的xxx.edu.cn域名;

②商业公司提供的域名,例如,gmail.com、163.com等。

在匹配姓名与邮箱时,提取用户名部分和域名部分,用户名作为主要的参考因素,域名作为次要的参考因素。作者姓名的一般格式是:姓(全拼)+名(全拼)。少数作者在中间或者结尾增加英文名的信息。将作者的姓名提取出来分为三部分:A(姓全拼)、B(名全拼)、C(其余部分全拼),记A、B、C三部分的首字母分别为A1、B1、C1。

生成集合E=(A,A1)×(B,B1)×(C,C1)

取元素a∈E,利用KMP算法(一种改进的字符串匹配算法),匹配邮箱中用户名和元素a的相同部分,取匹配的最大值,计算出匹配用户名的匹配率。当匹配率较高时,则匹配作者和该邮箱。若邮箱的域名是工作单位域名,且和作者的工作单位是相同的,则将其作为参考指标。

1.2.3构建作者之间的合作关系与引用关系;

作者之间的合作关系即一篇论文的N(≥2)个作者中两两之间的关系。在作者姓名字段分割之后,即可构建作者之间的合作关系。

作者之间的引用关系有赖于论文之间的引用关系。不同期刊论文的参考文献的著录格式并不统一,但可基于论文的DOI,提出作者姓名、发表年份、发表期刊(若参考文献是期刊论文)等信息。然后,从引用作者群体中提取作者的自引与作者频繁引用的作者信息。

1.2.4统一格式;

关于数据的格式统一,作者姓名(全拼或简拼)全部处理成姓在前名在后的格式,且所有字母大写,姓与名中间用一个空格字符隔断。例如,姓名为“yang liu”或者“yangliu”或者“Yang Liu”的作者,格式统一后均为“LIU YANG”。

对于工作单位、院/系/所/中心,预处理时需要将名称统一,字符表现形式以统一后的形式呈现。例如,“Zhejiang Univ”和“Zhejiang University”统一为“Zhejiang University”;“Department of Information Resource Management”和“Department of Information Resources Management”统一为“Department of Information Resource Management”。

2.比对重名作者的邮箱;

对于两位重名的作者,在邮箱信息无缺失的情况下,比对邮箱的结果为0(不相同)或1(相同)。邮箱地址具有唯一性,若结果为1,则可断定两位重名的作者为同一人;若结果为0,则待定(不同邮箱的作者也可能为同一人)。

3.计算重名作者所属机构与学科的相似度;

作者所属机构与学科的特征信息包括:工作单位、院/系/所/中心系所、所属学科等,每个特征值的表达形式都是字符型。分别提取两位重名作者的特征值,计算特征值的余弦相似度。余弦相似度计算方法:

(1)列出两个待计算特征值的所有词,计算词频。例如两个特征值:“AB AB CED”与“AB BC CED”,所有词分别为:AB BC CED,两个特征值的词频向量分别为[2,0,1]和[1,1,1]。

(2)计算余弦相似度,计算公式:

<mrow> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mi>&theta;</mi> <mo>=</mo> <mfrac> <mrow> <mi>a</mi> <mo>&CenterDot;</mo> <mi>b</mi> </mrow> <mrow> <mo>|</mo> <mo>|</mo> <mi>a</mi> <mo>|</mo> <mo>|</mo> <mo>&CenterDot;</mo> <mo>|</mo> <mo>|</mo> <mi>b</mi> <mo>|</mo> <mo>|</mo> </mrow> </mfrac> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <mrow> <mo>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>*</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msqrt> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msup> <mrow> <mo>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> <mo>*</mo> <msqrt> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msup> <mrow> <mo>(</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

计算出cosθ的值,这个值即为两个特征值的相似度。

上述例子中两个向量的相似度为:

4.计算重名作者合著关系的相似度;

作者的合著关系,是解决作者重名问题的一个重要参考因素。若两位重名作者的合著网络高度相似(相似度达到一定数值),那么,这两位作者可能为同一人(小概率错误)。假设ci和cj是两位重名的作者,他们各自的合著者集合分别为N1和N2,那么,这两位重名作者的合著关系的相似度算法如下:

式(2)的算法参见Muhammad Shoaib,Ali Daud,Malik Sikandar Hayat Khiya.Improving Similarity Measures for Publications with Special Focus on Author Name Disambiguation[J].Springer-Verlag.2015.40:pp.1592-1604。

实质上,该相似度算法是一个均值型算法,其中,η是合著者集合中两两匹配相似度时匹配上的作者的总数量,例如,N1=3、N2=4,但两个集合中,仅各有一位作者姓名能够匹配上,那匹配上的作者的总数量η=2;合著者集合中作者两两匹配的相似度算法如下:

其中,α、β和γ分别是三种不同匹配类型的权重,这三种匹配类型分别是:e(全名匹配),b(简写匹配)和q(首字母缩写匹配),中国作者的合著者集合中可能存在外国作者姓名,因此,这三种匹配方式也适用于外国作者姓名;与h分别指匹配两个人名时相同字符与不同字符的数量;h*100的目的是为了让姓名中有不同字符的两个作者的相似度趋近于0。

5.计算重名作者引用关系的相似度;

作者在发表新的论文时,会更倾向于引用自己之前发表的文献(“自引”)。计算重名作者引用关系的相似度的步骤如下:

(1)列出两个作者发表的文献和这些文献的参考文献;

(2)提取参考文献中的作者姓名,计算作者的自引比例;

(3)计算两位重名作者的施引作者集合中各作者的被引频次,生成两个频次向量,再利用作者集合相似度算法(如式2所示),计算两位作者的施引相似度;

(4)综合自引比例与施引作者集合相似度,加权平均,得出两位作者引用关系的相似度。

6.基于三类相似度聚类;

当三种相似度全部计算完成后,可根据当前的结果进行聚类。凝聚型层次聚类算法的基本思路是:将每个对象作为一个聚类簇,计算两两簇之间的相似度(算法采用欧氏距离),若相似度达到一定数值,则合并两个簇为一个簇,直到簇群无法合并为止。在算法中维护一个相似度排序表,该表是当前所有簇两两根据三种相似度计算出的相似度,降序排列后,得出的表(即将最相近的簇依次排列出来,表首是所有簇中最接近的两个簇,接下来是所有簇中第二接近的两个簇)。维护这个表可有效地降低算法的时间复杂度,当计算到某个位置时发现它们的相似度达不到标准,不用再计算后续的簇群。算法的基本步骤如下:

步骤E1:从相似度排序表中提出表首的两个簇。进入步骤E2。

步骤E2:判断这两个簇的相似度是否达到聚类标准(即可以判定这两个同名的作者是同一个人)。若达到则进入步骤E3;若否,根据新的簇群重新计算三种相似度,回到步骤E1;如果表首的两个簇无法合并,则退出算法。

步骤3:将两个簇群合并在一起,更新相关数据集合(合著关系集合、引用关系集合等等)。返回步骤E1。

实验效果分析

1.数据集与实验条件

随机选取89位中国大陆具有国际研究水准的学者,按照拼音名(或英文名)在Web of Science(汤森路透旗下学术数据库产品)检索每位者在1998-2014年间发表的论文,将检索到的论文集合作为测试集。此外,获取89位学者的学术简历,作为评判算法效率的标准。

在本研究中,所用来进行测试的计算机的信息是:Windows 8.1 64bitCoreTMi5-4210H CPU@2.90GHz 8GB。

程序的编写采用的是Python语言,使用以下几个模块:xlrd、xlwt(Excel的读写操作模块)、sys(该模块包含于Python解释器和它的环节相关的函数)、pdb(调试模块)、math(数学计算模块)。

在数据存储方面,使用Python的列表(List)和字典(Dict)。编码的标准是UTF-8(包括代码标准和输入输出标准)。

2.算法执行流程

(1)读取原始数据,对数据做预处理、格式统一,以及对作者、邮箱进行匹配;在两位重名作者邮箱不匹配的情况下,执行第二步,否则跳转到第六步;

(2)计算作者机构与学科的余弦相似度,包括作者工作单位、院/系/所/中心、学科等特征值;

(3)计算作者姓名余弦相似度达到标准的作者的合著网络相似度;

(4)计算作者姓名余弦相似度达到标准的引用网络相似度;

(5)根据三种相似度进行聚类,返回第二步,直到无法聚类为止;

(6)输出计算结果。

3.可能出现的问题的解决方案

(1)作者以不同身份发表文献。在这种情况下,算法会首先检查作者是否用不同的身份发表同一篇文献;其次,计算作者的合著者网络相似度和引用数据相似度,通过相似度进行判断。

(2)作者更换工作单位。计算作者的合著网络相似度,根据合著网络相似度进行判断;若合著网络相似度相差较大,计算作者的引用数据相似度进行判断。

(3)作者跨学科发表文献。首先计算学科间的相似度,将学科相似度(即机构与学科特征相似度中的一项)作为参考指标;其次计算合著网络相似度和引用数据相似度,根据三者得出最终结论。

在选取测试数据中,有选择性地加入了曾更换过两次工作单位、跨学科发表文献的学者,其更换单位后合著网络变化较大。这位学者曾分别在浙江大学、南京大学和武汉大学工作过,主要研究学科是Information Science&Library Science;每次变换工作单位后,合著网络(即合著者)变化较大。

算法的处理过程中,先根据作者的机构与学科信息(工作单位、系所、学科)等特征,根据这位学者在武汉大学、南京大学和浙江大学工作时发表的文献分别将他识别出来。其中他在南京大学跨学科(学科为Chemistry&Medicinal)发表的文献中,算法根据他的工作单位、系所和合著者网络等信息,将他和其余在南京大学发表文献的身份识别了出来。在这基础上,算法根据引用数据,发现该学者在浙江大学工作时,对曾在南京大学和武汉大学工作时发表的文献的引用率特别高,并且这些文献的学科分类是相同的,故判定这三个工作单位的这个姓名的作者是同一个人。算法的最终处理结果和真实情况完全一致。

4.实验结果

对于某特定作者,设集合A是算法计算出的聚类合并后该作者的集合;集合B是真实的该作者的集合。

为对处理结果进行评测,定义两个评价指标:

(1)准确率(P)。

(2)召回率(R)。

处理结果分析分两步进行:

(1)单一方法相似度算法测试。即分别对作者机构与学科特征相似度处理、合著网络相似度处理、引用数据相似度处理三种方法的单方法的处理结果进行分析。

(2)相似度算法整合测试。三种相似度算法同时使用,分析处理结果。

为了对处理结果进行验证,事先从网上(个人主页、百科等途径)收集了测试数据中的真实作者数据集,通过人工进行检验。

附录中,附录1是测试数据的真实情况。附录2、附录3、附录4分别是作者机构与学科相似度、合著关系相似度、引用关系相似度三种方法单一方法的测试结果。附录5是三种方法综合处理结果。

4.1准确率分析

表1.相同姓名重名数和平均准确率统计表

如表1所示,单一方法的准确率均较低,特别是仅依靠引用数据计算的准确率,当同名的人数较多时准确率特别低;而综合方法的准确率得到大幅度提升。根据表1和附录5的平均准确率和具体的数据处理结果来看,该算法在准确率方面表现优秀,对大部分较简单的测试数据能精准地判断;对少部分复杂数据,判断的准确率较高,能达到预期要求。

4.2召回率分析

表2.作者论文数和平均召回率统计表

如表2所示,单一方法的召回率并不能令人满意,尤其当某个作者有多篇文献的情况时,召回率普遍较低。虽然仅用作者机构与学科特征做相似度计算后聚类的方法中,召回率在0.9左右浮动,但是经过实际对数据的观察发现,这个召回率并不能令人满意。许多经简单的人工观察就能发现是相同作者的数据均没有处理。附录5中综合方法的召回率得到大幅度提升。

5.算法效率的影响因素

(1)可提取的特征信息有限。文献的题录信息仅包含一些基础信息(例如题名、关键词、出版时间等),可利用的特征信息不够多,计算出真实情况相对困难或者无法计算出真实情况。

(2)数据缺失。很多文献信息中,许多关键的特征信息,例如作者的工作单位、系所、E-mail;合著者数据、文献引用数据等信息,是不完整的。这给特征提取和计算相似度上制造了相当的难度。

(3)作者更换单位,且合著网络、引用数据变化较大。在这种情况下由于合著网络和引用数据的变化,无法区分是同一个人更换单位还是同名的两个不同单位的人。

附录

附录1测试数据集描述

附录2单一方法(机构与学科特征相似度)的消歧效果

附录3单一方法(合著关系相似度)的消歧效果

附录4单一方法(引用关系相似度)的消歧效果

附录5综合方法(综合使用机构与学科特征相似度、合著关系相似度与引用关系相似度)的消歧效果

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1