姓名消歧的方法和装置的制造方法
【专利摘要】本发明提供了一种姓名消歧的方法和装置,所述方法包括:对待消歧姓名的全文本信息预处理,以提取全文本信息的语义特征;根据语义特征生成待消歧姓名的全文本信息的语义指纹,包括邮箱指纹、合著者指纹、机构指纹和文本指纹;通过待消歧姓名的全文本信息与语义指纹库中具有与所述待消歧姓名同名的全文本信息的语义指纹比较,确定待消歧姓名的全文本信息与语义指纹库中的具有与待消歧姓名同名的全文本信息的语义指纹相似度;根据该语义指纹相似度,确定待消歧姓名的全文本信息的语义指纹所属的消歧后的姓名群组。应用本发明,在保证姓名消歧的准确性的同时,提高了姓名消歧的速度,且支持增量姓名消歧。
【专利说明】
姓名消歧的方法和装置
技术领域
[0001]本发明涉及实体消歧领域,具体而言,本发明涉及一种姓名消歧的方法和装置。
【背景技术】
[0002]近年来,随着计算机技术的发展、互联网的普及和应用,网络上的信息也越来越多。信息的快速增长使我们在获得丰富信息内容的同时,也产生了如何快速获取所需要信息的难题。由于用户对于高质量搜索的需求在不断提升,且人物信息搜索也在不断增长。用户希望能够通过搜索获取到其想了解的人物的基本信息,由于同名现象的普遍存在,人名往往具有很强的歧义性,目前的搜索结果的质量不尽如人意。因此想要获取特定人物的信息变得更加困难。而姓名消歧就是研究如何在海量的数据中,将姓名相同但属于不同人的信息进行划分。目前,姓名消歧技术越来越受到国内外学者们的广泛重视,一系列国内外的评测也针对姓名消歧问题展开,并推动了相关技术的发展和进步。对于实体消歧领域中的传统的姓名消歧的过程包括:特征的搜集和选择,聚类算法;在特征选择阶段,需要结合互联网知识资源抽取更多人物实体特征,或构建待消歧姓名的社会网络;由于这些特征的提取需要依赖网络资源,但网络资源零散且不一定准确,其错误的信息容易导致错误级联,因此消歧效果不佳。而在聚类算法阶段,通过改进聚类算法或者采用多次聚类的方法实现该阶段,但这个过程需人工设定阈值或类别数量,且对大规模文本数据运用聚类算法时运行耗时较长,很难在实际系统中应用;此外在新增文本信息时,需要对数据库中所有的文本重新聚类,故而不适于大规模数据的处理。因此,需要提供一种准确且高效的姓名消歧方法和装置,以提高数据检索的准确率、获取信息的效率。
【发明内容】
[0003]为克服上述技术问题或者至少部分地解决上述技术问题,特提出以下技术方案:
[0004]本发明的实施例提出了一种姓名消歧的方法,包括:
[0005]对包括待消歧姓名的全文本信息进行预处理,以提取全文本信息的语义特征;
[0006]根据所述全文本信息的语义特征生成待消歧姓名的全文本信息的语义指纹;
[0007]通过将待消歧姓名的全文本信息的语义指纹与已构建的语义指纹库中每个具有与所述待消歧姓名同名的全文本信息的语义指纹进行比较,确定所述待消歧姓名的全文本信息的语义指纹与语义指纹库中的每个具有与所述待消歧姓名同名的全文本信息的语义指纹的相似度;
[0008]根据所述待消歧姓名的全文本信息的语义指纹与语义指纹库中的每个具有与所述待消歧姓名同名的全文本信息的语义指纹的相似度,确定所述待消歧姓名的全文本信息的语义指纹所属的消歧后的姓名群组,具有与所述待消歧姓名同名的全文本信息的语义指纹属于至少一个姓名群组。
[0009]优选地,具有相同姓名且为不同作者的全文本信息的语义指纹通过不同的姓名群组来划分。
[0010]优选地,若所述待消歧姓名的全文本信息的语义指纹无所属的消歧后的姓名群组,则在所述语义指纹库中建立所述待消歧姓名的全文本信息的语义指纹所属的姓名群组。
[0011]优选地,所述对待消歧姓名的全文本信息进行预处理,以提取全文本信息的语义特征,包括:
[0012]获取待消歧姓名的合著者、电子邮箱、所属机构的信息,以生成合著者特征、电子邮箱特征和机构特征;
[0013]对所述全文本信息进行格式标准化、分词及过滤处理,以得到多个分词片段;
[0014]基于预定的特征提取模型从所述多个分词片段中提取文本特征;
[0015]根据所述合著者特征、电子邮箱特征、机构特征和文本特征生成全文本信息的语义特征。
[0016]优选地,所述语义指纹,包括以下至少一项:
[0017]文本指纹、邮箱指纹、机构指纹和合著者指纹。
[0018]优选地,所述通过将待消歧姓名的全文本信息的语义指纹与已构建的语义指纹库中的每个具有与所述待消歧姓名同名的全文本信息的语义指纹进行比较,确定所述待消歧姓名的全文本信息的语义指纹与语义指纹库中的每个具有与所述待消歧姓名同名的全文本信息的语义指纹的相似度,包括:
[0019]将待消歧姓名的全文本信息的文本指纹和/或邮箱指纹和/或机构指纹和/或合著者指纹与语义指纹库中已分类的每个具有与所述待消歧姓名同名的全文本信息的文本指纹和/或邮箱指纹和/或机构指纹和/或合著者指纹进行比较,并根据比较结果确定所述相似度。
[0020]更优选地,依据预设的语义指纹优先级信息,将待消歧姓名的全文本信息的文本指纹和/或邮箱指纹和/或机构指纹和/或合著者指纹与语义指纹库中已分类的每个具有与所述待消歧姓名同名的全文本信息的文本指纹和/或邮箱指纹和/或机构指纹和/或合著者指纹进行比较,并根据比较结果确定所述相似度。
[0021]优选地,所述预设的语义指纹优先级信息为邮箱指纹、合著者指纹、机构指纹和文本指纹对应的优先级从高到低的顺序排列。
[0022]更优选地,依据预设的语义指纹优先级信息,通过下述执行顺序来确定所述相似度:
[0023]依据邮箱指纹来确定所述相似度;
[0024]若邮箱指纹缺失或依据邮箱指纹判断所述相似度不满足预定相似度数值时,则依据合著者指纹来确定所述相似度;
[0025]若依据合著者指纹判断所述相似度不满足预定相似度数值时,依据机构指纹与文本指纹来确定所述相似度;
[0026]若依据机构指纹与文本指纹判断所述相似度不满足预定相似度数值时,依据文本指纹来确定所述相似度;
[0027]若文本指纹判断所述相似度不满足预定相似度数值时,视为不相似。
[0028]优选地,当确定所述待消歧姓名的全文本信息的语义指纹所属的消歧后的姓名群组为至少两个时,确定归属于该至少两个消歧后的姓名群组的全文本信息在已构建的语义指纹库中与所述待消歧姓名的全文本信息的语义指纹相似度满足预定相似度数值的各个匹配的全文本信息;
[0029]分别计算归属于该至少两个消歧后的姓名群组的各个匹配的全文本信息与所述待消歧姓名的全文本信息的语义指纹相似度和的平均值;
[0030]将平均值最大的姓名群组确定为所述待消歧姓名的全文本信息的语义指纹所属的消歧后的姓名群组。
[0031]本发明的另一实施例提出了一种姓名消歧的装置,包括:
[0032]数据预处理模块,用于对包括待消歧姓名的全文本信息进行预处理,以提取全文本信息的语义特征;
[0033]语义指纹产生模块,用于根据所述全文本信息的语义特征生成待消歧姓名的全文本信息的语义指纹;
[0034]语义指纹比较模块,用于通过将待消歧姓名的全文本信息的语义指纹与已构建的语义指纹库中每个具有与所述待消歧姓名同名的全文本信息的语义指纹进行比较,确定所述待消歧姓名的全文本信息的语义指纹与语义指纹库中的每个具有与所述待消歧姓名同名的全文本信息的语义指纹的相似度;
[0035]认领决策模块,用于根据所述待消歧姓名的全文本信息的语义指纹与语义指纹库中的每个具有与所述待消歧姓名同名的全文本信息的语义指纹的相似度,确定所述待消歧姓名的全文本信息的语义指纹所属的消歧后的姓名群组,具有与所述待消歧姓名同名的全文本信息的语义指纹属于至少一个姓名群组。
[0036]优选地,具有相同姓名且为不同作者的全文本信息的语义指纹通过不同的姓名群组来划分。
[0037]优选地,所述的装置,还包括:
[0038]指派模块,用于若所述待消歧姓名的全文本信息的语义指纹无所属的消歧后的姓名群组,则在所述语义指纹库中建立所述待消歧姓名的全文本信息的语义指纹所属的姓名群组。
[0039]优选地,所述数据预处理模块包括:
[0040]获取单元,用于获取待消歧姓名的合著者、电子邮箱、所属机构的信息,以生成合著者特征、电子邮箱特征和机构特征;
[0041]数据处理单元,用于对所述全文本信息进行格式标准化、分词及过滤处理,以得到多个分词片段;
[0042]提取单元,用于预定的特征提取模型从所述多个分词片段中提取文本特征;
[0043]语义特征生成单元,用于根据所述合著者特征、电子邮箱特征、机构特征和文本特征生成全文本信息的语义特征。
[0044]优选地,所述语义指纹包括以下至少一项:
[0045]文本指纹、邮箱指纹、机构指纹和合著者指纹。
[0046]优选地,所述语义指纹比较模块包括:
[0047]比较单元,用于将待消歧姓名的全文本信息的文本指纹和/或邮箱指纹和/或机构指纹和/或合著者指纹与语义指纹库中已分类的每个具有与所述待消歧姓名同名的全文本信息的文本指纹和/或邮箱指纹和/或机构指纹和/或合著者指纹进行比较;
[0048]输出单元,用于根据比较结果确定所述相似度。
[0049]更优选地,所述比较单元,用于依据预设的语义指纹优先级信息,将待消歧姓名的全文本信息的文本指纹和/或邮箱指纹和/或机构指纹和/或合著者指纹与语义指纹库中已分类的每个具有与所述待消歧姓名同名的全文本信息的文本指纹和/或邮箱指纹和/或机构指纹和/或合著者指纹进行比较;所述输出单元,用于根据比较结果确定所述相似度。
[0050]优选地,所述预设的语义指纹优先级信息为邮箱指纹、合著者指纹、机构指纹和文本指纹对应的优先级从高到低的顺序排列。
[0051]更优选地,所述比较单元,用于依据预设的语义指纹优先级信息,通过下述执行顺序来确定所述相似度:
[0052]依据邮箱指纹来确定所述相似度;
[0053]若邮箱指纹缺失或依据邮箱指纹判断所述相似度不满足预定相似度数值时,则依据合著者指纹来确定所述相似度;
[0054]若依据合著者指纹判断所述相似度不满足预定相似度数值时,依据机构指纹与文本指纹来确定所述相似度;
[0055]若依据机构指纹与文本指纹判断所述相似度不满足预定相似度数值时,依据文本指纹来确定所述相似度;
[0056]若文本指纹判断所述相似度不满足预定相似度数值时,视为不相似。
[0057]优选地,所述认领决策模块包括:
[0058]争议仲裁单元,用于当确定所述待消歧姓名的全文本信息的语义指纹所属的消歧后的姓名群组为至少两个时,确定归属于该至少两个消歧后的姓名群组的全文本信息在已构建的语义指纹库中与所述待消歧姓名的全文本信息的语义指纹相似度满足预定相似度数值的各个匹配的全文本信息;
[0059]平均值计算单元,用于分别计算归属于该至少两个消歧后的姓名群组的各个匹配的全文本信息与所述待消歧姓名的全文本信息的语义指纹相似度和的平均值;
[0060]姓名确定单元,用于将平均值最大的姓名群组确定为所述待消歧姓名的全文本信息的语义指纹所属的消歧后的姓名群组。
[0061]本发明的技术方案通过建立起文本信息与语义指纹的对应的关系实现获取文本信息语义指纹的目的,同时在匹配过程中不涉及文本的两两比较,而是通过将文本转换为固定长度的语义指纹值,通过语义指纹比较确定文本之间的相似关系,大大降低了比较复杂度,提高了比较效率;通过对比全文本的语义指纹实现了姓名消歧的过程占用存储空间小、执行速度快的目的。
[0062]此外,通过待消歧姓名的全文本信息的语义指纹与语义指纹库中的全文本信息的语义指纹相比较对姓名进行消歧,在保证较高执行速度的同时,提高了姓名消歧的准确性,可为提高数据库检索的准确率、全文本信息深度挖掘的准确率提供了前提保证。同时,本发明的技术方案应用范围广泛,不仅可以应用于各种数据库中的姓名消歧;还可以应用于网页的姓名消歧。
[0063]本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
【附图说明】
[0064]本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0065]图1为本发明中一个实施例的姓名消歧的方法的流程示意图;
[0066]图2为本发明中姓名消歧的方法的全文本信息的语义指纹生成的流程示意图;
[0067]图3为本发明中姓名消歧的方法的语义指纹比较流程示意图;
[0068]图4为本发明中姓名消歧的方法的语义指纹优先级比较流程示意图;
[0069]图5为本发明中姓名消歧的方法的单个语义指纹比较输出原理示意图;
[0070]图6为本发明中姓名消歧的方法的多个语义指纹比较输出原理示意图;
[0071]图7为本发明中姓名消歧的方法的确定对应姓名的流程示意图;
[0072]图8为本发明中一个优选实施例的姓名消歧的方法的流程示意图;
[0073]图9为本发明另一实施例的姓名消歧的装置的结构框架示意图;
[0074]图10为本发明一个优选实施例的姓名消歧的装置的数据预处理模块的结构框架示意图;
[0075]图11为本发明另一优选实施例姓名消歧的装置的语义指纹比较模块的结构框架示意图。
【具体实施方式】
[0076]下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
[0077]本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“親接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
[0078]本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
[0079]本技术领域技术人员可以理解,在发明的实施例中使用的“TF-1DF(termfrequency-1nverse document frequency,词频-逆向文件频率)模型”指的是一种用于信息检索与数据挖掘的常用加权模型;用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
[0080]本技术领域技术人员可以理解,在发明的实施例中使用的“simhash算法”指的是生成文本语义指纹、可用来处理海量文本去重的算法。
[0081]本发明的实施例中姓名消歧的技术方案可以应用在所有文本信息的姓名消歧中;例如文献数据库中的文献著者姓名消歧,搜索引擎的网页姓名消歧;本实施例以文献数据库中的文献著者姓名消歧为例进行实施例的详述。
[0082]图1为本发明实施例的姓名消歧的方法的流程示意图。
[0083]步骤SlOl:对包括待消歧姓名的全文本信息进行预处理,以提取全文本信息的语义特征;步骤S102:根据全文本信息的语义特征生成待消歧姓名的全文本信息的语义指纹;步骤S103:通过将待消歧姓名的全文本信息的语义指纹与已构建的语义指纹库中每个具有与待消歧姓名同名的全文本信息的语义指纹进行比较,确定待消歧姓名的全文本信息的语义指纹与语义指纹库中的每个具有与待消歧姓名同名的全文本信息的语义指纹的相似度;步骤S104:根据待消歧姓名的全文本信息的语义指纹与语义指纹库中的每个与待消歧姓名同名的全文本信息的语义指纹的相似度,确定待消歧姓名的全文本信息的语义指纹所属的消歧后的姓名群组,具有与待消歧姓名同名的全文本信息的语义指纹属于至少一个姓名群组。
[0084]在本发明的上述实施例中,提出了姓名消歧的方案,其中,步骤S1I通过对包括待消歧姓名的全文本信息进行预处理,以提取全文本信息的语义特征,实现提高文献数据库检索的准确率;提高用户获取文献信息的效率;步骤S102和步骤S103通过建立起文本信息与语义指纹的一一对应的关系,从而有效的进行了降维,整个过程不涉及原文本的两两比较,而是将全文语义指纹相似度的比较转换为固定长度的指纹值的比较,具有较高的效率。
[0085]例如,本实施例中的姓名消歧方法应用于文献数据库中的文献作者姓名消歧,其中,待消歧作者姓名的全文本信息为一篇全新的文献,包括论文、期刊、文章、专利或专利申请内容等,待消歧的作者就是该全新文献的作者,是已知的,无需获取,如该作者姓名为“张三”;将待消歧作者张三全新的文献根据上述姓名消歧的方法进行处理,将待消歧作者张三的文献的语义指纹与语义数据库中与其同名的各个作者张三的文献所对应的语义指纹进行比较;具有相同姓名且为不同作者的全文本信息的语义指纹通过不同的姓名群组来划分;在语义指纹库中具有与待消歧作者张三同名,但表示不同的作者通过各自的群组进行划分;如张三A群组、张三B群组等;所属于每个同名的张三群组的文献信息为一个或多个;相应的所属于张三群组的每个文献信息均对应一组语义指纹;确定待消歧作者张三的全新文献语义指纹在语义指纹库中属于哪个同名张三姓名群组,相应的确定文献数据库中存在该作者张三;而现有技术中的新的文献的著者姓名消歧一般只是根据题录信息,如标题、作者、摘要和关键词,进行消歧,远远没有本发明选取的文献全文本信息进行姓名消歧精确。参照图1所示的实施例中,具体地,在步骤S104中,根据待消歧姓名的全文本信息的语义指纹与语义指纹库中的每个具有与待消歧姓名同名的全文本信息的语义指纹的相似度,确定待消歧姓名的全文本信息的语义指纹所属的消歧后的姓名群组,具有与所述待消歧姓名同名的全文本信息的语义指纹属于至少一个姓名群组;若待消歧姓名的全文本信息的语义指纹无所属的消歧后的姓名群组,则在语义指纹库中建立待消歧姓名的全文本信息的语义指纹所属的姓名群组;以便动态更新语义指纹数据库。例如,本实施例中的姓名消歧方法应用于论文文献数据库中时,若该待消歧的作者新的论文文献在语义指纹库中无匹配同名作者的语义指纹,相应的语义指纹库中也不会存在新的论文文献的语义指纹所属的姓名群组,则相应的在文献数据库中也无该新论文的作者;即该论文处于无人认领,则将该论文的作者指派给新作者,建立待消歧姓名的论文文献信息的语义指纹所属的姓名群组,动态更新语义指纹库;本发明的技术方案不但对作者姓名进行了有效消歧,还保证了作者姓名的语义指纹库更新的时效性。当有新的全文本信息输入时,通过将其语义指纹与库中指纹比较进行作者姓名的消歧,动态建立作者指纹库;避免了传统方法中需要对库中所有同名全文本信息重新进行聚类消歧的过程,从而进一步避免了对整个规模较大的数据集运行耗时较长的聚类算法。
[0086]步骤SlOl:对包括待消歧姓名的全文本信息进行预处理,以提取全文本信息的语义特征;
[0087I 其中,如图2所示,预处理具体包括:
[0088]获取待消歧姓名的合著者、电子邮箱、所属机构的信息,以生成合著者特征、电子邮箱特征和机构特征;
[0089]对全文本信息进行格式标准化、分词及过滤处理,以得到多个分词片段;
[0090]基于预定的特征提取模型从多个分词片段中提取文本特征;
[0091]根据合著者特征、电子邮箱特征、机构特征和文本特征生成全文本信息的语义特征。
[0092]例如,若论文文献源数据中存在待消歧姓名的合著者、电子邮箱和所属机构的信息的其中一种或多种信息,直接获取待消歧姓名的合著者、电子邮箱和所属机构的信息,并生成待消歧姓名的合著者特征、电子邮箱特征和机构的特征;将Pdf格式的论文文献全文转化为计算机可读取的txt格式、并采用最大概率法和隐马尔科夫模型的分词引擎进行文本分词和过滤停用词,采用TF-1DF模型或与TF-1DF模型功能相近的特征提取模型得到文本内容特征;根据合著者特征、电子邮箱特征、机构的特征和文本内容特征生成论文文献的语义特征。
[0093]步骤S102:根据全文本信息的语义特征生成待消歧姓名的全文本信息的语义指纹;其中语义指纹,包括以下至少一项:文本指纹、邮箱指纹、机构指纹和合著者指纹。
[0094]例如,对完成基于论文文献中文本特征提取结果,采用simhash算法或与simhash算法功能相近算法来生成文本指纹;其中,以文本语义特征为基础,将高维的文本对象转换为64位或128位二进制码作为文本指纹,并生成新论文的作者邮箱指纹、机构指纹、合著者指纹;同时可根据语义指纹构建指纹库。
[0095]针对当前文献数据急剧增长,海量重名论文及其文献数据的消歧需要高效的解决方法;步骤S102依据相似的对象拥有相似的指纹信息的原理,采用对文献全文指纹化的方法,进行姓名消歧;该步骤使得本发明的方法占用存储空间小、速度快,适应于现有的文献数据库;而现有技术中则通过大规模文本运用传统聚类算法实现,运行时间太久,很难在实际系统中应用。
[0096]步骤S103:通过将待消歧姓名的全文本信息的语义指纹与已构建的语义指纹库中的每个具有与所述待消歧姓名同名的全文本信息的语义指纹进行比较,确定待消歧姓名的全文本信息的语义指纹与语义指纹库中的每个具有与所述待消歧姓名同名的全文本信息的语义指纹的相似度;
[0097]其中,如图3所示,步骤S103包括:步骤S201和步骤S202;
[0098]步骤S201:将待消歧姓名的全文本信息的文本指纹和/或邮箱指纹和/或机构指纹和/或合著者指纹与语义指纹库中已分类的每个具有与所述待消歧姓名同名的全文本信息的文本指纹和/或邮箱指纹和/或机构指纹和/或合著者指纹进行比较;
[0099]步骤S202:根据比较结果确定相似度。
[0100]具体地,依据预设的语义指纹优先级信息,将待消歧姓名的全文本信息的文本指纹和/或邮箱指纹和/或机构指纹和/或合著者指纹与语义指纹库中已分类的每个具有与所述待消歧姓名同名的全文本信息的文本指纹和/或邮箱指纹和/或机构指纹和/或合著者指纹进行比较,并根据比较结果确定相似度。
[0101]更具体地,将待消歧姓名的全文本信息的邮箱指纹、合著者指纹、文本指纹和机构指纹、文本指纹分别与语义指纹库中已分类的每个具有与所述待消歧姓名同名的全文本信息的对应的邮箱指纹、合著者指纹、文本指纹和机构指纹、文本指纹进行比较,并根据比较结果确定相似度。
[0102]具体地,预设的语义指纹优先级信息为邮箱指纹、合著者指纹、机构指纹和文本指纹对应的优先级从高到低的顺序排列。
[0103]具体地,依据预设的语义指纹优先级信息,通过下述执行顺序来确定相似度:如图4所示,包括步骤S301、步骤S302、步骤S303、步骤S304和步骤S305 ;
[0104]步骤S301,依据邮箱指纹来确定相似度;
[0105]步骤S302,若邮箱指纹缺失或依据邮箱指纹判断相似度不满足预定相似度数值时,则依据合著者指纹来确定相似度;
[0106]步骤S303,若依据合著者指纹判断相似度不满足预定相似度数值时,依据机构指纹与文本指纹来确定相似度;
[0107]步骤S304,若依据机构指纹与文本指纹判断相似度不满足预定相似度数值时,依据文本指纹来确定相似度;
[0108]步骤S305,若文本指纹判断相似度不满足预定相似度数值时,视为不相似。
[0109]例如,如图5所示,新来论文文献的指纹^与语义指纹库中已分类的所属于作者姓名群组中的文献的指纹fx作对比,并合成一个H(i,x)五元组,每个分量的值在0-1之间,设置H(5) =0表示该论文不是该作者的作品,设置H(5) = I表示该论文确系该作者的作品;
[0110]按照以下优先级进行比较:
[0111]当邮箱指纹相同时,H(5)= 1;否则H(5)=0并继续往下执行;
[0112]当合著者指纹具有较高的相似度时,H(5)= I;否则H(5) = O并继续往下执行;
[0113]确定机构指纹与文本指纹的相似度,当机构指纹具有较高相似性且文本指纹具有较高相似性,则H( 5) = 1;否则H( 5) = O并继续往下执行;
[0114]确定文本指纹的相似度,设置H(5)=文本指纹相似度;若文本指纹判断相似度不满足预定相似度数值时,视为不相似。
[0115]其中,文本指纹相似性通过海明距离度量,S卩2个指纹值相差的位数;邮箱指纹、机构指纹以及合著者指纹通过字符串匹配;图5中的五元组从左到右依次为1、2、3、4和5;分别对应的是文本指纹相似度、机构指纹相似度、合著者指纹相似度和邮箱指纹相似度;H(5)为图5中的五元组的第5位的输出;所示合著者指纹具有较高相似性指的是合著者指纹相似度大于其指纹相似度的阈值;所示机构指纹具有较高相似性指的是机构指纹相似度大于其指纹相似度的阈值;所示文本指纹具有较高相似性指的是文本指纹相似度大于其指纹相似度的阈值;文本相似性也可采用其它距离公式度量。
[0116]当一篇新来的论文文献的语义指纹与语义指纹库中的所属于各个同名作者姓名群组的所有论文文献的语义指纹相比较;其中,该新来的论文文献的语义指纹与语义指纹库中的所属于一个同名作者姓名群组的N个文献的N个语义指纹作对比后得到了 N个比较结果H(x,5),认领决策过程开始,如图6所示,为该一篇新论文文献找作者认领的过程:
[0117]当在新来的论文文献的语义比较与语义指纹库中的某i个文献的语义指纹比较时,其比较结果的输出为H( i,5) = l,则有作者认领表示输为Yes,即确定新来的论文的语义指纹与语义指纹库中的某个语义指纹匹配,则文献数据库中已经存在该论文作者;
[0118]否则,记H(x,5)输出值在δ2与I之间的比较结果的数量为n,其中,δ2〈1且δ2为设定的阈值;若η>Ν/3,N为该作者在语义指纹库中的所有语义指纹总数量,则有作者认领表示为Yes;即确定新来的论文的语义指纹与语义指纹库中的某个语义指纹匹配,则文献数据库中已经存在该论文作者;
[0119]其它情况下,无作者认领表示为No,即确定新来的论文的语义指纹与语义指纹库中的无语义指纹匹配,则文献数据库中不存在该论文作者。
[0120]参照图1所示的实施例中,具体地,如图8所示,包括步骤S401、步骤S402和步骤S403;
[0121]步骤S401:当确定待消歧姓名的全文本信息的语义指纹所属的消歧后的姓名群组为至少两个时,确定归属于该至少两个消歧后的姓名群组的全文本信息在已构建的语义指纹库中与待消歧姓名的全文本信息的语义指纹相似度满足预定相似度数值的各个匹配的全文本信息;
[0122]分别计算归属于该至少两个消歧后的姓名群组的各个匹配的全文本信息与待消歧姓名的全文本信息的语义指纹相似度和的平均值;
[0123]步骤S402:将平均值最大的所对应的姓名群组确定为待消歧姓名的全文本信息的语义指纹所属的消歧后的姓名群组;
[0124]步骤S403:当平均值相同时,则由人工决定待消歧姓名的全文本信息的语义指纹所属的消歧后的姓名群组。
[0125]具体地,当存在多个认领作者时:不失一般性,考察至少两个作者的所有论文文献所对应的语义指纹满足预定相似度数值的输出值H(x,5)的和的平均值;将平均值最大的满足预定相似度数值的所有论文文献所对应的作者姓名群组确定为待消歧作者论文文献的语义指纹所属的消歧后的姓名群组;当平均值相同时,则由人工处理。
[0126]例如,一篇新论文文献在确认有作者进行认领后,可能存在如下结果和步骤,如图7所示,包括:
[0127]当只有I人认领:将该新论文文献指定为文献数据库中该同名认领作者的作品;SP确定新来的论文的语义指纹与所属于语义指纹库中的同名作者的姓名群组的一个语义指纹匹配,则语义指纹库中匹配的语义指纹所对应的同名作者与该论文作者为同一人,同时相对应的文献数据库中的两个作者也是同一人。
[0128]当有2个以上作者认领:通过争议仲裁将该新论文文献指定给其中的I名作者;SP确定新来的论文的语义指纹与语义指纹库中的某些语义指纹匹配,则语义指纹库中匹配的语义指纹所对应的同一个作者与该论文作者为同一人,同时相对应的文献数据库中的两个作者也是同一人。
[0129]而上述两种认领状态都不存在,就是当无人认领:这篇论文是一名新的作者的作品,指派给新作者,即具有与语义指纹库中的作者同名,但非同一作者。确定新来的论文的语义指纹与语义指纹库中无匹配的语义指纹,则建立待消歧姓名的论文文献信息的语义指纹所属的姓名群组,动态更新语义指纹库;相应的论文数据库中也无该同名且是同一个人的新作者,同时更新写入该新作者。当有新论文文献加入时,传统方法需要对语义指纹库中所有同名作者论文重新进行聚类消歧,在数据规模很大时效率很低,在本发明的实施例中,基于新加入的论文生成语义指纹,并与库中指纹比较消歧,动态建立作者指纹库,不仅效率高,而且不需要对整个数据集运行耗时较长的聚类算法。
[0130]图9为本发明另一实施例的姓名消歧的装置的结构框架示意图。
[0131]数据预处理模块501对包括待消歧姓名的全文本信息进行预处理,以提取全文本信息的语义特征;语义指纹产生模块502根据全文本信息的语义特征生成待消歧姓名的全文本信息的语义指纹;语义指纹比较模块503通过将待消歧姓名的全文本信息的语义指纹与已构建的语义指纹库中每个具有与待消歧姓名同名的全文本信息的语义指纹进行比较,确定待消歧姓名的全文本信息的语义指纹与语义指纹库中的每个具有与待消歧姓名同名的全文本信息的语义指纹的相似度;认领决策模块504根据待消歧姓名的全文本信息的语义指纹与语义指纹库中的每个具有与待消歧姓名同名的全文本信息的语义指纹的相似度,确定与待消歧姓名的全文本信息的语义指纹所属的消歧后的姓名群组,具有与待消歧姓名同名的全文本信息的语义指纹属于至少一个姓名群组。。
[0132]在本发明的另一实施例中,提出了姓名消歧的装置方案,提高文本信息数据库检索的准确率、提高用户获取文本信息的效率;还提高全文本信息深度挖掘的准确率,从而进一步、较好地对新论文的作者进行评价、学术社会网络分析、项目评审专家推荐等;本发明通过数据预处理模块501的全文本信息进行预处理,以提取全文本信息的语义特征,实现提高文献数据库检索的准确率;提高用户获取文献信息的效率;本发明另一实施例通过语义指纹产生模块502建立起文本信息与语义指纹的一一对应的关系,从而有效的进行了降维,整个过程不涉及原文本的两两比较,而是将全文语义指纹相似度的比较转换为固定长度的指纹值的比较,具有较高的效率。
[0133]例如,本实施例中的姓名消歧装置应用于文献数据库中的文献作者姓名消歧,其中,待消歧作者姓名的全文本信息为一篇全新的文献,包括论文、期刊、文章、专利或专利申请内容等,待消歧的作者就是该全新文献的作者,是已知的,无需获取,如该作者姓名为“张三”;将作者张三全新的文献根据上述姓名消歧的装置进行处理,通过各个模块确定作者张三的全新文献语义指纹在语义指纹库中存在与其相匹配的语义指纹及该匹配的语义指纹所属的同名张三姓名群组,相应的确定文献数据库中存在该作者张三;在语义指纹库中具有与待消歧作者张三同名的张三群组可以为一个或多个,分别表示不同的作者;每个同名的张三群组下也可以有一个或多个文献信息;每个文献信息均对应一组语义指纹;具体地,具有相同姓名且为不同作者的全文本信息的语义指纹通过不同的姓名群组来划分。例如,在语义指纹库中,每个不同的作者均有自己的姓名群组;同一姓名,但不同的作者通过其姓名群组进行分类;每个姓名群组下预定有一个或多个不同的文献信息;每个文献信息均对应一组语义指纹。
[0134]在如图9所示的实施例中,具体地,在认领决策模块504后,还包括指派模块:
[0135]指派模块,若待消歧姓名的全文本信息的语义指纹无所属的消歧后的姓名群组,则在语义指纹库中建立待消歧姓名的全文本信息的语义指纹所属的姓名群组;以便动态更新语义指纹数据库。
[0136]例如,应用于论文文献数据库中时,指派模块,如果该待消歧作者的新论文的语义指纹在语义指纹库中无匹配的语义指纹,语义指纹库中也不会存在新的论文文献的语义指纹所属的姓名群组,则为无人认领,即论文数据库中没有该作者,则指派给新作者,并在语义指纹库中建立待消歧姓名的全文本信息的语义指纹所属的姓名群组,动态更新语义指纹库;本发明的技术方案不但对作者进行了有效率的消歧,还保证作者指纹库更新的时效性。[0? 37] 具体地,如图10所示,数据预处理模块501包括:获取单元601、数据处理单元602、提取单元603和语义特征生成单元604 ;
[0138]获取单元601获取待消歧姓名的合著者、电子邮箱、所属机构的信息,以生成合著者特征、电子邮箱特征和机构特征;
[0139]数据处理单元602对全文本信息进行格式标准化、分词及过滤处理,以得到多个分词片段;
[0140]提取单元603基于预定的特征提取模型从多个分词片段中提取全文本信息的文本特征;
[0141]语义特征生成单元604根据合著者特征、电子邮箱特征、机构特征和文本特征生成全文本信息的语义特征。
[0142]例如,若论文文献源数据中存在待消歧姓名的合著者、电子邮箱和所属机构的信息的其中一种或多种信息,获取单元601直接获取待消歧姓名的合著者、电子邮箱和所属机构的信息,并生成待消歧姓名的合著者特征、电子邮箱特征和机构的特征;数据处理单元602将pdf格式的论文文献全文转化为计算机可读取的txt格式、并采用最大概率法和隐马尔科夫模型的分词引擎进行文本分词和过滤停用词,提取单元603采用TF-1DF模型或与TF-1DF模型功能相近的特征提取模型得到文本内容特征,语义特征生成单元604根据合著者特征、电子邮箱特征、机构的特征和文本内容特征生成论文文献的语义特征。
[0143]具体地,在语义指纹产生模块502中,语义指纹包括以下至少一项:
[0144]文本指纹、邮箱指纹、机构指纹和合著者指纹。
[0145]例如,对完成基于文献中文本特征提取结果,语义指纹产生模块502采用simhash算法或与simhash算法功能相近的生成文本指纹的算法来生成文本指纹;其中,以文本语义特征为基础,将高维的文本对象转换为64位或128位二进制码作为文本指纹,并生成作者邮箱指纹、机构指纹、合著者指纹;同时可建立构建模块对语义指纹进行构建指纹库。
[0146]具体地,如图11所示,语义指纹比较模块503包括比较单元701和输出单元702;
[0147]比较单元701将待消歧姓名的全文本信息的文本指纹和/或邮箱指纹和/或机构指纹和/或合著者指纹与语义指纹库中已分类的每个具有与所述待消歧姓名同名的全文本信息的文本指纹和/或邮箱指纹和/或机构指纹和/或合著者指纹进行比较;
[0148]输出单元702根据比较结果确定相似度。
[0149]更具体地,在比较单元701中,依据预设的语义指纹优先级信息,将待消歧姓名的全文本信息的文本指纹和/或邮箱指纹和/或机构指纹和/或合著者指纹与语义指纹库中已分类的每个具有与所述待消歧姓名同名的全文本信息的文本指纹和/或邮箱指纹和/或机构指纹和/或合著者指纹进行比较;在输出单元702中,根据比较结果确定相似度。
[0150]更具体地,比较单元701将待消歧姓名的全文本信息的邮箱指纹、合著者指纹、文本指纹和机构指纹、文本指纹分别与语义指纹库中已分类的每个具有与所述待消歧姓名同名的全文本信息的对应的邮箱指纹、合著者指纹、文本指纹和机构指纹、文本指纹进行比较;
[0151]输出单元702根据比较结果确定相似度。
[0152]具体地,在比较单元701中,预设的语义指纹优先级信息为邮箱指纹、合著者指纹、机构指纹和文本指纹对应的优先级从高到低的顺序排列。
[0153]更具体地,在比较单元701中,依据预设的语义指纹优先级信息,通过下述执行顺序来确定相似度:
[0154]依据邮箱指纹来确定相似度;
[0155]若邮箱指纹缺失或依据邮箱指纹判断相似度不满足预定相似度数值时,则依据合著者指纹来确定相似度;
[0156]若依据合著者指纹判断相似度不满足预定相似度数值时,依据机构指纹与文本指纹来确定相似度;
[0157]若依据机构指纹与文本指纹判断相似度不满足预定相似度数值时,依据文本指纹来确定相似度;
[0158]若文本指纹判断相似度不满足预定相似度数值时,视为不相似。
[0159]比较单元701将新来论文文献的指纹^与语义指纹库中已分类的所属于同名作者姓名群组的文献的指纹fx作对比,并合成一个H(i,x)五元组,每个分量的值在0-1之间,设置H (5 )= O表示该论文不是该作者的作品,设置H (5 ) = I表示该论文确系该作者的作品;比较单元701设置在比较器中;
[0160]比较单元701按照以下优先级进行比较:
[0161]当邮箱指纹相同时,H(5)= 1;否则H(5)=0并继续往下执行;
[0162]当合著者指纹具有较高相似性时,H(5)= 1;否则H(5)=0并继续往下执行;
[0163]确定机构指纹与文本指纹的相似度,当机构指纹具有较高相似性且文本指纹具有较高相似性,则H( 5) = 1;否则H( 5) = O并继续往下执行;
[0164]确定文本指纹的相似度,设置H(5)=文本指纹相似度;若文本指纹判断相似度不满足预定相似度数值时,视为不相似;
[0165]其中,文本指纹相似性通过海明距离度量,即2个指纹值相差的位数;邮箱指纹、机构指纹以及合著者指纹通过字符串匹配;如图5所示中的五元组从左到右依次为1、2、3、4和5;分别对应的是文本指纹相似度、机构指纹相似度、合著者指纹相似度和邮箱指纹相似度;H(5)为如图5所示中的五元组的第5位的输出;所示机构指纹具有较高相似性指的是机构指纹相似度大于其指纹相似度的阈值;所示文本指纹具有较高相似性指的是文本指纹相似度大于其指纹相似度的阈值。
[0166]当一篇新来的论文文献的语义指纹与语义指纹库中的所有同名作者姓名群组的所有论文文献的语义指纹在比较单元701相比较时;其中,该新来的论文文献的语义指纹与语义指纹库中的所属于某个同名作者姓名群组的N个文献的N个语义指纹作对比后得到了N个比较结果H(x,5);认领决策模块504为该一篇新论文文献找作者认领:
[0167]当在新来的论文文献的语义比较与语义指纹库中的某i个文献的语义指纹在比较单元701比较时,输出单元702输出其比较结果在为H(i,5) = l,则认领决策模块504确定有作者认领。
[0168]否则,记输出单元702中H(x,5)输出值在δ2与I之间的比较结果的数量为n,其中,δ2〈1且δ2为设定的阈值;,认领决策模块504判断若η>Ν/3,Ν为该作者在语义指纹库中的所有语义指纹总数量,则确定有作者认领;
[0169]其它情况下,认领决策模块504确定无作者认领。
[0170]具体地,认领决策模块504包括:
[0171]争议仲裁单元,当确定与待消歧姓名的全文本信息的语义指纹所属的消歧后的姓名群组为至少两个时,确定归属于该至少两个消歧后的姓名群组的全文本信息在已构建的语义指纹库中与待消歧姓名的全文本信息的语义指纹相似度满足预定相似度数值的各个匹配的全文本信息;
[0172]平均值计算单元,分别计算归属于该至少两个消歧后的姓名群组的各个匹配的全文本信息与待消歧姓名的全文本信息的语义指纹相似度和的平均值;
[0173]姓名确定单元,将平均值最大的姓名群组确定为待消歧姓名的全文本信息的语义指纹所属的消歧后的姓名群组;
[0174]当平均值相同时,则由人工决定待消歧姓名的全文本信息的语义指纹所属的消歧后的姓名群组。例如,认领决策模块504—篇新论文文献在确认有作者进行认领后,当只有I人认领:将该新论文文献指派为该同名作者的论文;即确定新来的论文的语义指纹与语义指纹库中所属于同名作者姓名群组的一个语义指纹匹配,则语义指纹库中匹配的语义指纹所属的作者与该论文作者为同名且为同一人,同时相对应的文献数据库中的两个作者也是同一人。
[0175]当有2个以上作者认领:争议仲裁单元仲裁将该新论文文献指定给文献数据库其中的I名作者;当无人认领:这篇论文是一名新的作者的论文,指派给新作者,新作者具有与语义指纹库中的作者同名,但非同一作者;若确定新来的论文的语义指纹与语义指纹库中的某些语义指纹匹配,则语义指纹库中匹配的语义指纹所对应的同一个作者与该论文作者为同名且为同一人,同时相对应的文献数据库中的两个作者也是同一人。
[0176]本发明的姓名消歧的技术方案也可以应用在其他文献的姓名消歧,或者搜索引擎的网页姓名消歧;其他文献的姓名消歧和搜索引擎的网页姓名消歧的方法和装置与上述所有实施例的方案相同,在此就不再赘述。
[0177]本技术领域技术人员可以理解,本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序,这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、R0M(Read-0nly Memory,只读存储器)、RAM (Random Access Memory,随即存储器)、EPROM(Erasable ProgrammableRead-Only Memory,可擦写可编程只读存储器)、EEPROM(ElectricalIy ErasableProgrammable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。
[0178]本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。
[0179]本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
[0180]以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
【主权项】
1.一种姓名消歧的方法,其特征在于,包括: 对包括待消歧姓名的全文本信息进行预处理,以提取全文本信息的语义特征; 根据所述全文本信息的语义特征生成待消歧姓名的全文本信息的语义指纹; 通过将待消歧姓名的全文本信息的语义指纹与已构建的语义指纹库中每个具有与所述待消歧姓名同名的全文本信息的语义指纹进行比较,确定所述待消歧姓名的全文本信息的语义指纹与语义指纹库中的每个具有与所述待消歧姓名同名的全文本信息的语义指纹的相似度; 根据所述待消歧姓名的全文本信息的语义指纹与语义指纹库中的每个具有与所述待消歧姓名同名的全文本信息的语义指纹的相似度,确定所述待消歧姓名的全文本信息的语义指纹所属的消歧后的姓名群组,具有与所述待消歧姓名同名的全文本信息的语义指纹属于至少一个姓名群组。2.根据权利要求1所述的方法,其特征在于,具有相同姓名且为不同作者的全文本信息的语义指纹通过不同的姓名群组来划分。3.根据权利要求1或2所述的方法,其特征在于,还包括: 若所述待消歧姓名的全文本信息的语义指纹无所属的消歧后的姓名群组,则在所述语义指纹库中建立所述待消歧姓名的全文本信息的语义指纹所属的姓名群组。4.根据权利要求1或2所述的方法,其特征在于,所述对包含待消歧姓名的全文本信息进行预处理,以提取全文本信息的语义特征,包括: 获取待消歧姓名的合著者、电子邮箱和所属机构的信息,以生成合著者特征、电子邮箱特征和机构特征; 对所述全文本信息进行格式标准化、分词及过滤处理,以得到多个分词片段; 基于预定的特征提取模型从所述多个分词片段中提取文本特征; 根据所述合著者特征、电子邮箱特征、机构特征和文本特征生成全文本信息的语义特征。5.根据权利要求1或2所述的方法,其特征在于,所述语义指纹,包括以下至少一项: 文本指纹、邮箱指纹、机构指纹和合著者指纹。6.根据权利要求5所述的方法,其特征在于,所述通过将待消歧姓名的全文本信息的语义指纹与已构建的语义指纹库中的每个具有与所述待消歧姓名同名的全文本信息的语义指纹进行比较,确定所述待消歧姓名的全文本信息的语义指纹与语义指纹库中的每个具有与所述待消歧姓名同名的全文本信息的语义指纹的相似度,包括: 将待消歧姓名的全文本信息的文本指纹和/或邮箱指纹和/或机构指纹和/或合著者指纹与语义指纹库中已分类的每个具有与所述待消歧姓名同名的全文本信息的文本指纹和/或邮箱指纹和/或机构指纹和/或合著者指纹进行比较,并根据比较结果确定所述相似度。7.根据权利要求6所述的方法,其特征在于,包括: 依据预设的语义指纹优先级信息,将待消歧姓名的全文本信息的文本指纹和/或邮箱指纹和/或机构指纹和/或合著者指纹与语义指纹库中已分类的每个具有与所述待消歧姓名同名的全文本信息的文本指纹和/或邮箱指纹和/或机构指纹和/或合著者指纹进行比较,并根据比较结果确定所述相似度。8.根据权利要求7所述的方法,其特征在于,所述预设的语义指纹优先级信息为邮箱指纹、合著者指纹、机构指纹和文本指纹对应的优先级从高到低的顺序排列。9.根据权利要求7或8所述的方法,其特征在于,依据预设的语义指纹优先级信息,通过下述执行顺序来确定所述相似度: 依据邮箱指纹来确定所述相似度; 若邮箱指纹缺失或依据邮箱指纹判断所述相似度不满足预定相似度数值时,则依据合著者指纹来确定所述相似度; 若依据合著者指纹判断所述相似度不满足预定相似度数值时,依据机构指纹与文本指纹来确定所述相似度; 若依据机构指纹与文本指纹判断所述相似度不满足预定相似度数值时,依据文本指纹来确定所述相似度; 若文本指纹判断所述相似度不满足预定相似度数值时,视为不相似。10.根据权利要求9所述的方法,其特征在于,还包括: 当确定所述待消歧姓名的全文本信息的语义指纹所属的消歧后的姓名群组为至少两个时,确定归属于该至少两个消歧后的姓名群组的全文本信息的语义指纹在已构建的语义指纹库中与所述待消歧姓名的全文本信息的语义指纹相似度满足预定相似度数值的各个匹配的全文本信息; 分别计算归属于该至少两个消歧后的姓名群组的各个匹配的全文本信息与所述待消歧姓名的全文本信息的语义指纹相似度和的平均值;将平均值最大的姓名群组确定为所述待消歧姓名的全文本信息的语义指纹所属的消歧后的姓名群组。11.一种姓名消歧的装置,其特征在于,包括: 数据预处理模块,用于对包括待消歧姓名的全文本信息进行预处理,以提取全文本信息的语义特征; 语义指纹产生模块,用于根据所述全文本信息的语义特征生成待消歧姓名的全文本信息的语义指纹; 语义指纹比较模块,用于通过将待消歧姓名的全文本信息的语义指纹与已构建的语义指纹库中每个具有与所述待消歧姓名同名的全文本信息的语义指纹进行比较,确定所述待消歧姓名的全文本信息的语义指纹与语义指纹库中的每个具有与所述待消歧姓名同名的全文本信息的语义指纹的相似度; 认领决策模块,用于根据所述待消歧姓名的全文本信息的语义指纹与语义指纹库中的每个具有与所述待消歧姓名同名的全文本信息的语义指纹的相似度,确定所述待消歧姓名的全文本信息的语义指纹所属的消歧后的姓名群组,具有与所述待消歧姓名同名的全文本信息的语义指纹属于至少一个姓名群组。12.根据权利要求11所述的装置,其特征在于,具有相同姓名且为不同作者的全文本信息的语义指纹通过不同的姓名群组来划分。13.根据权利要求11或12所述的装置,其特征在于,还包括: 指派模块,用于若所述待消歧姓名的全文本信息的语义指纹无所属的消歧后的姓名群组,则在所述语义指纹库中建立所述待消歧姓名的全文本信息的语义指纹所属的姓名群组。14.根据权利要求11或12所述的装置,其特征在于,所述数据预处理模块包括: 获取单元,用于获取待消歧姓名的合著者、电子邮箱、所属机构的信息,以生成合著者特征、电子邮箱特征和机构特征; 数据处理单元,用于对所述全文本信息进行格式标准化、分词及过滤处理,以得到多个分词片段; 提取单元,用于基于预定的特征提取模型从所述多个分词片段中提取文本特征; 语义特征生成单元,用于根据所述合著者特征、电子邮箱特征、机构特征和文本特征生成全文本信息的语义特征。15.根据权利要求11或12所述的装置,其特征在于,所述语义指纹包括以下至少一项: 文本指纹、邮箱指纹、机构指纹和合著者指纹。16.根据权利要求11或12所述的装置,其特征在于,所述语义指纹比较模块包括: 比较单元,用于将待消歧姓名的全文本信息的文本指纹和/或邮箱指纹和/或机构指纹和/或合著者指纹与语义指纹库中已分类的每个具有与所述待消歧姓名同名的全文本信息的文本指纹和/或邮箱指纹和/或机构指纹和/或合著者指纹进行比较; 输出单元,用于根据比较结果确定所述相似度。17.根据权利要求16所述的装置,其特征在于,所述比较单元用于依据预设的语义指纹优先级信息,将待消歧姓名的全文本信息的文本指纹和/或邮箱指纹和/或机构指纹和/或合著者指纹与语义指纹库中已分类的每个具有与所述待消歧姓名同名的全文本信息的文本指纹和/或邮箱指纹和/或机构指纹和/或合著者指纹进行比较;所述输出单元用于根据比较结果确定所述相似度。18.根据权利要求17所述的装置,其特征在于,所述预设的语义指纹优先级信息为邮箱指纹、合著者指纹、机构指纹和文本指纹对应的优先级从高到低的顺序排列。19.根据权利要求17或18所述的装置,其特征在于,所述比较单元用于依据预设的语义指纹优先级信息,通过下述执行顺序来确定所述相似度: 依据邮箱指纹来确定所述相似度; 若依据邮箱指纹缺失或邮箱指纹判断所述相似度不满足预定相似度数值时,则依据合著者指纹来确定所述相似度; 若依据合著者指纹判断所述相似度不满足预定相似度数值时,依据机构指纹与文本指纹来确定所述相似度; 若依据机构指纹与文本指纹判断所述相似度不满足预定相似度数值时,依据文本指纹来确定所述相似度; 若文本指纹判断所述相似度不满足预定相似度数值时,视为不相似。20.根据权利要求19所述的装置,其特征在于,所述认领决策模块包括: 争议仲裁单元,用于当确定所述待消歧姓名的全文本信息的语义指纹所属的消歧后的姓名群组为至少两个时,确定归属于该至少两个消歧后的姓名群组的全文本信息在已构建的语义指纹库中与所述待消歧姓名的全文本信息的语义指纹相似度满足预定相似度数值的各个匹配的全文本信息; 平均值计算单元,用于分别计算归属于该至少两个消歧后的姓名群组的各个匹配的全文本信息与所述待消歧姓名的全文本信息的语义指纹相似度和的平均值; 姓名确定单元,用于将平均值最大的姓名群组确定为所述待消歧姓名的全文本信息的 语义指纹所属的消歧后的姓名群组。
【文档编号】G06F17/27GK106055539SQ201610366086
【公开日】2016年10月26日
【申请日】2016年5月27日
【发明人】韩红旗, 姚长青, 付媛, 李琳娜, 于永胜
【申请人】中国科学技术信息研究所