本发明涉及自然语言处理
技术领域:
,特别涉及一种企业主要相关自然人实体数据对齐方法及系统。
背景技术:
:当将多个数据源中的信息提取出来时进行关联分析时,身份的唯一性识别变得非常重要。比如说在绘制关联图谱时,如果不能判断不同企业信息的自然人是同一个人,则不会将图谱进行合并,不能建立起不同企业间的事实关联信息。再如在不确定同名的两个人是同一个人的情况下,贸然将不同的数据进行合并,则可能产生关联网络构建的错误。近几年同名人识别可以划分到机器学习中的分类问题。利用企业间同名人的其他信息构建特征,用分类算法判断两个同名人是否是同一人。相同的投资人、高管将不同企业紧密联系起来。能够准确、全面的识别不同企业中的同名人是否为同一人,对于企业信用评估,风险传播具有重要意义。相比于其他应用场合的相同姓名自然人识别,企业投资关系中的自然人唯一性识别尤为重要,企业作为现代社会活动的主要载体,承载着很大比例的就业和投资,影响整个社会活动。目前识别企业间同名人的方法主要依赖于数据,如招聘数据、身份证数据。然而这些数据涉及到个人隐私问题,获取难度大,并且覆盖的范围很有限。另外企业投资数据具有本身的特点;当前的实体对齐算法对于投资关系数据本身属性的利用相对空白。技术实现要素:本发明的目的在于提供一种企业主要相关自然人实体数据对齐方法及系统;充分挖掘数据的关联性,发挥数据集成分析的优势;利用投资关联关系的特性,使用企业数据本身的特性,在不多依赖其他数据的情况下,对不同企业的重要同名自然人是否是同一自然人做出较为准确的判断,极大减少计算的开销。并且本发明方法使用机器学习的方式,使用构建模型的方式来实现多个关联网络特征数据的综合使用和判断;相对于简单的规则式判断,更加稳定,计算效率也更高。为解决上述技术问题,本发明实施例提供了以下技术方案:一种企业主要相关自然人实体数据对齐方法,利用企业投资关系的远近来辅助判断不同企业间相同姓名的自然人是否是同一人。当两个企业投资关系度数小于设置阈值时,认为这两个企业间相同姓名的自然人是同一人。本专利中自然人为企业的主要股东、董事、监事、高管等。本发明方法包含以下实现步骤:(1)获取企业数据,所述企业数据包含投资关系、主要相关自然人;(2)获取具有相同姓名自然人的企业数据;(3)构建具有相同自然人的两企业之间的关联关系网络;(4)计算企业之间的投资路径数据;(5)将企业间投资路径作为特征,构建判断模型;(6)使用标注数据训练模型;(7)将待判断同名人的两个企业之间的投资路径特征向量输入到训练后的模型中,由模型判断出同名自然人是否是同一人的概率;当概率值大于设置阈值时判断为同一人。进一步的,所述步骤(4)中的投资路径数据包含:(a)两企业之间的最短投资路径;(b)两企业间投资路径的条数;(c)两企业间同名自然人个数。进一步的,所述方法包含将投资路径数据向量化转化的过程。进一步的,所述步骤(7)中所述投资路径数据向量为:x=[x1、x2、x3、…];其中x为待判定企业的投资路径向量数据,x1为最短投资路径的倒数,x2为投资路径的条数,x3为同名自然人个数。进一步的,述模型公式为:其中f(x)为不同企业同名人为同一人的概率;其中θ为模型需要训练的参数,x为量化后的特征向量。进一步的,所述模型训练过程中损失函数的公式如下:其中j(θ)为损失函数,m为样本个数,y(i)为第i个样本的判断标注值,hθ(x(i))为第i样本的模型预测值,n为模型参数个数,λ为正则项参数。进一步的,当企业间的最短投资路径长度大于5时将最短投资路径向量为置为0。进一步的,投资路径长度大于6的投资路径不计入有效路径条数。进一步的,所述步骤(3)中构建关联关系网络的两企业间最短投资路径长度小于5。进一步的,本发明提供一种企业主要相关自然人实体数据对齐方法系统;包含数据获取模块,数据存储模块;数据处理模块;所述数据获取模块,获取待分析目标的相关数据;所述数据存储模块存储包括数据获取模块和数据处理模块的输入、输出的数据;所述数据处理模块;通过上述企业主要相关自然人实体数据对齐方法完成判断不同企业信息中相同姓名的自然人是否是同一人。进一步的,本发明提供了一种电子设备,所述电子设备,所述电子设备包含存储器和处理器,所述存储器和处理器相连,所述处理器通过本发明方法来完成判断不同企业信息中相同姓名的自然人是否是同一人。进一步的,本发明提供一种包括计算机可读指令的计算机可读存储介质,所述计算机可读指令使得电子设备执行本发明方法所包含的操作步骤。与现有技术相比,本发明方法及系统具有以下有益效果:本发明方法及系统充分挖掘数据的关联性,发挥数据集成分析的优势;利用投资关联关系的特性,使用企业数据本身的特性,在不多依赖其他数据的情况下,对不同企业的重要同名自然人是否是同一自然人做出较为准确的判断,极大减少计算的开销。并且本发明方法使用机器学习构建模型的方式来实现多个关联网络特征数据的综合使用和判断;相对于简单的规则式判断,更加稳定,计算效率也更高。附图说明为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本发明方法实现步骤示意图。图2为实施例1所构建的关联关系图谱示意图。图3为实施例1中所计算得到的投资路径示意图。图4为实施例1中所计算得到的投资路径示意图。图5为实施例1中所计算得到的投资路径示意图。图6为实施例1中所计算得到的投资路径示意图。图7为实施例1中所计算得到的投资路径示意图。图8为实施例5中所述的电子设备的示意框图。具体实施方式下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。本发明的目的在于提供一种企业主要相关自然人实体数据对齐方法及系统;充分挖掘数据的关联性,发挥数据集成分析的优势;利用投资关联关系的特性,使用企业数据本身的特性,在不多依赖其他数据的情况下,对不同企业的重要同名自然人是否是同一自然人做出较为准确的判断,极大减少计算的开销。并且本发明方法使用机器学习构建模型的方式来实现多个关联网络特征数据的综合使用和判断;相对于简单的规则式判断,更加稳定,计算效率也更高。为解决上述技术问题,本发明实施例提供了以下技术方案:一种企业主要相关自然人实体数据对齐方法,利用企业投资关系的远近来辅助判断不同企业间相同姓名的自然人是否是同一人。当两个企业投资关系度数小于设置阈值时,认为这两个企业间相同姓名的自然人是同一人。本专利中自然人为企业的主要股东、董事、监事、高管等。本发明方法包含如图1所示的以下实现步骤:(1)获取企业数据,所述企业数据包含投资关系、主要相关自然人;(2)获取具有相同姓名自然人的企业数据;(3)构建具有相同自然人的两企业之间的关联关系网络;(4)计算企业之间的投资路径数据;(5)将企业间投资路径作为特征,构建判断模型;(6)使用标注数据训练模型;(7)将待判断同名人的两个企业之间的投资路径特征向量输入到训练后的模型中,由模型判断出同名自然人是否是同一人的概率;当概率值大于设置阈值时判断为同一人。进一步的,所述步骤(4)中的投资路径数据包含:(a)两企业之间的最短投资路径;企业投资关系的远近在很大程度上会反应出企业之间的密切程度;如果投资关系很近的两家企业在主要股东和高管中包含姓名相同的自然人;那么该自然是同一自然人的概率很高。将关联关系远近作为判断相同姓名自然人是否是同一自然人的依据,在企业最短投资路径判断技术成熟的基础上,巧妙应用企业关联关系;知识图谱技术等,极大的简化了自然人唯一性的判断计算过程,具有较高的准确性。为知识图谱的优化搭建,图谱推理调查等提供了数据保障。(b)两企业间投资路径的条数;投资路径多少反映企业间密切程度,多条近距离的投资路径,反映出企业极为密切的关联关系,作为相同姓名自然人为同一人的强判断依据,具有较高的准确度,计算过程简单;当在判断和梳理海量数据时,简单有效的计算方式可以极大减少计算开销。(c)两企业间同名自然人个数。考察是否具有多个同名人同时出现在待分析企业中;在企业投资领域主要股东和董事、监事、高管往往存在较强的互动性,可能在多家企业中共同担任股东和董、监、高的职务。在投资关联关系较近且有多个同名自然人为主要股东或者董、监、高时,则多个同名自然人分别属于同一自然人的概率极高。此交叉验证提高了判断的准确度。进一步的,所述方法包含将投资路径数据向量化转化的过程。将投资路径相关数据进行向量转化,解决了图结构数据无法直接参与计算的问题,使得图谱路径等间接数据转化成可以进行运算的向量;极大简化计算过程,提升计算效率。进一步的,所述步骤(7)中所述投资路径数据向量为:x=[x1、x2、x3、…];其中x为待判定企业的投资路径向量数据,x1为最短投资路径的倒数,x2为投资路径的条数,x3为同名自然人个数。此步骤将最短投资路径、多条投资路径、多个同名自然人等特征集成起来,成为待分析两企业的特征向量;使得多个特征数据可以同时直接参与模型的训练的预测。进一步的,述模型公式为:其中f(x)为不同企业同名人为同一人的概率;其中θ为模型参数向量,x为量化后的投资路径数据特征向量。使用逻辑回归算法模型来预测结果,模型的预测结果再(0.1)之间,数据大小适中,适合表征概率值;此处如果设置的阈值为0.5;当计算的结果大于0.5时可以认为不同企业同名人为同一人。进一步的,所述模型训练过程中损失函数的公式如下:其中j(θ)为损失函数,m为样本个数,y(i)为第i个样本的判断标注值,hθ(x(i))为第i样本的模型预测值,n为模型参数个数,λ为正则项参数。进一步的,当企业间的最短投资路径长度大于5时将最短投资路径向量为置为0。超过5度投资路径关联关系很弱,不再具有强相关性。将大于5度的最短投资路径向量位置0;处理掉低效率数据、减少计算的复杂度。进一步的,投资路径长度大于6的投资路径不计入有效路径条数。超过5度投资路径的图谱构造比较复杂,关联关系很弱,不再具有强相关性。进一步的,所述步骤(3)中构建关联关系网络的两企业间最短投资路径长度小于5。超过5度投资路径的图谱构造非常复杂,而且不再具有参考性,在进行图谱构建时,设置最短距离阈值减少图谱构建的开销,提高整个方法的计算效率。进一步的,本发明提供一种企业主要相关自然人实体数据对齐方法系统;包含数据获取模块,数据存储模块;数据处理模块;所述数据获取模块,获取待分析目标的相关数据;所述数据存储模块存储包括数据获取模块和数据处理模块的输入、输出的数据;所述数据处理模块;通过上述企业主要相关自然人实体数据对齐方法完成判断不同企业信息中相同姓名的自然人是否是同一人。进一步的,本发明提供了一种电子设备,所述电子设备,所述电子设备包含存储器和处理器,所述存储器和处理器相连,所述处理器通过本发明方法来完成判断不同企业信息中相同姓名的自然人是否是同一人。进一步的,本发明提供一种包括计算机可读指令的计算机可读存储介质,所述计算机可读指令使得电子设备执行本发明方法所包含的操作步骤。实施例1获取公司的基础数据。主要包括企业名、公司主要股东和高管、董事、监事等相关自然人名、企业上下游投资企业名等。这些数据是企业的基本数据,属于企业信息公开的内容,在公开的渠道上可以获取。计算同名人关联的公司数目;抽取公司名关键字;以公司为节点公司间的投资关系为边,构建投资网络;比如数据库中存在这样的数据:a企业的上下游投资企业如下表acaeadafb企业的上下游投资企业如下表bhbgbkc企业的上下游投资企业如下表cachckd企业的上下游投资企业如下表dedfdg则可构建如图2所示的投资网络;若a企业和b企业具有相同姓名的自然人:a、b、c。计算企业a、b之间的最短投资距离度数为4;计算企业a到b的所有路径包括:如图3、4、5、6、7所示a-c-h-b,a-c-k-b,a-d-g-b,a-e-d-b,a-f-d-g-b;最短路径为包括:a-c-h-b;a-c-k-b;a-d-g-b。具有小于预先设置阈值5的路径有5条;则a/b企业间的投资路径向量为x=【0.25、5、3….】将此特征向量输入到事先训练好的模型中,判断出a、b、c是否分别为同一自然人的概率,如果概率高于0.5,则认为a、b、c是否分别为同一自然人。实施例2上述动态对比样本集构建系统,如图8所示,本实施例同时提供了一种电子设备来实施上述企业同名人判断方法;该电子设备可以包括处理器51和存储器52,其中存储器52耦合至处理器51。值得注意的是,该图是示例性的,还可以使用其他类型的结构来补充或替代该结构。如图3所示,该电子设备还可以包括:输入单元53、显示单元54和电源55。值得注意的是,该电子设备也并不是必须要包括图3中显示的所有部件。此外,电子设备还可以包括图3中没有示出的部件,可以参考现有技术。处理器51有时也称控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该处理器51接收输入并控制电子设备的各个部件的操作。其中,存储器52例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其他合适装置中的一种或多种,可存储上述处理器51的配置信息、处理器51执行的指令、记录的表格数据等信息。处理器51可以执行存储器52存储的程序,以实现信息存储或处理等。在一个实施例中,存储器52中还包括缓冲存储器,即缓冲器,以存储中间信息。输入单元53例如用于向处理器51提供待标注的文本数据。显示单元54用于显示处理过程中的各种结果,例如输入的文本数据、转换后的多维向量、计算出的距离值等,该显示单元例如可以为lcd显示器,但本发明并不限于此。电源55用于为电子设备提供电力。本发明实施例还提供一种计算机可读指令,其中当在电子设备中执行所述指令时,所述程序使得电子设备执行本发明方法所包含的操作步骤。本发明实施例还提供一种存储有计算机可读指令的存储介质,其中所述计算机可读指令使得电子设备执行本发明方法所包含的操作步骤。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成模块及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。在本申请所提供的几个实施例中,应该理解到,所揭露的系统,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本
技术领域:
的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。当前第1页12