本说明书涉及计算机技术,更具体地,涉及企业关键人的识别方法和装置、以及计算机存储介质。
背景技术:
在交易风险控制和政府监管要求下,越来越多地需要对企业进行风险识别和防控。识别企业关键人是其中的重要一环,企业关键人是指企业的法定代表人、股东、董事、监事、高级管理人员等对企业有掌控权或者管理权的人员。
以交易风险控制为例,如果能够准确识别出进行交易的用户是企业的关键人,则可以将其标识为可信关系,从而降低交易时对该用户的打扰率。以监管合规场景为例,监管机构要求反洗钱义务机构提供其企业客户的关键人信息,以防止复杂股权或者控制权结构道德的洗钱或恐怖融资风险,如果被监管机构能够通过算法识别出其企业客户的关键人,则无需通过大量发问卷的方式来收集关键人信息,既可以提升运营效率,还可以降低对客户的打扰。
因此,有必要提出一种能够准确识别企业关键人的方案。
技术实现要素:
本说明书的一个目的是提供能够准确识别企业关键人的方案。
根据本说明书的第一方面,提供了企业关键人的识别方法,包括以下步骤:
接收用户提交的识别请求,所述识别请求中包括目标企业的信息和/或目标关键人的信息,所述识别请求中还包括待预测的企业-关键人的关系;
根据所述识别请求,利用企业数据知识图谱构建待预测数组,所述待预测数组包括一个目标企业实体、待预测的企业-关键人的关系、以及一个目标关键人实体;
将所述待预测数组输入到识别模型中,得到目标企业实体和目标关键人实体符合待预测的企业-关键人的关系的概率,所述识别模型是使用企业数据知识图谱生成的图神经网络;
根据所述概率生成识别结果,将所述识别结果提供给用户。
可选地,在所述识别请求中同时包括目标企业的信息和目标关键人的信息的情况下,所述构建待预测数组,包括:
在企业数据知识图谱中查找出与所述目标企业的信息匹配的企业实体作为目标企业实体,所述目标企业的信息至少包括目标企业的名称的关键词;
在企业数据知识图谱中查找出与所述目标关键人的信息匹配的自然人实体作为目标关键人实体,所述目标关键人的信息包括目标关键人的人名和/或身份证号;
根据目标企业实体和目标关键人实体构建待预测数组。
可选地,在所述识别请求中不包括目标关键人的信息的情况下,所述构建待预测数组,包括:
在企业数据知识图谱中查找出与所述目标企业的信息匹配的企业实体作为目标企业实体,所述目标企业的信息至少包括目标企业的名称的关键词;
在企业数据知识图谱中搜索出满足第一预设条件的自然人实体作为目标关键人实体;
根据目标企业实体和目标关键人实体构建待预测数组;
其中,所述第一预设条件包括:
自然人实体与目标企业实体的距离小于等于预设的第一阈值;和/或,
自然人实体与目标企业实体的公共直连节点的数量大于等于预设的第二阈值。
可选地,在所述识别请求中不包括目标企业的信息的情况下,所述构建待预测数组,包括:
在企业数据知识图谱中查找出与所述目标关键人的信息匹配的自然人实体作为目标关键人实体,所述目标关键人的信息包括目标关键人的人名和/或身份证号;
在企业数据知识图谱中搜索出满足第二预设条件的企业实体作为目标企业实体;
根据目标企业实体和目标关键人实体构建待预测数组;
其中,所述第二预设条件包括:
企业实体与目标关键人实体的距离小于等于预设的第一阈值;和/或,
企业实体与目标关键人实体的公共直连节点的数量大于等于预设的第二阈值。
可选地,所述根据所述概率生成识别结果,包括:
如果所述概率大于等于预设的概率阈值,确定目标企业实体和目标关键人实体之间的关系为待预测的企业-关键人的关系。
可选地,所述待预测的企业-关键人的关系为下列任一:
法定代表人关系、股东关系、董事关系、监事关系、高管关系。
可选地,所述企业数据知识图谱还包括域名实体、设备实体、诉讼案件实体、不动产实体。
可选地,所述图神经网络采用metapath神经网络框架或者geniepath图神经网络框架。
可选地,所述使用企业数据知识图谱生成图神经网络,包括:
基于企业数据知识图谱定义图神经网络的节点特征矩阵;
初始化图神经网络的参数矩阵;
对节点特征矩阵进行迭代以对参数矩阵进行优化,使得图神经网络的损失函数值降低;所述对节点特征矩阵进行迭代,包括:采用预设的图神经网络算法搜索节点的邻居节点,对搜索到的邻居节点的特征进行聚合得到节点的邻居聚合特征,基于节点的邻居聚合特征调整节点的特征。
可选地,所述图神经网络算法采用metapath神经网络框架或者geniepath图神经网络框架。
可选地,所述图神经网络算法基于注意力网络的自适应广度函数控制搜索邻居节点的方向,以及基于长短期记忆网络的自适应深度函数控制搜索邻居节点的阶数。
可选地,所述损失函数为合页损失函数。
可选地,所述基于节点的邻居聚合特征调整节点的特征,包括:
基于节点的邻居聚合特征,使用平均池化方法或者最大池化方法调整该节点的特征。
可选地,所述使用企业数据知识图谱生成图神经网络,还包括:
利用企业数据知识图谱构建多组正样本数组,所述正样本数组包括正样本企业实体、正样本企业实体和正样本自然人实体的关系、正样本自然人实体;正样本数组中的正样本企业实体和正样本自然人实体的关系与两者在企业数据知识图谱中的关系一致,其中,至少部分正样本数组中的正样本企业实体和正样本自然人实体的关系为所述待预测的企业-关键人的关系;
利用企业数据知识图谱构建多组负样本数组,所述负样本数组包括负样本企业实体、负样本企业实体和负样本自然人实体的关系、负样本自然人实体;负样本数组中的负样本企业实体和负样本自然人实体的关系与两者在企业数据知识图谱中的关系不一致,其中,至少部分负样本数组中的负样本企业实体和负样本自然人实体的关系为所述待预测的企业-关键人的关系;
使用正样本数据和负样本数组对图神经网络进行训练,得到所述识别模型。
根据本说明书的第二方面,提供了企业关键人识别装置,包括以下模块:
接收模块,用于接收用户提交的识别请求,所述识别请求中包括目标企业的信息和/或目标关键人的信息,所述识别请求中还包括待预测的企业-关键人的关系;
待预测数组构建模块,用于根据所述识别请求,利用企业数据知识图谱构建待预测数组,所述待预测数组包括一个目标企业实体、待预测的企业-关键人的关系、以及一个目标关键人实体;
识别模块,用于将所述待预测数组输入到识别模型中,得到目标企业实体和目标关键人实体符合待预测的企业-关键人的关系的概率,所述识别模型是使用企业数据知识图谱生成的图神经网络;
输出模块,用于根据所述概率生成识别结果,将所述识别结果提供给用户。
根据本说明书的第三方面,提供了企业关键人识别装置,包括处理器和存储器,所述存储器中存储于计算机可读指令,所述指令被所述处理器执行时实现本说明书第一方面的企业关键人的识别方法。
根据本说明书的第四方面,提供了计算器存储介质,其上存储于计算机可读指令,所述指令被处理器执行时实现本说明书第一方面的企业关键人的识别方法。
本说明书实施例提供的企业关键人的识别方案,采用企业数据知识图谱对企业的关键人进行自动识别,识别速度快并且识别准确率高。
通过以下参照附图对本说明书的示例性实施例的详细描述,本说明书的实施例的特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本说明书的实施例,并且连同其说明一起用于解释本说明书实施例的原理。
图1示出了本发明实施例提供的企业关键人识别系统的示意图;
图2示出了本发明实施例提供的企业关键人的识别方法的流程图;
图3示出了本发明实施例提供的知识模型的生成过程的流程图;
图4示出了本发明实施例提供的企业关键人识别装置的框图;
图5示出了本发明实施例提供的企业关键人识别装置的框图。
具体实施方式
现在将参照附图来详细描述本说明书的各种示例性实施例。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本说明书实施例及其应用或使用的任何限制。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
<企业关键人识别系统>
图1是本说明书实施例提供的企业关键人识别系统的框图。如图1所示,该服务推荐系统包括识别服务器101和识别请求方(下文称之为“用户”)的设备103。识别服务器101和设备103可以通过网络102进行通信,网络102可以是有线网络或者是无线网络。
识别服务器101的配置可以包括但不限于:处理器1011、存储器1012、接口装置1013、通信装置1014、输入装置1015、输出装置1016。处理器1011可以包括但不限于中央处理器cpu、微处理器mcu等。存储器1012可以包括但不限于rom(只读存储器)、ram(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1013可以包括但不限于usb接口、串行接口、并行接口等。通信装置1014例如能够进行有线通信或无线通信,具体地可以包括wifi通信、蓝牙通信、2g/3g/4g/5g通信等。输入装置1015可以包括但不限于键盘、鼠标、触摸屏、麦克风等。输出装置1016可以包括但不限于显示屏、扬声器等。
识别请求方的设备103例如可以是安装有智能操作系统(例如安卓、ios、windows、linux等系统)的电子设备,包括但不限于服务器、便携式电脑、台式计算机、手机、平板电脑等。识别请求方的设备103的配置包括但不限于处理器1031、存储器1032、接口装置1033、通信装置1034、gpu(graphicsprocessingunit,图像处理器)1035、显示装置1036、输入装置1037、扬声器1038、麦克风1039、以及相机1030。处理器1031包括但不限于中央处理器cpu、微处理器mcu等。存储器1032包括但不限于rom(只读存储器)、ram(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1033包括但不限于usb接口、串行接口、并行接口等。通信装置1034例如能够进行有线通信或无线通信,具体地可以包括wifi通信、蓝牙通信、2g/3g/4g/5g通信等。gpu1035用于对图像进行处理。显示装置1036可以包括但不限于液晶屏、触摸屏等。输入装置1037可以包括但不限于键盘、鼠标、触摸屏等。
应用于本说明书的一个实施例中,识别请求方可以通过设备103向识别服务器101发送企业关键人识别请求,由识别服务器101进行企业关键人识别,将识别结果返回给识别请求方的设备103。
图1所示的服务推荐系统仅仅是说明性的并且绝不意味着对本说明书实施例、其应用或使用的任何限制。本领域技术人员应当理解,尽管前面描述了识别服务器和识别请求方的设备的多个装置,但是,本说明书实施例可以仅涉及其中的部分装置。例如,识别服务器可以只涉及处理器、存储器以及通信装置,识别请求方的设备可以只涉及处理器、存储器、通信装置、以及显示屏。本领域技术人员可以根据本说明书实施例所公开的方案设计指令,指令如何控制处理器进行操作是本领域公知技术,在此不再详细描述。
<企业关键人的识别方法>
在对本说明书实施例提供的企业关键人识别方法进行介绍之前,先对企业数据知识图谱进行说明。
知识图谱(knowledgegraph),是一种基于图的数据结构,由节点(point)和边(edge)组成。在知识图谱里,每个节点表示一个“实体”,连接在两个实体之间的边表征这两个实体之间的“关系”。知识图谱是表达多个实体之间联系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络。知识图谱是典型的非欧数据。
在本发明实施例中,企业数据知识图谱中至少包括企业类的实体、自然人类的实体,进一步还可以包括域名类的实体、设备类的实体、诉讼案件类的实体、不动产类的实体等,每个实体都具有唯一的标识。
企业类的实体例如是“a1房地产开发公司”、“a2旅行社”、“a3票务服务公司”、“a4文化影视公司”、“a5传媒公司”等。企业类的实体的属性可以包括注册资本,实缴资本,存续时长,经营状态、公司账户信息等。
自然人类的实体是具体的自然人,例如“张三”、“李四”、“王五””,自然人类的实体的属性可以包括年龄、性别、身份证号、常住地址、籍贯、手机号、个人账户信息、信用信息等。
设备类的实体主要包括手机和电脑。手机与账号或者自然人的身份有关,电脑与账号有关,设备类的实体有可能体现自然人、企业的身份。设备类实体的标识可以是其网卡地址。手机的属性可以包括手机的品牌、该手机搭载的手机号等。
诉讼案件类的实体是具体的诉讼案件,包括经济纠纷案件等,其属性可以包括诉讼结果、诉讼进程等。
企业实体之间的关系例如可以是母子公司关系、控股关系、总公司和分公司的关系、债务关系、同设备关系、同域名关系等。
企业实体和自然人实体之间的关系例如可以是法定代表人关系、股东关系、董事关系、监事关系、高管关系、历史投资者关系、债务关系、同设备关系等。
例如,某个自然人经常使用自己名下的手机登录某企业的银行账户并对该银行账户进行操作,该手机可以在客观上将该自然人和该企业联系起来,则该自然人的实体和该企业的实体之间存在同设备关系。
例如,两个企业实体的官方网站指向同一个域名的网站,则这两个企业实体之间存在同域名关系。
自然人实体和自然人实体的关系例如可以是夫妻关系、父子关系、债务关系等。
企业实体和不动产实体之间的关系例如可以是注册地址关系、资产关系。个人和不动产实体之间的关系例如可以是常驻地址关系、资产关系等。
企业实体和诉讼案件实体之间的关系例如可以是原告关系、被告关系、第三人关系等。自然人实体和诉讼案件实体之间的关系例如可以是原告关系、被告关系、第三人关系等。
企业数据知识图谱是利用与企业、个人有关的大数据构成的与企业有关的知识图谱。例如,借助一定的技术手段,从公开收集的大数据中提取出资源模式,选择其中置信度较高的新模式,经人工审核之后,加入到知识图谱中。具体如何利用大数据生成知识图谱是本领域公知技术,这里不做详细描述。
下面参照图2所示,说明本说明书实施例提供的企业关键人识别方法。该实施例的企业关键人识别方法,可以由图1中的识别服务器实施,包括以下步骤:
s202、接收用户提交的识别请求。识别请求中包括目标企业的信息和/或目标关键人的信息,识别请求中还包括待预测的企业-关键人的关系。
在一个具体的例子中,识别请求方通过其持有的设备103向识别服务器101提交识别请求。或者,在另一个具体的例子中,识别请求方在识别服务器101上手动输入识别请求。
识别请求中包括目标企业的信息和目标关键人的信息中的至少一个。目标企业的信息至少包括目标企业的名称的关键词,当然也可以包括目标企业的完整名称。目标关键人的信息包括目标关键人的人名和/或身份证号。识别请求中还包括待预测的企业-关键人的关系。
例如,该识别请求为:
(1)目标企业:“a2旅行社”;
(2)目标关键人:“张三,身份证号xxxx”;
(3)待预测的企业-关键人的关系:“法定代表人关系”;
即,识别请求方希望识别“张三,身份证号xxxx”是否为“a2旅行社”的法定代表人。
再例如,该识别请求为:
(1)目标企业:“a1房地产”;
(2)目标关键人:空缺,无内容;
(3)待预测的企业-关键人的关系:“股东关系”;
即,识别请求方希望识别“a1房地产”的股东是哪些人。
又例如,该识别请求为:
(1)目标企业:空缺,无内容;
(2)目标关键人:“李四,身份证号yyyy”;
(3)待预测的企业-关键人的关系:“股东关系”;
即,识别请求方希望识别“李四,身份证号yyyy”是哪些企业的股东。
在本说明书实施例中,待预测的企业-关键人的关系例如可以为下列任一:法定代表人关系、股东关系、董事关系、监事关系、高管关系。
s204、根据识别请求,利用企业数据知识图谱构建待预测数组。待预测数组包括一个目标企业实体、待预测的企业-关键人的关系、以及一个目标关键人实体。
即,待预测数组中包括三个元素(u,p,v),其中,u是利用企业数据知识图谱确定的目标企业实体,v是利用企业数据知识图谱确定的目标关键人实体,p是识别请求中希望预测的企业-关键人的关系。
下面以三个具体的例子,说明如何根据识别请求,利用企业数据知识图谱构建待预测数组。
例子一:在识别请求中同时包括目标企业的信息和目标关键人的信息的情况下,构建待预测数组的过程,包括步骤s302-s306。
s302、在企业数据知识图谱中查找出与目标企业的信息匹配的企业实体作为目标企业实体。需要说明的是,与目标企业的信息匹配的企业实体有可能是多个。例如,如果目标企业的信息只包括目标企业的名称的关键词,那么查找出的与目标企业的信息匹配的企业实体可能有多个。
s304、在企业数据知识图谱中查找出与目标关键人的信息匹配的自然人实体作为目标关键人实体。需要说明的是,与目标关键人的信息匹配的自然人实体有可能是多个。例如,如果目标关键人的信息只包括目标关键人的人名,那么查找出的与目标关键人的信息匹配的自然人实体可能有多个。
s306、通过将目标企业实体和目标关键人实体进行任意组合,构建待预测数组。例如,如果目标企业实体为3个,关键人实体为2个,则会产生6组待预测数组。
例子二:在识别请求中不包括目标关键人的信息的情况下,构建待预测数组的过程,包括步骤s402-s406。
s402、在企业数据知识图谱中查找出与目标企业的信息匹配的企业实体作为目标企业实体。需要说明的是,与目标企业的信息匹配的企业实体有可能是多个。例如,如果目标企业的信息只包括目标企业的名称的关键词,那么查找出的与目标企业的信息匹配的企业实体可能有多个。
s404、在企业数据知识图谱中搜索出满足第一预设条件的自然人实体作为目标关键人实体。需要说明的是,满足第一预设条件的自然人实体有可能是多个,即目标关键人可能是多个。
第一预设条件可以是:自然人实体与目标企业实体的距离小于等于预设的第一阈值。
或者,第一预设条件可以是:自然人实体与目标企业实体的公共直连节点的数量大于等于预设的第二阈值。
或者,第一预设条件可以是:自然人实体与目标企业实体的距离小于等于预设的第一阈值,同时,该自然人实体与该目标企业实体的公共直连节点的数量大于等于预设的第二阈值。
在知识图谱中,两个实体之间的距离是这两个实体之间的最短路径的长度。在知识图谱中,如果某个节点同时和两者直接相连,则该节点是两者的公共直连节点。
s406、通过将目标企业实体和目标关键人实体进行任意组合,构建待预测数组。例如,如果目标企业实体为1个,目标关键人实体为5个,则会产生5组待预测数组。
例子三:在识别请求中不包括目标企业的信息的情况下,构建待预测数组的过程,包括步骤s502-s506。
s502、在企业数据知识图谱中查找出与目标关键人的信息匹配的自然人实体作为目标关键人实体。需要说明的是,与目标关键人的信息匹配的自然人实体有可能是多个。例如,如果目标关键人的信息只包括目标关键人的人名,那么查找出的与目标关键人的信息匹配的自然人实体可能有多个。
s504、在企业数据知识图谱中搜索出满足第二预设条件的企业实体作为目标企业实体。需要说明的是,满足第二预设条件的企业实体有可能是多个,即目标企业实体可能是多个。
第二预设条件可以是:企业实体与目标关键人实体的距离小于等于预设的第一阈值。
或者,第二预设条件可以是:企业实体与目标关键人实体的公共直连节点的数量大于等于预设的第二阈值。
或者,第二预设条件可以是:企业实体与目标关键人实体的距离小于等于预设的第一阈值,同时,该企业实体与该目标关键人实体的公共直连节点的数量大于等于预设的第二阈值。
在知识图谱中,两个实体之间的距离是这两个实体之间的最短路径的长度,第一阈值例如为6。在知识图谱中,如果某个节点同时和两者直接相连,则该节点是两者的公共直连节点,第二阈值例如为2。
s506、通过将目标企业实体和目标关键人实体进行任意组合,构建待预测数组。例如,如果目标关键人实体为1个,目标企业实体为3个,则会产生3组待预测数组。
在步骤s204中,如果根据识别请求,利用企业数据知识图谱无法构建出待预测数组,例如由于没有匹配到目标企业实体、没有匹配到目标关键人、没有满足第一预设条件的自然人实体、没有满足第二预设条件的企业实体等原因,导致无法构建出待预测数组,则跳转到步骤s210,通知识别请求方无法进行识别。
s206、将待预测数组输入到识别模型中,得到目标企业实体和目标关键人实体符合待预测的企业-关键人的关系的概率。识别模型是使用企业数据知识图谱生成的图神经网络。
如果步骤s204构建出的待预测数组为多个,将多个待预测数组分别输入至识别模型中,以预测每一个待预测数据组中的目标企业实体和目标关键人实体之间的关系符合待预测的企业-关键人的关系的概率。
图神经网络(graphneuralnetworks,gnn)将深度学习中的神经网络应用于图数据结构(graph)这样的非欧空间。
s208、根据所述概率生成识别结果,将识别结果提供给用户。
在一个具体的例子中,识别请求方通过其持有的设备103向识别服务器101提交识别请求,识别服务器101将识别结果返回给识别请求方的设备103。或者,在另一个具体的例子中,识别请求方在识别服务器101上手动输入识别请求,识别服务器101通过界面展示、语音播报等方式将识别结果通知给识别请求方。
在一个具体的例子中,将待预测数组的目标企业实体、目标关键人实体、以及概率作为一组识别结果,提供给用户。例如,一共有2组待预测数组,对第一组待预测数组的识别结果是:“张三,身份证号xxxx”和“a2旅行社”之间为法定代表人关系的概率为0.9,对第二组待预测数组的识别结果是:“李四,身份证号yyyy”和“a2旅行社”之间为法定代表人关系的概率为0.6。
在一个具体的例子中,如果待预测数组中的目标企业实体和目标关键人实体符合待预测的企业-关键人的关系的概率大于等于预设的概率阈值,确定该待预测数组中的目标企业实体和目标关键人实体之间的关系为待预测的企业-关键人的关系,将该待预测数组中的目标企业实体和目标关键人实体作为识别结果提供给用户。该概率阈值例如为0.8。例如,一共有5组待预测数组,其中有2组待预测数组中的目标企业实体和目标关键人实体符合待预测的企业-关键人的关系的概率大于等于预设的概率阈值,则最终得到的合并后的识别结果是:“张三,身份证号xxxx”以及“李四,身份证号yyyy”都是“a1房地产”的股东。
有些企业-关键人的关系应当具有一对一的特性,例如,一个企业应当有且只有一个法定代表人。在这种情况下,如果步骤s204构建出的待预测数组为多个,将概率最高的待预测数组中的目标企业和目标关键人作为识别结果提供给用户。例如,识别结果是:“张三,身份证号xxxx”是“a2旅行社”的法定代表人。
图神经网络(graphneuralnetworks,gnn)将深度学习中的神经网络应用于图数据(graph)这样的非欧空间。企业数据图谱中的节点类型和边类型都不是单一的,而是比较复杂的异质图(多种类型的节点和多种类型的边),企业数据图谱的多种类型的节点、边和丰富的语义信息给异质图神经网络设计带来了巨大挑战。下面参见图3所示,说明本说明书实施例使用企业数据知识图谱生成图神经网络,得到识别模型的过程,包括步骤s702-s706。
s702、基于企业数据知识图谱定义图神经网络的节点特征矩阵。初始化图神经网络的参数矩阵。
在一个具体的例子中,企业数据知识图谱中的节点为n个,构建n×n的原始的节点特征矩阵,然后可以通过归一化方式,将原始的节点特征矩阵转换成稳态的节点特征矩阵。本领域技术人员可以依据经验设置参数矩阵的具体数值,本发明实施例对此不做具体限定。
s704、对节点特征矩阵进行迭代以对参数矩阵进行优化。
在步骤s704中,对节点特征矩阵进行迭代以对参数矩阵进行优化,使得图神经网络的损失函数值降低。其中,对节点特征矩阵进行迭代,包括:采用预设的图神经网络算法搜索节点的邻居节点,对搜索到的邻居节点的特征进行聚合得到节点的邻居聚合特征,基于节点的邻居聚合特征调整节点的特征。
对于任一个节点,使用预设的图申请网络算法,经过t次迭代,就可以得到该节点的t跳可达的“邻居节点”,其中t为整数。
在一个具体的例子中,预设的图神经网络算法可以采用metapath神经网络框架。metapath神经网络框架(metapath2vec)是2017年kdd(knowledgediscoveryindatabase,国际数据挖掘大会)上提出的一种对异质网络的表示学习算法。
在采用metapath神经网络框架的情况下,可以根据业务经验定义一些路径(path),基于这些路径选取并聚合高阶邻居节点的特征。以企业-股东关系为例,根据业务经验,在“第一个企业实体--母子公司关系--第二个企业实体--法定代表人关系--自然人实体”这种关系链条下,该自然人实体很可能是第一个企业实体的股东,则将“一个企业实体--母子公司关系--另一个企业实体--法定代表人关系--自然人实体”的路径作为符合企业-股东关系的路径(path),基于这种路径选取并聚合高阶邻居节点的特征。
采用metapath神经网络算法搜索邻居节点,相对于深度游走算法(deepwalk)等随机游走的方式效率更高。
在一个具体的例子中,预设的图神经网络算法可以采用geniepath图神经网络框架。geniepath是2018年kdd上提出的一种可扩展的能够学习自适应感受路径的图神经网络框架,其定义在具有排列不变性的图数据(graph)上。其自适应路径层包括两个互补的功能单元,分别用来进行广度与深度的探索,前者用来学习一阶邻域节点的权重,后者用来提取和过滤高阶邻域内汇聚的信息。
在企业关键人识别的场景下,企业和自然人周围的邻居重要程度不是一致的,比如企业的法定代表人的重要程度高于企业的高管。因此,在采用geniepath图神经网络框架的情况下,可以基于注意力网络(attention网络)的自适应广度函数控制搜索邻居节点的方向,即,对于给定节点,控制朝向给定节点的哪个方向搜索其邻居节点。在采用geniepath图神经网络框架的情况下,可以基于长短期记忆网络(longshort-termmemory,lstm)的自适应深度函数控制搜索邻居节点的阶数。
通过采用geniepath图神经网络框架,可以更加准确地选取到合适的搜索方向和合适的阶数,得到影响力更重要的邻居节点。
在一个具体的例子中,可以使用平均池化(meanpooling)方法或者最大池化(maxpooling)方法,将节点的邻居聚合特征融合到该节点的特征中,以实现节点特征矩阵的迭代。
在一个具体的例子中,可以将传统的基于距离的表征学习方法与图神经网络的方法结合,设计合页损失函数(transe损失函数)为该损失函数。
s706、使用基于企业数据知识图谱构建的正样本数组和负样本数组对图神经网络进行训练,得到识别模型。
在步骤s706中,是将步骤s704获得的图神经网络在正负样本集上进行拟合。该正负样本集中包括基于企业数据知识图谱构建的多组正样本数组和多组负样本数组。
正样本数组是(s1,p1,o1)三元数组,s1是正样本企业实体、o1是正样本自然人实体,p1是s1和o1的关系。其中,s1和o1都是企业数据知识图谱中的实体,p1和两者在企业数据知识图谱中的关系一致。例如,正样本数数组是(“a5传媒公司”,“法定代表人关系”,“李四,身份证号yyyy”),实际在企业数据知识图谱中,“a5传媒公司”和“李四,身份证号yyyy”之间是法定代表人关系。多组正样本数组中,至少有部分正样本数组中的关系p1和待预测的企业-关键人的关系p一致,例如,待预测的企业-关键人的关系p是法定代表人关系,则至少有部分正样本数组中的关系p1是是法定代表人关系。
负样本数组是(s2,p2,o2)三元数组,s2是负样本企业实体、o2是负样本自然人实体,p2是s2和o2的关系。其中,s2和o2都是企业数据知识图谱中的实体,p2和两者在企业数据知识图谱中的关系不同。例如,负样本数数组是(“a5传媒公司”,“法定代表人关系”,“张三,身份证号xxxx”),实际在企业数据知识图谱中,“a5传媒公司”和“张三,身份证号xxxx”之间并没有关系。多组负样本数组中,至少有部分负样本数组中的关系p2和待预测的企业-关键人的关系p一致,例如,待预测的企业-关键人的关系p是法定代表人关系,则至少有部分负样本数组中的关系p2是是法定代表人关系。
使用这样的正样本数组和负样本数组对图神经网络进行训练,得到的识别模型,可以被用于识别待预测的企业-关键人的关系p。正样本数组和负样本数组还可以包括其它的企业实体-自然人实体的关系,使得训练得到的识别模型可以具有一定的泛化性。
在一个实施例中,可以构建大量的正样本数组,将这些正样本数组分成第一部分和第二部分,利用第二部分的正样本数组生成负样本数组,使用第一部分的正样本数组和利用第二部分的正样本数组生成的负样本数组构建正负样本集。
利用第二部分的正样本数组生成负样本数组,具体地,可以通过对正样本数组中的企业实体、自然人实体、企业实体和自然人实体的关系这三个元素中的一个元素进行替换来实现,要求经过这种替换后,数组中的企业实体和自然人实体的关系和两者在企业数据知识图谱中的关系不同。例如,正样本数数组是(“a5传媒公司”,“法定代表人关系”,“李四,身份证号xxxx”),在企业数据知识图谱中,“a5传媒公司”和“张三,身份证号xxxx”之间并没有关系,通过将正样本数组中的“李四,身份证号yyyy”替换成“张三,身份证号xxxx”,得到负样本数数组(“a5传媒公司”,“法定代表人关系”,“张三,身份证号xxxx”)。
本说明书实施例提供的企业关键人的识别方案,采用企业数据知识图谱对企业的关键人进行自动识别,识别速度快并且识别准确率高。
本说明书实施例中,企业数据知识图谱可以包括企业实体、自然人实体、域名实体、设备实体、诉讼案件类实体、不动产类实体等实体,这些实体之间的关系是多种多样的,利用这样的企业数据知识图谱来识别企业的关键人,可以使得识别结果更为准确可靠。
在企业数据知识图谱中,企业和自然人之间的关系为典型的非欧空间的图结构,其周围邻居的图结构非常重要。本说明书实施例中,利用基于企业数据知识图谱的图神经网络来形成识别模型,是在非欧空间上进行企业关键人的识别预测,充分利用了图数据结构及邻居节点的信息,突破了传统机器学习必须在欧式空间进行识别预测的前提,使得识别结果更为准确可靠。
<企业关键人识别装置>
参见图4所示,本发明实施例中还提供企业关键人识别装置800,包括以下模块:
接收模块802,用于接收用户提交的识别请求,识别请求中包括目标企业的信息和/或目标关键人的信息,识别请求中还包括待预测的企业-关键人的关系。
待预测数组构建模块804,用于根据识别请求,利用企业数据知识图谱构建待预测数组,待预测数组包括一个目标企业实体、待预测的企业-关键人的关系、以及一个目标关键人实体。
识别模块806,用于将待预测数组输入到识别模型中,得到目标企业实体和目标关键人实体符合待预测的企业-关键人的关系的概率,识别模型是使用企业数据知识图谱生成的图神经网络。
输出模块808,用于根据概率生成识别结果,将识别结果提供给用户。
可选地,在所述识别请求中同时包括目标企业的信息和目标关键人的信息的情况下,所述构建待预测数组,包括:
在企业数据知识图谱中查找出与所述目标企业的信息匹配的企业实体作为目标企业实体,所述目标企业的信息至少包括目标企业的名称的关键词;
在企业数据知识图谱中查找出与所述目标关键人的信息匹配的自然人实体作为目标关键人实体,所述目标关键人的信息包括目标关键人的人名和/或身份证号;
根据目标企业实体和目标关键人实体构建待预测数组。
可选地,在所述识别请求中不包括目标关键人的信息的情况下,所述构建待预测数组,包括:
在企业数据知识图谱中查找出与所述目标企业的信息匹配的企业实体作为目标企业实体,所述目标企业的信息至少包括目标企业的名称的关键词;
在企业数据知识图谱中搜索出满足第一预设条件的自然人实体作为目标关键人实体;
根据目标企业实体和目标关键人实体构建待预测数组;
其中,所述第一预设条件包括:
自然人实体与目标企业实体的距离小于等于预设的第一阈值;和/或,
自然人实体与目标企业实体的公共直连节点的数量大于等于预设的第二阈值。
可选地,在所述识别请求中不包括目标企业的信息的情况下,所述构建待预测数组,包括:
在企业数据知识图谱中查找出与所述目标关键人的信息匹配的自然人实体作为目标关键人实体,所述目标关键人的信息包括目标关键人的人名和/或身份证号;
在企业数据知识图谱中搜索出满足第二预设条件的企业实体作为目标企业实体;
根据目标企业实体和目标关键人实体构建待预测数组;
其中,所述第二预设条件包括:
企业实体与目标关键人实体的距离小于等于预设的第一阈值;和/或,
企业实体与目标关键人实体的公共直连节点的数量大于等于预设的第二阈值。
可选地,所述根据所述概率生成识别结果,包括:
如果所述概率大于等于预设的概率阈值,确定目标企业实体和目标关键人实体之间的关系为待预测的企业-关键人的关系。
可选地,所述待预测的企业-关键人的关系为下列任一:
法定代表人关系、股东关系、董事关系、监事关系、高管关系。
可选地,所述企业数据知识图谱还包括域名实体、设备实体、诉讼案件实体、不动产实体。
可选地,所述图神经网络采用metapath神经网络框架或者geniepath图神经网络框架。
在一个具体的例子中,企业关键人识别装置800还包括识别模型生成模块,识别模型生成模块用于使用企业数据知识图谱生成图神经网络。
所述使用企业数据知识图谱生成图神经网络,包括:
基于企业数据知识图谱定义图神经网络的节点特征矩阵;
初始化图神经网络的参数矩阵;
对节点特征矩阵进行迭代以对参数矩阵进行优化,使得图神经网络的损失函数值降低;所述对节点特征矩阵进行迭代,包括:采用预设的图神经网络算法搜索节点的邻居节点,对搜索到的邻居节点的特征进行聚合得到节点的邻居聚合特征,基于节点的邻居聚合特征调整节点的特征。
可选地,所述图神经网络算法采用metapath神经网络框架或者geniepath图神经网络框架。
可选地,所述图神经网络算法基于注意力网络的自适应广度函数控制搜索邻居节点的方向,以及基于长短期记忆网络的自适应深度函数控制搜索邻居节点的阶数。
可选地,所述损失函数为合页损失函数。
可选地,所述基于节点的邻居聚合特征调整节点的特征,包括:
基于节点的邻居聚合特征,使用平均池化方法或者最大池化方法调整该节点的特征。
企业关键人识别装置800例如可以是图1所述的识别服务器。
参见图5所示,本发明实施例中还提供企业关键人识别装置900,包括处理器902和存储器904,存储器904中存储于计算机可读指令,该计算机可读指令被处理器902执行时实现前述任一实施例公开的企业关键人的识别方法。
企业关键人识别装置900例如可以是图1所述的识别服务器。
本说明书实施例提供的企业关键人识别装置,采用企业数据知识图谱对企业的关键人进行自动识别,识别速度快并且识别准确率高。
本说明书实施例中,企业数据知识图谱可以包括企业实体、自然人实体、域名实体、设备实体、诉讼案件类实体、不动产类实体等实体,这些实体之间的关系是多种多样的。本说明书实施例提供的企业关键人识别装置,利用这样的企业数据知识图谱来识别企业的关键人,可以使得识别结果更为准确可靠。
在企业数据知识图谱中,企业和自然人之间的关系为典型的非欧空间的图结构,其周围邻居的图结构非常重要。本说明书实施例中,利用基于企业数据知识图谱的图神经网络来形成识别模型,是在非欧空间上进行企业关键人的识别预测,充分利用了图数据结构及邻居节点的信息,突破了传统机器学习必须在欧式空间进行识别预测的前提,使得识别结果更为准确可靠。
<计算器存储介质>
本发明实施例还提供了计算器存储介质,其上存储于计算机可读指令,指令被处理器执行时实现前述任一实施例公开的企业关键人的识别方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备、服务器实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书的实施例可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本说明书实施例的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式压缩盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本说明书的实施例操作的计算机程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如smalltalk、c++等,以及常规的过程式编程语言—诸如“c”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla),该电子电路可以执行计算机可读程序指令,从而实现本说明书实施例的各个方面。
这里参照根据本说明书实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本说明书实施例的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本说明书的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本说明书的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。