风险客群划分评估方法、装置、设备及存储介质与流程

文档序号:30619012发布日期:2022-07-02 01:53阅读:185来源:国知局
风险客群划分评估方法、装置、设备及存储介质与流程

1.本发明涉及人工智能领域,尤其涉及一种风险客群划分评估方法、装置、设备及存储介质。


背景技术:

2.目前,黑产无孔不入,全行业特别是金融领域正在面临越来越严重的黑产挑战。因此,基于保险数据,构建智能化识别黑产群体的方法具有重要意义。然而,使用传统的有监督学习方式进行识别有着诸多缺陷,例如缺乏有标签数据,可解释性差等。因此,各非车品质管控项目组提出了一种基于风险关系图谱的风险客群识别模型,用于对黑产团伙进行识别。该模型基于风险主体与风险关系构建关系图谱,使用社群划分算法识别出风险客群,同时识别风险客群中的高风险客户(风险客群活跃分子)。然而,对于模型识别出来的风险客群及客户结果的可解释性不够强。


技术实现要素:

3.本发明的主要目的在于解决现有的风险客群识别模型进行客群划分的划分结果解释性差的技术问题。
4.本发明第一方面提供了一种风险客群划分评估方法,包括:获取全量保单数据、现有黑名单和预设的数据划分时间点,并根据所述数据划分时间点将所述全量保单数据划分为训练数据集和验证数据集;根据所述训练数据集构建风险关系图谱,并将所述风险关系图谱输入预设的风险客群识别模型中,通过所述风险客群识别模型对所述风险关系图谱进行客群划分,得到客群划分结果;根据预设的客群划分效果评估指标和所述客群划分结果,对所述风险客群识别模型进行划分效果评估,得到第一评估结果;根据所述客群划分结果和所述验证数据集进行客群经营状况风险评估,得到第二评估结果;根据所述客群划分结果和所述现有黑名单进行客群染黑风险评估,得到第三评估结果;将所述第一评估结果、所述第二评估结果和所述第三评估结果进行合并,得到客群划分综合评估结果。
5.可选的,在本发明第一方面的第一种实现方式中,所述根据所述训练数据集构建风险关系图谱,并将所述风险关系图谱输入预设的风险客群识别模型中,通过所述风险客群识别模型对所述风险关系图谱进行客群划分,得到客群划分结果包括:确定所述训练数据集中对应的所有客户,并将每个客户设定为实体点;根据所述训练数据集中的数据类型,确定所述训练数据集对应的所有客户之间的关联关系;通过所述关联关系将所述实体点之间进行关联,得到风险关系图谱;将所述风险关系图谱输入预设的风险客群识别模型中,通过所述风险客群识别模型对所述风险关系图谱进行客群划分,得到客群划分结果。
6.可选的,在本发明第一方面的第二种实现方式中,所述通过所述关联关系将所述实体点之间进行关联,得到风险关系图谱包括:将所述关联关系作为所述实体点之间的关系边;根据所述训练数据集计算两个所述实体点之间的关系边的权重值;将所有与所述实体点相连的关系边的权重值相加,得到用于衡量所述实体点重要度的点权值;根据所述点
权值、所述实体点和所述关系边的权重值构建所述风险关系图谱。
7.可选的,在本发明第一方面的第三种实现方式中,所述客群划分效果评估指标包括模型性能指标和客群风险指标;所述根据预设的客群划分效果评估指标和所述客群划分结果,对所述风险客群识别模型进行划分效果评估,得到第一评估结果包括:获取所述风险关系图谱的图谱数据,并根据所述图谱数据和所述客群划分结果计算所述模型性能指标;根据所述客群划分结果中各客群对应的全量保单数据计算所述客群风险指标;根据所述模型性能指标和客群风险指标对所述风险客群识别模型进行划分效果评估,得到第一评估结果。
8.可选的,在本发明第一方面的第四种实现方式中,所述模型性能指标包括模块度、平均异常图构、平均聚类系数和社群规模;所述获取所述风险关系图谱的图谱数据,并根据所述图谱数据和所述客群划分结果计算所述模型性能指标包括:获取所述风险关系图谱中的实体点总数、所述客群划分结果中各客群两两之间的第一关系边总数、连接各客群的第二关系边总数、客群总数,各客群对应的邻接矩阵,实体点到所有对应客群中其他实体点的距离平均值,实体点到除对应客群外的其他客群内的所有实体点的平均距离的最小值,客群中实体点到其他实体点的通路总数;根据所述各客群两两之间的第一关系边总数、连接各客群的第二关系边总数和客群总数计算所述模块度;根据所述客群总数、所述实体点总数、所述邻接矩阵和所述通路总数计算所述平均异常图构;将所述风险客群识别模型划分的客群数量作为所述社群规模;根据所述客群总数、所述距离平均值和所述最小值计算所述平均聚类系数。
9.可选的,在本发明第一方面的第五种实现方式中,所述客群划分结果包括风险客群和普通客群;所述根据所述客群划分结果和所述验证数据集进行客群经营状况风险评估,并对所述得到第二评估结果包括:将所述风险客群中的客户与所述验证数据集中的客户进行匹配,得到第一匹配结果;将所述普通客群中的客户与所述验证数据集中的客户进行匹配,得到第二匹配结果;根据所述第一匹配结果和所述第二匹配结果对所述风险客群进行假设检验,验证所述风险客群存在显著性风险的第一概率,并根据所述第一概率得到第二评估结果。
10.可选的,在本发明第一方面的第六种实现方式中,所述根据所述客群划分结果和所述现有黑名单进行客群染黑风险评估,得到第三评估结果包括:将所述风险客群中的客户与所述现有黑名单中的客户进行匹配,得到第三匹配结果;将所述普通客群中的客户与所述现有黑名单中的客户进行匹配,得到第四匹配结果;根据所述第三匹配结果和所述第四匹配结果对所述风险客群进行假设检验,验证所述风险客群存在显著性风险的第二概率,并根据所述第二概率得到第三评估结果。
11.本发明第二方面提供了一种风险客群划分评估装置,包括:数据划分模块,用于获取全量保单数据、现有黑名单和预设的数据划分时间点,并根据所述数据划分时间点将所述全量保单数据划分为训练数据集和验证数据集;客群划分模块,用于根据所述训练数据集构建风险关系图谱,并将所述风险关系图谱输入预设的风险客群识别模型中,通过所述风险客群识别模型对所述风险关系图谱进行客群划分,得到客群划分结果;第一评估模块,用于根据预设的客群划分效果评估指标和所述客群划分结果,对所述风险客群识别模型进行划分效果评估,得到第一评估结果;第二评估模块,用于根据所述客群划分结果和所述验
证数据集进行客群经营状况风险评估,得到第二评估结果;第三评估模块,用于根据所述客群划分结果和所述现有黑名单进行客群染黑风险评估,得到第三评估结果;综合评估模块,用于将所述第一评估结果、所述第二评估结果和所述第三评估结果进行合并,得到客群划分综合评估结果。
12.可选的,在本发明第二方面的第一种实现方式中,所述客群划分模块具体包括:实体点设定单元,用于确定所述训练数据集中对应的所有客户,并将每个客户设定为实体点;关联确定单元,用于根据所述训练数据集中的数据类型,确定所述训练数据集对应的所有客户之间的关联关系;图谱生成单元,用于通过所述关联关系将所述实体点之间进行关联,得到风险关系图谱;模型输入单元,用于将所述风险关系图谱输入预设的风险客群识别模型中,通过所述风险客群识别模型对所述风险关系图谱进行客群划分,得到客群划分结果。
13.可选的,在本发明第二方面的第二种实现方式中,所述图谱生成单元具体用于:将所述关联关系作为所述实体点之间的关系边;根据所述训练数据集计算两个所述实体点之间的关系边的权重值;将所有与所述实体点相连的关系边的权重值相加,得到用于衡量所述实体点重要度的点权值;根据所述点权值、所述实体点和所述关系边的权重值构建所述风险关系图谱。
14.可选的,在本发明第二方面的第三种实现方式中,所述客群划分效果评估指标包括模型性能指标和客群风险指标;所述第一评估模块具体包括:性能计算单元,用于获取所述风险关系图谱的图谱数据,并根据所述图谱数据和所述客群划分结果计算所述模型性能指标;风险计算单元,用于根据所述客群划分结果中各客群对应的全量保单数据计算所述客群风险指标;效果评估单元,用于根据所述模型性能指标和客群风险指标对所述风险客群识别模型进行划分效果评估,得到第一评估结果。
15.可选的,在本发明第二方面的第四种实现方式中,所述模型性能指标包括模块度、平均异常图构、平均聚类系数和社群规模;所述性能计算单元具体用于:获取所述风险关系图谱中的实体点总数、所述客群划分结果中各客群两两之间的第一关系边总数、连接各客群的第二关系边总数、客群总数,各客群对应的邻接矩阵,实体点到所有对应客群中其他实体点的距离平均值,实体点到除对应客群外的其他客群内的所有实体点的平均距离的最小值,客群中实体点到其他实体点的通路总数;根据所述各客群两两之间的第一关系边总数、连接各客群的第二关系边总数和客群总数计算所述模块度;根据所述客群总数、所述实体点总数、所述邻接矩阵和所述通路总数计算所述平均异常图构;将所述风险客群识别模型划分的客群数量作为所述社群规模;根据所述客群总数、所述距离平均值和所述最小值计算所述平均聚类系数。
16.可选的,在本发明第二方面的第五种实现方式中,所述客群划分结果包括风险客群和普通客群;所述第二评估模块具体用于:将所述风险客群中的客户与所述验证数据集中的客户进行匹配,得到第一匹配结果;将所述普通客群中的客户与所述验证数据集中的客户进行匹配,得到第二匹配结果;根据所述第一匹配结果和所述第二匹配结果对所述风险客群进行假设检验,验证所述风险客群存在显著性风险的第一概率,并根据所述第一概率得到第二评估结果。
17.可选的,在本发明第二方面的第六种实现方式中,所述第三评估模块具体用于:将所述风险客群中的客户与所述现有黑名单中的客户进行匹配,得到第三匹配结果;将所述
普通客群中的客户与所述现有黑名单中的客户进行匹配,得到第四匹配结果;根据所述第三匹配结果和所述第四匹配结果对所述风险客群进行假设检验,验证所述风险客群存在显著性风险的第二概率,并根据所述第二概率得到第三评估结果。
18.本发明第三方面提供了一种风险客群划分评估设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述风险客群划分评估设备执行上述的风险客群划分评估方法的步骤。
19.本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的风险客群划分评估方法的步骤。
20.本发明的技术方案中,获取全量保单数据、现有黑名单和预设的数据划分时间点,并根据数据划分时间点将全量保单数据划分为训练数据集和验证数据集;根据训练数据集构建风险关系图谱,并将风险关系图谱输入预设的风险客群识别模型中,通过风险客群识别模型对风险关系图谱进行客群划分,得到客群划分结果;根据预设的客群划分效果评估指标和客群划分结果,对风险客群识别模型进行划分效果评估,得到第一评估结果;根据客群划分结果和验证数据集进行客群经营状况风险评估,得到第二评估结果;根据客群划分结果和现有黑名单进行客群染黑风险评估,得到第三评估结果;将第一评估结果、第二评估结果和第三评估结果进行合并,得到客群划分综合评估结果。本方法使用分割数据集的方式预估模型效益进行评估,并且对客群分类的结果有明确的评价指标,增加了分类结果的可解释性。
附图说明
21.图1为本发明实施例中风险客群划分评估方法的第一个实施例示意图;图2为本发明实施例中风险客群划分评估方法的第二个实施例示意图;图3为本发明实施例中风险客群划分评估方法的第三个实施例示意图;图4为本发明实施例中风险客群划分评估装置的一个实施例示意图;图5为本发明实施例中风险客群划分评估装置的另一个实施例示意图;图6为本发明实施例中风险客群划分评估设备的一个实施例示意图。
具体实施方式
22.本发明的技术方案中,获取全量保单数据、现有黑名单和预设的数据划分时间点,并根据数据划分时间点将全量保单数据划分为训练数据集和验证数据集;根据训练数据集构建风险关系图谱,并将风险关系图谱输入预设的风险客群识别模型中,通过风险客群识别模型对风险关系图谱进行客群划分,得到客群划分结果;根据预设的客群划分效果评估指标和客群划分结果,对风险客群识别模型进行划分效果评估,得到第一评估结果;根据客群划分结果和验证数据集进行客群经营状况风险评估,得到第二评估结果;根据客群划分结果和现有黑名单进行客群染黑风险评估,得到第三评估结果;将第一评估结果、第二评估结果和第三评估结果进行合并,得到客群划分综合评估结果。本方法使用分割数据集的方式预估模型效益进行评估,并且对客群分类的结果有明确的评价指标,增加了分类结果的
可解释性。
23.本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
24.为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中风险客群划分评估方法的第一个实施例包括:101、获取全量保单数据、现有黑名单和预设的数据划分时间点,并根据数据划分时间点将全量保单数据划分为训练数据集和验证数据集;可以理解的是,本发明的执行主体可以为风险客群划分评估装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
25.在本实施例中,事先收集了不同客户的全量保单数据,其中,所述全量保单数据主要包括赔付金额、签单保费、满期保费等等,并预设有数据划分时间点,将全量保单数据中在数据划分时间点前的保单数据作为训练数据,得到训练数据集,将全量保单数据中在数据划分时间点后的保单数据作为验证数据,得到验证数据集,其中训练数据集用于构建关系图谱,验证数据集用于对后续的客群划分进行评估。
26.102、根据训练数据集构建风险关系图谱,并将风险关系图谱输入预设的风险客群识别模型中,通过风险客群识别模型对风险关系图谱进行客群划分,得到客群划分结果;在本实施例中,可以挖全量保单数据中的客户的基础信息、信用信息和经营信息之间的联系,找到各个客户的关联关系,整合客户的信息,从而生成表征所述多个客户关联关系的关系图谱。其中,所述关系图谱中可以展示不同客户之间的关联关系,还可以展示各个客户本身的一些基本信息,例如工商信息、信用信息、税务信息、资产信息、司法信息等。
27.使用知识图谱(knowledgegraph)进行客户关联关系的描述,基于知识图谱、图形化展现技术等构建了关系图谱。知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(vertex)和边(edge)组成,可以借用图g=(v,e)的方式进行定义。在知识图谱里,每个节点可以表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。例如,节点(实体)可以代表客户,边可以代表上述的通过身份信息、信用信息和经营信息之间的关联关系,边的方向可以用来进一步描述上述关联关系,例如两个客户之间的关系中一方为担保方,另外一方为被担保方。采用知识图谱的方式可以进行多维度的客户关联关系建模,从而可以获得不同维度下的客户之间的关系图谱。
28.在本实施例中,风险客群识别模型使用社群划分算法识别出风险关系图谱中的风险客群,并将风险客群外的其他客群作为普通客群,得到客群划分结果。
29.103、根据预设的客群划分效果评估指标和客群划分结果,对风险客群识别模型进
行划分效果评估,得到第一评估结果;在实际应用中,对复杂网络进行社区划分,需要有一些评价指标,来评判算法对网络划分结果的好坏优劣,在本实施例中,就是客群划分效果评估指标,客群划分效果评估指标主要分为两类,分别为模型性能指标和客群风险指标,其中模型性能指标包括模块度、平均异常图构、平均聚类系数和社群规模等,可以衡量出客群分类模型的分类性能,客群风险指标包括客户数占比、保单出险率和赔付率,可以结合业务得出高风险客群的规模。通过对客群划分结果中的风险客群和普通客群使用上述客群划分效果评估指标即可进行划分效果评估,得到的各项评估指标的数值取平均值或者预设各项评估指标的权重计算评估总值,得到的结果即为第一评估结果。
30.104、根据客群划分结果和验证数据集进行客群经营状况风险评估,得到第二评估结果;在本实施例中,将客群划分结果中的风险客群与验证数据集中的客户进行匹配,其中,匹配是指用客群里的证件号去匹配客户在数据划分时间点之后的购买保单和出险赔付的数据,并且普通客群也与验证数据集中的客户进行匹配,并根据两者的匹配结果,做假设检验验证风险客群有显著性风险的概率,得到的数值即为第二评估结果。
31.105、根据客群划分结果和现有黑名单进行客群染黑风险评估,得到第三评估结果;在本实施例中,将客群划分结果中的风险客群与现有黑名单中的客户进行匹配,其中,匹配是指与黑名单的证件号匹配,获得染黑情况,并且普通客群也与现有黑名单中的客户进行匹配,并根据两者的匹配结果,做假设检验验证风险客群有显著性风险的概率,得到的数值即为第三评估结果。
32.106、将第一评估结果、第二评估结果和第三评估结果进行合并,得到客群划分综合评估结果。
33.在本实施例中,将第一评估结果、第二评估结果和第三评估结果作为客群划分的不同维度输出,三个维度独立考虑,一起给出报告结果,用户具体根据哪个评估结果对风险客群划分进行评估重点看业务场景。
34.在本实施例中,通过获取全量保单数据、现有黑名单和预设的数据划分时间点,并根据数据划分时间点将全量保单数据划分为训练数据集和验证数据集;根据训练数据集构建风险关系图谱,并将风险关系图谱输入预设的风险客群识别模型中,通过风险客群识别模型对风险关系图谱进行客群划分,得到客群划分结果;根据预设的客群划分效果评估指标和客群划分结果,对风险客群识别模型进行划分效果评估,得到第一评估结果;根据客群划分结果和验证数据集进行客群经营状况风险评估,得到第二评估结果;根据客群划分结果和现有黑名单进行客群染黑风险评估,得到第三评估结果;将第一评估结果、第二评估结果和第三评估结果进行合并,得到客群划分综合评估结果。本方法使用分割数据集的方式预估模型效益进行评估,并且对客群分类的结果有明确的评价指标,增加了分类结果的可解释性。
35.请参阅图2,本发明实施例中风险客群划分评估方法的第二个实施例包括:201、获取全量保单数据、现有黑名单和预设的数据划分时间点,并根据数据划分时间点将全量保单数据划分为训练数据集和验证数据集;
202、确定训练数据集中对应的所有客户,并将每个客户设定为实体点;203、根据训练数据集中的数据类型,确定训练数据集对应的所有客户之间的关联关系;204、将关联关系作为实体点之间的关系边;在实际应用中,使用知识图谱(knowledgegraph)进行客户关联关系的描述,基于知识图谱、图形化展现技术等构建了关系图谱,知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(vertex)和边(edge)组成,可以借用图g=(v,e)的方式进行定义。在本实施例中,将全量保单数据对应的客户分别作为实体点,将全量保单数据中分析出的关联关系作为边构建关系图谱,例如,存在客户a和客户b,将客户a和客户b作为实体点,其中,客户a对客户b进行了投资,则两者具有关联关系,通过将存在关联关系的待挖掘客户进行连接,最终得到关系图谱。
36.205、根据训练数据集计算两个实体点之间的关系边的权重值;在本实施例中,获取两实体点之间的关联数据,计算量实体点的关系边的权重值,关系边的权重值越大说明两节点关系越紧密;反之,说明两节点之间关系稀疏。
37.206、将所有与实体点相连的关系边的权重值相加,得到用于衡量实体点重要度的点权值;在本实施例中,通过将与某一实体点相关的所有的关系边的权重值叠加在一起,即为该实体点的点权值。点权值用来衡量客户的重要度,该值越大说明该客户重要度越大;反之,重要度越小。
38.207、根据点权值、实体点和关系边的权重值构建风险关系图谱;208、将风险关系图谱输入预设的风险客群识别模型中,通过风险客群识别模型对风险关系图谱进行客群划分,得到客群划分结果;209、根据预设的客群划分效果评估指标和客群划分结果,对风险客群识别模型进行划分效果评估,得到第一评估结果;210、根据客群划分结果和验证数据集进行客群经营状况风险评估,得到第二评估结果;211、根据客群划分结果和现有黑名单进行客群染黑风险评估,得到第三评估结果;212、将第一评估结果、第二评估结果和第三评估结果进行合并,得到客群划分综合评估结果。
39.本实施例在上一实施例的基础上,详细描述了根据所述训练数据集构建风险关系图谱,并将所述风险关系图谱输入预设的风险客群识别模型中,通过所述风险客群识别模型对所述风险关系图谱进行客群划分,得到客群划分结果的过程,通过确定所述训练数据集中对应的所有客户,并将每个客户设定为实体点;根据所述训练数据集中的数据类型,确定所述训练数据集对应的所有客户之间的关联关系;通过所述关联关系将所述实体点之间进行关联,得到风险关系图谱;将所述风险关系图谱输入预设的风险客群识别模型中,通过所述风险客群识别模型对所述风险关系图谱进行客群划分,得到客群划分结果。本方法使用分割数据集的方式预估模型效益进行评估,并且对客群分类的结果有明确的评价指标,增加了分类结果的可解释性。
40.请参阅图3,本发明实施例中风险客群划分评估方法的第三个实施例包括:301、获取全量保单数据、现有黑名单和预设的数据划分时间点,并根据数据划分时间点将全量保单数据划分为训练数据集和验证数据集;302、根据训练数据集构建风险关系图谱,并将风险关系图谱输入预设的风险客群识别模型中,通过风险客群识别模型对风险关系图谱进行客群划分,得到客群划分结果;303、获取风险关系图谱中的实体点总数、客群划分结果中各客群两两之间的第一关系边总数、连接各客群的第二关系边总数、客群总数,各客群对应的邻接矩阵,实体点到所有对应客群中其他实体点的距离平均值,实体点到除对应客群外的其他客群内的所有实体点的平均距离的最小值,客群中实体点到其他实体点的通路总数;304、根据各客群两两之间的第一关系边总数、连接各客群的第二关系边总数和客群总数计算模块度;305、根据客群总数、实体点总数、邻接矩阵和通路总数计算平均异常图构;306、将风险客群识别模型划分的客群数量作为社群规模;307、根据客群总数、距离平均值和最小值计算平均聚类系数;在本实施例中,模型性能指标包括模块度、平均异常图构、平均聚类系数和社群规模,其中,模块度是用于评判客群划分水平,计算公式为平均异常图构是用于评判风险客群风险聚集性的指标,计算公式为,平均聚类系数是用于评判客群数量划分水平的,计算公式为,在上述公式中,n表示风险图谱客户的实体点总数,表示连接客群i与客群j的关系边的总数,即上述的第一关系边总数,是指连接客群i的总边数,即上述的第二关系边总数,c表示客群总数表示第i个客群的邻接矩阵,表示中的元素表示在第l个客群中从结点j经过k路径到达结点j的通路总数,表示i节点的轮廓系数,计算公式为,其中,表示i节点到所有它属于的客群中其它点的距离平均值,表示节点到某一不包含它的客群内的所有点的平均距离的最小值。
41.308、根据客群划分结果中各客群对应的全量保单数据计算客群风险指标;309、根据模型性能指标和客群风险指标对风险客群识别模型进行划分效果评估,得到第一评估结果;310、将客群划分结果中的风险客群中的客户与验证数据集中的客户进行匹配,得到第一匹配结果;311、将客群划分结果中的普通客群中的客户与验证数据集中的客户进行匹配,得到第二匹配结果;312、根据第一匹配结果和第二匹配结果对风险客群进行假设检验,验证风险客群存在显著性风险的第一概率,并根据第一概率得到第二评估结果;
在本实施例中,对风险客群和普通客群进行匹配后,进行风险客群经营情况评估,评估指标如下表1:表1 风险客群经营情况指标设计313、将风险客群中的客户与现有黑名单中的客户进行匹配,得到第三匹配结果;314、将普通客群中的客户与现有黑名单中的客户进行匹配,得到第四匹配结果;315、根据第三匹配结果和第四匹配结果对风险客群进行假设检验,验证风险客群存在显著性风险的第二概率,并根据第二概率得到第三评估结果;在实际应用中,假设检验(hypothesis testing),又称统计假设检验,是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。显著性检验是假设检验中最常用的一种方法,也是一种最基本的统计推断形式,其基本原理是先对总体的特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出推断。常用的假设检验方法有z检验、t检验、卡方检验、f检验等。
42.316、将第一评估结果、第二评估结果和第三评估结果进行合并,得到客群划分综合评估结果。
43.本实施例在前实施例的基础上,详细描述了根据预设的客群划分效果评估指标和所述客群划分结果,对所述风险客群识别模型进行划分效果评估,得到第一评估结果的过程,通过获取所述风险关系图谱的图谱数据,并根据所述图谱数据和所述客群划分结果计算所述模型性能指标;根据所述客群划分结果中各客群对应的全量保单数据计算所述客群风险指标;根据所述模型性能指标和客群风险指标对所述风险客群识别模型进行划分效果评估,得到第一评估结果。本方法使用分割数据集的方式预估模型效益进行评估,并且对客群分类的结果有明确的评价指标,增加了分类结果的可解释性。
44.上面对本发明实施例中风险客群划分评估方法进行了描述,下面对本发明实施例中风险客群划分评估装置进行描述,请参阅图4,本发明实施例中风险客群划分评估装置一个实施例包括:数据划分模块401,用于获取全量保单数据、现有黑名单和预设的数据划分时间
点,并根据所述数据划分时间点将所述全量保单数据划分为训练数据集和验证数据集;客群划分模块402,用于根据所述训练数据集构建风险关系图谱,并将所述风险关系图谱输入预设的风险客群识别模型中,通过所述风险客群识别模型对所述风险关系图谱进行客群划分,得到客群划分结果;第一评估模块403,用于根据预设的客群划分效果评估指标和所述客群划分结果,对所述风险客群识别模型进行划分效果评估,得到第一评估结果;第二评估模块404,用于根据所述客群划分结果和所述验证数据集进行客群经营状况风险评估,得到第二评估结果;第三评估模块405,用于根据所述客群划分结果和所述现有黑名单进行客群染黑风险评估,得到第三评估结果;综合评估模块406,用于将所述第一评估结果、所述第二评估结果和所述第三评估结果进行合并,得到客群划分综合评估结果。
45.本发明实施例中,所述风险客群划分评估装置运行上述风险客群划分评估方法,所述风险客群划分评估装置通过获取全量保单数据、现有黑名单和预设的数据划分时间点,并根据数据划分时间点将全量保单数据划分为训练数据集和验证数据集;根据训练数据集构建风险关系图谱,并将风险关系图谱输入预设的风险客群识别模型中,通过风险客群识别模型对风险关系图谱进行客群划分,得到客群划分结果;根据预设的客群划分效果评估指标和客群划分结果,对风险客群识别模型进行划分效果评估,得到第一评估结果;根据客群划分结果和验证数据集进行客群经营状况风险评估,得到第二评估结果;根据客群划分结果和现有黑名单进行客群染黑风险评估,得到第三评估结果;将第一评估结果、第二评估结果和第三评估结果进行合并,得到客群划分综合评估结果。本方法使用分割数据集的方式预估模型效益进行评估,并且对客群分类的结果有明确的评价指标,增加了分类结果的可解释性。
46.请参阅图5,本发明实施例中风险客群划分评估装置的第二个实施例包括:数据划分模块401,用于获取全量保单数据、现有黑名单和预设的数据划分时间点,并根据所述数据划分时间点将所述全量保单数据划分为训练数据集和验证数据集;客群划分模块402,用于根据所述训练数据集构建风险关系图谱,并将所述风险关系图谱输入预设的风险客群识别模型中,通过所述风险客群识别模型对所述风险关系图谱进行客群划分,得到客群划分结果;第一评估模块403,用于根据预设的客群划分效果评估指标和所述客群划分结果,对所述风险客群识别模型进行划分效果评估,得到第一评估结果;第二评估模块404,用于根据所述客群划分结果和所述验证数据集进行客群经营状况风险评估,得到第二评估结果;第三评估模块405,用于根据所述客群划分结果和所述现有黑名单进行客群染黑风险评估,得到第三评估结果;综合评估模块406,用于将所述第一评估结果、所述第二评估结果和所述第三评估结果进行合并,得到客群划分综合评估结果。
47.在本实施例中,所述客群划分模块402具体包括:实体点设定单元4021,用于确定所述训练数据集中对应的所有客户,并将每个客户设定为实体点;关联确定单元4022,用于
根据所述训练数据集中的数据类型,确定所述训练数据集对应的所有客户之间的关联关系;图谱生成单元4023,用于通过所述关联关系将所述实体点之间进行关联,得到风险关系图谱;模型输入单元4024,用于将所述风险关系图谱输入预设的风险客群识别模型中,通过所述风险客群识别模型对所述风险关系图谱进行客群划分,得到客群划分结果。
48.在本实施例中,所述图谱生成单元4023具体用于:将所述关联关系作为所述实体点之间的关系边;根据所述训练数据集计算两个所述实体点之间的关系边的权重值;将所有与所述实体点相连的关系边的权重值相加,得到用于衡量所述实体点重要度的点权值;根据所述点权值、所述实体点和所述关系边的权重值构建所述风险关系图谱。
49.在本实施例中,所述客群划分效果评估指标包括模型性能指标和客群风险指标;所述第一评估模块403具体包括:性能计算单元4031,用于获取所述风险关系图谱的图谱数据,并根据所述图谱数据和所述客群划分结果计算所述模型性能指标;风险计算单元4032,用于根据所述客群划分结果中各客群对应的全量保单数据计算所述客群风险指标;效果评估单元4033,用于根据所述模型性能指标和客群风险指标对所述风险客群识别模型进行划分效果评估,得到第一评估结果。
50.在本实施例中,所述模型性能指标包括模块度、平均异常图构、平均聚类系数和社群规模;所述性能计算单元4031具体用于:获取所述风险关系图谱中的实体点总数、所述客群划分结果中各客群两两之间的第一关系边总数、连接各客群的第二关系边总数、客群总数,各客群对应的邻接矩阵,实体点到所有对应客群中其他实体点的距离平均值,实体点到除对应客群外的其他客群内的所有实体点的平均距离的最小值,客群中实体点到其他实体点的通路总数;根据所述各客群两两之间的第一关系边总数、连接各客群的第二关系边总数和客群总数计算所述模块度;根据所述客群总数、所述实体点总数、所述邻接矩阵和所述通路总数计算所述平均异常图构;将所述风险客群识别模型划分的客群数量作为所述社群规模;根据所述客群总数、所述距离平均值和所述最小值计算所述平均聚类系数。
51.在本实施例中,所述客群划分结果包括风险客群和普通客群;所述第二评估模块404具体用于:将所述风险客群中的客户与所述验证数据集中的客户进行匹配,得到第一匹配结果;将所述普通客群中的客户与所述验证数据集中的客户进行匹配,得到第二匹配结果;根据所述第一匹配结果和所述第二匹配结果对所述风险客群进行假设检验,验证所述风险客群存在显著性风险的第一概率,并根据所述第一概率得到第二评估结果。
52.在本实施例中,所述第三评估模块405具体用于:将所述风险客群中的客户与所述现有黑名单中的客户进行匹配,得到第三匹配结果;将所述普通客群中的客户与所述现有黑名单中的客户进行匹配,得到第四匹配结果;根据所述第三匹配结果和所述第四匹配结果对所述风险客群进行假设检验,验证所述风险客群存在显著性风险的第二概率,并根据所述第二概率得到第三评估结果。
53.本实施例在上一实施例的基础上,详细描述了各个模块的具体功能,通过风险客群划分评估装置上的各个模块使用分割数据集的方式预估模型效益进行评估,并且对客群分类的结果有明确的评价指标,增加了分类结果的可解释性。
54.上面图4和图5从模块化功能实体的角度对本发明实施例中的中风险客群划分评估装置进行详细描述,下面从硬件处理的角度对本发明实施例中风险客群划分评估设备进行详细描述。
55.图6是本发明实施例提供的一种风险客群划分评估设备的结构示意图,该风险客群划分评估设备600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,cpu)610(例如,一个或一个以上处理器)和存储器620,一个或一个以上存储应用程序633或数据632的存储介质630(例如一个或一个以上海量存储设备)。其中,存储器620和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对风险客群划分评估设备600中的一系列指令操作。更进一步地,处理器610可以设置为与存储介质630通信,在风险客群划分评估设备600上执行存储介质630中的一系列指令操作,以实现上述风险客群划分评估方法的步骤。
56.风险客群划分评估设备600还可以包括一个或一个以上电源640,一个或一个以上有线或无线网络接口650,一个或一个以上输入输出接口660,和/或,一个或一个以上操作系统631,例如windows serve,mac os x,unix,linux,freebsd等等。本领域技术人员可以理解,图6示出的风险客群划分评估设备结构并不构成对本技术提供的风险客群划分评估设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
57.本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述风险客群划分评估方法的步骤。
58.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统或装置、单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
59.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory, rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
60.以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1