本发明涉及复杂网络及机器学习领域,特别是涉及一种基于复杂网络的信用卡客户欺诈风险特征提取方法。
背景技术:
近年来,随着经济的快速发展和对外开放的不断深入,我国信用卡业务快速发展。商业银行逐渐重视信用卡业务,外资银行也以不同方式介入信用卡业务,各发卡银行发卡量大幅上升,市场竞争逐渐开始激烈,区域性的竞争尤为突出。据统计,仅2016年上半年,上市银行新增发卡量就达到了4976万张。伴随着发卡量的增长,发卡银行面临的风险也日益显现,如信用风险、流动风险、市场风险等。尤其是信用卡作为无担保的信用贷款金融产品,虽然贷款基于消费,且基本为小额,但客户群体众多,审核手续简单,在银行对客户信息收集、信息筛选中都面临不对称信息问题,由于客户收入变化,或是恶意拖欠会造成较大的信用风险,即使存在有效的风险监控机制,事后逾期催收手段,同样面临较高的交易成本。据研究资料和实务数据统计分析,信用风险所造成的损失占商业银行信用卡业务风险损失的90%,因此信用风险是造成信用卡业务资产损失的主要原因。
如何有效地对新申请客户进行信用欺诈预测,防范信用不良的客户申办信用卡,提高银行预防和抵抗信用卡风险的能力,是所有银行迫切需要解决的问题。传统的信用风险度量是根据客户基本信息和信用历史资料,利用相应的机器学习信用预测模型,评估用户的信用欺诈概率,该类方法以局部分析多,全局分析少;而复杂网络能够对复杂系统的本质进行抽象,有助于理解复杂系统中各元素间的相互作用和复杂系统的整体性质。因此如何提取复杂网络特征,构建有效的客户欺诈风险特征向量,对于提高信用卡申请欺诈预测模型的准确性起到重要作用。
技术实现要素:
信用卡的发放本质属于信贷业务。通过剖析信用卡业务风险成因,建立完善的风险控制机制,并挖掘出高效的风险控制技术,对于化解商业银行信用卡业务风险具有十分重要的现实意义。本发明的目的是借助复杂网络分析客户之间的社交关系,设计并计算相关社交网络特征,构建有效的客户欺诈风险特征向量,全面描述客户信息,提高信用卡申请欺诈预测的准确性,从本质上防范信用风险。
上述发明目的是通过以下技术方案实现的:
步骤1:根据信用卡客户的社交信息和欺诈客户信息,制定链接规则,以信用卡客户为节点,构建客户社交网络。
信用卡客户社交信息包括申请客户的通讯信息,申请注册推广人信息和邮件往来信息,欺诈客户信息包括“通过”和“欺诈”两类客户标签;以此为数据基础,制定链接规则,将信用卡客户作为节点,将客户对应的标签信息作为节点的欺诈属性,若两个节点间有相同的通讯信息,申请注册推广人信息或具有邮件往来,则将两个节点链接起来,构建客户社交网络。
步骤2:在构建完成客户社交网络后,定义并计算一阶度、一阶欺诈数、一阶欺诈比、二阶度、二阶欺诈数、二阶欺诈比和欺诈最短路径七个社交网络特征。
步骤3:综合客户的申请信息和社交网络特征,构建客户特征向量。
传统信用风险评估一般都是直接采用客户的申请信息构建客户特征向量,仅从个体角度描述客户信息,而未考虑到客户之间的关联关系,本发明通过分析信用卡客户的社交信息和欺诈客户信息,发现客户之间关联关系,构建客户社交网络,计算相关的社交网络特征,构建有效的客户特征向量,更全面的描述客户信息,对构建高效的欺诈预测模型,支撑欺诈客户发现起到重要作用。
附图说明
图1是基于复杂网络的信用卡客户欺诈风险特征提取方法的流程图;
图2是“一阶度”示意图;
图3是“二阶度”示意图;
图4是“欺诈最短路径”示意图;
具体实施方式
下面结合附图和具体实施方式对本发明基于复杂网络的信用卡客户欺诈风险特征提取方法作进一步的说明:
如图1所示,本发明公开了一种基于复杂网络的信用卡客户欺诈风险特征提取方法,操作步骤如下:首先根据信用卡客户的社交信息和欺诈客户信息,制定链接规则,以信用卡客户为节点,构建客户社交网络;然后在构建完成客户社交网络后,定义并计算一阶度、一阶欺诈数、一阶欺诈比、二阶度、二阶欺诈数、二阶欺诈比和欺诈最短路径七个社交网络特征;最后综合客户的申请信息和社交网络特征,构建客户特征向量。构建一个有效的特征向量,对于建立一个高效的预测模型,进而准确地分析与把握商业银行经营风险并有效防范信用风险具有重要意义。
其具体实现过程为:
步骤1:构建客户社交网络的具体流程如下:
1)综合信用卡客户的社交信息和欺诈客户信息,形成客户社交信息表;
2)构建节点表,节点表字段沿用客户社交信息表中所有字段,并进行唯一id标识;
3)构建关系表,将节点表中,两个具有相同的通讯信息,申请注册推广人信息或具有邮件往来的节点的id收集到关系表中;
4)利用节点表和关系表构建客户社交网络。
步骤2:在构建完成客户社交网络后,定义并计算以下几个社交网络特征:
1)一阶度:以起始点为中心向外层层扩展,直到扩展到终点为止,当扩展层数为1时,发现的节点数就是起始点的一阶度。如图2所示,节点1扩展层数为1时,发现了节点2、节点3、节点4、节点5共4个节点,因此节点1的一阶度为4。
2)一阶欺诈数:起始点的一层节点中包含的欺诈节点数。如图2所示,节点1的一层节点中,只有节点3是欺诈节点,因此节点1的一阶欺诈数是1。
3)一阶欺诈比:起始点的一层节点中欺诈节点的占比。如图2所示,节点1的一阶度是4,一阶欺诈数是1,因此节点1的一阶欺诈比为1/4=0.25。
4)二阶度:以起始点为中心向外层层扩展,当扩展层数为2时,发现的节点数就是起始点的二阶度。如图3所示,节点1扩展层数为2时,发现了节点2、节点3、节点4、节点5和节点6共5个节点,因此节点1的二阶度为5。与节点1的一阶度相比,多了节点6,节点6是通过一层节点中节点4向外扩展发现的。
5)二阶欺诈数:起始点的二层节点中包含的欺诈节点数。如图3所示,节点1的二层节点中,只有3节点是欺诈节点,因此节点1的二阶欺诈数是1。
6)二阶欺诈比:起始点的二层节点中欺诈节点的占比。如图3所示,节点1的二阶度是5,二阶欺诈数是1,因此节点1的二阶欺诈比为1/5=0.20。
7)欺诈最短路径:从一个节点到一个最近欺诈节点的最短路径。在计算欺诈最短路径这个指标时,以起始节点(不区分是否欺诈)为中心向外层层扩展,直到扩展到包含欺诈节点为止,把此时的扩展层数定义为最短路径;若扩展层数为7,依然未扩展到欺诈节点,则将此节点的最短路径定义为100。如图4所示:
a)若起始节点为节点1,那么节点1的最短路径是通过边3的路径,此时最短路径长度是1。
b)若起始节点为节点6,那么节点6的最短路径是通过边9+边5的路径或者边9+边6的路径,此时最短路径长度是2。
步骤3:对客户申请信息进行结构化、数值化和缺失值插补等数据处理,综合客户申请信息和社交网络特征,构建客户特征向量。
利用构建的客户特征向量,结合机器学习分类模型对信用卡申请客户进行欺诈判断,防范信用不良的客户申办信用卡,提高银行预防和抵抗信用卡风险的能力。
应当理解的是,上述针对实施实例的描述较为具体,并不能因此而认为是对本发明专利保护范围的限制,本发明的专利保护范围应以所附权利要求为准。