本发明涉及征信处理,尤其涉及一种基于决策树模型的二代征信特征衍生系统及装置。
背景技术:
1、征信数据是信贷风控业务中最重要的一个数据源,对征信数据的处理也就是特征衍生是一项繁琐的任务。传统模式针对征信数据的特征衍生通常遵循时间周期+维度+原始指标+聚合函数的框架来设计,比如时间周期为“最近一个月”,维度为“银行或消费金融公司”,原始指标为“贷款审批”,聚合函数为“查询次数”形成衍生特征:最近一个月~银行或消费金融公司~贷款审批~查询次数。
2、基于上述框架通常可以生成数千甚至数万个衍生特征,在原始数据集中提取和构造可解释的特征,有利于机器学习模型更好的预测目标。传统特征工程是依赖相关领域专家的专业知识,建立特征提取框架,可以称之为手动特征工程,缺点在于繁琐耗时,过于依赖人的经验和判断。
技术实现思路
1、有鉴于此,本发明的目的在于提出一种基于决策树模型的二代征信特征衍生系统及装置,以解决现有手动特征工程繁琐耗时,过于依赖人的经验和判断的问题。
2、基于上述目的,本发明提供了一种基于决策树模型的二代征信特征衍生系统,所述特征衍生系统完成评分并将评分结果发布到现有技术的决策引擎中使用,所述评分流程包括
3、s1:获取原始征信报文,得到原始指标;
4、s2:将原始指标转换为标准化格式的中间数据;
5、s3:将中间数据输入专家特征衍生系统中进行一次人工衍生处理,得到专家衍生指标,将专家衍生指标和原始指标合并保存为离线样本数据,定义为fx特征样本;
6、s4:对fx特征样本进行清洗预处理操作,获得洁净fx特征样本;
7、s5:将洁净fx特征样本拆分为训练集x_train和测试集x_test;训练集x_train分拆为用来训练xgb模型的x_train_xgb部分和用来训练逻辑回归模型的x_train_lr部分;
8、s6:通过x_train_xgb部分训练和测试集x_test测试获取目标xgb模型;
9、s7:获取训练集所有目标xgb模型的树的叶子节点索引,得到索引列;
10、将索引列tree_1、tree_2...tree_n合并原始特征形成新的特征集xlr=[x_train_xgb,x_leaf],n为树的数量,索引列合并原始特征形成新的特征集xlr=[x_train_xgb,x_leaf];
11、s8:根据特征集xlr判定原始样本是高风险样本还是低风险样本,并且依据x_train_lr部分构造新的逻辑回归模型;
12、s9:将所述测试集x_test导入所述目标xgb模型,获取测试集叶子节点索引;
13、将测试集叶子节点索引作为新的特征合并到测试集x_test,形成新的扩展测试集:
14、x_lr_test=[x_test,xleaf_test]
15、用新的扩展测试集验证新的逻辑回归模型的有效性:
16、x_lr.score(x_lr_test,y_test)
17、多次循环s5到s9,并记录分数,将分数最高的新的逻辑回归模型确认为目标逻辑回归模型,使用目标逻辑回归模型完成后续的分值转换;
18、s10:目标xgb模型输出的叶子节点索引特征进行woe转码,转码后特征为xwoe;
19、s11:xwoe特征输入到目标逻辑回归模型进行训练,获得每个样本的违约概率,好样本概率为1-p,违约概率与正常样本的比值为odds,通过分数转换逻辑转换为评分:
20、score=base-b*ln(odds);进而获得评分结果;
21、其中,base是固定值,b是个系数,ln为取自然对数;base和b都是设定值;
22、s12:将所述评分结果导出为pmml格式,发布到现有技术的决策引擎中使用,特征衍生系统完成评分流程。
23、作为本技术的进一步改进,所述将原始征信报文解析之后转换为标准化格式的中间数据,包括按照统一的格式要求和字段定义进行组装。
24、作为本技术的进一步改进,所述按照统一的格式要求和字段定义进行组装,包括数字格式化、日期标准化和枚举字典转换。
25、作为本技术的进一步改进,所述通过x_train_xgb部分训练和测试集x_test测试获取目标xgb模型,所述目标xgb模型的树个数为10,深度为5。
26、作为本技术的进一步改进,所述获取训练集所有目标xgb模型的树的叶子节点索引,包括通过xgb模型的apply()方法获取训练集所有目标xgb模型的树的叶子节点索引。
27、作为本技术的进一步改进,所述目标xgb模型输出的叶子节点索引特征进行woe转码,转码后特征为xwoe,所述woe转码计算过程为:
28、woe=ln(低风险样本占比/高风险样本占比)*100%。
29、作为本技术的进一步改进,所述目标xgb模型输出的叶子节点索引特征进行woe转码,在所述叶子节点索引特征进行woe转码之前进行特征筛选,进行有效性和相关性分析,根据预设的阈值删除不符合条件的叶子节点索引特征。
30、作为本技术的进一步改进,进行所述有效性和相关性分析是通过iv值、相关系数指标进行的。
31、一种基于决策树模型的二代征信特征衍生装置,所述特征衍生装置包括
32、数据获取单元,用于获取原始征信报文,得到原始指标;
33、数据转换单元,用于将原始指标转换为标准化格式的中间数据;
34、数据处理单元,用于将中间数据输入专家特征衍生系统中进行一次人工衍生处理,得到专家衍生指标,将专家衍生指标和原始指标合并保存为离线样本数据,定义为fx特征样本;
35、数据清洗单元,用于对fx特征样本进行清洗预处理操作,获得洁净fx特征样本;
36、数据拆分单元,用于将洁净fx特征样本拆分为训练集x_train和测试集x_test;训练集x_train分拆为用来训练xgb模型的x_train_xgb部分和用来训练逻辑回归模型的x_train_lr部分;
37、训练单元,用于通过x_train_xgb部分训练和测试集x_test测试获取目标xgb模型;
38、索引获取单元,用于获取训练集所有目标xgb模型的树的叶子节点索引,得到索引列;
39、将索引列tree_1、tree_2...tree_n合并原始特征形成新的特征集xlr=[x_train_xgb,x_leaf],n为树的数量,索引列合并原始特征形成新的特征集xlr=[x_train_xgb,x_leaf];
40、模型构造单元,根据特征集xlr判定原始样本是高风险样本还是低风险样本,并且依据x_train_lr部分构造新的逻辑回归模型;
41、扩展验证单元,用于将所述测试集x_test导入所述目标xgb模型,获取测试集叶子节点索引;
42、将测试集叶子节点索引作为新的特征合并到测试集x_test,形成新的扩展测试集:
43、x_lr_test=[x_test,xleaf_test]
44、用新的扩展测试集验证新的逻辑回归模型的有效性:
45、x_lr.score(x_lr_test,y_test)
46、多次循环s5到s9,并记录分数,将分数最高的新的逻辑回归模型确认为目标逻辑回归模型,使用目标逻辑回归模型完成后续的分值转换;
47、转码单元,用于目标xgb模型输出的叶子节点索引特征进行woe转码,转码后特征为xwoe;
48、评分单元,用于xwoe特征输入到目标逻辑回归模型进行训练,获得每个样本的违约概率,好样本概率为1-p,违约概率与正常样本的比值为odds,通过分数转换逻辑转换为评分:
49、score=base-b*ln(odds);进而获得评分结果;
50、其中,base是固定值,b是个系数,ln为取自然对数;base和b都是设定值;
51、导出单元,用于将所述评分结果导出为pmml格式,发布到现有技术的决策引擎中使用,特征衍生系统完成评分流程。
52、本发明的有益效果:本技术提供了一种基于决策树模型的二代征信特征衍生系统,通过xgb模型和逻辑回归模型完成分值转换,获得每个样本的违约概率,通过分数转换逻辑转换为评分,进而获得评分结果将所述评分结果导出为pmml格式,发布到现有技术的决策引擎中使用,特征衍生系统完成评分流程。解放了人力,有效解决了现有手动特征工程繁琐耗时,过于依赖人的经验和判断的问题。