本技术涉及人工智能,特别是涉及一种信用模型生成方法、装置、电子设备及存储介质。
背景技术:
1、随着互联网金融的快速发展,银行信贷业务量也大幅上升。在客户申请信贷业务后,银行会根据客户的信息整体评估决定放款额度。在此过程中,银行经营的主要风险为客户的信用风险,信用风险是指因为债务人未能按合同执行义务给债权人带来损失的可能性。
2、目前,大部分银行主要依靠信贷审批人员个人经验来决定是否通过审批下放贷款,一方面,客户信用风险涉及多方面复杂因素,不是简单的根据直观数据就能评判出客户的信用风险,根据审批人员的个人经验进行预测并不合理,另一方面,在风险预测过程中难免会掺杂审批人员的个人因素,使得预测结果可靠性低,即,无法客观评价客户的信用风险。
技术实现思路
1、本技术提供了一种信用模型生成方法、装置、电子设备及存储介质,能够合理、客观地预测客户的信用风险。
2、第一方面,本技术提供了一种信用模型生成方法,所述方法包括:
3、获取初始数据集,所述初始数据集包括多个信用样本,所述信用样本与信用标签对应,所述信用标签用于表征所述信用样本守约或违约;
4、对所述初始数据集进行数据清洗,获得中间数据集;
5、基于filter过滤法对所述中间数据集进行特征选择,获得目标数据集;
6、将所述目标数据集输入多层感知器训练,生成信用模型,所述信用模型用于预测信用风险结果,所述信用风险结果包括守约或违约。
7、可选地,所述将所述目标数据集输入多层感知器训练,生成信用模型,包括:
8、基于随机取样法划分所述目标数据集,获得训练集和测试集,所述训练集和所述测试集的信用样本的数量比值符合第一阈值,所述训练集用于生成所述信用模型,所述测试集用于对所述信用模型进行泛化评价;
9、将所述训练集输入所述多层感知器训练,生成所述信用模型。
10、可选地,所述数据清洗包括脱敏类特征处理、文本型数据处理和缺失值处理中至少一种处理。
11、可选地,所述对所述初始数据集进行数据清洗,获得中间数据集,包括:
12、对所述初始数据集进行归一化处理,获得第一数据集;
13、对所述第一数据集进行数据清洗,获得所述中间数据集。
14、可选地,所述中间数据集对应第一特征集合,所述基于filter过滤法对所述中间数据集进行特征选择,获得目标数据集,包括:
15、对所述第一特征集合进行特征选择,获得第二特征集合,所述第二特征集合中特征的方差不小于第二阈值;
16、对所述第二特征集合进行皮尔森相关性分析,筛选获得第三特征集合,所述第三特征集合中特征的相关系数不大于第三阈值;
17、基于所述第三特征集合中特征筛选所述中间数据集,获得所述目标数据集。
18、可选地,所述基于所述第三特征集合中特征筛选所述中间数据集,获得所述目标数据集,包括:
19、对所述第三特征集合进行特征组合,获得第四特征集合;
20、基于所述第四特征集合中特征筛选所述中间数据集,获得所述目标数据集。
21、可选地,多个所述信用样本包括正样本和负样本,所述正样本用于表征信用标签为违约的信用样本,所述负样本用于表征信用标签为守约的信用样本,所述正样本和所述负样本的数量比值符合第四阈值。
22、第二方面,本技术还提供了一种信用模型生成装置,所述装置包括:
23、获取单元,用于获取初始数据集,所述初始数据集包括多个信用样本,所述信用样本与信用标签对应,所述信用标签用于表征所述信用样本守约或违约;
24、清洗单元,用于对所述初始数据集进行数据清洗,获得中间数据集;
25、选择单元,用于基于filter过滤法对所述中间数据集进行特征选择,获得目标数据集;
26、训练单元,用于将所述目标数据集输入多层感知器训练,生成信用模型,所述信用模型用于预测信用风险结果,所述信用风险结果包括守约或违约。
27、可选地,所述训练单元,具体用于:
28、基于随机取样法划分所述目标数据集,获得训练集和测试集,所述训练集和所述测试集的信用样本的数量比值符合第一阈值,所述训练集用于生成所述信用模型,所述测试集用于对所述信用模型进行泛化评价;
29、将所述训练集输入所述多层感知器训练,生成所述信用模型。
30、可选地,所述数据清洗包括脱敏类特征处理、文本型数据处理和缺失值处理中至少一种处理。
31、可选地,所述清洗单元,具体用于:
32、对所述初始数据集进行归一化处理,获得第一数据集;
33、对所述第一数据集进行数据清洗,获得所述中间数据集。
34、可选地,所述中间数据集对应第一特征集合,所述选择单元,具体用于:
35、对所述第一特征集合进行特征选择,获得第二特征集合,所述第二特征集合中特征的方差不小于第二阈值;
36、对所述第二特征集合进行皮尔森相关性分析,筛选获得第三特征集合,所述第三特征集合中特征的相关系数不大于第三阈值;
37、基于所述第三特征集合中特征筛选所述中间数据集,获得所述目标数据集。
38、可选地,所述基于所述第三特征集合中特征筛选所述中间数据集,获得所述目标数据集,包括:
39、对所述第三特征集合进行特征组合,获得第四特征集合;
40、基于所述第四特征集合中特征筛选所述中间数据集,获得所述目标数据集。
41、可选地,多个所述信用样本包括正样本和负样本,所述正样本用于表征信用标签为违约的信用样本,所述负样本用于表征信用标签为守约的信用样本,所述正样本和所述负样本的数量比值符合第四阈值。
42、第三方面,本技术还提供了一种电子设备,所述电子设备包括处理器以及存储器:
43、所述存储器用于存储计算机程序;
44、所述处理器用于根据所述计算机程序执行上述第一方面提供的所述信用模型生成方法。
45、第四方面,本技术还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述第一方面提供的所述信用模型生成方法。
46、由此可见,本技术具有如下有益效果:
47、本技术提供了一种信用模型生成方法、装置、电子设备及存储介质,该方法包括:获取初始数据集,初始数据集包括多个信用样本,信用样本与信用标签对应,信用标签用于表征信用样本守约或违约;对初始数据集进行数据清洗,获得中间数据集;基于filter过滤法对中间数据集进行特征选择,获得目标数据集;将目标数据集输入多层感知器训练,生成信用模型,信用模型用于预测信用风险结果,信用风险结果包括守约或违约。如此,对包括多个客户信用样本的初始数据集进行数据清洗、特征选择,获得能够合理评价客户信用风险的目标数据集,再将目标数据集输入多层感知器进行模型训练从而获得信用模型,这样,仅需将客户行为数据输入该信用模型,就能够获得该客户对应的信用风险结果,实现了对信用风险的客观预测。