本说明书的一个或多个实施例涉及数据处理,特别的涉及风险评估模型的训练方法、风险预测方法。
背景技术:
1、出租人根据承租方的请求,与第三方(供货商)订立供货合同,出租人根据供货合同出资向供货商购买承租方选定的设备。为了保障出租人的权益,对承租方的信用等级进行风险评估就显得尤为重要。
2、为了确保上述业务的有序进行、避免租后风险对出租方造成损失,出租方在租后阶段会定期对承租方的经营状况、还款行为等进行监控,以判定承租方是否存在信用风险。然而,此类租后风险判定方法实时性较弱,较难提前预知承租方信用风险。
3、 发明专利申请cn202110110606.0 公开了基于区块链的租赁风险评估方法,该方法包括从区块链系统中获取目标承租方所承租的目标租赁设备的运行数据;基于运行数据,通过评估模型对目标承租方关于目标租赁设备的租赁业务进行风险评估。运行数据由设置于目标租赁设备中的物联网模块采集并上传至区块链系统。一方面,该发明对获取、采集租赁设备物联网采集数据的硬件和系统要求较高,且需要具备获取权限;另一方面,该发明风险评估基于的运行数据只能体现设备使用情况,无法完全体现承租方在日常事项中的风险事项。
4、发明专利申请cn202111150054.2公开了风险预测方法,该方法包括:获取项目中目标承租方的多项特征数据,所述特征数据用于表征所述目标承租方的经营状况及信用状况;将所述多项特征数据输入分析计算引擎,以得到不同类型的风险预测结果;其中,所述分析计算引擎包括一个或多个经过大数据训练的预测模型,每个预测模型对应输出一个分支预测结果;根据所述分支风险预测结果评估所述目标承租方的综合风险。该发明对于参与计算模型训练的企业各项经营状况及信用状况特征的重要性没有做区分,使用相关性较低的特征进行模型训练,将可能导致模型的过拟合、泛用性不足。并且该发明的预测模型为神经网络模型,无法明确输出结果与输入信息之间的关系,即无法将计算预测结果转化为具有业务含义的原因说明。
技术实现思路
1、本说明书一个或多个实施例描述了风险评估模型的训练方法、风险预测方法,能够解决上述一个或多个技术问题。
2、第一方面,本说明书实施例提供了一种风险评估模型训练方法,包括:
3、获取若干承租方的样本数据集,每个样本数据集包括多个表征承租方经营信息和风险信息的特征数据、风险概率真值;
4、将每个样本数据集的多个特征数据输入风险评估模型进行局部训练,利用损失函数对风险评估模型输出的风险概率预测值与风险概率真值进行预测判断,当预测结果满足收敛条件,获得每一个样本所对应风险评估模型的局部最优参数;
5、其中,所述风险评估模型为基于每个特征数据对风险影响不同而形成的概率模型,所述局部最优参数包括每个特征数据的权重;
6、利用代价函数对所有样本进行全局训练,当代价函数最小时,训练完毕,获得风险评估模型的全局最优参数并输出训练好的风险评估模型;
7、其中,所述代价函数为对所有样本的损失值求平均的函数,所述全局最优参数包括每个特征数据的权重。
8、在一些实施例中,所述获取若干承租方的样本数据集,包括:
9、采集若干承租方的历史数据,所述历史数据包括经营信息、风险信息、风险概率真值;
10、对历史数据进行特征数值化处理;
11、以每个承租方为单位,构建样本数据集,每个样本数据集中包括多个将特征数据化处理后的特征数据。
12、在一些实施例中,所述获取若干承租方的样本数据集,还包括:
13、利用特征选择函数,从特征数值化处理后的特征数据中选取关联特征数据;之后,构建样本数据集,每个样本数据集中包括多个选取的关联特征数据。
14、在一些实施例中,所述利用特征选择函数,从特征数值化处理后的特征数据中选取关联特征数据,包括:
15、计算每一个特征数据发生风险的期望预测值和未发生风险的期望预测值;
16、利用卡方校验公式,计算每一个特征数据的分值,所述分值为期望真值与期望预测值的相近度的评估值;
17、基于评估值大小,从多个特征数据中选取评估值较大的若干特征数据作为关联特征数据。
18、在一些实施例中,在所述将每个样本数据集的多个特征数据输入风险评估模型进行局部训练前,方法还包括:利用正态分布随机初始化风险评估模型中每个特征数据的权重。
19、在一些实施例中,在所述利用代价函数对所有样本进行全局训练中,每一个样本所对应风险评估模型的局部最优参数利用梯度公式进行更新。
20、在一些实施例中,在输出训练好的风险评估模型前,方法还包括:
21、将若干承租方的验证集中的特征数据分别输入具有全局最优参数的风险评估模型中,输出发生风险的验证概率;
22、基于发生风险的验证概率,获得未发生风险的验证概率;
23、利用召回率公式,计算预测和实际均发生风险的比率不低于目标阈值时,则输出训练好的风险评估模型;否则,调整验证集和样本数据集中的数据,重复前述训练过程,直到预测和实际均发生风险的比率不低于目标阈值时结束。
24、第二方面,本说明书实施例提供了一种风险预测方法,包括:
25、获取承租方的特征数据集,所述特征数据集包括多个表征承租方经营信息和风险信息的特征数据;
26、所述多个特征数据输入如上述一个或多个实施例所述的方法训练得到的风险评估模型,输出风险概率。
27、在一些实施例中,所述获取承租方的特征数据集,包括:
28、采集承租方的信息数据,所述信息数据包括经营信息、风险信息;
29、对信息数据进行特征数值化处理;
30、构建特征数据集,所述特征数据集包括多个经特征数值化处理后的特征数据。
31、在一些实施例中,所述信息数据为根据训练好的风险评估模型中所需特征数据采集的数据。
32、本说明书一些实施例提供的技术方案带来的有益效果至少包括:
33、在本说明书一个或多个实施例中,利用逻辑回归算法训练风险评估模型,计算各项特征数据对风险评估结果的影响权重,使得在利用训练好的模型进行风险预测时,能客观、全面评估风险,尤其是结合了不同因素对风险影响的不同程度进行了综合性的风险评估;还对评估的特征数据进行筛选,以获得对风险影响关联度高的特征数据,进一步提高风险评估的准确性。
1.风险评估模型训练方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述获取若干承租方的样本数据集,包括:
3.根据权利要求2所述的方法,其特征在于,所述获取若干承租方的样本数据集,还包括:
4.根据权利要求3所述的方法,其特征在于,所述利用特征选择函数,从特征数值化处理后的特征数据中选取关联特征数据,包括:
5.根据权利要求1所述的方法,其特征在于,在所述将每个样本数据集的多个特征数据输入风险评估模型进行局部训练前,还包括:利用正态分布随机初始化风险评估模型中每个特征数据的权重。
6.根据权利要求1所述的方法,其特征在于,在所述利用代价函数对所有样本进行全局训练中,每一个样本所对应风险评估模型的局部最优参数利用梯度公式进行更新。
7.根据权利要求1所述的方法,其特征在于,在输出训练好的风险评估模型前,还包括:
8.风险预测方法,其特征在于,包括:
9.根据权利要求8所述的方法,其特征在于,所述获取承租方的特征数据集包括:
10.根据权利要求9所述的方法,其特征在于,所述信息数据为根据训练好的风险评估模型中所需特征数据采集的数据。