一种互联网信贷逾期预测方法、装置、服务器和存储介质与流程

文档序号:20958259发布日期:2020-06-02 20:32阅读:234来源:国知局
一种互联网信贷逾期预测方法、装置、服务器和存储介质与流程

本发明实施例涉及互联网金融技术领域,尤其涉及一种互联网信贷逾期预测方法、装置、服务器和存储介质。



背景技术:

互联网金融行业公司也逐渐把个人信用贷款业务作为研究突破的重要领域之一。然而,随着大数据技术的日益成熟,互联网金融个人信用原始数据集数据类型越来越复杂且数据量大,互联网金融公司面临着数据集越来越大、数据特征越来越复杂的问题。

数据集中各个指标都有可能影响个人信用评估的效果,个人基本信息、经济情况和历史信用记录等多被证明是重要因素。目前常用的互联网信贷用户的逾期预测方法主要是基于专家经验制定的评分卡和基于lr模型的传统信用评分卡。前者根据专家经验制定一套评分规则,再根据用户的实际数据,使用该规则进行信用评分。

这种方法评估结果不准确,同时无法充分挖掘数据信息,对数据的利用率不高。



技术实现要素:

本发明提供一种互联网信贷逾期预测方法,将用户数据输入模型,得到逾期预测结果,实现对用户信贷逾期概率的准确预测。

第一方面,本发明实施例提供一种互联网信贷逾期预测方法,包括:

获取待评估用户的当前用户数据,所述当前用户数据包括性别、年龄、工作年限、通话记录、和/或历史借贷行为;

使用所述当前用户数据输入预设的逾期预测模型进行预测,以得到所述待评估用户的信贷逾期概率;

根据所述信贷逾期概率对待评估用户进行信贷预期评估。

进一步地,所述逾期预测模型的生成方法包括:

获取历史用户的样本用户数据,所述样本用户数据包括历史用户的性别、年龄、工作年限、通话记录、和/或历史借贷行为,所述样本用户数据还包括用户标签,所述用户标签记载所述历史用户出现信贷逾期或未出现信贷逾期;

将所述样本用户数据分为训练集和测试集;

从所述训练集中筛选出第一数据特征;

将所述训练集通过gbdt模型学习得到第二数据特征;

将所述第一数据特征和第二数据特征合并生成第三数据特征,使用lr模型训练所述第三数据特征,生成所述逾期预测模型。

进一步地,所述从所述训练集中筛选出第一数据特征,包括:

对所述训练集进行eda数据分析,获取所述训练集的缺失值、异常值、众数、平均值、第1中位数、第2中位数、第3中位数、标准差、最大值和最小值的分布状态;

对所述训练集依次执行数据处理和变量筛选,生成第一数据特征。

进一步地,所述对所述训练集依次执行数据处理和变量筛选,生成第一数据特征,包括:

基于第一预设阈值,去掉所述训练集中缺失率超过第一预设阈值的训练集数据;

采用卡方分箱法,对去除缺失率过高的所述训练集数据进行分箱操作;

将分箱操作后的所述训练集数据的特征从非线性可分空间映射到近似线性可分空间内,生成待处理变量;

基于第二预设阈值,删除所述待处理变量中iv值超出第二预设阈值的变量,同时,基于第三预设阈值,删除所述待处理变量中vif方差膨胀因子值超出第三预设阈值的变量,生成第一数据特征。

进一步地,所述将所述训练集通过gbdt模型学习得到第二数据特征,包括:

所述gbdt模型使用决策树模型作为学习器;

基于所述性别、年龄、工作年限、通话记录、和/或历史借贷行为生成对应的决策树;

将所述用户标签中用户信贷逾期记为维度1,用户信贷未逾期记为维度0;

所述训练集根据所述决策树进行学习,生成多个叶子结点;

将所述多个叶子结点的维度取值生成所述第二数据特征。

进一步地,所述使用lr模型训练所述第三数据特征,生成所述逾期预测模型之后,还包括:

使用所述测试集测试所述逾期预测模型;

基于预测效果调整所述逾期预测模型参数。

第二方面,本发明实施例还提供一种互联网信贷逾期预测装置,包括:

第一获取模块,用于获取待评估用户的当前用户数据,所述当前用户数据包括性别、年龄、工作年限、通话记录、和/或历史借贷行为;

预测模块,用于使用所述当前用户数据输入预设的逾期预测模型进行预测,以得到所述待评估用户的信贷逾期概率;

政策制定模块,用于根据所述信贷逾期概率对待评估用户进行信贷预期评估。

进一步地,所述互联网信贷逾期预测装置还包括:

第二获取模块,用于获取历史用户的样本用户数据,所述样本用户数据包括历史用户的性别、年龄、工作年限、通话记录、和/或历史借贷行为,所述样本用户数据还包括用户标签,所述用户标签记载所述历史用户出现信贷逾期或未出现信贷逾期;

数据拆分模块,用于将所述样本用户数据分为训练集和测试集;

第一特征生成模块,用于从所述训练集中筛选出第一数据特征;

第二特征生成模块,用于将所述训练集通过gbdt模型学习得到第二数据特征;

训练模块,用于将所述第一数据特征和第二数据特征合并生成第三数据特征,使用lr模型训练所述第三数据特征,生成所述逾期预测模型。

第三方面,本发明实施例提供一种服务器,包括存储器和处理器,所述存储器上存储有可在处理器运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任意一项所述的互联网信贷逾期预测方法。

第四方面,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被执行时实现如上述任意一项所述的互联网信贷逾期预测方法。

本发明通过使用逾期预测模型,将用户数据输入模型,得到逾期预测结果,实现对用户信贷逾期概率的准确预测,提高了逾期预测准确率,另外使用本发明的逾期预测模型,还提高了逾期预测准确率,同时便于根据预测结果为用户制定针对性的信贷政策,提高抗风险能力。

附图说明

图1是本发明实施例一中的互联网信贷逾期预测方法的流程图。

图2是本发明实施例二中的互联网信贷逾期预测方法的流程图。

图3是本发明实施例三中的互联网信贷逾期预测装置模块图。

图4是本发明实施例三中的替代实施例的互联网信贷逾期预测装置模块图。

图5是本发明实施例三中的替代实施例的互联网信贷逾期预测装置模块图。

图6是本发明实施例四提供的一种服务器结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。

此外,术语“第一”、“第二”等可在本文中用于描述各种方向、动作、步骤或元件等,但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将第一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一获取模块称为第二获取模块,且类似地,可将第二获取模块称为第一获取模块。第一获取模块和第二获取模块两者都是获取模块,但其不是同一模块。术语“第一”、“第二”等而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

下述实施例中提及的专有名词及英文缩写含义如下:

iv(informationvalue,信息价值)值:iv值是用来衡量某个变量对好坏客户区分能力的一个指标。iv值越高,表示该变量区分能力越好。

卡方分箱:卡方分箱是监督的、自底向上的数据离散化方法。

woe(weightofevidence,证据权重)编码:woe证据权重是一种有监督的编码方式,将预测类的集中度的属性作为编码的数值,相当于把分箱后的特征从非线性可分映射到近似线性可分的空间内。

rf(randomforests)随机森林:是一种基于bagging的集成学习方法,可以用来做分类、回归等问题。

gdbt(gradientboostingdecisiontree)梯度提升树:是一种基于boosting的集成学习方法,可以用来做分类、回归等问题。

皮尔逊相关系数:用于度量两个变量之间的相关程度。

vif(varianceinflationfactors)方差膨胀因子:通过检查指定的解释变量能够被回归方程中其它全部解释变量所解释的程度来检测多重共线性。

p-value值:就是用来判断h0假设是否成立的依据。因为期望值是基于h0假设得出的,如果观测值与期望值越一致,则说明检验现象与零假设越接近,则越没有理由拒绝零假设。如果观测值与期望值越偏离,说明零假设越站不住脚,则越有理由拒绝零假设,从而推出对立假设的成立。

eda:exploratorydataanalysis,探索性数据分析,是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据结构和规律并且分析数据以概括其主要特征的一种数据分析方法。

实施例一

图1为本发明实施例一提供的互联网信贷逾期预测方法的流程图,适用于逾期预测模型已经事先训练好的情况,具体包括如下步骤:

s101、获取待评估用户的当前用户数据,所述当前用户数据包括性别、年龄、工作年限、通话记录、和/或历史借贷行为。

该步骤所述的当前用户数据包括但不限于性别、年龄、工作年限、通话记录、和/或历史借贷行为,还可包括一些其他来源的数据,如基础维度信息,如客户性别、年龄、工作年限等在本机构的借贷信息,还包括通讯录、通话记录、历史借贷行为等三方数据。

信贷逾期预测的实现主要通过对用户的历史借贷行为进行建模,从而预测用户的信用,为用户未来的信贷政策的制定进行风险评估。

s102、使用所述当前用户数据输入预设的逾期预测模型进行预测,以得到所述待评估用户的信贷逾期概率。

该步骤中,对用户的信贷逾期概率预测有窗口时间,且窗口时间可根据客户的历史借贷表现进行调整,如通过观察分析客户历史月份的平均逾期情况,确定表现期的窗口时间。示例性地,窗口时间为一年,如果要对2019年用户信贷概率进行预测,那么数据窗口将为2018年生成的用户数据,即评估时间点为用户数据的数据生成时间加上窗口时间得到的时间点。

s103、根据所述信贷逾期概率对待评估用户进行信贷预期评估。

该步骤中,最终得到的逾期预测模型输出的是信贷用户的信贷逾期概率,实用性较差,因此基于信贷逾期概率对待评估用户进行信贷预期评估,示例性地,可生成逾期风险评分,基于风险评分制定对应的信贷政策。将信贷逾期概率转换为逾期风险评分的方法可以是:对信贷逾期概率的对数值进行线性变换,然后再加上一个常数,将逾期概率值映射到一个分数区间内,得分即为逾期风险评分,得分越高,逾期概率越小。通过信贷逾期评估可以很容易的控制逾期的违约账户比例及其对应的成本。

本实施例通过使用逾期预测模型,实现对用户信贷逾期概率的准确预测,同时根据预测得到的信贷逾期概率进行信贷逾期评估,便于为用户制定针对性信贷政策,降低了信贷风险。

实施例二

如图2所示为本实施例的互联网信贷逾期预测方法的流程图,本实施例在上述实施例的基础上,增加了逾期预测模型的训练步骤,通过gbdt和lr模型结合,得到最终的预测结果,具体包括如下步骤:

s201、获取历史用户的样本用户数据,所述样本用户数据包括历史用户的性别、年龄、工作年限、通话记录、和/或历史借贷行为,所述样本用户数据还包括用户标签,所述用户标签记载所述历史用户出现信贷逾期或未出现信贷逾期。

s202、将所述样本用户数据分为训练集和测试集。

该步骤所述的用户数据包括但不限于性别、年龄、工作年限、通话记录、和/或历史借贷行为,还可包括一些其他来源的数据,包括但不限于基础维度信息,如客户性别、年龄、工作年限等在本机构的借贷信息,还包括通讯录、通话记录、历史借贷行为等三方数据。该步骤中对样本用户数据中训练集和测试集的划分比例可以基于建模的精度要求确定。

步骤s202后,从所述训练集中筛选出第一数据特征,该步骤具体如下:

s2031、对所述训练集进行eda数据分析,获取所述训练集的缺失值、异常值、众数、平均值、第1中位数、第2中位数、第3中位数、标准差、最大值和最小值的分布状态。

eda分析强调数据可视,在本实施例中,通过对大量用户数据进行eda分析,可以很好地处理各种杂乱的脏数据,通过eda可以真实、直接的观察到数据的结构及特征,提高了数据的使用效率。

s2032、对所述训练集依次执行数据处理和变量筛选,生成第一数据特征。

该步骤具体包括:基于第一预设阈值,去掉所述训练集中缺失率超过第一预设阈值的训练集数据。该步骤的数据清洗过程中,主要处理的是缺失值、异常值和重复值。所谓清洗,是对数据集通过丢弃、填充、替换、去重等操作,达到去除异常、纠正错误、补足缺失的目的。

采用卡方分箱法,对去除缺失率过高的所述训练集数据进行分箱操作。

将分箱操作后的所述训练集数据的特征从非线性可分空间映射到近似线性可分空间内,生成待处理变量。

基于第二预设阈值,删除所述待处理变量中iv值超出第二预设阈值的变量,同时,基于第三预设阈值,删除所述待处理变量中vif方差膨胀因子值超出第三预设阈值的变量,生成第一数据特征。

在步骤s2032之后,执行步骤:将所述训练集通过gbdt模型学习得到第二数据特征,该步骤具体包括:

s2041、所述gbdt模型使用决策树模型作为学习器。

s2042、基于所述性别、年龄、工作年限、通话记录、和/或历史借贷行为生成对应的决策树。

该步骤中决策树为多个,采用多棵树可以很好地对数据特征进行区分和表达。由于所述gbdt模型每次迭代都在残差减少的梯度方向建立一个新的决策树,后面的树都是对前面的残差进行学习,因此采用gbdt来构造新的特征、进行特征的组合。该步骤中,决策树的具体数量根据性别、年龄、工作年限、通话记录、和/或历史借贷行为等数据属性以及模型的精确度要求确定。

s2043、将所述用户标签中用户信贷逾期记为维度1,用户信贷未逾期记为维度0。

该步骤中,可选地,也可将用户信贷未逾期记为维度1,用户信贷逾期记为维度0。

s2044、所述训练集根据所述决策树进行学习,生成多个叶子结点。

s2045、将所述多个叶子结点的维度取值生成所述第二数据特征。

该步骤中,gbdt每颗决策树的每个叶子节点都是新的特征向量的一个维度,构造的新的特征维度与gbdt模型中的叶子节点数目相同。示例性地,gbdt模型中选用三颗决策树,训练集分别落到了tree1的第一个叶子节点、tree2的第二个叶子节点和tree3的第三个叶子节点,这三个叶子节点的取值是1,剩下的叶子节点的取值为0,则得到的第二特征为[1,0,0,1,0,0,1]。

s205、将所述第一数据特征和第二数据特征合并生成第三数据特征,使用lr模型训练所述第三数据特征,生成所述逾期预测模型。

基于lr模型的特点是简单、学习能力有限、对数据特征要求比较高,在进行分类训练之前,需要大量的特征工程分析现有数据作为支撑,因此现有技术中单独使用lr模型效果不佳,因此在本发明实施例步骤中,将lr模型与前述gbdt模型结合,使用gbdt模型首先获取用户的第二数据特征,数据特征能够展示数据中有效的特征和特征组合,提高了lr模型的非线性学习能力。

该步骤中,将上述步骤得到的第三数据特征用于lr模型进行训练,并根据模型系数符号和p-value值对变量再次进行筛选,得到最终的用户逾期预测模型。

在替代实施例中,步骤s205之后还包括:使用所述测试集测试所述逾期预测模型,基于预测效果调整所述逾期预测模型参数。示例性地,调整所述逾期预测模型参数包括调节决策树的数量。

s206、获取待评估用户的当前用户数据,所述当前用户数据包括性别、年龄、工作年限、通话记录、和/或历史借贷行为。

s207、使用所述当前用户数据输入预设的逾期预测模型进行预测,以得到所述待评估用户的信贷逾期概率。

s208、根据所述信贷逾期概率对待评估用户进行信贷逾期评估。

本实施例在上述实施例的基础上,采用gbdt模型和lr模型结合,lr作为一种线性模型,其模型简单、处理速度快、稳定性好、适用于数据量大的数据集,同时lr模型是对整个数据集的拟合,不会分割数据集,对全局有很好的把握;gbdt模型适合处理非线性数据,且可用来构造组合特征,充分挖掘数据信息。本实施例通过将gbdt和lr模型融合建立逾期预测模型,很好的节约了人工成本、提高了数据的利用率。

实施例三

如图3所示,本实施例提供了一种互联网信贷逾期预测装置3,包括:

第一获取模块301,用于获取待评估用户的当前用户数据,所述当前用户数据包括性别、年龄、工作年限、通话记录、和/或历史借贷行为;

预测模块302,用于使用所述当前用户数据输入预设的逾期预测模型进行预测,以得到所述待评估用户的信贷逾期概率;

政策制定模块303,用于根据所述信贷逾期概率对待评估用户进行信贷逾期评估。

在替代实施例中,如图4所示,预测模块302中的逾期预测模型的训练过程包括如下模块:

第二获取模块304,用于获取历史用户的样本用户数据,所述样本用户数据包括历史用户的性别、年龄、工作年限、通话记录、和/或历史借贷行为,所述样本用户数据还包括用户标签,所述用户标签记载所述历史用户出现信贷逾期或未出现信贷逾期;

数据拆分模块305,用于将所述样本用户数据分为训练集和测试集;

第一特征生成模块306,用于从所述训练集中筛选出第一数据特征;

第二特征生成模块307,用于将所述训练集通过gbdt模型学习得到第二数据特征;

训练模块308,用于将所述第一数据特征和第二数据特征合并生成第三数据特征,使用lr模型训练所述第三数据特征,生成所述逾期预测模型。

如图5所示,在另一替代实施例中,第一特征生成模块306包括如下单元:

eda分析单元3061,对所述训练集进行eda数据分析,获取所述训练集的缺失值、异常值、众数、平均值、第1中位数、第2中位数、第3中位数、标准差、最大值和最小值的分布状态;

变量筛选单元3062,用于对所述训练集依次执行数据处理和变量筛选,生成第一数据特征。其中变量筛选单元3062具体用于:

基于第一预设阈值,去掉所述训练集中缺失率超过第一预设阈值的训练集数据;采用卡方分箱法,对去除缺失率过高的所述训练集数据进行分箱操作;将分箱操作后的所述训练集数据的特征从非线性可分空间映射到近似线性可分空间内,生成待处理变量;基于第二预设阈值,删除所述待处理变量中iv值超出第二预设阈值的变量,同时,基于第三预设阈值,删除所述待处理变量中vif方差膨胀因子值超出第三预设阈值的变量,生成第一数据特征。

第二特征生成模块307包括如下单元:

决策树生成单元3071,用于所述gbdt模型使用决策树模型作为学习器;基于所述性别、年龄、工作年限、通话记录、和/或历史借贷行为生成对应的决策树;

维度单元3072,用于将所述用户标签中用户信贷逾期记为维度1,用户信贷未逾期记为维度0;

学习单元3073,用于将所述训练集根据所述决策树进行学习,生成多个叶子结点;

特征生成单元3074,将所述多个叶子结点的维度取值生成所述第二数据特征。

在替代实施例中,还包括:

测试模块309,用于使用所述测试集测试所述逾期预测模型;

参数调节模块310,用于基于预测效果调整所述逾期预测模型参数。

本发明实施例三所提供的一种互联网信贷逾期预测装置可执行本发明任意实施例所提供的互联网信贷逾期预测方法,具备功能模块相应的执行方法和有益效果。

实施例四

图6为本发明实施例四提供的一种服务器的结构示意图,如图6所示,该设备包括处理器401、存储器402、输入装置403和输出装置404;设备中处理器401的数量可以是一个或多个,图6以一个处理器401为例;设备中的处理器401、存储器402、输入装置403和输出装置404可以通过总线或其他方式连接,图6中以通过总线连接为例。

存储器402作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例一中的一种互联网信贷逾期预测方法对应的模块(例如实施例三中的数据获取模块301、第一生成模块302等)。处理器401通过运行存储在存储器402中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的一种互联网信贷逾期预测方法。

存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器402可进一步包括相对于处理器401远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实施例五

实施例五提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种互联网信贷逾期预测方法,该方法包括:

获取待评估用户的当前用户数据,所述当前用户数据包括性别、年龄、工作年限、通话记录、和/或历史借贷行为;

使用所述当前用户数据输入预设的逾期预测模型进行预测,以得到所述待评估用户的信贷逾期概率;

根据所述信贷逾期概率对待评估用户进行信贷逾期评估。

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的互联网信贷逾期预测方法的相关操作。

通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、闪存(flash)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是,上述搜索装置的实施例中,所包括的各个模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。

上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1