信用评估方法及装置与流程

文档序号:23386321发布日期:2020-12-22 13:51阅读:88来源:国知局
信用评估方法及装置与流程

本发明涉及数据处理技术领域,具体的讲是一种信用评估方法及装置。



背景技术:

个人信用风险评估是指在银行个人信贷业务过程中,通过对客户相关信息维度,包括个人基本信息、经济能力、信用历史记录、交易记录等经济和行为数据的整合、关联,利用分析统计技术进行分析计算,建立对应的信用风险模型以得到相应的信用评分,从而实现对客户的信用风险评估,预测贷款申请人的违约可能性。在时下大力发展线上信贷业务的背景下,商业银行面临着拓展下沉客群信贷业务,因而寻找能够对个人客户进行全面、有效的信用评估,成为支撑个人信贷业务健康发展的一种重要方向。

现有技术中,个人信贷业务需要综合考虑客户的综合表现,其中包括但不限于信用卡业务,金融产品业务,用户行为,资产属性等,从而量化性地给出客户的信用风险评估。但是在已有的建模过程中都是将所需的数据抽取出后人工进行特征衍生,然后汇总一起共同筛选找出与该客户信用风险相关性较高的特征,进而采用合适稳定的模型算法单一逻辑回归或机器模型(xgb)进行评分,

该方法的缺点是特征的衍生过程中同类型业务下得到的数据是存在有时序特性的,但是在特征入模时数据的组合方式忽视了其中的时间关联;在不同类型数据下,传统模型也不能够发现中间的关联信息,进而导致所得评估方法给出的信用评价准确性不足。



技术实现要素:

为至少解决现有技术的一问题,本发明实施例提供了一种信用评估方法,包括:

获取用户的业务数据和属性数据;

对所述的属性数据和业务数据分别进行特征工程处理确定属性特征表现数据及预设时序时段的业务特征表现数据;

根据所述属性特征表现数据和预设时序时段的业务特征表现数据利用预先建立的深度学习模型进行信用评估。

本发明实施例中,所述的业务数据包括:用户个人信用卡,专项贷款,人行征信数据、多头借贷、社保公积金业务数据;

属性数据包括:用户学历,婚姻状况,所属地,出生地信息数据。

本发明实施例中,所述的对所述的属性数据和业务数据分别进行特征工程处理确定属性特征表现数据及预设时序时段的业务特征表现数据包括:

根据预设的业务字段对所述的业务数据进行特征提取确定预设时序时段的业务特征表现数据;

对所述的属性数据进行独热编码特征提取确定属性特征表现数据。

本发明实施例中,所述的根据预设的业务字段对所述的业务数据进行特征提取确定预设时序时段的业务特征表现数据包括:

根据预设的业务字段对所述的业务数据进行特征提取生成特征字段;

按预设时序时段对所述的特征字段进行衍生处理,生成预设时序时段的业务特征表现数据。

本发明实施例中,所述的预先建立的深度学习模型包括:lstm模型。

本发明实施例中,所述的方法还包括:预先建立深度学习模型;其包括:

提取业务数据的特征表现数据与时序的关系确定有效的业务特征表现数据;

根据属性特征表现数据、确定的有效的业务特征表现数据作为输入数据;

构造多层lstm模型抽取业务数据和属性数据的关联,利用所述的输入数据并加入全链接层建立深度学习模型。

本发明实施例中,所述的方法还包括:

建立基线校验模型以监测所述预先建立的深度学习模型是否失效;

确定预先建立的深度学习模型失效则对所述深度学习模型进行训练更新。

同时,本发明还提供一种信用评估装置,包括:

数据获取模块,用于获取用户的业务数据和属性数据;

特征工程模块,用于对所述的属性数据和业务数据分别进行特征工程处理确定属性特征表现数据及预设时序时段的业务特征表现数据;

评估模块,用于根据所述属性特征表现数据和预设时序时段的业务特征表现数据利用预先建立的深度学习模型进行信用评估。

本发明实施例中,所述的特征工程模块包括:

业务特征提取单元,用于根据预设的业务字段对所述的业务数据进行特征提取确定预设时序时段的业务特征表现数据;

属性特征提取单元,用于对所述的属性数据进行独热编码特征提取确定属性特征表现数据。

本发明实施例中,所述的业务特征提取单元包括:

字段提取单元,用于根据预设的业务字段对所述的业务数据进行特征提取生成特征字段;

时段衍生单元,用于按预设时序时段对所述的特征字段进行衍生处理,生成预设时序时段的业务特征表现数据。

本发明实施例中,所述的装置还包括:

建模模块,用于预先建立深度学习模型;其包括:

时序单元,用于根据业务数据的特征表现数据与时序的关系确定有效的业务特征表现数据;

属性单元,用于对属性特征表现数据、确定的有效的业务特征表现数据作为输入数据;

融合单元,构造多层lstm模型抽取业务数据和属性数据的关联,利用所述的输入数据并加入全链接层建立深度学习模型。

本发明实施例中,所述的装置还包括:

监测模块,用于建立基线校验模型以监测所述预先建立的深度学习模型是否失效;

更新模块,用于确定预先建立的深度学习模型失效时则对所述深度学习模型进行训练更新。

同时,本发明还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述方法。

同时,本发明还提供一种计算机可读存储介质,计算机可读存储介质存储有执行上述方法的计算机程序。

本发明采用深度学习算法自动化的对客户进行信用风险评估,在特征工程方面,有效降低了人力,不需要筛选特征,在模型数据使用方面,充分考虑的数据特征的时序性,在模型复用方面,可快速加入新的数据,多一种业务只需要多一个时序模块,可以全面观察客户表现。

为让本发明的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明提供的一种信用评估方法的流程图;

图2为本发明实施例中的客户级评估模型的示意图;

图3为本发明实施例中的示意图;

图4为本发明实施例中的示意图;

图5为本发明实施例中模型设计的示意图;

图6为本发明实施例中的示意图;

图7为本发明提供的评估装置的框图;

图8为本发明实施例中的电子设备实施例的示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

为了提高信用评估的准确性需要将更全面的数据输入模型,本估方法不仅需要同业务下的数据依赖,还需要发现不同业务下数据的潜在关联。

本发明提供一种信用评估方法,如图1所示,方法包括:

步骤s101,获取用户的业务数据和属性数据;

本发明实施例中,获取用户的业务数据和属性数据具体包括:

收集数据:根据评估需求及建模范围锁定所需客户,获取其的全部数据包括但不限于消费数据、转账数据、借贷数据等行内数据,以及客户授权的三方数据如多头借贷、征信、航旅、电商、社交等数据;

划分业务数据:客户数据按业务分类,构造其各业务的数据库,并简单分析,判定数据是否正确,以及是否能够使用建模。提取客户的属性数据,如性别,婚姻,学历,学位等变化不大的数据。

本实施例中数据划分包括:业务数据,其他属性数据。其中业务数据,主要就是将数据按业务区分进行独立衍生,划分包括但不限于个人信用卡,专项贷款,人行征信数据、多头借贷、社保公积金等。其他属性数据是指描述用户的信息,包括但不限于学历,婚姻状况,所属地,出生地等等。

步骤s102,对所述的属性数据和业务数据分别进行特征工程处理确定属性特征表现数据及预设时序时段的业务特征表现数据;

具体的,特征工程处理:对区分出的不同业务数据分别进行特征工程,主要工作是针对独立业务提取其专属的业务字段,将每个字段的当前表现,三个月的表现,六个月的表现分别提取作为特征。还要完成的有标签的定义以及表现期和观察期的定义。

步骤s103,根据所述属性特征表现数据和预设时序时段的业务特征表现数据利用预先建立的深度学习模型进行信用评估。

本发明实施例中,运用convlstm建立时序模块挖掘独立业务的中数据的时间前后依赖,同时建立属性模块对用户的基本属性进行编码。结合两种模块的输出作为客户的表现,再使用stack-lstm发掘不同业务数据的隐含关联进而评估用户信用。

本实施例提出一种使用深度学习的客户级评估模型,如图2所示,本实施例主要包括分析准备、模型实施、模型应用与监测三个阶段各阶段主要内容如下。

准备分析主要包括:收集数据,划分业务数据二个模块。

模型实施主要包括:数据探索、特征工程、模型构建二个模块。

模型监测更新主要包括:模型部署、模型监测、模型更新三个模块。

具体的,准备分析包括:

收集数据:根据需求及建模范围锁定所需客户,获取其的全部数据数据包括但不限于消费数据、转账数据、借贷数据等行内数据,以及客户授权的三方数据如多头借贷、征信、航旅、电商、社交等数据;

划分业务数据:客户数据按业务分类,构造其各业务的数据库,并简单分析,判定数据是否正确,以及是否能够使用建模。提取客户的属性数据,如性别,婚姻,学历,学位等变化不大的数据。

模型实施具体包括:

数据探索:对准备阶段的数据进行分析,如数据的完备性、逻辑性分析,同时分析数据的业务逻辑、数据储备情况、数据连续性及稳定性分析。不光考虑当前数据情况,还有之后如果模型构建完成数据可否持续获取等因素。

具体的,本实施例中,收集数据即尽可能的挖掘所有可获取的数据,也可在模型迭代时不断添加新的数据。

在模型构建前,对数据的划分起到了至关重要的作用,现有技术数据来源可以大致分为:行内数据、人行征信数据、外部数据等。

本发明实施例中的模型的数据划分为业务角度,分为:业务数据,其他属性数据。其中业务数据,主要就是将数据按业务区分进行独立衍生,划分包括但不限于个人信用卡,专项贷款,人行征信数据、多头借贷、社保公积金等。其他属性数据是指描述用户的信息,包括但不限于学历,婚姻状况,所属地,出生地等等。

具体的,本发明实施例中的数据探索,在之前划分数据的基础上,除去考虑数据准确性外,主要依靠统计分析与业务分析评估每种业务数据的可用性,其涵盖的有建模前数据获取是否充足,模型建立验证的数据是否有一致的评定,模型实施后是否能持续获取,数据存储情况等等,并最终制定相对规范的分析步骤、结果分析与文档输出。

特征工程,即对区分出的不同业务数据分别进行特征工程,主要工作是针对独立业务提取其专属的业务字段,将每个字段的当前表现,三个月的表现,六个月的表现分别提取作为特征。还要完成的有标签的定义以及表现期和观察期的定义。

本实施例评估方法的特征工程处理,主要工作在提取各个业务中的业务字段,进行衍生当前月,近三个月,近六个月表现。如在贷款业务中的未还清贷款字段,对该字段衍生其当月结果,近三个与近六个月的表现,暂定选择平均值,后续也可使用最大,最小,求和。将每个字段的特征拼接,构成该业务的当月特征,为了获取其前后依赖,还需将多月数据拼接,暂定六个月。对一个用户的单个业务特征拼接生成的单业务衍生数据,如下表1所示。

表.1单业务衍生数据

本实施例中,对属性数据的特征工程,则只需构建完整的类别映射,对属性字段进行独热编码(one-hot)特征工程处理处理。

模型构建:运用convlstm建立时序模块挖掘独立业务的中数据的时间前后依赖,同时建立属性模块对用户的基本属性进行编码。

结合两种模块的输出作为客户的表现,再使用stack-lstm发掘不同业务数据的隐含关联进而评估用户信用。

具体的,本实施例评估方法中使用的深度学习算法的主要有lstm与convlstm,如图3、图4所示为本实施例采用的现有技术的一lstm与convlstm算法模型;

如下所示为本实施例中的lstm算法模型公式:

it=σ(wxi*χt+whi*ht-1+bi)

ft=σ(wxf*χt+whf*ht-1+bf)

ot=σ(wxo*χt+who*ht-1+bo)

如下所示为convlstm算法模型公式:

本实施例中,convlstm直接使用卷积作为读取lstm单元输入的一部分。本发明实施例中模型设计如图5所示。

其中含有3个模块:

1)时序模块。用于提取各种业务数据的特征表现与时序关系,即基于特征工程处理后的数据提取特征表现与时序的关系确定。

参考图5,shape是指生成数据的维度表示,如(1,2)则表示数据为1行2列的数据。假设业务模型的业务字段个数假设为n,则一个字段可生成当前,近3个月,近6个月的表现,则每个月该业务可生成(3,n)的数据,然后按k月按顺序进行拼接,则该业务下该用户的数据则为(3,k*n),经过若干层convlstm后,可将数据形状变为(1,m)。

此处采用融合卷积与lstm的convlstm对每类业务的特征,shape为(3,n)的特征进行编码(encode),映射成为shape为(1,m)的数据,该类别的时序模块输出代表了客户过去一段时间在此类别的表现,以此为融合模块提供输入。这样的方式不仅充分考虑了有效特征出现的前后时间依赖关系,同时有效降低了特征的维度,得到更为全面有效的数据特征。

2)属性模块:对用户的非业务数据的属性进行降低维度。包括但不限于性别,所属地,婚姻,健康状况等,先将此类数据进行ont_hot再进行拼接,然后运用合适大小的一维卷积核编码(encode)该拼接特征,作为融合模块的输入。

3)融合模块:将1)和2)过程产生的编码(encode)特征进行拼接作为输入,构造多层lstm抽取业务数据与属性数据的关联,最终加入全链接层,构成该用户的表现期的综合概况,再利用多层lstm,交叉不同业务之前的特征挖掘隐藏关联,同时再度降低维度,进行预测。

将s个业务模型的(1,m)的数据拼接,在拼接上客户的属性特征,属性特征在属性模块内也会转化为(1,p)的数据特征,最终(1,m*s+p)的数据经过多层lstm的模型,运用lstm的记忆机制,混合不同业务的特征,最终输出对该客户的预测。

模型应用与监测具体包括:

模型部署:将建模所需的业务数据,在数据库中落表保存,以备线上实施使用,首次上线需要先加载历史数据。

模型监测:定期统计模型评估效果,与实际情况,专人分析预测对比结果,并分析预测错误的客户情况。

模型更新:模型预测时的数据需要存储,以备模型更新,可定期线上更新,如添加新的业务数据,则需要优先的线下验证再线上训练更新。

本发明实施例中,模型监测参考传统监测方法,主要监测衡量模型性的稳定性等指标。在满足固有指标的基础上,为了进一步分析模型是否衰减及时掌握产品客群特征。采用a/btest模型来分析模型,依靠b模型即以传统模型作为基线检验是否失效,用户客群特征是否迁移,是否需要更新模型。传统模型为过去的稳定使用的模型,应为行内的lr或xgb模型,既可以作为基线,又可以实现良好的过渡。

a/btest模型阐述如图6所示,对于上线模型存储的结果数据进行指标监控,模型需要更新或者业务经过一定时间后重新训练备选模型,备选模型实际不输出结果,只对申请判断存储。分析线上模型和备选模型对相同客户不同结果的差异,对差异进行分析判断,找到问题,辅助模型监测和业务处理。

本实施例中的模型更新,在上线后,对模型已有的业务需保存客户申请时提取的特征,再模型监测的辅助下,发现低于基线,则重新进行训练;当更新时需要进行新业务添加时,需要先拉取线上特征,再结合新业务数据的特征重新建立模型,验证有效提升后进行新的上线部署。

本发明采用深度学习算法自动化的对客户进行信用风险评估。在特征工程方面,有效降低了人力,不需要筛选特征。在模型数据使用方面,充分考虑的数据特征的时序性。在模型复用方面,可快速加入新的数据,多一种业务只需要多一个时序模块,可以全面观察客户表现。

同时,如图7所示,本发明实施例还提供一种信用评估装置,包括:

数据获取模块701,用于获取用户的业务数据和属性数据;

特征工程模块702,用于对所述的属性数据和业务数据分别进行特征工程处理确定属性特征表现数据及预设时序时段的业务特征表现数据;

评估模块703,用于根据所述属性特征表现数据和预设时序时段的业务特征表现数据利用预先建立的深度学习模型进行信用评估。

本发明实施例中,所述的特征工程模块包括:

业务特征提取单元,用于根据预设的业务字段对所述的业务数据进行特征提取确定预设时序时段的业务特征表现数据;

属性特征提取单元,用于对所述的属性数据进行独热编码特征提取确定属性特征表现数据。

本发明实施例中,所述的业务特征提取单元包括:

字段提取单元,用于根据预设的业务字段对所述的业务数据进行特征提取生成特征字段;

时段衍生单元,用于按预设时序时段对所述的特征字段进行衍生处理,生成预设时序时段的业务特征表现数据。

本发明实施例中,所述的装置还包括:

建模模块,用于预先建立深度学习模型;其包括:

时序单元,用于根据业务数据的特征表现数据与时序的关系确定有效的业务特征表现数据;

属性单元,用于对属性特征表现数据、确定的有效的业务特征表现数据作为输入数据;

融合单元,构造多层lstm模型抽取业务数据和属性数据的关联,加入全链接层建立深度学习模型。

本发明实施例中,所述的装置还包括:

监测模块,用于建立基线校验模型以监测所述预先建立的深度学习模型是否失效;

更新模块,用于确定预先建立的深度学习模型失效时则对所述深度学习模型进行训练更新。

本实施例还提供一种电子设备,该电子设备可以是台式计算机、平板电脑及移动终端等,本实施例不限于此。在本实施例中,该电子设备可以参照前述方法及装置的实施例,其内容被合并于此,重复之处不再赘述。

图8为本发明实施例的电子设备600的系统构成的示意框图。如图8所示,该电子设备600可以包括中央处理器100和存储器140;存储器140耦合到中央处理器100。值得注意的是,该图是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。

一实施例中,信用评估功能可以被集成到中央处理器100中。其中,中央处理器100可以被配置为进行如下控制:

获取用户的业务数据和属性数据;

对所述的属性数据和业务数据分别进行特征工程处理确定属性特征表现数据及预设时序时段的业务特征表现数据;

根据所述属性特征表现数据和预设时序时段的业务特征表现数据利用预先建立的深度学习模型进行信用评估。

在另一个实施方式中,信用评估装置可以与中央处理器100分开配置,例如可以将信用评估装置配置为与中央处理器100连接的芯片,通过中央处理器的控制来实现信用评估功能。

如图8所示,该电子设备600还可以包括:通信模块110、输入单元120、音频处理单元130、显示器160、电源170。值得注意的是,电子设备600也并不是必须要包括图8中所示的所有部件;此外,电子设备600还可以包括图8中没有示出的部件,可以参考现有技术。

如图8所示,中央处理器100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器100接收输入并控制电子设备600的各个部件的操作。

其中,存储器140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器100可执行该存储器140存储的该程序,以实现信息存储或处理等。

输入单元120向中央处理器100提供输入。该输入单元120例如为按键或触摸输入装置。电源170用于向电子设备600提供电力。显示器160用于进行图像和文字等显示对象的显示。该显示器例如可为lcd显示器,但并不限于此。

该存储器140可以是固态存储器,例如,只读存储器(rom)、随机存取存储器(ram)、sim卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为eprom等。存储器140还可以是某种其它类型的装置。存储器140包括缓冲存储器141(有时被称为缓冲器)。存储器140可以包括应用/功能存储部142,该应用/功能存储部142用于存储应用程序和功能程序或用于通过中央处理器100执行电子设备600的操作的流程。

存储器140还可以包括数据存储部143,该数据存储部143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器140的驱动程序存储部144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通信模块110即为经由天线111发送和接收信号的发送机/接收机110。通信模块(发送机/接收机)110耦合到中央处理器100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。

基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)110还经由音频处理器130耦合到扬声器131和麦克风132,以经由扬声器131提供音频输出,并接收来自麦克风132的音频输入,从而实现通常的电信功能。音频处理器130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器130还耦合到中央处理器100,从而使得可以通过麦克风132能够在本机上录音,且使得可以通过扬声器131来播放本机上存储的声音。

本发明实施例还提供一种计算机可读程序,其中当在电子设备中执行所述程序时,所述程序使得计算机在所述电子设备中执行如上面实施例所述的信用评估方法。

本发明实施例还提供一种存储有计算机可读程序的存储介质,其中所述计算机可读程序使得计算机在电子设备中执行上面实施例所述的信用评估。

以上参照附图描述了本发明的优选实施方式。这些实施方式的许多特征和优点根据该详细的说明书是清楚的,因此所附权利要求旨在覆盖这些实施方式的落入其真实精神和范围内的所有这些特征和优点。此外,由于本领域的技术人员容易想到很多修改和改变,因此不是要将本发明的实施方式限于所例示和描述的精确结构和操作,而是可以涵盖落入其范围内的所有合适修改和等同物。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1