本发明涉及风险控制技术领域,特别是涉及一种信用风险评分卡创建方法、装置及电子设备。
背景技术:
在风险控制技术领域中,以金融领域的信贷风险控制为例,金融机构通常需要对业务对象进行信用风险评测,在针对业务对象进行信用风险评测时,现有的技术主要是通过建立风险预测模型预测业务对象可能会发生逾期还款或者欺诈的理论违约概率,或者是使用信用风险评分卡对业务对象进行信用评分,评分越高,对应的信用风险越低。
在建立信贷行业的风险预测模型时,用于建模的样本可以是针对业务对象的,例如,表示业务对象特征信息,样本通常可以被划分为坏样本和好样本两种,坏样本是被标记为逾期还款或欺诈的样本,好样本是没有被标记为逾期还款和欺诈的样本。在建立风险预测模型的过程中,通常认为,建模的样本中坏样本的占比在5%以下就是样本不平衡。解决这种样本不平衡问题,通常可以采用重抽样方法提高坏样本的占比。重抽样方法包括过采样方法和欠采样方法,采用过采样方法或者欠采样方法针对样本进行重抽样,得到重抽样样本。
在建立风险预测模型时,建模的样本通常是查得样本,查得样本是用重抽样样本查询数据源并且在该数据源查出数据记录的样本,该数据源是能够反映信用风险的数据源,例如,可以是一个电商消费数据源。基于查得样本建立风险预测模型后,可以使用该风险预测模型预测业务对象可能会发生逾期还款或者欺诈的理论违约概率。
而信用风险评分卡的创建是基于风险预测模型,通过建立风险预测模型和评分之间的转换公式,能够得到风险预测模型中各个特征变量的不同取值区间所对应的得分,以及一个基础分,进而得到由基础分和各个特征变量的不同取值区间所对应的得分所构成的信用风险评分卡。针对某个业务对象,将基础分和该业务对象在各个特征变量上的得分求和,得到该业务对象的信用评分。
由于理论违约概率和信用评分都是基于风险预测模型分别计算得到的,因而针对同一业务对象的理论违约概率和信用评分之间存在理论公式上的一一对应关系。在信贷行业,通常使用通过信用风险评分卡得到的信用评分对业务对象进行信用风险评测,而非直接使用理论违约概率。
然而,现有的使用上述查得样本作为建模样本得到风险预测模型,及基于风险预测模型所创建的信用风险评分卡,对业务对象给出的信用评分及其对应的理论违约概率,无法真实的反映业务对象可能会发生逾期还款或者欺诈的概率。这主要是因为,使用上述查得样本建模导致在得到的风险预测模型中引入了双重偏差。其中,第一重偏差来自重抽样样本,重抽样方法会改变原始样本中好样本和坏样本的分布,其中,原始样本是针对信贷行业已有的存在业务记录的所有业务对象;第二重偏差来自查得样本,使用重抽样样本查询数据源得到的查得样本对该数据源通常不是100%的查得率,而且上述重抽样样本中好样本和坏样本的查得率往往不同,因而导致查得样本中的好样本和坏样本的分布不能真实反映上述重抽样样本中好样本和坏样本的分布,进而,基于查得样本所建立的风险预测模型存在双重偏差。
由于使用查得样本所创建的信用风险预测模型存在双重偏差,模型输出的理论违约概率需要经过校正,以回复到原始样本条件下的真实违约概率,这一过程可以称作概率校正;进一步的,基于信用风险预测模型所创建的信用风险评分卡也需要校正,使得通过信用风险评分卡得到的业务对象的信用评分及信用评分对应的理论违约概率能够反映业务对象的真实风险,这一过程可以称作评分卡校正。
对于概率校正方法,包括偏移量法(offset)和样本权重方法(samplingweights),但是这两种方法只能够解决单纯重抽样条件下的概率校正问题,并不适用于上述在经过重抽样并使用查得样本建模所带来的双重偏差的情况。对于评分卡校正,目前还没有针对上述在经过重抽样并使用查得样本建模所带来的双重偏差的情况的评分卡校正方法。
总之,由于基于查得样本所创建的风险预测模型存在双重偏差,进而,基于风险预测模型所创建的风险评分卡对业务对象的信用评分也无法反映业务对象的真实信用评分,并且该信用评分所对应的理论违约概率也无法无法反映业务对象的真实违约概率。
技术实现要素:
有鉴于此,本发明实施例的目的在于提供一种信用风险评分卡创建方法,用以解决现有的信用风险评分卡对业务对象的信用评分无法反映业务对象的真实信用评分的问题。
为达到上述目的,本发明实施例公开了一种信用风险评分卡创建方法,具体技术方案如下:
获取建模样本,其中,所述建模样本是基于重抽样样本查询数据源得到的查得样本,所述重抽样样本是对原始样本进行重抽样得到的样本,所述数据源是能够反映信用风险的数据源,所述建模样本、所述原始样本和所述重抽样样本用于表示业务对象在预设业务中的对象特征;
基于所述建模样本建立风险预测模型,所述风险预测模型包含有模型截距项和各项回归系数;
基于所述建模样本中坏样本的占比、所述原始样本中坏样本的占比、和所述重抽样样本中坏样本的占比,校正所述模型截距项,得到校正后的模型截距项,其中,坏样本表示具有高信用风险的样本;
基于所述校正后的模型截距项和所述各项回归系数,创建信用风险评分卡。
进一步的,所述基于所述建模样本中坏样本的占比、所述原始样本中坏样本的占比、和所述重抽样样本中坏样本的占比,校正所述模型截距项,得到校正后的模型截距项,包括:
采用如下公式校正所述模型截距项:
其中,β0表示校正后的模型截距项,p*表示基于原始样本查询数据源得到的查得样本中坏样本的占比,π表示原始样本中坏样本的占比,ρ表示重抽样样本中坏样本的占比,p表示建模样本中坏样本的占比。
进一步的,所述基于所述校正后的模型截距项和所述各项回归系数,创建信用风险评分卡,包括:
创建采用如下公式所表示的信用风险评分卡:
其中,score表示信用评分总分,a和b是预设的常量参数,β0表示校正后的模型截距项,βi表示各项回归系数中第i项回归系数,xi表示待评分业务对象的第i项特征变量,(a-bβ0)表示信用风险评风卡的基础分,-bβixi表示信用风险评分卡的第i个特征变量的得分,q表示特征变量的个数。
为达到上述目的,本发明实施例还公开了一种信用风险评分卡创建方法,具体技术方案如下:
获取建模样本,其中,所述建模样本是对原始样本进行重抽样后得到的样本,所述建模样本和所述原始样本用于表示业务对象在预设业务中的对象特征;
基于所述建模样本建立风险预测模型,所述风险预测模型包含有模型截距项和各项回归系数;
基于所述原始样本中坏样本的占比,校正所述模型截距项,得到校正后的模型截距项,所述原始样本中的坏样本表示所述原始样本中具有的高信用风险的样本;
基于所述校正后的模型截距项和所述各项回归系数,创建信用风险评分卡。
进一步的,所述基于所述原始样本中坏样本的占比,校正所述模型截距项,得到校正后的模型截距项,包括:
采用如下公式校正所述模型截距项:
其中,β0′表示校正后的模型截距项,π表示原始样本中坏样本的占比。
进一步的,所述基于所述校正后的模型截距项和所述各项回归系数,建立信用风险评分卡,包括:
创建采用如下公式所表示的信用风险评分卡:
其中,score′表示信用风险评分卡表示的信用评分总分,a′和b′是预设的常量参数,β0′表示校正后的模型截距项,β′i表示各项回归系数中第i项回归系数,xi表示待评分业务对象的第i项特征变量,(a′-b′β0′)表示信用风险评风卡的基础分,-b′β′ixi表示信用风险评分卡的第i个特征变量的得分,q表示特征变量的个数。
为了达到上述目的,本发明实施例还提供了一种信用风险评分卡创建装置,包括:
第一样本获取模块,用于获取建模样本,其中,所述建模样本是基于重抽样样本查询数据源得到的查得样本,所述重抽样样本是对原始样本进行重抽样得到的样本,所述数据源是能够反映信用风险的数据源,所述建模样本、所述原始样本和所述重抽样样本用于表示业务对象在预设业务中的对象特征;
第一模型建立模块,用于基于所述建模样本建立风险预测模型,所述风险预测模型包含有模型截距项和各项回归系数;
第一校正模块,用于基于所述建模样本中坏样本的占比、所述原始样本中坏样本的占比、和所述重抽样样本中坏样本的占比,校正所述模型截距项,得到校正后的模型截距项,其中,坏样本表示具有高信用风险的样本;
第一评分卡创建模块,用于基于所述校正后的模型截距项和所述各项回归系数,创建信用风险评分卡。
进一步的,所述第一校正模块,具体用于采用如下公式校正所述模型截距项:
其中,β0表示校正后的模型截距项,p*表示基于原始样本查询数据源得到的查得样本中坏样本的占比,π表示原始样本中坏样本的占比,ρ表示重抽样样本中坏样本的占比,p表示建模样本中坏样本的占比。
进一步的,所述第一评分卡创建模块,具体用于创建采用如下公式所表示的信用风险评分卡:
其中,score表示信用评分总分,a和b是预设的常量参数,β0表示校正后的模型截距项,βi表示各项回归系数中第i项回归系数,xi表示待评分业务对象的第i项特征变量,(a-bβ0)表示信用风险评风卡的基础分,-bβixi表示信用风险评分卡的第i个特征变量的得分,q表示特征变量的个数。
为了达到上述目的,本发明实施例还提供了一种信用风险评分卡创建装置,包括:
第二样本获取模块,用于获取建模样本,其中,所述建模样本是对原始样本进行重抽样后得到的样本,所述建模样本和所述原始样本用于表示业务对象在预设业务中的对象特征;
第二模型建立模块,用于基于所述建模样本建立风险预测模型,所述风险预测模型包含有模型截距项和各项回归系数;
第二校正模块,用于基于所述原始样本中坏样本的占比,校正所述模型截距项,得到校正后的模型截距项,所述原始样本中的坏样本表示所述原始样本中具有的高信用风险的样本;
第二评分卡创建模块,用于基于所述校正后的模型截距项和所述各项回归系数,创建信用风险评分卡。
进一步的,所述第二校正模块,具体用于采用如下公式校正所述模型截距项:
其中,β0′表示校正后的模型截距项,π表示原始样本中坏样本的占比。
进一步的,所述第二评分卡创建模块,具体用于创建采用如下公式所表示的信用风险评分卡:
其中,score′表示信用风险评分卡表示的信用评分总分,a′和b′是预设的常量参数,β0′表示校正后的模型截距项,β′i表示各项回归系数中第i项回归系数,xi表示待评分业务对象的第j项特征变量,(a′-b′β0′)表示信用风险评风卡的基础分,-b′β′ixi表示信用风险评分卡的第i个特征变量的得分,q表示特征变量的个数。
为了达到上述目的,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现上述任一信用风险评分卡创建方法的步骤。
为了达到上述目的,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现上述任一信用风险评分卡创建方法的步骤。
为了达到上述目的,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一信用风险评分卡创建方法的步骤。
为了达到上述目的,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一信用风险评分卡创建方法的步骤。
为了达到上述目的,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一信用风险评分卡创建方法的步骤。
为了达到上述目的,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一信用风险评分卡创建方法的步骤。
本发明实施例有益效果:
本发明实施例提供的一种信用风险评分卡创建方法,获取建模样本,基于建模样本建立风险预测模型,基于建模样本中坏样本的占比、原始样本中坏样本的占比、和重抽样样本中坏样本的占比,校正模型截距项,基于校正后的模型截距项和各项回归系数,创建信用风险评分卡。采用本发明实施例提供的方案,通过对使用查得样本作为建模样本得到的风险预测模型的模型截距项进行校正,进而基于校正后的模型截距项和其它除模型截距项外的各项回归系数,创建信用风险评分卡,使得创建得到的信用风险评分卡对业务对象的信用评分更接近真实信用评分,进而根据信用评分与预测理论违约概率的对应关系所得到的业务对象的理论违概率也更接近真实违约概率。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种信用风险评分卡创建方法的流程图;
图2为本发明实施例提供的另一种信用风险评分卡创建方法的流程图;
图3为本发明实施例提供的一种信用风险评分卡创建装置的结构示意图;
图4为本发明实施例提供的另一种信用风险评分卡创建装置的结构示意图图;
图5为本发明实施例提供的电子设备的第一种结构示意图;
图6为本发明实施例提供的电子设备的第二种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种信用风险评分卡创建方法,如图1所示,可以包括如下步骤:
步骤101,获取建模样本,其中,建模样本是基于重抽样样本查询数据源得到的查得样本,重抽样样本是对原始样本进行重抽样得到的样本,数据源是能够反映信用风险的数据源,建模样本、原始样本和重抽样样本用于表示业务对象在预设业务中的对象特征。
步骤102,基于建模样本建立风险预测模型,风险预测模型包含有模型截距项和各项回归系数。
步骤103,基于建模样本中坏样本的占比、原始样本中坏样本的占比、和重抽样样本中坏样本的占比,校正模型截距项,得到校正后的模型截距项,其中,坏样本表示具有高信用风险的样本,例如,坏样本可以是已经发生了信用风险的样本。
步骤104,基于校正后的模型截距项和各项回归系数,创建信用风险评分卡。
采用本发明实施例提供的方案,通过对使用查得样本作为建模样本得到的风险预测模型的模型截距项进行校正,进而基于校正后的模型截距项和其它除模型截距项外的各项回归系数,创建信用风险评分卡,使得创建得到的信用评分卡对业务对象的信用评分更接近真实信用评分,进而根据信用评分与预测理论违约概率的对应关系所得到的业务对象的理论违约概率也更接近真实违约概率。
下面结合附图,用具体实施例对本发明提供的方法及装置进行详细描述。
在本发明的一个实施例中,如图1所示,本发明实施例提供的信用风险评分卡创建方法,可以包括以下步骤:
步骤101,获取建模样本,其中,建模样本是基于重抽样样本查询数据源得到的查得样本,重抽样样本是对原始样本进行重抽样得到的样本,数据源是能够反映信用风险的数据源,建模样本、原始样本和重抽样样本用于表示业务对象在预设业务中的对象特征。
本步骤中,业务对象可以是信贷客户,具体可以是,例如,向信贷机构借款的借款客户。建模样本、原始样本和重抽样样本可以是,例如,表征向信贷机构借款的借款客户的身份信息,建模样本可以被划分为坏样本和好样本两种,坏样本可以表示被标记为逾期还款或欺诈的样本,好样本可以表示没有被标记为逾期还款和欺诈的样本,数据源是能够反映信用风险的数据源,例如,可以是一个电商消费数据源。在建立风险预测模型的过程中,建模的样本中坏样本的占比在5%以下就是样本不平衡。通常可以采用重抽样方法提高坏样本的占比,解决这种样本不平衡问题。重抽样方法包括过采样方法和欠采样方法。
本步骤中,可以采用过采样方法或者欠采样方法针对原始样本进行重抽样,得到重抽样样本,使用重抽样样本查询数据源得到查得样本,将查得样本作为建模样本。
步骤102,基于建模样本建立风险预测模型,风险预测模型包含有模型截距项和各项回归系数。
本步骤中,由步骤101中得到的查得样本作为建模样本,进而通过逻辑回归方式建立得到风险预测模型,风险预测模型中包含的模型截距项可以采用如下公示表示:
其中,β0o表示风险预测模型中包含的模型截距项,p表示建模样本中坏样本的占比,其中建模样本中坏样本的占比也可以称作建模样本违约率。
步骤103,基于建模样本中坏样本的占比、原始样本中坏样本的占比、和重抽样样本中坏样本的占比,校正模型截距项,得到校正后的模型截距项,其中,坏样本表示具有高信用风险的样本。
本步骤中,通过步骤102中的公式可以得到,由风险预测模型得到的模型截距项β0o与建模样本中坏样本的占比存在直接的关系,而除模型截距项外的其他回归系数与建模样本中坏样本的占比无关。
在本步骤中,采用如下公式校正模型截距项:
其中,β0表示校正后的模型截距项,p*表示基于原始样本查询数据源得到的查得样本中坏样本的占比,π表示原始样本中坏样本的占比,ρ表示重抽样样本中坏样本的占比,p表示建模样本中坏样本的占比。
本步骤中,由查得样本作为建模样本,在建立的风险预测模型中引入了双重偏差,导致得到的风险预测模型所输出的信贷客户的理论违约概率,无法真实的反映信贷客户可能会发生逾期还款或者欺诈的概率。通过校正模型截距项,纠正了基于查得样本作为建模样本建立的风险预测模型的偏差。
步骤104,基于校正后的模型截距项和各项回归系数,创建信用风险评分卡。
本步骤中,创建采用如下公式所表示的信用风险评分卡:
其中,score表示信用评分总分,a和b是预设的常量参数,β0表示校正后的模型截距项,βi表示各项回归系数中第i项回归系数,xi表示待评分业务对象的第i项(经分箱和woe转换后的)特征变量,(a-bβ0)表示信用风险评风卡的基础分,-bβixi表示信用风险评分卡的第i个特征变量的得分,q表示特征变量的个数。
上述表示待评分业务对象的第i项特征变量的xi可以表示为:
其中,xi表示待评分业务对象的第i项特征变量,wij是特征变量xi的第j个分箱的woe值,δij是0-1变量,表示特征变量xi的取值是否落在第j个分箱里。
基于上述公式,本步骤中,创建的信用风险评分卡还可以进一步采用如下公式表示:
其中,score表示信用评分总分,a和b是预设的常量参数,β0表示校正后的模型截距项,βi表示各项回归系数中第i项回归系数,wij是特征变量xj的第j个分箱的woe值,δij是0-1变量,(a-bβ0)表示信用风险评风卡的基础分,q表示特征变量的个数,
本步骤中,在得到信用风险评分卡后,使用该信用风险评分卡对信贷客户进行信用评分,得到的信贷客户的信用评分,可以采用如下信用评分与理论违约概率的对应关系进一步计算得到信贷客户预测信贷客户可能会发生逾期还款或者欺诈的理论违约概率:
其中,score表示信用评分总分,a和b是预设的常量参数,p表示理论违约概率。
在一种可能的实施方式中,当存在某一信贷客群的原始样本中坏样本的占比是12.1%,对原始样本进行重抽样后,得到重抽样样本中坏样本的占比是44.1%,使用该重抽样样本查询某一数据源,查得率为62.2%,得到查得样本,其中,查得样本中坏样本的占比是53.5%。将查得样本作为建模样本建立风险预测模型,风险预测模型包含有模型截距项和各项回归系数,基于建模样本中坏样本的占比、原始样本中坏样本的占比、和重抽样样本中坏样本的占比,计算得到原始样本查询数据源得到的查得样本中坏样本的占比:
其中,p*表示基于原始样本查询数据源得到的查得样本中坏样本的占比。
对模型截距项进行校正:
其中,β0表示校正后的模型截距项。
最终,创建得到的信用风险评分卡可以如下述表1所示,下述表1为本发明实施例提供的信用风险评分卡创建方法得到的信用风险评分卡示意表,预先设定的常量参数可以是a=604.2,b=43.3,得到该信用风险评分卡的基础分为674分,特征变量待评分业务对象的特征变量可以包括x1、x2和x3。其中,特征变量x1对应的变量分箱可以对应4个取值区间,第一取值区间[-1.0,0.5)可以对应的分值为4分,第二取值区间[0.5,1.5)可以对应的分值为-3分,第三取值区间[1.5,2.5)可以对应的分值为-7分,第四取值区间[2.5,21.0)可以对应的分值为-11分;特征变量x2对应的变量分箱可以对应5个取值区间,第一取值区间[0.0,1.5)可以对应的分值为-1分,第二取值区间可以对应的分值[1.5,3.5)为-6分,第三取值区间[3.5,4.5)可以对应的分值为-12分,第四取值区间[4.5,7.0)可以对应的分值为-15分,第五取值区间缺失数据区间(missing)可以对应的分值为3分;特征变量x3对应的变量分箱可以对应5个取值区间,第一取值区间[-1.0,0.5)可以对应的分值为9分,第二取值区间可以对应的分值[0.5,1.5)为0分,第三取值区间[1.5,2.5)可以对应的分值为-6分,第四取值区间[2.5,4.5)可以对应的分值为-11分,第五取值区间[4.5,46.0)可以对应的分值为-19分。
如下述表1所示,使用该信用风险评分卡对某一信贷客户进行信用评分,该信贷客户的的基础分得分为674分,该信贷客户的的特征变量x1对应的取值区间为[-1.0,0.5),该信贷客户在分箱x1得分为4分,该信贷客户的的特征变量x2对应的取值区间为[1.5,3.5),该信贷客户在分箱x2得分为-6分,该信贷客户的的特征变量x3对应的取值区间为[1.5,2.5),该信贷客户在分箱x3得分为-6分。因而,根据如图5所示的评分卡得到的该信贷客户的信用评分总分为674+4+(-6)+(-6)=666分。
表1:信用风险评分卡示意表
本步骤中,在得到信用风险评分卡后,使用该信用风险评分卡对信贷客户进行信用评分,得到的信贷客户的信用评分接近真实信用评分,基于信用评分与理论违约概率的对应关系,计算得到信贷客户的理论违约概率更接近真实违约概率。
采用本发明实施例提供的方案,通过对使用查得样本作为建模样本得到的风险预测模型的模型截距项进行校正,进而基于校正后的模型截距项和其它除模型截距项外的各项回归系数,创建信用风险评分卡,使得创建得到的信用风险评分卡对业务对象的信用评分更接近真实信用评分,进而根据信用评分与预测理论违约概率的对应关系所得到的业务对象的理论违概率也更接近真实违约概率。
本发明实施例还公开了一种信用风险评分卡创建方法,如图2所示,可以包括如下步骤:
步骤201,获取建模样本,其中,建模样本是对原始样本进行重抽样后得到的样本,建模样本和所述原始样本用于表示业务对象在预设业务中的对象特征。
步骤202,基于建模样本建立风险预测模型,风险预测模型包含有模型截距项和各项回归系数。
步骤203,基于原始样本中坏样本的占比,校正模型截距项,得到校正后的模型截距项,原始样本中的坏样本表示原始样本中具有的高信用风险的样本。
步骤204,基于校正后的模型截距项和各项回归系数,创建信用风险评分卡。
采用本发明实施例提供的方案,通过对使用重抽样样本作为建模样本得到的风险预测模型的模型截距项进行校正,进而基于校正后的模型截距项和其它除模型截距项外的各项回归系数,创建信用风险评分卡,使得创建得到的信用评分卡对业务对象的信用评分更接近真实信用评分,进而根据信用评分与预测理论违约概率的对应关系所得到的业务对象的理论违约概率也更接近真实违约概率。
基于同一发明构思,根据本发明上述实施例提供的信用风险评分卡创建方法,相应地,本发明另一实施例还提供了一种信用风险评分卡创建装置,其结构示意图如图3所示,具体包括:
第一样本获取模块301,用于获取建模样本,其中,建模样本是基于重抽样样本查询数据源得到的查得样本,重抽样样本是对原始样本进行重抽样得到的样本,数据源是能够反映信用风险的数据源,建模样本、原始样本和重抽样样本用于表示业务对象在预设业务中的对象特征;
第一模型建立模块302,用于基于建模样本建立风险预测模型,风险预测模型包含有模型截距项和各项回归系数;
第一校正模块303,用于基于建模样本中坏样本的占比、原始样本中坏样本的占比、和重抽样样本中坏样本的占比,校正模型截距项,得到校正后的模型截距项,其中,坏样本表示具有高信用风险的样本;
第一评分卡创建模块304,用于基于校正后的模型截距项和各项回归系数,创建信用风险评分卡。
进一步的,第一校正模块303,具体用于采用如下公式校正模型截距项:
其中,β0表示校正后的模型截距项,p*表示基于原始样本查询数据源得到的查得样本中坏样本的占比,π表示原始样本中坏样本的占比,ρ表示重抽样样本中坏样本的占比,p表示建模样本中坏样本的占比。
进一步的,第一评分卡创建模块304,具体用于创建采用如下公式所表示的信用风险评分卡:
其中,score表示信用评分总分,a和b是预设的常量参数,β0表示校正后的模型截距项,βj表示各项回归系数中第j项回归系数,xj表示待评分业务对象的第j项(经分箱和woe转换后的)特征变量,(a-bβ0)表示信用风险评风卡的基础分,-bβixi表示信用风险评分卡的第i个特征变量的得分,q表示特征变量的个数。
可见,采用本发明实施例提供的上述信用风险评分卡创建装置,通过对使用查得样本作为建模样本得到的风险预测模型的模型截距项进行校正,进而基于校正后的模型截距项和其它除模型截距项外的各项回归系数,创建信用风险评分卡,使得创建得到的信用评分卡对业务对象的信用评分更接近真实信用评分,进而根据信用评分与预测理论违约概率的对应关系所得到的业务对象的理论违概率也更接近真实违约概率。
基于同一发明构思,根据本发明上述实施例提供的信用风险评分卡创建方法,相应地,本发明另一实施例还提供了一种信用风险评分卡创建装置,其结构示意图如图4所示,具体包括:
第二样本获取模块401,用于获取建模样本,其中,建模样本是对原始样本进行重抽样后得到的样本,建模样本和原始样本用于表示业务对象在预设业务中的对象特征;
第二模型建立模块402,用于基于建模样本建立风险预测模型,风险预测模型包含有模型截距项和各项回归系数;
第二校正模块403,用于基于原始样本中坏样本的占比,校正模型截距项,得到校正后的模型截距项,原始样本中的坏样本表示原始样本中具有的高信用风险的样本;
第二评分卡创建模块404,用于基于校正后的模型截距项和各项回归系数,创建信用风险评分卡。
进一步的,第二校正模块403,具体用于采用如下公式校正模型截距项:
其中,β0′表示校正后的模型截距项,π表示原始样本中坏样本的占比。
进一步的,第二评分卡创建模块404,具体用于创建采用如下公式所表示的信用风险评分卡:
其中,score′表示信用风险评分卡表示的信用评分总分,a′和b′是预设的常量参数,β0′表示校正后的模型截距项,β′j表示各项回归系数中第j项回归系数,xi表示待评分业务对象的第j项(经分箱和woe转换后的)特征变量,(a′-b′β0′)表示信用风险评风卡的基础分,-b′β′ixi表示信用风险评分卡的第i个特征变量的得分,q表示特征变量的个数。
可见,采用本发明实施例提供的上述信用风险评分卡创建装置,通过对使用重抽样样本作为建模样本得到的风险预测模型的模型截距项进行校正,进而基于校正后的模型截距项和其它除模型截距项外的各项回归系数,创建信用风险评分卡,使得创建得到的信用评分卡对业务对象的信用评分更接近真实信用评分,进而根据信用评分与预测理论违约概率的对应关系所得到的业务对象的理论违概率也更接近真实违约概率。
基于同一发明构思,根据本发明上述实施例提供的信用风险评分卡创建方法,相应地,本发明另一实施例还提供了一种电子设备,参见图5,本发明实施例的电子设备包括处理器501,通信接口502,存储器503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信。
存储器503,用于存放计算机程序;
处理器501,用于执行存储器503上所存放的程序时,实现如下步骤:
获取建模样本,其中,建模样本是基于重抽样样本查询数据源得到的查得样本,重抽样样本是对原始样本进行重抽样得到的样本,数据源是能够反映信用风险的数据源,建模样本、原始样本和重抽样样本用于表示业务对象在预设业务中的对象特征;
基于建模样本建立风险预测模型,风险预测模型包含有模型截距项和各项回归系数;
基于建模样本中坏样本的占比、原始样本中坏样本的占比、和重抽样样本中坏样本的占比,校正模型截距项,得到校正后的模型截距项,其中,坏样本表示具有高信用风险的样本;
基于校正后的模型截距项和各项回归系数,创建信用风险评分卡。
基于同一发明构思,根据本发明上述实施例提供的信用风险评分卡创建方法,相应地,本发明另一实施例还提供了一种电子设备,参见图6,本发明实施例的电子设备包括处理器601,通信接口602,存储器603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信。
存储器603,用于存放计算机程序;
处理器601,用于执行存储器603上所存放的程序时,实现如下步骤:
获取建模样本,其中,建模样本是对原始样本进行重抽样后得到的样本,建模样本和原始样本用于表示业务对象在预设业务中的对象特征;
基于建模样本建立风险预测模型,风险预测模型包含有模型截距项和各项回归系数;
基于原始样本中坏样本的占比,校正模型截距项,得到校正后的模型截距项,原始样本中的坏样本表示原始样本中具有的高信用风险的样本;
基于校正后的模型截距项和所述各项回归系数,创建信用风险评分卡。
上述电子设备提到的通信总线可以是外设部件互连标准(peripheralcomponentinterconnect,pci)总线或扩展工业标准结构(extendedindustrystandardarchitecture,eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(randomaccessmemory,ram),也可以包括非易失性存储器(non-volatilememory,nvm),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(centralprocessingunit,cpu)、网络处理器(networkprocessor,np)等;还可以是数字信号处理器(digitalsignalprocessing,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现场可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一信用风险评分卡创建方法的步骤。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一信用风险评分卡创建方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一信用风险评分卡创建方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一信用风险评分卡创建方法的步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solidstatedisk(ssd))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备及存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。