企业贷前风险的预测方法及装置、存储介质和电子设备与流程

文档序号:30182351发布日期:2022-05-26 14:16阅读:194来源:国知局
企业贷前风险的预测方法及装置、存储介质和电子设备与流程

1.本技术涉及人工智能领域,具体而言,涉及一种企业贷前风险的预测方法及装置、存储介质和电子设备。


背景技术:

2.在风控领域中,基于企业的贷前风控样本较少,因此,目前相关技术中,在训练基于企业贷前风控模型时,经常会采用样本采样算法对样本采样或者采用迁移算法融合一些基于个人场景的样本。而且,目前常用的迁移算法分为有标签和无标签类型,其中有监督算法可采用tradaboost算法给目标域和源域赋予不同的样本权重,再训练目标域的分类器;无标签算法,如dann,通过域判别器可得到适用于源域和目标的特征层数据,再将源域的标签数据训练分类器用于目标域上。另外,基于企业贷前风控模型在有少量标签的情况下,采用迁移学习算法时,大多数是直接使用tradaboost算法进行模型训练。
3.但是,目前相关技术中存在以下缺点:基于企业的贷前风控样本数据较少,但基于个人的贷前风控样本丰富,且有较多的标记数据,但是,由于两者的数据分布有一定的差异,直接混合使用训练,往往效果较差。而使用tradaboost算法,只是用了源域和目标域的标签数据信息,而在目标域标签很少的情况下,没有特征提取层对源域的特征数据进行映射,没有充分使用源域的域类别信息,常常会使训练后的模型过拟合;此外,dann算法通过域判别器可以很好的学习适用源域和目标域的特征层,但由于dann用于无标签情况,其标签预测部分没有使用目标域的标签,在目标域有少量标签的情况下,会丢这部分信息,降低分类器的准确性。
4.针对相关技术中在目标域中有少量带标签的样本数据,源域中有大量无标签的样本数据的场景下,对企业的贷前风险预测的结果的准确性较低,导致贷前风险控制效果较差的问题,目前尚未提出有效的解决方案。


技术实现要素:

5.本技术的主要目的在于提供一种企业贷前风险的预测方法及装置、存储介质和电子设备,以解决相关技术中在目标域中有少量带标签的样本数据,源域中有大量无标签的样本数据的场景下,对企业的贷前风险预测的结果的准确性较低,导致贷前风险控制效果较差的问题。
6.为了实现上述目的,根据本技术的一个方面,提供了一种企业贷前风险的预测方法。该方法包括:获取测试样本数据的原始特征,其中,所述测试样本数据为与目标企业相关联的目标对象的贷前风险控制的样本数据,所述原始特征中至少包括:所述测试样本数据中的有标签的样本数据的特征和所述测试样本数据中的无标签的样本数据的特征;将所述测试样本数据的原始特征输入到dann模型中的域分类器一中,得到所述测试样本数据的目标特征;将所述测试样本数据的目标特征输入到tradaboost模型中的原始预测分类器中,得到目标预测分类器;依据所述目标预测分类器,输出所述目标企业的贷前风险预测结
果。
7.进一步地,在将所述测试样本数据的原始特征输入到dann模型中的域分类器一中,得到所述测试样本数据的目标特征之前,所述方法还包括:将所述测试样本数据的原始特征输入到所述dann模型中的域分类器二中,得到所述测试样本数据中的源域数据标签和所述测试样本数据中的目标域数据标签;在得到所述源域数据标签和所述目标域数据标签之后,计算所述dann模型中的目标特征提取器的目标函数一的梯度;根据所述目标特征提取器的目标函数一的梯度,确定所述dann模型中的域分类器一。
8.进一步地,在将所述测试样本数据的原始特征输入到dann模型中的域分类器二中,得到所述测试样本数据中的源域数据标签和所述测试样本数据中的目标域数据标签之前,所述方法还包括:通过所述目标特征提取器提取出所述测试样本数据的原始特征;将所述测试样本数据的原始特征输入到所述dann模型中的梯度反转层中进行处理,得到处理后的原始特征。
9.进一步地,将所述测试样本数据的原始特征输入到dann模型中的域分类器一中,得到所述测试样本数据的目标特征,包括:将所述处理后的原始特征输入到dann模型中的域分类器一中,得到所述测试样本数据的目标特征。
10.进一步地,在将所述测试样本数据的目标特征输入到tradaboost模型中的原始预测分类器中,得到目标预测分类器之前,所述方法还包括:将所述测试样本数据的目标特征输入到所述tradaboost模型中的原始预测分类器中,输出预测结果;在输出所述预测结果之后,计算所述测试样本数据的权重和目标函数二的梯度;根据所述测试样本数据的权重和目标函数二的梯度,得到第一预测分类器;根据所述第一预测分类器,确定所述目标预测分类器。
11.进一步地,根据所述第一预测分类器,确定所述目标预测分类器包括:根据所述第一预测分类器,计算所述目标域数据的错误率;依据所述目标域数据的错误率,更新所述测试样本数据的权重;根据更新后的所述测试样本数据的权重和所述目标函数二的梯度,得到第二预测分类器;根据所述第二预测分类器,重新计算所述目标域数据的错误率;根据重新计算的所述目标域数据的错误率,再次更新所述测试样本数据的权重;在更新所述测试样本数据的权重的次数满足预设次数的情况下,确定所述目标域数据的错误率最低的预测分类器,并将所述目标域数据的错误率最低的预测分类器作为所述目标预测分类器。
12.进一步地,通过所述目标特征提取器提取出所述测试样本数据的原始特征包括:获取所述测试样本数据;依据所述测试样本数据,确定所述源域数据和所述目标域数据共用特征的数量、所述源域数据的数量及所述目标域数据的数量;依据所述源域数据的数量和所述目标域数据的数量,得到所述源域数据和所述目标域数据的总数量,并将所述源域数据和所述目标域数据共用特征的数量、所述源域数据和所述目标域数据的总数量输入到所述目标特征提取器中,得到所述测试样本数据的原始特征。
13.为了实现上述目的,根据本技术的另一方面,提供了一种企业贷前风险的预测装置。该装置包括:第一获取单元,用于获取测试样本数据的原始特征,其中,所述测试样本数据为与目标企业相关联的目标对象的贷前风险控制的样本数据,所述原始特征中至少包括:所述测试样本数据中的有标签的样本数据的特征和所述测试样本数据中的无标签的样本数据的特征;第一输入单元,用于将所述测试样本数据的原始特征输入到dann模型中的
域分类器一中,得到所述测试样本数据的目标特征;第二输入单元,用于将所述测试样本数据的目标特征输入到tradaboost模型中的原始预测分类器中,得到目标预测分类器;第一输出单元,用于依据所述目标预测分类器,输出所述目标企业的贷前风险预测结果。
14.进一步地,所述装置还包括:第三输入单元,用于在将所述测试样本数据的原始特征输入到dann模型中的域分类器一中,得到所述测试样本数据的目标特征之前,将所述测试样本数据的原始特征输入到所述dann模型中的域分类器二中,得到所述测试样本数据中的源域数据标签和所述测试样本数据中的目标域数据标签;第一计算单元,用于在得到所述源域数据标签和所述目标域数据标签之后,计算所述dann模型中的目标特征提取器的目标函数一的梯度;第一确定单元,用于根据所述目标特征提取器的目标函数一的梯度,确定所述dann模型中的域分类器一。
15.进一步地,所述装置还包括:第一提取单元,用于在将所述测试样本数据的原始特征输入到dann模型中的域分类器二中,得到所述测试样本数据中的源域数据标签和所述测试样本数据中的目标域数据标签之前,通过所述目标特征提取器提取出所述测试样本数据的原始特征;第四输入单元,用于将所述测试样本数据的原始特征输入到所述dann模型中的梯度反转层中进行处理,得到处理后的原始特征。
16.进一步地,所述第一输入单元包括:第一输入模块,用于将所述处理后的原始特征输入到dann模型中的域分类器一中,得到所述测试样本数据的目标特征。
17.进一步地,所述装置还包括:第五输入单元,用于在将所述测试样本数据的目标特征输入到tradaboost模型中的原始预测分类器中,得到目标预测分类器之前,将所述测试样本数据的目标特征输入到所述tradaboost模型中的原始预测分类器中,输出预测结果;第二计算单元,用于在输出所述预测结果之后,计算所述测试样本数据的权重和目标函数二的梯度;第二确定单元,用于根据所述测试样本数据的权重和目标函数二的梯度,得到第一预测分类器;第三确定单元,用于根据所述第一预测分类器,确定所述目标预测分类器。
18.进一步地,所述第三确定单元包括:第一计算模块,用于根据所述第一预测分类器,计算所述目标域数据的错误率;第一更新模块,用于依据所述目标域数据的错误率,更新所述测试样本数据的权重;第一确定模块,用于根据更新后的所述测试样本数据的权重和所述目标函数二的梯度,得到第二预测分类器;第二计算模块,用于根据所述第二预测分类器,重新计算所述目标域数据的错误率;第二更新模块,用于根据重新计算的所述目标域数据的错误率,再次更新所述测试样本数据的权重;第一处理模块,用于在更新所述测试样本数据的权重的次数满足预设次数的情况下,确定所述目标域数据的错误率最低的预测分类器,并将所述目标域数据的错误率最低的预测分类器作为所述目标预测分类器。
19.进一步地,所述第一提取单元包括:第一获取模块,用于获取所述测试样本数据;第二确定模块,用于依据所述测试样本数据,确定所述源域数据和所述目标域数据共用特征的数量、所述源域数据的数量及所述目标域数据的数量;第二处理模块,用于依据所述源域数据的数量和所述目标域数据的数量,得到所述源域数据和所述目标域数据的总数量,并将所述源域数据和所述目标域数据共用特征的数量、所述源域数据和所述目标域数据的总数量输入到所述目标特征提取器中,得到所述测试样本数据的原始特征。
20.为了实现上述目的,根据本技术的另一方面,提供了一种计算机可读存储介质,所述存储介质存储程序,其中,所述程序执行上述的任意一项所述的企业贷前风险的预测方
法。
21.为了实现上述目的,根据本技术的另一方面,提供了一种电子设备,所述电子设备包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述的任意一项所述的企业贷前风险的预测方法。
22.通过本技术,采用以下步骤:获取测试样本数据的原始特征,其中,测试样本数据为与目标企业相关联的目标对象的贷前风险控制的样本数据,原始特征中至少包括:测试样本数据中的有标签的样本数据的特征和测试样本数据中的无标签的样本数据的特征;将测试样本数据的原始特征输入到dann模型中的域分类器一中,得到测试样本数据的目标特征;将测试样本数据的目标特征输入到tradaboost模型中的原始预测分类器中,得到目标预测分类器;依据目标预测分类器,输出目标企业的贷前风险预测结果,解决了相关技术中在目标域中有少量带标签的样本数据,源域中有大量无标签的样本数据的场景下,对企业的贷前风险预测的结果的准确性较低,导致贷前风险控制效果较差的问题。通过将获取到的测试样本数据的原始特征输入到dann模型中的域分类器一中,得到测试样本数据的目标特征,并将目标特征输入到tradaboost模型中的原始预测分类器中,得到目标预测分类器,再通过目标预测分类器输出目标企业的贷前风险预测结果,从而可以提升对企业的贷前风险预测的结果的准确性,进而提升了贷前风险控制效果。
附图说明
23.构成本技术的一部分的附图用来提供对本技术的进一步理解,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
24.图1是根据本技术实施例提供的企业贷前风险的预测方法的流程图;
25.图2是根据本技术实施例提供的可选的企业贷前风险的预测方法的流程图;
26.图3是根据本技术实施例提供的企业贷前风险的预测装置的示意图;
27.图4是根据本技术实施例提供的电子设备的示意图。
具体实施方式
28.需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
29.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分的实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
30.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清
楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
31.需要说明的是,本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
32.下面结合优选的实施步骤对本发明进行说明,图1是根据本技术实施例提供的企业贷前风险的预测方法的流程图,如图1所示,该方法包括如下步骤:
33.步骤s101,获取测试样本数据的原始特征,其中,测试样本数据为与目标企业相关联的目标对象的贷前风险控制的样本数据,原始特征中至少包括:测试样本数据中的有标签的样本数据的特征和测试样本数据中的无标签的样本数据的特征。
34.在本实施例中,可选择个人贷前风控样本数据为源域数据,且源域中有大量不带标签的样本数据;可选择法人贷前风控样本数据为目标域数据,且目标域中有少量带标签的样本数据。并将上述的源域数据和目标域数据进行合并,将合并后的数据作为企业贷前风控的测试样本数据。再根据个人和法人的征信报告构建测试样本数据的原始特征,且这些原始特征可以为:如近6个月逾期次数,近6个月逾期金额,正常还款次数等特征。
35.步骤s102,将测试样本数据的原始特征输入到dann模型中的域分类器一中,得到测试样本数据的目标特征。
36.例如,将上述获取到的企业贷前风控的测试样本数据的原始特征输入到dann模型中的训练好的域分类器中,得到测试样本数据的目标特征。
37.步骤s103,将测试样本数据的目标特征输入到tradaboost模型中的原始预测分类器中,得到目标预测分类器。
38.例如,将测试样本数据的目标特征输入到tradaboost模型中的原始预测分类器中进行学习训练,并得到最终训练好的预测分类器。
39.步骤s104,依据目标预测分类器,输出目标企业的贷前风险预测结果。
40.例如,根据最终训练好的预测分类器可以得到目标企业的贷前风险预测结果,并可以依据贷前风险预测结果对企业进行贷前风险控制。
41.通过上述的步骤s101至s104,通过将获取到的测试样本数据的原始特征输入到dann模型中的域分类器一中,得到测试样本数据的目标特征,并将目标特征输入到tradaboost模型中的原始预测分类器中,得到目标预测分类器,再通过目标预测分类器输出目标企业的贷前风险预测结果,从而可以提升对企业的贷前风险预测的结果的准确性,进而提升了贷前风险控制效果。
42.可选地,在本技术实施例提供的企业贷前风险的预测方法中,通过目标特征提取器提取出测试样本数据的原始特征包括:获取测试样本数据;依据测试样本数据,确定源域数据和目标域数据共用特征的数量、源域数据的数量及目标域数据的数量;依据源域数据的数量和目标域数据的数量,得到源域数据和目标域数据的总数量,并将源域数据和目标域数据共用特征的数量、源域数据和目标域数据的总数量输入到目标特征提取器中,得到测试样本数据的原始特征。
43.在本实施例中,进行样本选取时,可选择个人贷前风控样本数据为源域,法人贷前风控样本数据为目标域。例如,表现期可设置为15个月,且观察点为贷款发放时间。如果训练样本选取时间为2017.01.01至2020.01.01,则将2020.01.01之后发放贷款的作为时间外
的测试样本。而且,坏样本的定义为在表现期内信贷报告中五级分类出现“次级”、“可疑”和“损失”之一。另外,本实施例中可以用ta表示源域数据,tb表示目标域数据,s表示测试样本。
44.在本实施例中,进行特征选择时,可以基于个人和法人的征信报告构建特征。例如,首先从个人和法人的征信报告中获取到个人和法人的近6个月逾期次数,近6个月逾期金额,正常还款次数等特征信息,并将这些特征信息进行分箱和特征转换等操作,最后可以得到共用特征为312个,源域样本量为10万个,目标域样本量为5000个。
45.在本实施例中,进行特征提取时,可以采用两层的神经网络结构的特征提取器进行特征提取。例如,将源域数据和目标域数据合并输入,且输入数据x大小为10.5w(w为万)*312;第一层神经网络大小为312*64;第二层神经网络大小为64*32,并通过特征提取层最终将特征映射为32维。另外,单层的输出公式如下:
46.gf(x;w,b)=sigm(wx+b)
47.综上所述,通过获取与企业相关的个人和法人的贷前风控样本数据,可以丰富企业的贷前风控样本数据。并可以通过特征提取器快速准确的得到样本数据的特征。
48.可选地,在本技术实施例提供的企业贷前风险的预测方法中,在将测试样本数据的原始特征输入到dann模型中的域分类器二中,得到测试样本数据中的源域数据标签和测试样本数据中的目标域数据标签之前,该方法还包括:通过目标特征提取器提取出测试样本数据的原始特征;将测试样本数据的原始特征输入到dann模型中的梯度反转层中进行处理,得到处理后的原始特征。
49.在本实施例中,可以将特征提取器提取到的样本数据的原始特征输入到dann模型中的梯度反转层中进行处理,并得到处理后的原始特征。
50.通过上述的方案,可以达到无法区分特征提取器提取到的原始特征是属于源域数据的特征还是属于目标域数据的特征的目的。
51.可选地,在本技术实施例提供的企业贷前风险的预测方法中,在将测试样本数据的原始特征输入到dann模型中的域分类器一中,得到测试样本数据的目标特征之前,该方法还包括:将测试样本数据的原始特征输入到dann模型中的域分类器二中,得到测试样本数据中的源域数据标签和测试样本数据中的目标域数据标签;在得到源域数据标签和目标域数据标签之后,计算dann模型中的目标特征提取器的目标函数一的梯度;根据目标特征提取器的目标函数一的梯度,确定dann模型中的域分类器一。
52.例如,在特征提取器后面加域类别分类器,并对源域数据和目标域数据进行类别分类,且源域数据的标签可以设定为0,目标域数据的标签可以设定为1。另外,将域判别器sigmoid作为激活函数,且其输出为:
53.gd(gf(x);u,z)=sigm(u
t
gf(x)+z)
54.另外,整个特征提取器的目标函数为:
[0055][0056][0057]
其中,n表示源域样本数量,且本实施例中源域样本数量为10万;n’表示目标域样
本数量,且本实施例中目标域样本数量为5千;di表示第i个样本的二元标签,比如,如果是源域数据,则第i个样本的二元标签为0,如果是目标域数据,则第i个样本的二元标签为1。
[0058]
最后,基于以上的目标函数训练域类别判断器,最终训练出来的特征为gf。
[0059]
综上所述,通过dann的域判别分类器能够将源域的特征迁移到目标域特征中,丰富目标域的特征,且保证无偏性。另外,比dann中标签分类器只使用源域的标签训练分类器的效果更准确。
[0060]
可选地,在本技术实施例提供的企业贷前风险的预测方法中,将测试样本数据的原始特征输入到dann模型中的域分类器一中,得到测试样本数据的目标特征,包括:将处理后的原始特征输入到dann模型中的域分类器一中,得到测试样本数据的目标特征。
[0061]
例如,将dann模型中的梯度反转层中处理后的测试样本数据的原始特征输入到dann模型中的训练好的域分类器中,得到测试样本数据的目标特征。
[0062]
通过上述的方案,可以方便的得到经过dann模型中的梯度反转层进行处理后的测试样本数据的特征,并可以根据处理后的测试样本数据的特征,得到训练好的测试样本数据的特征。
[0063]
可选地,在本技术实施例提供的企业贷前风险的预测方法中,在将测试样本数据的目标特征输入到tradaboost模型中的原始预测分类器中,得到目标预测分类器之前,该方法还包括:将测试样本数据的目标特征输入到tradaboost模型中的原始预测分类器中,输出预测结果;在输出预测结果之后,计算测试样本数据的权重和目标函数二的梯度;根据测试样本数据的权重和目标函数二的梯度,得到第一预测分类器;根据第一预测分类器,确定目标预测分类器。
[0064]
在本实施例中,可将特征提取器输出的特征gf(包含源域数据的特征和目标域数据的特征)送入到tradaboost模型中的标签分类器中进行训练,并对gf中的原本的源域数据及目标域数据进行表示。例如,此过程采用tradaboost算法进行分类器训练,且基础分类算法learner为逻辑回归算法,且迭代次数设定为n,首先对样本权重进行初始化,具体如下:
[0065]
(1)初始化样本权重向量w,初始化公式为:
[0066][0067]
其中,1,n为源域数据;n+1,n+m为目标域数据;且在本实施例中,n对应的数值为10w,m对应的数值为5000。
[0068]
(2)设置权重分布向量的公式如下:
[0069][0070]
其中,t为第t次迭代次数。
[0071]
在本实施例中,然后可根据样本权重以及特征gf训练基于lr的分类器ht,具体如下:
[0072]
(1)带样本权重的lr分类器模型输出如下:
[0073]ht
(gf;v,b)=sig mod(vgf+b)
[0074]
(2)目标函数如下:
[0075][0076][0077]
其中,为第t次迭代第i个样本权重。
[0078]
在本实施例中,最后可根据训练后的分类器ht,得到最终的分类器。
[0079]
通过上述的方案,可以对tradaboost模型中的预测分类器进行学习训练,并得到训练好的分类器。
[0080]
可选地,在本技术实施例提供的企业贷前风险的预测方法中,根据第一预测分类器,确定目标预测分类器包括:根据第一预测分类器,计算目标域数据的错误率;依据目标域数据的错误率,更新测试样本数据的权重;根据更新后的测试样本数据的权重和目标函数二的梯度,得到第二预测分类器;根据第二预测分类器,重新计算目标域数据的错误率;根据重新计算的目标域数据的错误率,再次更新测试样本数据的权重;在更新测试样本数据的权重的次数满足预设次数的情况下,确定目标域数据的错误率最低的预测分类器,并将目标域数据的错误率最低的预测分类器作为目标预测分类器。
[0081]
在本实施例中,可根据训练后的分类器ht计算在目标域上的训练集tb上的错误率,且错误率计算公式如下:
[0082][0083]
其中,h
t
为预测值c(xi)为标签的实际值。
[0084]
然后,对样本权重进行更新,具体如下:
[0085][0086]
其中,β
t
=err
t
(1-err
t
);并将t更新为t+1。
[0087]
最后,重复训练预测分类器的步骤和计算目标域上的训练集tb上的错误率的步骤和更新样本权重的步骤,直到t为n,将在训练集tb上的错误率最低的模型ht作为最终的分类器h(gf(x))。
[0088]
综上所述,通过引入tradaboost算法思想,如果目标域样本被错误分类,则根据目标域样本的分类错误率进行调整,增加其权重,以使下次训练时更加关注这些被分错的目标域样本,从而提供目标域标签分类器。另外,原tradaboost算法中直接使用源域和目标域的特征,并没有对特征进行迁移,而通过上述的方案可以更有效的使用源域的特征信息,从而提升分类器的准确率和泛化能力。
[0089]
图2是根据本技术实施例提供的可选的企业贷前风险的预测方法的流程图,如图2所示,首先通过两层神经网络特征提取器提取出源域样本数据和目标域样本数据的特征,再将提取到的特征输入到dann模型中的梯度反转层中进行处理,得到处理后的特征,并将处理后的特征输入到dann模型中的域分类器中,输出域分类器的结果,并计算损失函数梯度,再依据损失函数梯度进行学习训练,得到训练后的特征。将训练后的特征输入到dann模
型中的梯度反转层中,通过梯度反转层将训练后的特征输入到tradaboost模型中的预测分类器中,并输出预测结果,同时计算损失函数梯度和样本权重,并不断更新迭代样本权重,得到最终的预测分类器,依据最终的预测分类器可以对企业进行贷前风险预测。
[0090]
综上,本技术实施例提供的企业贷前风险的预测方法,通过获取测试样本数据的原始特征,其中,测试样本数据为与目标企业相关联的目标对象的贷前风险控制的样本数据,原始特征中至少包括:测试样本数据中的有标签的样本数据的特征和测试样本数据中的无标签的样本数据的特征;将测试样本数据的原始特征输入到dann模型中的域分类器一中,得到测试样本数据的目标特征;将测试样本数据的目标特征输入到tradaboost模型中的原始预测分类器中,得到目标预测分类器;依据目标预测分类器,输出目标企业的贷前风险预测结果,解决了相关技术中在目标域中有少量带标签的样本数据,源域中有大量无标签的样本数据的场景下,对企业的贷前风险预测的结果的准确性较低,导致贷前风险控制效果较差的问题。通过将获取到的测试样本数据的原始特征输入到dann模型中的域分类器一中,得到测试样本数据的目标特征,并将目标特征输入到tradaboost模型中的原始预测分类器中,得到目标预测分类器,再通过目标预测分类器输出目标企业的贷前风险预测结果,从而可以提升对企业的贷前风险预测的结果的准确性,进而提升了贷前风险控制效果。
[0091]
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0092]
本技术实施例还提供了一种企业贷前风险的预测装置,需要说明的是,本技术实施例的企业贷前风险的预测装置可以用于执行本技术实施例所提供的企业贷前风险的预测方法。以下对本技术实施例提供的企业贷前风险的预测装置进行介绍。
[0093]
图3是根据本技术实施例的企业贷前风险的预测装置的示意图。如图3所示,该装置包括:第一获取单元301、第一输入单元302、第二输入单元303和第一输出单元304。
[0094]
具体地,第一获取单元301,用于获取测试样本数据的原始特征,其中,测试样本数据为与目标企业相关联的目标对象的贷前风险控制的样本数据,原始特征中至少包括:测试样本数据中的有标签的样本数据的特征和测试样本数据中的无标签的样本数据的特征;
[0095]
第一输入单元302,用于将测试样本数据的原始特征输入到dann模型中的域分类器一中,得到测试样本数据的目标特征;
[0096]
第二输入单元303,用于将测试样本数据的目标特征输入到tradaboost模型中的原始预测分类器中,得到目标预测分类器;
[0097]
第一输出单元304,用于依据目标预测分类器,输出目标企业的贷前风险预测结果。
[0098]
综上,本技术实施例提供的企业贷前风险的预测装置,通过第一获取单元301获取测试样本数据的原始特征,其中,测试样本数据为与目标企业相关联的目标对象的贷前风险控制的样本数据,原始特征中至少包括:测试样本数据中的有标签的样本数据的特征和测试样本数据中的无标签的样本数据的特征;第一输入单元302将测试样本数据的原始特征输入到dann模型中的域分类器一中,得到测试样本数据的目标特征;第二输入单元303将测试样本数据的目标特征输入到tradaboost模型中的原始预测分类器中,得到目标预测分类器;第一输出单元304依据目标预测分类器,输出目标企业的贷前风险预测结果,解决了
相关技术中在目标域中有少量带标签的样本数据,源域中有大量无标签的样本数据的场景下,对企业的贷前风险预测的结果的准确性较低,导致贷前风险控制效果较差的问题,通过将获取到的测试样本数据的原始特征输入到dann模型中的域分类器一中,得到测试样本数据的目标特征,并将目标特征输入到tradaboost模型中的原始预测分类器中,得到目标预测分类器,再通过目标预测分类器输出目标企业的贷前风险预测结果,从而可以提升对企业的贷前风险预测的结果的准确性,进而提升了贷前风险控制效果。
[0099]
可选地,在本技术实施例提供的企业贷前风险的预测装置中,该装置还包括:第三输入单元,用于在将测试样本数据的原始特征输入到dann模型中的域分类器一中,得到测试样本数据的目标特征之前,将测试样本数据的原始特征输入到dann模型中的域分类器二中,得到测试样本数据中的源域数据标签和测试样本数据中的目标域数据标签;第一计算单元,用于在得到源域数据标签和目标域数据标签之后,计算dann模型中的目标特征提取器的目标函数一的梯度;第一确定单元,用于根据目标特征提取器的目标函数一的梯度,确定dann模型中的域分类器一。
[0100]
可选地,在本技术实施例提供的企业贷前风险的预测装置中,该装置还包括:第一提取单元,用于在将测试样本数据的原始特征输入到dann模型中的域分类器二中,得到测试样本数据中的源域数据标签和测试样本数据中的目标域数据标签之前,通过目标特征提取器提取出测试样本数据的原始特征;第四输入单元,用于将测试样本数据的原始特征输入到dann模型中的梯度反转层中进行处理,得到处理后的原始特征。
[0101]
可选地,在本技术实施例提供的企业贷前风险的预测装置中,第一输入单元包括:第一输入模块,用于将处理后的原始特征输入到dann模型中的域分类器一中,得到测试样本数据的目标特征。
[0102]
可选地,在本技术实施例提供的企业贷前风险的预测装置中,该装置还包括:第五输入单元,用于在将测试样本数据的目标特征输入到tradaboost模型中的原始预测分类器中,得到目标预测分类器之前,将测试样本数据的目标特征输入到tradaboost模型中的原始预测分类器中,输出预测结果;第二计算单元,用于在输出预测结果之后,计算测试样本数据的权重和目标函数二的梯度;第二确定单元,用于根据测试样本数据的权重和目标函数二的梯度,得到第一预测分类器;第三确定单元,用于根据第一预测分类器,确定目标预测分类器。
[0103]
可选地,在本技术实施例提供的企业贷前风险的预测装置中,第三确定单元包括:第一计算模块,用于根据第一预测分类器,计算目标域数据的错误率;第一更新模块,用于依据目标域数据的错误率,更新测试样本数据的权重;第一确定模块,用于根据更新后的测试样本数据的权重和目标函数二的梯度,得到第二预测分类器;第二计算模块,用于根据第二预测分类器,重新计算目标域数据的错误率;第二更新模块,用于根据重新计算的目标域数据的错误率,再次更新测试样本数据的权重;第一处理模块,用于在更新测试样本数据的权重的次数满足预设次数的情况下,确定目标域数据的错误率最低的预测分类器,并将目标域数据的错误率最低的预测分类器作为目标预测分类器。
[0104]
可选地,在本技术实施例提供的企业贷前风险的预测装置中,第一提取单元包括:第一获取模块,用于获取测试样本数据;第二确定模块,用于依据测试样本数据,确定源域数据和目标域数据共用特征的数量、源域数据的数量及目标域数据的数量;第二处理模块,
用于依据源域数据的数量和目标域数据的数量,得到源域数据和目标域数据的总数量,并将源域数据和目标域数据共用特征的数量、源域数据和目标域数据的总数量输入到目标特征提取器中,得到测试样本数据的原始特征。
[0105]
所述企业贷前风险的预测装置包括处理器和存储器,上述第一获取单元301、第一输入单元302、第二输入单元303和第一输出单元304等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
[0106]
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提升对企业的贷前风险预测的结果的准确性。
[0107]
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram),存储器包括至少一个存储芯片。
[0108]
本发明实施例提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现所述企业贷前风险的预测方法。
[0109]
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述企业贷前风险的预测方法。
[0110]
如图4所示,本发明实施例提供了一种电子设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:获取测试样本数据的原始特征,其中,所述测试样本数据为与目标企业相关联的目标对象的贷前风险控制的样本数据,所述原始特征中至少包括:所述测试样本数据中的有标签的样本数据的特征和所述测试样本数据中的无标签的样本数据的特征;将所述测试样本数据的原始特征输入到dann模型中的域分类器一中,得到所述测试样本数据的目标特征;将所述测试样本数据的目标特征输入到tradaboost模型中的原始预测分类器中,得到目标预测分类器;依据所述目标预测分类器,输出所述目标企业的贷前风险预测结果。
[0111]
处理器执行程序时还实现以下步骤:在将所述测试样本数据的原始特征输入到dann模型中的域分类器一中,得到所述测试样本数据的目标特征之前,所述方法还包括:将所述测试样本数据的原始特征输入到所述dann模型中的域分类器二中,得到所述测试样本数据中的源域数据标签和所述测试样本数据中的目标域数据标签;在得到所述源域数据标签和所述目标域数据标签之后,计算所述dann模型中的目标特征提取器的目标函数一的梯度;根据所述目标特征提取器的目标函数一的梯度,确定所述dann模型中的域分类器一。
[0112]
处理器执行程序时还实现以下步骤:在将所述测试样本数据的原始特征输入到dann模型中的域分类器二中,得到所述测试样本数据中的源域数据标签和所述测试样本数据中的目标域数据标签之前,所述方法还包括:通过所述目标特征提取器提取出所述测试样本数据的原始特征;将所述测试样本数据的原始特征输入到所述dann模型中的梯度反转层中进行处理,得到处理后的原始特征。
[0113]
处理器执行程序时还实现以下步骤:将所述测试样本数据的原始特征输入到dann模型中的域分类器一中,得到所述测试样本数据的目标特征,包括:将所述处理后的原始特征输入到dann模型中的域分类器一中,得到所述测试样本数据的目标特征。
[0114]
处理器执行程序时还实现以下步骤:在将所述测试样本数据的目标特征输入到tradaboost模型中的原始预测分类器中,得到目标预测分类器之前,所述方法还包括:将所
述测试样本数据的目标特征输入到所述tradaboost模型中的原始预测分类器中,输出预测结果;在输出所述预测结果之后,计算所述测试样本数据的权重和目标函数二的梯度;根据所述测试样本数据的权重和目标函数二的梯度,得到第一预测分类器;根据所述第一预测分类器,确定所述目标预测分类器。
[0115]
处理器执行程序时还实现以下步骤:根据所述第一预测分类器,确定所述目标预测分类器包括:根据所述第一预测分类器,计算所述目标域数据的错误率;依据所述目标域数据的错误率,更新所述测试样本数据的权重;根据更新后的所述测试样本数据的权重和所述目标函数二的梯度,得到第二预测分类器;根据所述第二预测分类器,重新计算所述目标域数据的错误率;根据重新计算的所述目标域数据的错误率,再次更新所述测试样本数据的权重;在更新所述测试样本数据的权重的次数满足预设次数的情况下,确定所述目标域数据的错误率最低的预测分类器,并将所述目标域数据的错误率最低的预测分类器作为所述目标预测分类器。
[0116]
处理器执行程序时还实现以下步骤:通过所述目标特征提取器提取出所述测试样本数据的原始特征包括:获取所述测试样本数据;依据所述测试样本数据,确定所述源域数据和所述目标域数据共用特征的数量、所述源域数据的数量及所述目标域数据的数量;依据所述源域数据的数量和所述目标域数据的数量,得到所述源域数据和所述目标域数据的总数量,并将所述源域数据和所述目标域数据共用特征的数量、所述源域数据和所述目标域数据的总数量输入到所述目标特征提取器中,得到所述测试样本数据的原始特征。本文中的设备可以是服务器、pc、pad、手机等。
[0117]
本技术还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取测试样本数据的原始特征,其中,所述测试样本数据为与目标企业相关联的目标对象的贷前风险控制的样本数据,所述原始特征中至少包括:所述测试样本数据中的有标签的样本数据的特征和所述测试样本数据中的无标签的样本数据的特征;将所述测试样本数据的原始特征输入到dann模型中的域分类器一中,得到所述测试样本数据的目标特征;将所述测试样本数据的目标特征输入到tradaboost模型中的原始预测分类器中,得到目标预测分类器;依据所述目标预测分类器,输出所述目标企业的贷前风险预测结果。
[0118]
当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:在将所述测试样本数据的原始特征输入到dann模型中的域分类器一中,得到所述测试样本数据的目标特征之前,所述方法还包括:将所述测试样本数据的原始特征输入到所述dann模型中的域分类器二中,得到所述测试样本数据中的源域数据标签和所述测试样本数据中的目标域数据标签;在得到所述源域数据标签和所述目标域数据标签之后,计算所述dann模型中的目标特征提取器的目标函数一的梯度;根据所述目标特征提取器的目标函数一的梯度,确定所述dann模型中的域分类器一。
[0119]
当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:在将所述测试样本数据的原始特征输入到dann模型中的域分类器二中,得到所述测试样本数据中的源域数据标签和所述测试样本数据中的目标域数据标签之前,所述方法还包括:通过所述目标特征提取器提取出所述测试样本数据的原始特征;将所述测试样本数据的原始特征输入到所述dann模型中的梯度反转层中进行处理,得到处理后的原始特征。
[0120]
当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:将所述测试样本数据的原始特征输入到dann模型中的域分类器一中,得到所述测试样本数据的目标特征,包括:将所述处理后的原始特征输入到dann模型中的域分类器一中,得到所述测试样本数据的目标特征。
[0121]
当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:在将所述测试样本数据的目标特征输入到tradaboost模型中的原始预测分类器中,得到目标预测分类器之前,所述方法还包括:将所述测试样本数据的目标特征输入到所述tradaboost模型中的原始预测分类器中,输出预测结果;在输出所述预测结果之后,计算所述测试样本数据的权重和目标函数二的梯度;根据所述测试样本数据的权重和目标函数二的梯度,得到第一预测分类器;根据所述第一预测分类器,确定所述目标预测分类器。
[0122]
当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:根据所述第一预测分类器,确定所述目标预测分类器包括:根据所述第一预测分类器,计算所述目标域数据的错误率;依据所述目标域数据的错误率,更新所述测试样本数据的权重;根据更新后的所述测试样本数据的权重和所述目标函数二的梯度,得到第二预测分类器;根据所述第二预测分类器,重新计算所述目标域数据的错误率;根据重新计算的所述目标域数据的错误率,再次更新所述测试样本数据的权重;在更新所述测试样本数据的权重的次数满足预设次数的情况下,确定所述目标域数据的错误率最低的预测分类器,并将所述目标域数据的错误率最低的预测分类器作为所述目标预测分类器。
[0123]
当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:通过所述目标特征提取器提取出所述测试样本数据的原始特征包括:获取所述测试样本数据;依据所述测试样本数据,确定所述源域数据和所述目标域数据共用特征的数量、所述源域数据的数量及所述目标域数据的数量;依据所述源域数据的数量和所述目标域数据的数量,得到所述源域数据和所述目标域数据的总数量,并将所述源域数据和所述目标域数据共用特征的数量、所述源域数据和所述目标域数据的总数量输入到所述目标特征提取器中,得到所述测试样本数据的原始特征。
[0124]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0125]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0126]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或
多个方框中指定的功能。
[0127]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0128]
在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
[0129]
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。存储器是计算机可读介质的示例。
[0130]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0131]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0132]
本领域技术人员应明白,本技术的实施例可提供为方法、系统或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0133]
以上仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1