样本预测方法、装置、存储介质及电子装置与流程

文档序号:31573572发布日期:2022-09-20 23:03阅读:57来源:国知局
样本预测方法、装置、存储介质及电子装置与流程

1.本发明涉及金融风险预测领域,具体而言,涉及一种样本预测方法、装置、存储介质及电子装置。


背景技术:

2.金融风险预测通常会通过构建信用风险模型对信贷用户的逾期风险进行预测,评估信贷用户的逾期概率。信用风险模型都是基于准入且有借贷记录的用户样本集建立的,但信用风险模型需要预测所有信贷申请用户的风险水平,由于准入且有借还款表现的用户群体和所有信贷申请用户群体的分布有偏差,因此仅基于准入且有借贷记录的用户样本集建立信用风险模型,会影响该信用风险模型评估被拒绝用户群体风险水平的置信程度。
3.目前,为了提升信用风险模型对所有信贷申请用户的评估能力,通常采用拒绝推断的方法,基于经验人为的设定一些规则,将被拒绝的用户样本引入到信用风险模型建模过程中,减少信用风险模型的预测偏差。通常,拒绝推断有两种方法,一种方法是在建模过程中,将所有被拒绝用户都标记为坏用户,但由于拒绝推断过程中需要引入人为的主观判定,而主观判定可能不符合真实情形,尽管被拒绝用户整体的风险水平高于未逾期用户的风险水平,也依旧存在部分被拒绝用户仅是风险稍高,但远达不到必定会逾期的程度,若信贷产品的准入门槛过高,将所有被拒绝用户都标记为坏用户,则会严重高估被拒绝用户群体的风险,导致信用风险评估不准确。另一种方法是先利用有借还款表现的用户建立第一版模型,用该第一版模型对被拒绝用户进行评估,预测被拒绝用户的逾期概率p,然后基于逾期概率p,将该被拒绝的用户样本拆分为一条好样本和一条坏样本,两条样本的权重分别为1-p和p,再利用基于所有有借贷记录的用户样本和被拒绝的用户样本构建出的带权重的样本建立最终的信用风险模型,但该方法中,被拒绝的用户样本的权重基于第一版模型的输出结果,且这些结果信息又被用于最终的信用风险模型的训练,因此会存在过拟合风险,导致信用风险评估不准确。


技术实现要素:

4.本发明实施例提供了一种样本预测方法、装置、存储介质及电子装置,以至少解决相关技术中拒绝推断的方法中需要引入人为主观判定,导致信用风险评估不准确,以及会发生过拟合风险的技术问题。
5.根据本发明其中一实施例,提供了一种样本预测方法,包括:
6.获取目标样本,其中,目标样本为信贷申请用户的样本;获取目标多任务网络模型;将目标样本输入到目标多任务网络模型,得到目标样本的第一目标概率和第二目标概率,其中,第一目标概率为逾期概率,第二目标概率为被拒绝概率。
7.可选地,获取目标多任务网络模型之前,还包括:获取训练样本,确定训练样本的第一任务标签和第二任务标签,其中,训练样本包括有借贷记录的样本和被拒绝的样本,第一任务标签用于预测样本是否逾期,第二任务标签用于预测样本是否被拒绝;获取初始多
任务网络模型,通过训练样本对初始多任务网络模型进行训练,优化初始多任务网络模型的模型参数,得到目标多任务网络模型。
8.可选地,确定训练样本的第一任务标签和第二任务标签包括:根据目标函数确定训练样本的第一任务标签和第二任务标签。
9.可选地,初始多任务网络模型包括共享网络层、第一输出层和第二输出层,共享网络层包括嵌入层、自注意力机制层、第一数层全连接层和拼接层,第一输出层包括第二数层全连接层和第一归一化层,第二输出层包括第三数层全连接层和第二归一化层。
10.可选地,训练样本的样本特征包括第一类别型特征和第一数值型特征,通过训练样本对初始多任务网络模型进行训练,优化初始多任务网络模型的模型参数,得到目标多任务网络模型包括:通过第一类别型特征和第一数值型特征训练初始多任务网络模型,确定第一损失函数和第二损失函数,其中,第一损失函数为预测样本是否逾期的损失函数,第二损失函数为预测样本是否被拒绝的损失函数;根据第一损失函数和第二损失函数对初始多任务网络模型的模型参数进行优化,得到目标多任务网络模型目标多任务网络模型。
11.可选地,模型参数包括嵌入层的维度、自注意力机制层的层数、第一数层全连接层的层数、第二数层全连接层的层数、第三数层全连接层的层数、第一归一化层的参数和第二归一化层的参数。
12.可选地,目标样本包括目标类别型特征和目标数值型特征,将目标样本输入到目标多任务网络模型,得到目标样本的第一目标概率和第二目标概率包括:通过嵌入层将目标类别型特征映射为预设长度的向量,再通过自注意力机制层对向量进行非线性组合,得到第一结果;通过第一数层全连接层对目标数值型特征进行非线性组合,得到第二结果;通过拼接层对第一结果和第二结果做拼接,得到第三结果;通过第一输出层对第三结果进行非线性组合和归一化处理,得到目标样本的第一目标概率;通过第二输出层对第三结果进行非线性组合和归一化处理,得到目标样本的第二目标概率。
13.根据本发明其中一实施例,还提供了一种样本预测装置,包括:
14.样本获取模块,样本获取模块用于获取目标样本,其中,目标样本为信贷申请用户;模型获取模块,模型获取模块用于获取目标多任务网络模型;处理模块,处理模块用于将目标样本输入到目标多任务网络模型,得到目标样本的第一目标概率和第二目标概率,其中,第一目标概率为逾期概率,第二目标概率为被拒绝概率。
15.可选地,样本获取模块还用于获取训练样本,确定训练样本的第一任务标签和第二任务标签,其中,训练样本包括有借贷记录的样本和被拒绝的样本,第一任务标签用于预测样本是否逾期,第二任务标签用于预测样本是否被拒绝;模型获取模块还用于获取初始多任务网络模型,通过训练样本对初始多任务网络模型进行训练,优化初始多任务网络模型的模型参数,得到目标多任务网络模型。
16.可选地,样本获取模块还用于根据目标函数确定训练样本的第一任务标签和第二任务标签。
17.可选地,初始多任务网络模型包括共享网络层、第一输出层和第二输出层,共享网络层包括嵌入层、自注意力机制层、第一数层全连接层和拼接层,第一输出层包括第二数层全连接层和第一归一化层,第二输出层包括第三数层全连接层和第二归一化层。
18.可选地,训练样本的样本特征包括第一类别型特征和第一数值型特征,模型获取
模块还用于通过第一类别型特征和第一数值型特征训练初始多任务网络模型,确定第一损失函数和第二损失函数,其中,第一损失函数为预测样本是否逾期的损失函数,第二损失函数为预测样本是否被拒绝的损失函数;根据第一损失函数和第二损失函数对初始多任务网络模型的模型参数进行优化,得到目标多任务网络模型目标多任务网络模型。
19.可选地,模型参数包括嵌入层的维度、自注意力机制层的层数、第一数层全连接层的层数、第二数层全连接层的层数、第三数层全连接层的层数、第一归一化层的参数和第二归一化层的参数。
20.可选地,目标样本包括目标类别型特征和目标数值型特征,处理模块还用于通过嵌入层将目标类别型特征映射为预设长度的向量,再通过自注意力机制层对向量进行非线性组合,得到第一结果;通过第一数层全连接层对目标数值型特征进行非线性组合,得到第二结果;通过拼接层对第一结果和第二结果做拼接,得到第三结果;通过第一输出层对第三结果进行非线性组合和归一化处理,得到目标样本的第一目标概率;通过第二输出层对第三结果进行非线性组合和归一化处理,得到目标样本的第二目标概率。
21.根据本发明其中一实施例,还提供了一种计算机可读存储介质,存储介质中存储有计算机程序,其中,计算机程序被设置为在计算机或处理器上运行时,执行上述任一项中的样本预测方法。
22.根据本发明其中一实施例,还提供了一种电子装置,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行上述任一项中的样本预测方法。
23.在本发明实施例中,通过获取目标样本,其中,目标样本为信贷申请用户的样本,以及获取目标多任务网络模型,将目标样本输入到目标多任务网络模型中,得到目标样本的第一目标概率和第二目标概率,其中,第一目标概率为逾期概率,第二目标概率为被拒绝概率。采用上述方法,通过目标多任务网络模型对目标样本进行预测,既能够得到目标样本的逾期概率,又能够得到目标样本的被拒绝概率,并且该目标多任务网络模型是根据所有信贷申请用户的样本训练得到的,既包括有借贷记录的用户样本,又包括被拒绝的用户样本,未引入任何人为的主观判定,且不存在模型结果被复用于训练模型的情形,无过拟合风险,能够有效提高信用风险模型对所有信贷申请用户的评估能力,提高风险评估的准确性,进而解决了相关技术中拒绝推断的方法中需要引入人为主观判定,导致信用风险评估不准确,以及会发生过拟合风险的技术问题。
附图说明
24.此处所说明的附图用来提供对本发明的进一步理解,构成本技术的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
25.图1是根据本发明其中一实施例的样本预测方法的流程图;
26.图2是根据本发明其中一实施例的多任务网络模型的结构图;
27.图3是根据本发明其中一实施例的样本预测装置的结构框图。
具体实施方式
28.为了便于理解,示例性地给出了部分与本发明实施例相关概念的说明以供参考。
29.如下所示:
30.信用风险模型:根据信贷用户的各种属性及行为数据,建立模型为客户评分,分数结果可用于判定是否批准用户的授信申请及授信的额度利率等,从而降低在信贷场景中所面对的逾期风险。
31.拒绝推断(reject inference):对没有借还款表现的信贷客户推断其借还款表现,从而提高信贷业务收益。
32.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
33.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
34.根据本发明其中一实施例,提供了一种样本预测方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
35.该方法实施例可以在包含存储器和处理器的电子装置、类似的控制装置或者系统中执行。以电子装置为例,电子装置可以包括一个或多个处理器和用于存储数据的存储器。可选地,上述电子装置还可以包括用于通信功能的通信设备以及显示设备。本领域普通技术人员可以理解,上述结构描述仅为示意,其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比上述结构描述更多或者更少的组件,或者具有与上述结构描述不同的配置。
36.处理器可以包括一个或多个处理单元。例如:处理器可以包括中央处理器(central processing unit,cpu)、图形处理器(graphics processing unit,gpu)、数字信号处理(digital signal processing,dsp)芯片、微处理器(microcontroller unit,mcu)、可编程逻辑器件(field-programmable gate array,fpga)、神经网络处理器(neural-network processing unit,npu)、张量处理器(tensor processing unit,tpu)、人工智能(artificial intelligent,ai)类型处理器等的处理装置。其中,不同的处理单元可以是独立的部件,也可以集成在一个或多个处理器中。在一些实例中,电子装置也可以包括一个或多个处理器。
37.存储器可用于存储计算机程序,例如存储本发明实施例中的超速预测方法对应的计算机程序,处理器通过运行存储在存储器内的计算机程序,从而实现上述的样本预测方法。存储器可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装
置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至电子装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
38.通信设备用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,通信设备包括一个网络适配器(network interface controller,nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,通信设备可以为射频(radio frequency,rf)模块,其用于通过无线方式与互联网进行通讯。
39.显示设备可以例如触摸屏式的液晶显示器(liquid crystal display,lcd)和触摸显示器(也被称为“触摸屏”或“触摸显示屏”)。该液晶显示器可使得用户能够与移动终端的用户界面进行交互。在一些实施例中,上述移动终端具有图形用户界面(graphical user interface,gui),用户可以通过触摸触敏表面上的手指接触和/或手势来与gui进行人机交互,此处的人机交互功能可选的包括如下交互:创建网页、绘图、文字处理、制作电子文档、游戏、视频会议、即时通信、收发电子邮件、通话界面、播放数字视频、播放数字音乐和/或网络浏览等、用于执行上述人机交互功能的可执行指令被配置/存储在一个或多个处理器可执行的计算机程序产品或可读存储介质中。
40.在本实施例中提供了一种运行于电子装置的样本预测方法,图1是根据本发明其中一实施例的样本预测方法的流程图,如图1所示,该流程包括如下步骤:
41.步骤s101、获取目标样本。
42.其中,目标样本为信贷申请用户的样本,即所有进行信贷申请的用户的样本都可以看成目标样本,目标样本既可以包括有借贷记录的用户样本,又可以包括被拒绝用户的样本。具体地,目标样本中包括样本特征,样本特征包括信贷用户的各种属性及行为数据。
43.步骤s102、获取目标多任务网络模型。
44.在信贷业务中,用户是否被拒绝以及用户是否逾期都与用户信贷风险水平强相关,而多任务网络模型能够生效的关键点就在于多个子任务之间需要有较强的关联性,因此信贷业务符合构建多任务网络模型所要求的条件。通过构建多任务网络模型,能够同时确定信贷用户的逾期概率以及信贷用户的被拒绝概率。
45.步骤s103、将目标样本输入到目标多任务网络模型,得到目标样本的第一目标概率和第二目标概率。
46.其中,第一目标概率为逾期概率,第二目标概率为被拒绝概率。逾期概率可以理解为信贷用户逾期还款的概率,被拒绝概率可以理解为信贷用户的贷款申请被拒绝的概率。
47.通过上述步骤,通过获取目标样本,其中,目标样本为信贷申请用户的样本,以及获取目标多任务网络模型,将目标样本输入到目标多任务网络模型中,得到目标样本的第一目标概率和第二目标概率,其中,第一目标概率为逾期概率,第二目标概率为被拒绝概率。采用上述方法,通过目标多任务网络模型对目标样本进行预测,既能够得到目标样本的逾期概率,又能够得到目标样本的被拒绝概率,并且该目标多任务网络模型是根据所有信贷申请用户的样本训练得到的,既包括有借贷记录的用户样本,又包括被拒绝的用户样本,未引入任何人为的主观判定,且不存在模型结果被复用于训练模型的情形,无过拟合风险,能够有效提高信用风险模型对所有信贷申请用户的评估能力,提高风险评估的准确性,进
而解决了相关技术中拒绝推断的方法中需要引入人为主观判定,导致信用风险评估不准确,以及会发生过拟合风险的技术问题。
48.可选地,在步骤s102,获取目标多任务网络模型之前,可以包括以下执行步骤:
49.步骤s1021、获取训练样本,确定训练样本的第一任务标签和第二任务标签。
50.其中,训练样本包括有借贷记录的样本和被拒绝的样本,有借贷记录的样本包括有借贷记录未逾期的样本和有借贷记录逾期的样本。第一任务标签用于预测样本是否逾期,第二任务标签用于预测样本是否被拒绝。
51.本发明实施例中采用的多任务网络模型能够同时使用有借贷记录的用户样本,以及被拒绝的用户样本作为训练样本,相比于现有技术中仅基于有借贷记录的用户样本进行训练,本发明实施例能够有效提高信用风险模型对所有信贷申请用户的评估能力,提高风险评估的准确性。并且该多任务网络模型包含两个子任务,分别为预测是否逾期子任务以及预测是否被拒绝子任务,不同类别的样本对应两个子任务的标签汇总如下表1所示:
52.表1
[0053][0054]
步骤s1022、获取初始多任务网络模型,通过训练样本对初始多任务网络模型进行训练,优化初始多任务网络模型的模型参数,得到目标多任务网络模型。
[0055]
本发明实施例中采用多任务网络模型,通过训练样本对初始多任务网络模型进行训练,调整初始多任务网络模型中的模型参数,使得模型输出结果达到最佳,从而根据调整后的模型参数确定出目标多任务网络模型。
[0056]
可选地,在步骤s1021中,确定训练样本的第一任务标签和第二任务标签可以包括以下执行步骤:
[0057]
步骤s1021a、根据目标函数确定训练样本的第一任务标签和第二任务标签。
[0058]
多分类问题中样本的目标函数形式为lossj=∑iy
ij
logp
ij
,也即样本的损失函数为lossj=∑iy
ij
logp
ij
,其中,i表示多任务网络模型的子任务个数,本技术有两个子任务(预测是否逾期子任务以及预测是否被拒绝子任务),因此i取值为0或1,j表示第j个样本,y
ij
表示第j个样本的逾期子任务或被拒绝子任务标签,p
ij
表示第j个样本逾期或被拒绝的概率。
[0059]
由于被拒绝的用户样本缺少借贷表现,因此设定被拒绝的用户样本在预测是否逾期子任务中的标签为[0,0],使得根据目标函数计算出在预测是否逾期子任务中,被拒绝的用户样本对目标函数的贡献恒为0。同理,根据该目标函数确定出训练样本的第一任务标签
和第二任务标签,如上述表1所示。
[0060]
可选地,初始多任务网络模型包括共享网络层、第一输出层和第二输出层,共享网络层包括嵌入层、自注意力机制层、第一数层全连接层和拼接层,第一输出层包括第二数层全连接层和第一归一化层,第二输出层包括第三数层全连接层和第二归一化层。
[0061]
如图2所示为根据本发明其中一实施例的多任务网络模型的结构图,其中,嵌入层(embedding)用于将类别型特征映射为预设长度的向量,自注意力机制层(self-attention)用于对不同的类别型特征进行非线性组合,也即用于对向量进行非线性组合,第一数层全连接层(fully connected)用于对数值型特征进行非线性组合,拼接层用于将自注意力机制层输出的结果和第一数层全连接层输出的结果进行拼接,第二数层全连接层和第三数层全连接层用于对全量特征(包括类别型特征和数值型特征)进行非线性组合,第一归一化层(softmax)用于输出样本的逾期概率,第二归一化层用于输出样本的被拒绝概率。上述自注意力机制层的层数可以根据实际情况进行调整,第一数层全连接层、第二数层全连接层和第三数层全连接层的层数可以调整,从而对特征进行非线性组合得到的结果不同,上述第一归一化层和第二归一化层的参数可以调整,从而最终输出不同的概率。
[0062]
可选地,训练样本的样本特征包括第一类别型特征和第一数值型特征,在步骤s1022中,通过训练样本对初始多任务网络模型进行训练,优化初始多任务网络模型的模型参数,得到目标多任务网络模型可以包括以下执行步骤:
[0063]
步骤s1022a、通过第一类别型特征和第一数值型特征训练初始多任务网络模型,确定第一损失函数和第二损失函数。
[0064]
其中,第一损失函数为预测样本是否逾期的损失函数,第二损失函数为预测样本是否被拒绝的损失函数。
[0065]
样本特征可以分为类别型特征和数值型特征,类别型特征例如包括样本技术的信贷产品等,数值型特征例如包括样本技术的信贷金额等。通过将训练样本的类别型特征和数值型特征输入到初始多任务网络模型中,训练初始多任务网络模型,能够确定最佳的用于预测样本是否逾期的第一损失函数loss
overdue,j
(xj,y
overdue,j
),以及最佳的用于预测样本是否被拒绝的第二损失函数loss
reject,j
(xj,y
reject,j
),其中,xj表示第j个样本的所有输入特征,y
overdue,j
表示第j个样本的逾期子任务标签,y
reject,j
表示第j个样本的被拒绝子任务标签。
[0066]
步骤s1022b、根据第一损失函数和第二损失函数对初始多任务网络模型的模型参数进行优化,得到目标多任务网络模型。
[0067]
根据确定的最佳的第一损失函数和第二损失函数,调整初始多任务网络模型的模型参数,优化初始多任务网络模型的模型参数,从而得到目标多任务网络模型。其中,该目标多任务网络模型的损失函数为第一损失函数和第二损失函数的加权,即目标多任务网络模型的损失函数为:
[0068]
loss
multi,j
(xj,yj)
[0069]
=ω
overdue
×
loss
overdue,j
(xj,y
overdue,j
)+ω
reject
[0070]
×
loss
reject,j
(xj,y
reject,j
)
[0071]
其中,ω
overdue
表示第一损失函数的权重,ω
reject
表示第二损失函数的权重。
[0072]
可选地,模型参数包括嵌入层的维度、自注意力机制层的层数、第一数层全连接层
的层数、第二数层全连接层的层数、第三数层全连接层的层数、第一归一化层的参数和第二归一化层的参数。
[0073]
其中,嵌入层的维度可以理解为将类别型特征所映射成向量的长度,自注意力机制层的层数和数层全连接层的层数可以理解进行非线性组合的次数,归一化层的参数可以理解为归一化层中的各个参数。
[0074]
可选地,目标样本包括目标类别型特征和目标数值型特征,在步骤s103中,将目标样本输入到目标多任务网络模型,得到目标样本的第一目标概率和第二目标概率可以包括以下执行步骤:
[0075]
步骤s1031、通过嵌入层将目标类别型特征映射为预设长度的向量,再通过自注意力机制层对向量进行非线性组合,得到第一结果。
[0076]
将待进行预测的目标样本输入到目标多任务网络模型中,目标样本的目标类别型特征会通过嵌入层被映射为预设长度的向量,再通过自注意力机制层对嵌入层映射的向量进行非线性组合,得到第一结果。
[0077]
步骤s1032、通过第一数层全连接层对目标数值型特征进行非线性组合,得到第二结果。
[0078]
将待进行预测的目标样本输入到目标多任务网络模型中,目标样本的目标数值型特征会通过第一数层全连接层进行非线性组合,得到第二结果。
[0079]
步骤s1033、通过拼接层对第一结果和第二结果做拼接,得到第三结果。
[0080]
将对目标类别型特征进行处理得到的第一结果,以及对目标数值型特征进行处理得到的第二结果做拼接,得到第三结果。
[0081]
步骤s1034、通过第一输出层对第三结果进行非线性组合和归一化处理,得到目标样本的第一目标概率。
[0082]
步骤s1035、通过第二输出层对第三结果进行非线性组合和归一化处理,得到目标样本的第二目标概率。
[0083]
由于本发明实施例的目标多任务网络模型包括两个子任务,因此目标多任务网络模型包括第一输出层和第二输出层,其中,第一输出层用于输出目标样本的第一目标概率,即目标样本的逾期概率。第二输出层用于输出目标样本的第二目标概率,即目标样本的被拒绝概率。相比于现有技术中的单任务网络模型,只能够输出目标样本的逾期概率,本发明实施例的目标多任务网络模型能够同时得到目标样本的逾期概率和被拒绝概率。
[0084]
拼接层得到的第三结果通过第一输出层进行非线性组合和归一化处理,最终输出目标样本的第一目标概率。拼接层得到的第三结果通过第二输出层进行非线性组合和归一化处理,最终输出目标样本的第二目标概率。
[0085]
因此,本发明实施例所提出的目标多任务网络模型在模型训练的过程中会使用有借贷记录的用户样本,和被拒绝的用户样本,从而可以提高信用风险模型对所有信贷申请用户的评估能力,提高风险评估的准确性。并且在建模过程中同时考虑了是否逾期以及是否被拒绝这两组事实类标签,优于需要引入主观判定的拒绝推断方法。
[0086]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有
技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
[0087]
在本实施例中还提供了一种样本预测装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
[0088]
图3是根据本发明其中一实施例的样本预测装置的结构框图,如图3所示,以样本预测装置300进行示例,该装置包括:样本获取模块301,用于获取目标样本,其中,目标样本为信贷申请用户;模型获取模块302,用于获取目标多任务网络模型;处理模块303,用于将目标样本输入到目标多任务网络模型,得到目标样本的第一目标概率和第二目标概率,其中,第一目标概率为逾期概率,第二目标概率为被拒绝概率。
[0089]
可选地,样本获取模块301还用于获取训练样本,确定训练样本的第一任务标签和第二任务标签,其中,训练样本包括有借贷记录的样本和被拒绝的样本,第一任务标签用于预测样本是否逾期,第二任务标签用于预测样本是否被拒绝;模型获取模块302还用于获取初始多任务网络模型,通过训练样本对初始多任务网络模型进行训练,优化初始多任务网络模型的模型参数,得到目标多任务网络模型。
[0090]
可选地,样本获取模块301还用于根据目标函数确定训练样本的第一任务标签和第二任务标签。
[0091]
可选地,初始多任务网络模型包括共享网络层、第一输出层和第二输出层,共享网络层包括嵌入层、自注意力机制层、第一数层全连接层和拼接层,第一输出层包括第二数层全连接层和第一归一化层,第二输出层包括第三数层全连接层和第二归一化层。
[0092]
可选地,训练样本的样本特征包括第一类别型特征和第一数值型特征,模型获取模块302还用于通过第一类别型特征和第一数值型特征训练初始多任务网络模型,确定第一损失函数和第二损失函数,其中,第一损失函数为预测样本是否逾期的损失函数,第二损失函数为预测样本是否被拒绝的损失函数;根据第一损失函数和第二损失函数对初始多任务网络模型的模型参数进行优化,得到目标多任务网络模型目标多任务网络模型。
[0093]
可选地,模型参数包括嵌入层的维度、自注意力机制层的层数、第一数层全连接层的层数、第二数层全连接层的层数、第三数层全连接层的层数、第一归一化层的参数和第二归一化层的参数。
[0094]
可选地,目标样本包括目标类别型特征和目标数值型特征,处理模块303还用于通过嵌入层将目标类别型特征映射为预设长度的向量,再通过自注意力机制层对向量进行非线性组合,得到第一结果;通过第一数层全连接层对目标数值型特征进行非线性组合,得到第二结果;通过拼接层对第一结果和第二结果做拼接,得到第三结果;通过第一输出层对第三结果进行非线性组合和归一化处理,得到目标样本的第一目标概率;通过第二输出层对第三结果进行非线性组合和归一化处理,得到目标样本的第二目标概率。
[0095]
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
[0096]
本发明的实施例还提供了一种计算机可读存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为在计算机或处理器上运行时,执行上述任一项方法实施例中的步骤。
[0097]
可选地,在本实施例中,上述计算机可读存储介质可以被设置为存储用于执行以下步骤的计算机程序:
[0098]
步骤s1、获取目标样本;
[0099]
步骤s2、获取目标多任务网络模型;
[0100]
步骤s3、将目标样本输入到目标多任务网络模型,得到目标样本的第一目标概率和第二目标概率。
[0101]
可选地,在本实施例中,上述计算机可读存储介质可以包括但不限于:u盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
[0102]
本发明的实施例还提供了一种电子装置,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
[0103]
可选地,在本实施例中,上述电子装置中的处理器可以被设置为运行计算机程序以执行以下步骤:
[0104]
步骤s1、获取目标样本;
[0105]
步骤s2、获取目标多任务网络模型;
[0106]
步骤s3、将目标样本输入到目标多任务网络模型,得到目标样本的第一目标概率和第二目标概率。
[0107]
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
[0108]
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0109]
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0110]
在本技术所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
[0111]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0112]
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0113]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上
或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0114]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1