训练风险预测模型、业务风险的确定方法和装置与流程

文档序号:31228799发布日期:2022-08-23 20:38阅读:105来源:国知局
训练风险预测模型、业务风险的确定方法和装置与流程

1.本说明书一个或多个实施例涉及计算机领域,尤其涉及训练风险预测模型、业务风险的确定方法和装置。


背景技术:

2.在各种风控场景中,业务上线后针对用户群的风险指标值进行预测是非常必要的,该风险指标值用于指示该用户群的业务风险程度。通常地,用户群的业务风险的确定方法中,在用户群中的用户发生目标业务行为之后,需要等待很长一段时间,根据用户群中的用户在该段时间内的风险表现,预估该风险指标值,这种方式,在用户群中的用户无风险表现期间,无法预估该用户群的风险指标值。并且,依赖人工经验,准确度不高。


技术实现要素:

3.本说明书一个或多个实施例描述了一种训练风险预测模型、业务风险的确定方法和装置,能够在用户群中的用户无风险表现期间,预估该用户群的风险指标值。并且,准确度高。
4.第一方面,提供了一种训练风险预测模型的方法,方法包括:
5.获取第一用户群;所述第一用户群包括的各个用户具有分别对应的历史用户数据;
6.通过对所述第一用户群进行多轮采样,得到多个子用户群;
7.基于所述多个子用户群中任一子用户群包括的各个用户的历史用户数据,确定该子用户群的多个特征维度的群特征数据和该子用户群的风险指标标签值,作为一个训练样本;
8.将所述训练样本包括的子用户群的群特征数据输入风险预测模型,通过所述风险预测模型输出该子用户群的风险指标预测值,根据该子用户群的风险指标预测值和该子用户群的风险指标标签值,调整所述风险预测模型的模型参数。
9.在一种可能的实施方式中,所述历史用户数据为从用户进行目标业务行为之后的第一时间长度内的用户数据,所述第一时间长度超过了预设时间长度,所述风险指标标签值基于从用户进行目标业务行为之后的预设时间长度内的历史用户数据计算得到。
10.在一种可能的实施方式中,所述风险指标标签值用于指示,该子用户群在从用户进行目标业务行为之后的预设时间长度内未发生与目标业务行为对应的履约行为的违约风险。
11.进一步地,所述目标业务行为包括借款行为,所述履约行为包括还款行为。
12.在一种可能的实施方式中,所述历史用户数据包括用户在所述多个特征维度的用户特征数据;所述多个特征维度包括第一特征维度;所述基于所述多个子用户群中任一子用户群包括的各个用户的历史用户数据,确定该子用户群的多个特征维度的群特征数据,包括:
13.对任一子用户群包括的各个用户的第一特征维度的用户特征数据进行聚合,得到该子用户群在所述第一特征维度的群特征数据。
14.进一步地,所述第一特征维度为数值型特征;所述对任一子用户群包括的各个用户的第一特征维度的用户特征数据进行聚合,包括:
15.对任一子用户群包括的各个用户的第一特征维度的用户特征数据求平均值,得到该子用户群在所述第一特征维度的群特征数据。
16.进一步地,所述第一特征维度为类别型特征;所述对任一子用户群包括的各个用户的第一特征维度的用户特征数据进行聚合,包括:
17.根据任一子用户群包括的各个用户的第一特征维度的用户特征数据,确定各个类别的用户数占比,将该用户数占比作为该子用户群在所述第一特征维度的群特征数据。
18.在一种可能的实施方式中,所述方法还包括:
19.利用验证样本集中的各个训练样本对训练后的所述风险预测模型进行验证;所述验证样本集基于第二用户群包括的各个用户分别对应的历史用户数据而生成;所述第一用户群和所述第二用户群通过对第三用户群随机切分而得到;
20.利用测试样本集中的各个训练样本对所述风险预测模型进行测试,以确定所述风险预测模型的性能;所述测试样本集基于第四用户群包括的各个用户分别对应的历史用户数据而生成;所述第四用户群和所述第三用户群通过对第五用户群随机切分而得到。
21.第二方面,提供了一种用户群的业务风险的确定方法,方法包括:
22.获取风险预测模型,所述风险预测模型根据第一方面的方法训练得到,并具有群特征数据的输入形式;
23.获取目标用户群中每个用户在多个特征维度的用户特征数据;
24.将任一用户的用户特征数据转换为所述群特征数据的形式,将转换后的特征数据输入所述风险预测模型,通过所述风险预测模型输出该用户的预测风险指标值;
25.根据所述目标用户群中每个用户的业务额度和该用户的预测风险指标值,确定所述目标用户群的预测风险指标值,该预测风险指标值用于指示所述目标用户群的业务风险程度。
26.在一种可能的实施方式中,所述多个特征维度包括数值型特征和类别型特征;所述将任一用户的用户特征数据转换为所述群特征数据的形式,包括:
27.将任一用户的数值型特征的特征数据,直接作为所述群特征数据的形式;
28.将任一用户的类别型特征的特征数据,转化为该类别型特征的每种类别的用户数占比,将该占比作为所述群特征数据的形式。
29.第三方面,提供了一种训练风险预测模型的装置,装置包括:
30.获取单元,用于获取第一用户群;所述第一用户群包括的各个用户具有分别对应的历史用户数据;
31.采样单元,用于通过对所述获取单元获取的第一用户群进行多轮采样,得到多个子用户群;
32.确定单元,用于基于所述采样单元得到的多个子用户群中任一子用户群包括的各个用户的历史用户数据,确定该子用户群的多个特征维度的群特征数据和该子用户群的风险指标标签值,作为一个训练样本;
33.训练单元,用于将所述确定单元得到的训练样本包括的子用户群的群特征数据输入风险预测模型,通过所述风险预测模型输出该子用户群的风险指标预测值,根据该子用户群的风险指标预测值和所述确定单元得到的该子用户群的风险指标标签值,调整所述风险预测模型的模型参数。
34.第四方面,提供了一种用户群的业务风险的确定装置,装置包括:
35.第一获取单元,用于获取风险预测模型,所述风险预测模型根据第三方面的装置训练得到,并具有群特征数据的输入形式;
36.第二获取单元,用于获取目标用户群中每个用户在多个特征维度的用户特征数据;
37.预测单元,用于将所述第二获取单元获取的任一用户的用户特征数据转换为所述群特征数据的形式,将转换后的特征数据输入所述第一获取单元获取的风险预测模型,通过所述风险预测模型输出该用户的预测风险指标值;
38.确定单元,用于根据所述目标用户群中每个用户的业务额度和所述预测单元得到的该用户的预测风险指标值,确定所述目标用户群的预测风险指标值,该预测风险指标值用于指示所述目标用户群的业务风险程度。
39.第五方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面或第二方面的方法。
40.第六方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面或第二方面的方法。
41.通过本说明书实施例提供的训练风险预测模型的方法和装置,首先获取第一用户群;所述第一用户群包括的各个用户具有分别对应的历史用户数据;然后通过对所述第一用户群进行多轮采样,得到多个子用户群;接着基于所述多个子用户群中任一子用户群包括的各个用户的历史用户数据,确定该子用户群的多个特征维度的群特征数据和该子用户群的风险指标标签值,作为一个训练样本;最后将所述训练样本包括的子用户群的群特征数据输入风险预测模型,通过所述风险预测模型输出该子用户群的风险指标预测值,根据该子用户群的风险指标预测值和该子用户群的风险指标标签值,调整所述风险预测模型的模型参数。由上可见,本说明书实施例,采用机器学习建模策略,利用历史数据随机采样策略生成样本进行建模,训练后得到的风险预测模型,能够在用户群中的用户无风险表现期间,预估该用户群的风险指标值。并且,准确度高。
42.通过本说明书实施例提供的用户群的业务风险的确定方法和装置,首先获取风险预测模型,所述风险预测模型根据第一方面的方法训练得到,并具有群特征数据的输入形式;然后获取目标用户群中每个用户在多个特征维度的用户特征数据;接着将任一用户的用户特征数据转换为所述群特征数据的形式,将转换后的特征数据输入所述风险预测模型,通过所述风险预测模型输出该用户的预测风险指标值;最后根据所述目标用户群中每个用户的业务额度和该用户的预测风险指标值,确定所述目标用户群的预测风险指标值,该预测风险指标值用于指示所述目标用户群的业务风险程度。由上可见,本说明书实施例,利用了前述训练后得到的风险预测模型,并且将该风险预测模型应用于单个用户,用于预测单个用户的预测风险指标值,然后再根据所述目标用户群中每个用户的业务额度和该用户的预测风险指标值,确定所述目标用户群的预测风险指标值,能够在用户群中的用户无
风险表现期间,预估该用户群的风险指标值。并且,准确度高。
附图说明
43.为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
44.图1为本说明书披露的一个实施例的实施场景示意图;
45.图2示出根据一个实施例的训练风险预测模型的方法流程图;
46.图3示出根据一个实施例的用户群的业务风险的确定方法流程图;
47.图4示出根据一个实施例的训练风险预测模型的装置的示意性框图;
48.图5示出根据一个实施例的用户群的业务风险的确定装置的示意性框图。
具体实施方式
49.下面结合附图,对本说明书提供的方案进行描述。
50.图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及用户群的业务风险的确定,具体地,涉及确定目标用户群的预测风险指标值,该预测风险指标值用于指示所述目标用户群的业务风险程度。参照图1,在各种业务场景中,常常会涉及用户在进行目标业务行为之后,还需要进行与目标业务行为对应的履约行为,如果用户在约定时间内未发生上述履约行为,就会对业务提供方产生不良影响,也就是认为存在业务风险。举例来说,在消费信贷业务场景中,所述目标业务行为包括借款行为,所述履约行为包括还款行为;在共享单车业务场景中,所述目标业务行为包括租用行为,所述履约行为包括付费行为或指定停放行为;在充电宝租赁业务场景中,所述目标业务行为包括租用行为,所述履约行为包括归还行为。上述各种业务场景中通常存在着风险控制的需求,因此也可以称为风控场景。
51.本说明书实施例,风险指标值用于指示,用户群在从用户进行目标业务行为之后的预设时间长度内未发生与目标业务行为对应的履约行为的违约风险。可以根据用户群中的各用户进行目标业务行为之后的预设时间长度内的用户数据,计算出该用户群的风险指标值,但是由于业务的需要,常常要提前预测用户群的风险指标值,也就是说,在距离用户群中的各用户进行目标业务行为之后的短时间内,预测出该用户群的风险指标值。在上述短时间内,可能用户无风险表现,希望提供一种解决方案,能够在用户群中的用户无风险表现期间,预估该用户群的风险指标值。并且,准确度高。
52.在典型的消费信贷风控场景中,上述风险指标值具体可以代表财务不良率。财务不良率:也称为年化损失率,其分母是信贷借据支用后一年内的年化日均余额,分子是借据支用一年后的不良金额。一般业界通用的不良预估方案是等授信用户群支用借据有若干期风险表现的情况下,如首期到期后观察其首期逾期金额不良率fpd,根据fpd预估该资产的年化损失率。这种通用方案一方面准确度不高,另一方面不能在授信支用阶段对财务不良进行预测。授信阶段早期,也就是无首逾风险表现期间,预估其对应的资产全生命周期年化损失率是更有意义的,探索能够在用户授信阶段早期对资产的全生命周期年化损失率进行
预测的方案对业务决策上具备更大的实际价值,有助于更早的预估风险以及降低风险。
53.本说明书实施例,采用机器学习建模思想,利用历史数据随机采样策略生成样本进行建模,同时设计了从用户到用户群预测方案。
54.图2示出根据一个实施例的训练风险预测模型的方法流程图,该方法可以基于图1所示的实施场景。如图2所示,该实施例中训练风险预测模型的方法包括以下步骤:步骤21,获取第一用户群;所述第一用户群包括的各个用户具有分别对应的历史用户数据;步骤22,通过对所述第一用户群进行多轮采样,得到多个子用户群;步骤23,基于所述多个子用户群中任一子用户群包括的各个用户的历史用户数据,确定该子用户群的多个特征维度的群特征数据和该子用户群的风险指标标签值,作为一个训练样本;步骤24,将所述训练样本包括的子用户群的群特征数据输入风险预测模型,通过所述风险预测模型输出该子用户群的风险指标预测值,根据该子用户群的风险指标预测值和该子用户群的风险指标标签值,调整所述风险预测模型的模型参数。下面描述以上各个步骤的具体执行方式。
55.首先在步骤21,获取第一用户群;所述第一用户群包括的各个用户具有分别对应的历史用户数据。可以理解的是,该第一用户群中通常包括数量较多的用户,例如一万个用户。
56.在一个示例中,所述历史用户数据为从用户进行目标业务行为之后的第一时间长度内的用户数据,所述第一时间长度超过了预设时间长度,该历史用户数据可以用于后续计算风险指标标签值,所述风险指标标签值基于从用户进行目标业务行为之后的预设时间长度内的历史用户数据计算得到。
57.以消费信贷风控场景中的风险指标值代表年化损失率为例,上述预设时间长度为一年,所述目标业务行为包括借款行为。
58.然后在步骤22,通过对所述第一用户群进行多轮采样,得到多个子用户群。可以理解的是,每一轮采样会得到一个子用户群,子用户群包括的用户数少于第一用户群包括的用户数,例如,第一用户群包括一万个用户,子用户群包括一千个用户。
59.其中,在上述多轮采样中,可以采取随机采样的方式从第一用户群中选取用户构成子用户群。
60.本说明书实施例,风险指标值通常是是针对具备一定数量用户的用户群才有统计意义的指标,针对单个用户通常难以计算出其个体的风险指标值,因此生成一个训练样本需要对应一个用户群,前述采样得到的多个子用户群便于后续生成多个训练样本,将每个子用户群对应于一个训练样本。
61.接着在步骤23,基于所述多个子用户群中任一子用户群包括的各个用户的历史用户数据,确定该子用户群的多个特征维度的群特征数据和该子用户群的风险指标标签值,作为一个训练样本。可以理解的是,历史用户数据通常反映的是代表用户个体的用户特征数据,需要将其转化为代表子用户群的群特征数据。
62.在一个示例中,所述历史用户数据为从用户进行目标业务行为之后的第一时间长度内的用户数据,所述第一时间长度超过了预设时间长度,所述风险指标标签值基于从用户进行目标业务行为之后的预设时间长度内的历史用户数据计算得到。
63.在一个示例中,所述风险指标标签值用于指示,该子用户群在从用户进行目标业务行为之后的预设时间长度内未发生与目标业务行为对应的履约行为的违约风险。
64.进一步地,所述目标业务行为包括借款行为,所述履约行为包括还款行为。
65.在一个示例中,所述历史用户数据包括用户在所述多个特征维度的用户特征数据;所述多个特征维度包括第一特征维度;所述基于所述多个子用户群中任一子用户群包括的各个用户的历史用户数据,确定该子用户群的多个特征维度的群特征数据,包括:
66.对任一子用户群包括的各个用户的第一特征维度的用户特征数据进行聚合,得到该子用户群在所述第一特征维度的群特征数据。
67.进一步地,所述第一特征维度为数值型特征;所述对任一子用户群包括的各个用户的第一特征维度的用户特征数据进行聚合,包括:
68.对任一子用户群包括的各个用户的第一特征维度的用户特征数据求平均值,得到该子用户群在所述第一特征维度的群特征数据。
69.举例来说,子用户群包括用户a、用户b和用户c,用户a的第一特征维度的用户特征数据为20,用户b的第一特征维度的用户特征数据为30,用户c的第一特征维度的用户特征数据为40,对20、30和40求平均值,得到平均值为30,则该子用户群在所述第一特征维度的群特征数据为30。
70.进一步地,所述第一特征维度为类别型特征;所述对任一子用户群包括的各个用户的第一特征维度的用户特征数据进行聚合,包括:
71.根据任一子用户群包括的各个用户的第一特征维度的用户特征数据,确定各个类别的用户数占比,将该用户数占比作为该子用户群在所述第一特征维度的群特征数据。
72.举例来说,子用户群包括用户a、用户b和用户c,用户a的第一特征维度的用户特征数据为类别一,用户b的第一特征维度的用户特征数据为类别二,用户c的第一特征维度的用户特征数据为类别一,类别一和类别二的用户数占比为2比1,则该子用户群在所述第一特征维度的群特征数据为2比1。
73.最后在步骤24,将所述训练样本包括的子用户群的群特征数据输入风险预测模型,通过所述风险预测模型输出该子用户群的风险指标预测值,根据该子用户群的风险指标预测值和该子用户群的风险指标标签值,调整所述风险预测模型的模型参数。可以理解的是,可以以最小化预测损失为训练目标,来调整模型参数。
74.在一个示例中,所述方法还包括:
75.利用验证样本集中的各个训练样本对训练后的所述风险预测模型进行验证;所述验证样本集基于第二用户群包括的各个用户分别对应的历史用户数据而生成;所述第一用户群和所述第二用户群通过对第三用户群随机切分而得到;
76.利用测试样本集中的各个训练样本对所述风险预测模型进行测试,以确定所述风险预测模型的性能;所述测试样本集基于第四用户群包括的各个用户分别对应的历史用户数据而生成;所述第四用户群和所述第三用户群通过对第五用户群随机切分而得到。
77.举例来说,将用户全集的历史用户数据随机切分为训练用户数据和测试用户数据,然后针对训练用户数据和测试用户数据分别生成训练样本集和测试样本集,训练样本集可再随机切分为训练用途的样本集和验证用途的样本集,再利用机器学习回归模型(如lightgbm等)在相应的样本集上进行训练、验证和测试,从而获得准确性很高的风险预测模型。
78.通过本说明书实施例提供的训练风险预测模型的方法,首先获取第一用户群;所
述第一用户群包括的各个用户具有分别对应的历史用户数据;然后通过对所述第一用户群进行多轮采样,得到多个子用户群;接着基于所述多个子用户群中任一子用户群包括的各个用户的历史用户数据,确定该子用户群的多个特征维度的群特征数据和该子用户群的风险指标标签值,作为一个训练样本;最后将所述训练样本包括的子用户群的群特征数据输入风险预测模型,通过所述风险预测模型输出该子用户群的风险指标预测值,根据该子用户群的风险指标预测值和该子用户群的风险指标标签值,调整所述风险预测模型的模型参数。由上可见,本说明书实施例,采用机器学习建模策略,利用历史数据随机采样策略生成样本进行建模,训练后得到的风险预测模型,能够在用户群中的用户无风险表现期间,预估该用户群的风险指标值。并且,准确度高。
79.图3示出根据一个实施例的用户群的业务风险的确定方法流程图,该方法可以基于图1所示的实施场景。如图3所示,该实施例中用户群的业务风险的确定方法包括以下步骤:步骤31,获取风险预测模型,所述风险预测模型根据图2的方法训练得到,并具有群特征数据的输入形式;步骤32,获取目标用户群中每个用户在多个特征维度的用户特征数据;步骤33,将任一用户的用户特征数据转换为所述群特征数据的形式,将转换后的特征数据输入所述风险预测模型,通过所述风险预测模型输出该用户的预测风险指标值;步骤34,根据所述目标用户群中每个用户的业务额度和该用户的预测风险指标值,确定所述目标用户群的预测风险指标值,该预测风险指标值用于指示所述目标用户群的业务风险程度。下面描述以上各个步骤的具体执行方式。
80.首先在步骤31,获取风险预测模型,所述风险预测模型根据图2的方法训练得到,并具有群特征数据的输入形式。可以理解的是,该风险预测模型在训练时所采用的训练样本对应于子用户群,其输入为子用户群的群特征数据,因此在使用训练后的风险预测模型时,其也具有群特征数据的输入形式。
81.然后在步骤32,获取目标用户群中每个用户在多个特征维度的用户特征数据。可以理解的是,上述多个特征维度可以包括用户的属性特征和/或用户的行为特征,任一特征维度具体可以为数值型特征或类别型特征。
82.本说明书实施例,数值型特征的取值通过数值来表示,例如,消费金额就属于数值型特征;类别型特征的取值通过类别标识来表示,例如,职业就属于类别型特征。类别型特征也可以转化为数值型特征,例如,一个类别型特征的取值包括类别a和类别b,其中,类别a可以用0来表示,类别b可以用1来表示,这样就将该类别型特征转化为数值型特征。
83.接着在步骤33,将任一用户的用户特征数据转换为所述群特征数据的形式,将转换后的特征数据输入所述风险预测模型,通过所述风险预测模型输出该用户的预测风险指标值。可以理解的是,上述转换过程仅仅是数据表现形式上的转换,实质上该风险预测模型的输入仍然是单个用户的用户特征数据。
84.在一个示例中,所述多维度特征包括数值型特征和类别型特征;所述将任一用户的用户特征数据转换为所述群特征数据的形式,包括:
85.将任一用户的数值型特征的特征数据,直接作为所述群特征数据的形式;
86.将任一用户的类别型特征的特征数据,转化为该类别型特征的每种类别的用户数占比,将该占比作为所述群特征数据的形式。
87.举例来说,数值型特征为消费金额,若单个用户的消费金额为100,则该数值型特
征转换为群特征数据的形式之后为100;类别型特征为职业,取值包括类别a和类别b,其中,若单个用户的职业为类别a,则该类别型特征转换为群特征数据的形式之后为1比0。
88.最后在步骤34,根据所述目标用户群中每个用户的业务额度和该用户的预测风险指标值,确定所述目标用户群的预测风险指标值,该预测风险指标值用于指示所述目标用户群的业务风险程度。可以理解的是,不同用户的业务额度可能不同,在确定所述目标用户群的预测风险指标值时,业务额度高的用户,该用户的预测风险指标值,会对应有较高的权重。
89.本说明书实施例,上述业务额度在不同的业务场景中可以有不同的含义。举例来说,在消费信贷业务场景中,上述业务额度可以为授信金额的额度;在共享单车业务场景中,上述业务额度可以为骑行时间的额度或骑行次数的额度;在充电宝租赁业务场景中,上述业务额度可以为租赁时间的额度或租赁次数的额度。
90.以消费信贷业务场景为例,训练得到的风险预测模型在预测阶段应用于目标客群中的每个消费信贷客户个体,预测每个客户个体的财务不良率,然后再通过每个客户的授信额度作为权重针对每个客户个体的财务不良率加权平均,最终得到该目标客群的总体财务不良率预测值。
91.通过本说明书实施例提供的用户群的业务风险的确定方法,首先获取风险预测模型,所述风险预测模型根据图2的方法训练得到,并具有群特征数据的输入形式;然后获取目标用户群中每个用户在多个特征维度的用户特征数据;接着将任一用户的用户特征数据转换为所述群特征数据的形式,将转换后的特征数据输入所述风险预测模型,通过所述风险预测模型输出该用户的预测风险指标值;最后根据所述目标用户群中每个用户的业务额度和该用户的预测风险指标值,确定所述目标用户群的预测风险指标值,该预测风险指标值用于指示所述目标用户群的业务风险程度。由上可见,本说明书实施例,利用了前述训练后得到的风险预测模型,并且将该风险预测模型应用于单个用户,用于预测单个用户的预测风险指标值,然后再根据所述目标用户群中每个用户的业务额度和该用户的预测风险指标值,确定所述目标用户群的预测风险指标值,能够在用户群中的用户无风险表现期间,预估该用户群的风险指标值。并且,准确度高。
92.根据另一方面的实施例,还提供一种训练风险预测模型的装置,该装置用于执行本说明书实施例提供的训练风险预测模型的方法。图4示出根据一个实施例的训练风险预测模型的装置的示意性框图。如图4所示,该装置400包括:
93.获取单元41,用于获取第一用户群;所述第一用户群包括的各个用户具有分别对应的历史用户数据;
94.采样单元42,用于通过对所述获取单元41获取的第一用户群进行多轮采样,得到多个子用户群;
95.确定单元43,用于基于所述采样单元42得到的多个子用户群中任一子用户群包括的各个用户的历史用户数据,确定该子用户群的多个特征维度的群特征数据和该子用户群的风险指标标签值,作为一个训练样本;
96.训练单元44,用于将所述确定单元43得到的训练样本包括的子用户群的群特征数据输入风险预测模型,通过所述风险预测模型输出该子用户群的风险指标预测值,根据该子用户群的风险指标预测值和所述确定单元得到的该子用户群的风险指标标签值,调整所
述风险预测模型的模型参数。
97.可选地,作为一个实施例,所述历史用户数据为从用户进行目标业务行为之后的第一时间长度内的用户数据,所述第一时间长度超过了预设时间长度,所述风险指标标签值基于从用户进行目标业务行为之后的预设时间长度内的历史用户数据计算得到。
98.可选地,作为一个实施例,所述风险指标标签值用于指示,该子用户群在从用户进行目标业务行为之后的预设时间长度内未发生与目标业务行为对应的履约行为的违约风险。
99.进一步地,所述目标业务行为包括借款行为,所述履约行为包括还款行为。
100.可选地,作为一个实施例,所述历史用户数据包括用户在所述多个特征维度的用户特征数据;所述多个特征维度包括第一特征维度;所述确定单元43,具体用于对任一子用户群包括的各个用户的第一特征维度的用户特征数据进行聚合,得到该子用户群在所述第一特征维度的群特征数据。
101.进一步地,所述第一特征维度为数值型特征;所述确定单元43,具体用于对任一子用户群包括的各个用户的第一特征维度的用户特征数据求平均值,得到该子用户群在所述第一特征维度的群特征数据。
102.进一步地,所述第一特征维度为类别型特征;所述确定单元43,具体用于根据任一子用户群包括的各个用户的第一特征维度的用户特征数据,确定各个类别的用户数占比,将该用户数占比作为该子用户群在所述第一特征维度的群特征数据。
103.可选地,作为一个实施例,所述装置还包括:
104.验证单元,用于利用验证样本集中的各个训练样本对所述训练单元得到的训练后的所述风险预测模型进行验证;所述验证样本集基于第二用户群包括的各个用户分别对应的历史用户数据而生成;所述第一用户群和所述第二用户群通过对第三用户群随机切分而得到;
105.测试单元,用于利用测试样本集中的各个训练样本对所述验证单元验证后的风险预测模型进行测试,以确定所述风险预测模型的性能;所述测试样本集基于第四用户群包括的各个用户分别对应的历史用户数据而生成;所述第四用户群和所述第三用户群通过对第五用户群随机切分而得到。
106.通过本说明书实施例提供的训练风险预测模型的装置,首先获取单元41获取第一用户群;所述第一用户群包括的各个用户具有分别对应的历史用户数据;然后采样单元42通过对所述第一用户群进行多轮采样,得到多个子用户群;接着确定单元43基于所述多个子用户群中任一子用户群包括的各个用户的历史用户数据,确定该子用户群的多个特征维度的群特征数据和该子用户群的风险指标标签值,作为一个训练样本;最后训练单元44将所述训练样本包括的子用户群的群特征数据输入风险预测模型,通过所述风险预测模型输出该子用户群的风险指标预测值,根据该子用户群的风险指标预测值和该子用户群的风险指标标签值,调整所述风险预测模型的模型参数。由上可见,本说明书实施例,采用机器学习建模策略,利用历史数据随机采样策略生成样本进行建模,训练后得到的风险预测模型,能够在用户群中的用户无风险表现期间,预估该用户群的风险指标值。并且,准确度高。
107.根据另一方面的实施例,还提供一种用户群的业务风险的确定装置,该装置用于执行本说明书实施例提供的用户群的业务风险的确定方法。图5示出根据一个实施例的用
户群的业务风险的确定装置的示意性框图。如图5所示,该装置500包括:
108.第一获取单元51,用于获取风险预测模型,所述风险预测模型根据图4的装置训练得到,并具有群特征数据的输入形式;
109.第二获取单元52,用于获取目标用户群中每个用户在多个特征维度的用户特征数据;
110.预测单元53,用于将所述第二获取单元52获取的任一用户的用户特征数据转换为所述群特征数据的形式,将转换后的特征数据输入所述第一获取单元51获取的风险预测模型,通过所述风险预测模型输出该用户的预测风险指标值;
111.确定单元54,用于根据所述目标用户群中每个用户的业务额度和所述预测单元53得到的该用户的预测风险指标值,确定所述目标用户群的预测风险指标值,该预测风险指标值用于指示所述目标用户群的业务风险程度。
112.可选地,作为一个实施例,所述多个特征维度包括数值型特征和类别型特征;所述预测单元53包括:
113.第一转换子单元,用于将任一用户的数值型特征的特征数据,直接作为所述群特征数据的形式;
114.第二转换子单元,用于将任一用户的类别型特征的特征数据,转化为该类别型特征的每种类别的用户数占比,将该占比作为所述群特征数据的形式。
115.通过本说明书实施例提供的用户群的业务风险的确定装置,首先第一获取单元51获取风险预测模型,所述风险预测模型根据图4的装置训练得到,并具有群特征数据的输入形式;然后第二获取单元52获取目标用户群中每个用户在多个特征维度的用户特征数据;接着预测单元53将任一用户的用户特征数据转换为所述群特征数据的形式,将转换后的特征数据输入所述风险预测模型,通过所述风险预测模型输出该用户的预测风险指标值;最后确定单元54根据所述目标用户群中每个用户的业务额度和该用户的预测风险指标值,确定所述目标用户群的预测风险指标值,该预测风险指标值用于指示所述目标用户群的业务风险程度。由上可见,本说明书实施例,利用了前述训练后得到的风险预测模型,并且将该风险预测模型应用于单个用户,用于预测单个用户的预测风险指标值,然后再根据所述目标用户群中每个用户的业务额度和该用户的预测风险指标值,确定所述目标用户群的预测风险指标值,能够在用户群中的用户无风险表现期间,预估该用户群的风险指标值。并且,准确度高。
116.根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2或图3所描述的方法。
117.根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2或图3所描述的方法。
118.本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
119.以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明
的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1