异常风险数据处理方法、装置、计算机设备和存储介质与流程

文档序号:33196817发布日期:2023-02-04 12:46阅读:67来源:国知局
异常风险数据处理方法、装置、计算机设备和存储介质与流程

1.本技术涉及数据处理技术领域,特别是涉及一种异常风险数据处理方法、装置、计算机设备、存储介质和计算机程序产品。


背景技术:

2.随着计算机技术的发展,在不同参与方之间进行资源交换的应用越来越广泛。资源可包括实体物质资源、信息资源、金融资源等,资源交换时,参与方中的资源提供方可先将资源提供给参与方中的资源需求方,在约定的交换期满前,资源提供方需回收提供给资源需求方的资源,待回收资源存在无法回收的风险,形成异常资源,例如无法回收的金融资源形成坏账,造成资源提供方的损失。资源提供方为降低损失,需要对资源需求方评估待回收资源的异常风险。目前,资源提供方通过业务专家人工观察一些数据,利用主观经验评估异常风险。
3.然而,目前通过业务专家人工观察评估异常风险的方式,需要依赖特定专家的特定经验进行手动操作,评估效率低。


技术实现要素:

4.基于此,有必要针对上述技术问题,提供一种能够提高异常风险评估效率的异常风险数据处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
5.第一方面,本技术提供了一种异常风险数据处理方法。所述方法包括:
6.响应于针对目标对象的异常风险评估事件,按照目标评分模型评分所用的多个目标风险指标,从资源交换记录系统以及至少一个公开信息源,获取所述目标对象的所述多个目标风险指标各自的源数据,进行预处理获得所述多个目标风险指标各自的风险数据后,存储至模型输入数据集文件中;
7.执行模型主文件以运行所述目标评分模型,从所述模型输入数据集文件中读取所述多个目标风险指标各自的所述风险数据;
8.将所述多个目标风险指标各自的所述风险数据输入所述目标评分模型进行处理,获得所述目标评分模型输出的所述目标对象的异常风险评分等级;所述目标评分模型在训练时从多个候选风险指标中筛选出了所述多个目标风险指标中的至少一部分目标风险指标。
9.第二方面,本技术还提供了一种异常风险数据处理装置。所述装置包括:
10.输入模块,用于响应于针对目标对象的异常风险评估事件,按照目标评分模型评分所用的多个目标风险指标,从资源交换记录系统以及至少一个公开信息源,获取所述目标对象的所述多个目标风险指标各自的源数据,进行预处理获得所述多个目标风险指标各自的风险数据后,存储至模型输入数据集文件中;
11.执行模块,用于执行模型主文件以运行所述目标评分模型,从所述模型输入数据集文件中读取所述多个目标风险指标各自的所述风险数据;将所述目标风险指标的所述风
险数据输入所述目标评分模型进行处理,获得所述目标评分模型输出的所述目标对象的异常风险评分等级;所述目标评分模型在训练时从多个候选风险指标中筛选出了所述多个目标风险指标中的至少一部分目标风险指标。
12.第三方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
13.响应于针对目标对象的异常风险评估事件,按照目标评分模型评分所用的多个目标风险指标,从资源交换记录系统以及至少一个公开信息源,获取所述目标对象的所述多个目标风险指标各自的源数据,进行预处理获得所述多个目标风险指标各自的风险数据后,存储至模型输入数据集文件中;
14.执行模型主文件以运行所述目标评分模型,从所述模型输入数据集文件中读取所述多个目标风险指标各自的所述风险数据;
15.将所述多个目标风险指标各自的所述风险数据输入所述目标评分模型进行处理,获得所述目标评分模型输出的所述目标对象的异常风险评分等级;所述目标评分模型在训练时从多个候选风险指标中筛选出了所述多个目标风险指标中的至少一部分目标风险指标。
16.第四方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
17.响应于针对目标对象的异常风险评估事件,按照目标评分模型评分所用的多个目标风险指标,从资源交换记录系统以及至少一个公开信息源,获取所述目标对象的所述多个目标风险指标各自的源数据,进行预处理获得所述多个目标风险指标各自的风险数据后,存储至模型输入数据集文件中;
18.执行模型主文件以运行所述目标评分模型,从所述模型输入数据集文件中读取所述多个目标风险指标各自的所述风险数据;
19.将所述多个目标风险指标各自的所述风险数据输入所述目标评分模型进行处理,获得所述目标评分模型输出的所述目标对象的异常风险评分等级;所述目标评分模型在训练时从多个候选风险指标中筛选出了所述多个目标风险指标中的至少一部分目标风险指标。
20.第五方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
21.响应于针对目标对象的异常风险评估事件,按照目标评分模型评分所用的多个目标风险指标,从资源交换记录系统以及至少一个公开信息源,获取所述目标对象的所述多个目标风险指标各自的源数据,进行预处理获得所述多个目标风险指标各自的风险数据后,存储至模型输入数据集文件中;
22.执行模型主文件以运行所述目标评分模型,从所述模型输入数据集文件中读取所述多个目标风险指标各自的所述风险数据;
23.将所述多个目标风险指标各自的所述风险数据输入所述目标评分模型进行处理,获得所述目标评分模型输出的所述目标对象的异常风险评分等级;所述目标评分模型在训练时从多个候选风险指标中筛选出了所述多个目标风险指标中的至少一部分目标风险指标。
24.上述异常风险数据处理方法、装置、计算机设备、存储介质和计算机程序产品,通过对资源交换记录系统以及至少一个公开信息源获取目标对象的多个目标风险指标各自的源数据进行预处理,获得多个目标风险指标各自的风险数据,提供了足够丰富的与异常风险相关的数据基础;并且,部分目标风险指标是目标评分模型训练时从多个候选风险指标中筛选出来的,基于目标评分模型、多个目标风险指标预测异常风险评分等级可靠性高,将目标对象的多个目标风险指标各自的风险数据输入目标评分模型,获得目标对象的异常风险评分等级,能够获得准确的异常风险评分等级的同时,提高了评估效率。
附图说明
25.图1为一个实施例中异常风险数据处理方法的应用环境图;
26.图2为一个实施例中异常风险数据处理方法的流程示意图;
27.图3为一个实施例中训练步骤的流程示意图;
28.图4为一个实施例中各异常风险评分等级的评分数据分布示意图;
29.图5为一个实施例中各逾期阶段与逾期天数范围对应关系示意图;
30.图6为一个实施例中7月到12月各逾期阶段的应收余额示意图;
31.图7为一个实施例中8月到12月各逾期阶段的迁移金额示意图;
32.图8为一个实施例中8月到12月各逾期阶段的资源迁移比例示意图;
33.图9为一个实施例中各逾期阶段的预测逾期损失比例计算公式示意图;
34.图10为一个实施例中各逾期阶段的预测逾期损失比例示意图;
35.图11为一个实施例中当前月份目标对象的预测坏账金额示意图;
36.图12为一个具体实施例中异常风险数据处理方法的步骤流程图;
37.图13为一个实施例中公开信息源可挖掘的数据类型列表;
38.图14为一个实施例中显示风险指标结构化处理结果的数据服务功能界面;
39.图15为一个实施例中用于训练模型的部分数据展示图;
40.图16为一个实施例中根据多个样本对象的评分数据构建的ks曲线;
41.图17为一个实施例中好坏样本对象各自的累计概率分布函数示意图;
42.图18为一个实施例中异常风险预测项目文件示意图;
43.图19为一个实施例中异常风险预测项目文件的说明示意图;
44.图20为一个实施例中应收账款逾期到坏账的变化流程示意图;
45.图21为一个实施例中应收坏账风险预测界面;
46.图22为一个实施例中异常风险数据处理装置的结构框图;
47.图23为一个实施例中计算机设备的内部结构图。
具体实施方式
48.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
49.本技术实施例提供的异常风险数据处理方法,可以应用于如图1所示的应用环境中。其中,数据服务器102可运行数据服务端,资源交换记录系统可运行在资源服务器104
上,资源交换记录系统也可以运行在数据服务器102上;在至少一个公开信息源包括多个公开信息源的情况下,其中一个公开信息源可运行在信息服务器106上,其它公开信息源可运行在其他信息服务器上;数据服务器102可由数据服务端通过网络与资源服务器104、信息服务器106、其他信息服务器通信。数据存储系统可以存储数据服务器102执行异常风险数据处理方法时需要处理的数据。数据存储系统可以集成在数据服务器102上,也可以放在云上或其他服务器上。
50.在图1所示的应用环境中,数据服务器102可响应针对目标对象的异常风险评估事件,从运行在资源服务器104上的资源交换记录系统以及运行在信息服务器106的至少一个公开信息源,获取目标对象的多个目标风险指标各自的源数据并进行预处理,获得多个目标风险指标各自的风险数据,数据服务器102执行模型主文件,将多个目标风险指标各自的风险数据输入目标评分模型进行处理,获得述目标对象的异常风险评分等级。数据服务器102、资源服务器104、信息服务器106可分别用独立的服务器实现,或者是分别用多个服务器组成的服务器集群来实现。在一些实施例中,数据服务器102可以替换为终端,或者数据服务器102的功能可以由终端和服务器交互实现。终端可以是各种台式计算机、笔记本电脑、智能手机或平板电脑。
51.在一个实施例中,如图2所示,提供了一种异常风险数据处理方法,本实施例以该方法应用于图1中的数据服务器102为例进行说明,该方法包括以下步骤:
52.步骤202,响应于针对目标对象的异常风险评估事件,按照目标评分模型评分所用的多个目标风险指标,从资源交换记录系统以及至少一个公开信息源,获取目标对象的多个目标风险指标各自的源数据,进行预处理获得多个目标风险指标各自的风险数据后,存储至模型输入数据集文件中。
53.其中,资源是任意可利用的物质。资源可包括实体资源或无形资源,实体资源例如建筑物、交通工具、实体商品或实体货币等,无形资源例如虚拟货币、电子账户、数据服务、软件产品或劳务服务等,其中,实体货币、虚拟货币可以被称为金融资源。
54.资源交换是指至少两个参与方按照约定条件使用相同类型资源或者不同类型资源进行交换的活动;当参与方中的资源提供方提供资源后,需要在参与方间约定的交换期内,从参与方中的资源需求方回收资源以抵偿提供的资源,在完整回收资源之前,未回收的资源为待回收资源;当待回收资源无法被回收时,待回收资源可被称为异常资源。资源交换记录系统是记录资源交换过程中各种信息的系统,各种信息可包括参与方身份标识、交换的资源数量、交换的资源价值、资源交换时间或资源回收约定时间等。
55.目标对象是需要被评估形成异常资源的风险的资源需求方,可以是企业也可以是个体。异常风险评估事件是评估目标对象的待回收资源转变成异常资源的可能性的事件,可以是自动触发事件,也可以是手动触发操作。自动触发事件可以是定期触发,可以是在系统中新增目标对象时自动触发,可以是目标对象的多个目标风险指标各自的源数据更新时自动触发;手动触发操作可以是对异常风险评估功能键的标识信息的点击操作。公开信息源是可被公众获取的公开信息的来源,可以是各种可访问网站、报纸、期刊等。
56.目标评分模型是具有特定规则或者特定数学公式以用于评估目标对象的异常风险评分等级的数学模型。目标风险指标是用于评估目标对象的异常风险评分等级所采用的数据的指标。目标风险指标的源数据是直接从资源交换记录系统或者至少一个公开信息源
中获取的目标风险指标下的原始数据。
57.预处理是对源数据至少进行数据格式转换、按照目标风险指标进行数据统计,以形成可直接输入目标评分模型的目标风险指标的风险数据。举例说明,在目标风险指标是最近一年内被列为失信执行人的次数,该目标风险指标的源数据可以是目标对象一年内被列为失信执行人的记录,对该记录的条数进行统计,该记录的条数的数值为该目标风险指标的风险数据。模型输入数据集文件是记录目标对象的多个目标风险指标的风险数据的文件。
58.在一个实施例中,数据服务器可响应于针对目标对象的异常风险评估事件,可按照快速查询表中记录的多个目标风险指标各自在资源交换记录系统或者至少一个公开信息源中的获取路径,按照获取路径从资源交换记录系统以及至少一个公开信息源获取目标对象的多个目标风险指标各自的源数据。其中,获取路径可以是数据文件路径,也可以是网址。
59.在一个实施例中,数据服务器可将目标对象的多个目标风险指标各自的风险数据,按照预设的数据格式以及预设的排列方式,存储至模型输入数据集文件中。其中,预设的数据格式可以是纯文本格式,也可以是经过编码的数据格式。预设的排列方式,可以是以不同的目标对象为一维度、不同的目标风险指标为另一维度形成的矩阵形式,矩阵中记录不同对象的不同目标风险指标各自对应的风险数据。预设的排列方式,也可以是对应每个目标对象存在独立的数据组,该数据组存储该目标对象的多个目标风险指标各自的风险数据。
60.在一个实施例中,模型输入数据集文件包括数据存储区和索引区,同一目标对象的多个目标风险指标各自的风险数据在数据存储区集中存储,索引区记录了目标对象和数据起始存储位置的对应关系,该起始存储位置是该目标对象的多个目标风险指标各自的风险数据在数据存储区中存储的起始位置。本实施例中,模型输入数据集文件中可存在索引区,通过索引区,可快速定位存储目标对象的多个目标风险指标各自的风险数据在数据存储区中的位置。数据服务器可在模型输入数据集文件中存储目标对象的多个目标风险指标各自的风险数据之后,在模型输入数据集文件的索引区记录目标对象以及目标对象的多个目标风险指标各自的风险数据的起始存储位置。
61.步骤204,执行模型主文件以运行目标评分模型,从模型输入数据集文件中读取多个目标风险指标各自的风险数据。
62.其中,模型主文件是记载了实现目标评分模型运行代码的可执行文件。执行模型主文件可以运行目标评分模型。
63.在一个实施例中,模型输入数据集文件中存储有多个对象的多个目标风险指标各自的风险数据。数据服务器可遍历模型输入数据集文件中记录的多个对象,在遍历到目标对象的情况下,读取多个目标风险指标各自的风险数据。
64.在一个实施例中,当模型输入数据集中存储有索引区,数据服务器可从模型输入数据集文件的数据存储区域读取目标对象的多个目标风险指标各自的风险数据的起始存储位置,在读取到该起始存储位置后,从该起始存储位置起,读取目标对象的多个目标风险指标各自的风险数据。
65.在一个实施例中,多个目标风险指标可包括模型运算指标和条件判断指标。数据
服务器可先从模型输入数据集文件中读取条件判断指标的风险数据,在将条件判断指标的风险数据输入目标评分模型进行处理,处理结果表征为需要进一步处理模型运算指标的风险数据时,再从模型输入数据集文件中读取模型运算指标的风险数据。
66.步骤206,将多个目标风险指标各自的风险数据输入目标评分模型进行处理,获得目标评分模型输出的目标对象的异常风险评分等级;目标评分模型在训练时从多个候选风险指标中筛选出了多个目标风险指标中的至少一部分目标风险指标。
67.其中,异常风险评分等级是资源交换参与方的待回收资源转变成异常资源的可能性。异常风险评分等级可包括高风险等级、中风险等级或低风险等级。候选风险指标是在训练得到目标评分模型之前,预计与异常风险评分等级存在相关性的风险指标。
68.在一个实施例中,数据服务器可将多个目标风险指标各自的风险数据输入目标评分模型进行处理,获得多个目标风险指标的评分数据,进而目标评分模型输出的目标对象的评分数据,通过预设等级划分条件,根据目标对象的评分数据确定目标对象的异常风险评分等级。
69.在一个实施例中,数据服务器可先将条件判断指标的风险数据输入目标评分模型进行处理,在条件判断指标的风险数据符合预设条件时,直接获得目标评分模型输出的目标对象的异常风险评分等级。
70.在一个实施例中,多个目标风险指标可包括模型运算指标和条件判断指标。数据服务器可先将条件判断指标的风险数据输入目标评分模型进行处理,在条件判断指标的风险数据不符合预设条件时,将模型运算指标输入目标评分模型进行处理,获得目标评分模型输出的目标对象的异常风险评分等级。
71.上述异常风险数据处理方法中,通过对资源交换记录系统以及至少一个公开信息源获取目标对象的多个目标风险指标各自的源数据进行预处理,获得多个目标风险指标各自的风险数据,提供了足够丰富的与异常风险相关的数据基础;并且,部分目标风险指标是目标评分模型训练时从多个候选风险指标中筛选出来的,基于目标评分模型、多个目标风险指标预测异常风险评分等级可靠性高,将目标对象的多个目标风险指标各自的风险数据输入目标评分模型,获得目标对象的异常风险评分等级,能够获得准确的异常风险评分等级的同时,提高了评估效率。
72.在一个实施例中,如图3所示,目标评分模型经过训练步骤获得,训练步骤包括下述步骤302至步骤308:
73.步骤302,针对多个样本对象中的每个样本对象,从资源交换记录系统以及至少一个公开信息源,获取每个样本对象的多个候选风险指标各自的样本源数据。
74.其中,资源交换记录系统是记录不同参与方之间资源交换活动的系统,例如记录企业与其他企业或者个人之间资源交换的企业管理系统,企业管理系统如erp(enterprise resource planning,企业资源计划)系统、crm(customer relationship management,客户关系管理)系统。公开信息源是用于公开各种信息的平台,可以是各种经过认证的高可信度信息平台,例如工商信息网站、司法信息网站、个人信用信息服务平台等。样本对象是训练得到目标评分模型时需要观察的资源需求方。候选风险指标的样本源数据是直接从资源交换记录系统或者至少一个公开信息源中获取的候选风险指标的原始数据。
75.候选风险指标是可能导致需求方企业将发生异常资源的相关指标。举例说明,在
资源是金融资源,待回收资源是提供方企业对需求方企业的应收账款的情况下,候选风险指标可以是可能导致需求方企业发生坏账的相关指标。需求方企业通常应在约定时间内支付应收账款,需求方企业未按约定时间支付应收账款的行为可称为逾期;异常资源可以是坏账,坏账即无法回收的应收账款。
76.候选风险指标可以是针对需求方企业的坏账风险指标库中的部分风险指标,坏账风险指标库具有多种类型指标,包括企业基本信息指标、经营风险指标、司法风险指标、财务风险指标等。例如,财务风险指标包括账龄及逾期信息等多种维度指标,维度为账龄及逾期信息的风险指标中,包括有多个天数的风险指标实际为按天数形成的多个风险指标,例如最近7/30/60/120/150/180天将到期的应收余额实际包括最近7天将到期的应收余额、最近30天将到期的应收余额、最近60天将到期的应收余额、最近120天将到期的应收余额、最近150天将到期的应收余额以及最近180天将到期的应收余额,应收余额是应收账款与已回收账款的差值,即未回收的应收账款。
77.在一个实施例中,数据服务器可按照样本快速查询表中记录的多个候选风险指标各自在资源交换记录系统或者至少一个公开信息源中的获取路径,按照获取路径从资源交换记录系统以及至少一个公开信息源获取每个样本对象的多个候选风险指标各自的样本源数据。
78.步骤304,针对多个候选风险指标中的每个候选风险指标,对所针对的候选风险指标下的多个样本对象各自的样本源数据进行样本预处理,获得多个候选风险指标各自的样本风险数据。
79.其中,样本预处理是对样本源数据进行一系列数据处理以符合输入模型进行训练的数据要求的处理。样本预处理可包括数据清洗、数据集成或数据变换等;数据清洗如缺失值填充以及异常值修正,数据集成如按候选风险指标统计样本源数据、将样本源数据统一存储至数据服务器的特定位置,数据变换如归一化、通过特征分箱处理使得数据离散化。
80.在一个实施例中,数据服务器可针对每个候选风险指标下的多个样本对象各自的样本源数据进行数据规整后得到规整数据,将针对的候选风险指标下的多个样本对象各自的规整数据中相同的规整数据分别归类获得分类数据,当分类数据的数据量大于阈值时,对分类数据进行特征分箱处理,基于多个候选风险指标的特征分箱处理的结果获得多个候选风险指标各自的样本风险数据。
81.步骤306,基于多个候选风险指标进行迭代训练,每次迭代遍历当前剩余的每个候选风险指标,基于遍历的候选风险指标的样本风险数据和已筛选出的目标风险指标的样本风险数据,训练获得训练模型,并评估模型效果,筛选出模型效果最优的训练模型对应的候选风险指标作为目标风险指标,直至迭代至剩余的每个候选风险指标对于相应训练模型的效果无效时停止迭代。
82.其中,训练是向模型展示有标签的多个候选风险指标各自的样本风险数据,并让模型学习多个候选风险指标与标签之间的关系以构成理想模型的过程。标签是表征样本对象存在异常资源与否的标记。迭代训练是重复训练过程以达到训练目标的过程。训练模型是对迭代时采用的样本风险数据经过特定的算法训练得到的数学模型。训练模型的输出结果可以是样本对象存在异常资源的概率。特定的算法可以实现二分类任务,特定的算法例如逻辑回归算法、xgboost算法(extreme gradient boosting,高效的梯度提升决策树算
法)、神经网络算法等。模型效果是通过训练模型预测样本对象存在异常资源与否的准确程度。模型效果可通过计算训练模型的评估参数确定。评估参数可以是表征训练模型对存在异常资源的样本对象和不存在异常资源的样本对象的区分能力的参数。
83.举例说明,训练模型的评估参数如auc值(area under the curve,roc(receiver operating characteristic,受试者工作特征)曲线与坐标轴围成的面积)、ks值(kolmogorov-smirnov,真正率与假正率的最大差值的绝对值)。auc值反映了训练模型区分好样本对象和坏样本对象的平均水平,auc值取值范围从0.5到1,auc值取值越大,模型效果越优,但auc值过高可能存在过拟合问题;ks值反映了训练模型区分好样本对象和坏样本对象的最佳状况,ks值取值范围为从0到1,ks值取值越大,模型效果越优,但ks值过高可能存在训练模型过拟合的问题。好样本对象可以是不存在异常资源的样本对象,坏样本对象可以是存在异常资源的样本对象。真正率是所有样本对象中实际上是好样本对象且被训练模型预测为好样本对象的比例,假正率是所有样本对象中实际上是坏样本对象但被训练模型预测为好样本对象的比例。
84.其中,auc值、ks值与训练模型的模型效果的对应关系可以是:auc值为0.5值和/或ks值小于0.2时,表征训练模型没有区分能力;auc值大于0.5且小于或等于0.7,和/或ks值大于或等于0.2且小于或等于0.3时,表征训练模型区分能力较弱;auc值大于0.7且小于或等于0.8,和/或ks值大于0.3且小于或等于0.5时,表征训练模型区分能力是可以接受的程度;auc值大于0.8且小于或等于0.9,和/或ks值大于0.5且小于0.75时,表征训练模型区分能力较强;auc值大于0.9且小于或等于1,和/或ks值大于或等于0.75且小于或等于1时,表征训练模型可能过拟合,此时训练模型需要基于业务经验验证后使用。
85.roc曲线是以真正率为纵坐标轴、假正率为横坐标轴、样本对象的截断点为曲线上的点绘制的曲线,截断点是各样本对象被训练模型预测而输出的属于好样本对象的概率值。在绘制roc曲线时,通过遍历样本对象,将遍历的样本对象的截断点作为预测结果的临界值,将所有样本对象的截断点和临界值比较,当样本对象的截断点大于或等于临界值时认为该样本对象被训练模型预测为好样本对象,当样本对象的截断点小于临界值时认为该样本对象被训练模型预测为坏样本对象,得到每个样本对象被训练模型预测为好样本对象或坏样本对象的结果,进而参考每个样本对象的实际情况计算该截断点的真正率和假正率,直至获取到所有样本对象的截断点对应的真正率和假正率,以所有截断点各自的真正率和假正率构成各自的坐标,绘制roc曲线。roc曲线与坐标轴构成的面积为auc值,真正率和假正率的差值的绝对值最大时该绝对值为ks值。
86.在一个实施例中,在迭代训练之前,数据服务器可生成每个样本对象的标签,以确定每个样本对象存在异常资源与否。本实施例中,数据服务器可针对每个样本对象判断预设风险指标的样本风险数据是否符合预设异常条件;在该样本对象的预设风险指标的样本风险数据符合预设异常条件的情况下,将该样本对象的标签赋予表征为存在异常资源的值;在该样本对象的预设风险指标的样本风险数据不符合预设异常条件的情况下,将该样本对象的标签赋予表征为不存在异常资源的值。
87.其中,预设风险指标是预先设置的可直接确定样本对象是否存在异常资源的风险指标。预设异常条件是根据样本风险数据确定样本对象存在异常资源的条件。举例说明,当样本对象是企业,预设风险指标可以是企业的经营状态,预设风险预设异常条件可以是当
企业的经营状态表征为停止经营,本实施例中,企业的经营状态表征为停止经营时,表明无法完全回收该企业的应收账款,导致了异常资源。
88.步骤308,基于停止迭代后得到的目标训练模型构建目标评分模型。
89.其中,目标训练模型是通过训练得到的训练模型。
90.在一个实施例中,数据服务器可在停止迭代后,输出构成目标训练模型的多个目标风险指标以及多个目标风险指标各自的模型系数,基于多个目标风险指标各自的风险数据以及多个目标风险指标各自的模型系数构建目标评分模型,使得当输入目标对象的多个目标风险指标的风险数据,针对该目标对象,基于每个目标风险指标的风险数据以及每个目标风险指标的模型系数获得每个目标风险指标的评分数据,进而获得目标对象的评分数据,并且根据目标对象的评分数据确定目标对象的异常风险评分等级。
91.本实施例中,通过多个候选风险指标的样本风险源数据进行样本预处理,可减少噪音数据对后续训练得到训练模型的干扰,以获得模型效果较好的训练模型;而且对多个候选风险指标的样本风险数据进行迭代训练,保证模型效果最优时筛选出的候选风险指标作为至少一部分目标风险指标,并且此时得到的训练模型用于构建目标评分模型,通过较为科学的训练方法得到的目标风险指标以及训练模型构建的目标评分模型可使得后续预测目标对象的异常风险评分等级准确度较高。
92.在一个实施例中,筛选出的候选风险指标是作为模型运算指标的目标风险指标;基于停止迭代后得到的目标训练模型构建目标评分模型的步骤包括:基于预设的条件判断指标和停止迭代后得到的目标训练模型构建目标评分模型,使得目标评分模型在输入不符合预设条件的数据由目标训练模型进行评分处理输出异常风险评分等级,并在输入符合预设条件的数据时直接输出表征存在异常风险的预设异常风险评分等级。
93.其中,异常风险评分等级可包括多个风险等级,如高风险等级、中风险等级、低风险等级。存在异常风险表征样本对象存在异常资源的可能性高。预设异常风险评分等级可以是多个风险等级中最高的风险等级,如高风险等级。
94.模型运算指标是需要通过计算来输出目标对象的异常风险评分等级的风险指标。在目标训练模型经过逻辑回归算法训练得到时,目标训练模型的公式如公式(1)所示,评分数据可通过公式(2)得到:
[0095][0096]
score=a-b*ln(odds)
ꢀꢀꢀ
公式(2)
[0097]
其中,
[0098]
odds是胜率,其值为坏样本对象的概率与好样本对象概率的比值,x1、x2…
xn是多个(n个)模型运算指标,针对多个模型运算指标中每个模型运算指标,其取值可以是针对的模型运算指标的多个特征分箱数据各自的woe值,w1、w2…
wn是模型运算指标的模型系数。score是评分数据,其值为常数a与胜率的对数运算的差值,胜率的对数运算是胜率odds的对数与常数b的乘积。
[0099]
预设的条件判断指标是预先设置的用于直接确定存在异常风险的目标对象的风险指标。预设条件是预先设置的、通过条件判断指标输出目标对象的异常风险评分等级或
者通过条件判断指标和模型运算指标输出目标对象的异常风险评分等级的条件。
[0100]
举例说明,在预测目标对象是否发生坏账时,条件判断指标可以是经营状态指标、逾期天数指标、账龄指标以及结算类型指标;预设条件可以是经营状态指标的风险数据为表征吊销、注销、停业或清算中任一种,或者是逾期天数指标的风险数据表征逾期天数超过180天,或者是账龄指标的风险数据表征账龄超过5年且结算类型指标的风险数据表征目标对象是非内部结算类型。
[0101]
在一个实施例中,数据服务器可获取训练步骤中停止迭代后输出的模型运算指标、模型运算指标的模型系数,基于预设的条件判断指标、模型运算指标、模型运算指标的模型系数构建目标评分模型。
[0102]
本实施例中,基于条件判断指标和目标训练模型构建目标评分模型,使得后续通过目标评分模型预测目标对象的异常风险评分等级时,可以优先通过条件判断指标的风险数据进行处理,当目标对象的条件判断指标的风险数据符合预设条件,直接获知目标对象具有异常风险,数据处理效率高。
[0103]
在一个实施例中,步骤304包括:对每个样本对象的多个候选风险指标各自的样本源数据进行数据规整,获得每个样本对象的多个候选风险指标各自的样本规整数据;针对多个候选风险指标中的每个候选风险指标,对所针对的候选风险指标下的多个样本对象各自的样本规整数据进行特征分箱处理,获得多个候选风险指标各自的多个特征分箱数据;对多个候选风险指标各自的多个特征分箱数据进行特征编码处理,形成多个候选风险指标各自的样本风险数据。
[0104]
其中,数据规整是将样本源数据中不利于识别的数据进行规范化处理。数据规整可以是对非数值数据处理,如将样本源数据中的文本转化为数值;数据规整可以是对缺失值填充;也可以是按照候选风险指标对样本源数据进行数据统计,使得每个候选风险指标下每个目标对象对应一个样本规整数据,或者其他数据规整方式。
[0105]
特征分箱是对多个候选风险指标各自的样本风险数据进行离散化,以将每个候选风险指标的多个样本对象各自的样本风险数据分布在离散后的数据区间。特征分箱可降低多个候选风险指标各自的样本风险数据的复杂性、减少样本风险数据中异常数据对后续训练模型的影响,提高训练模型的鲁棒性。
[0106]
特征分箱数据是进行特征分箱后的多个数据区间。特征编码是将多个候选风险指标各自的样本规整数据,映射为特征分箱数据的分箱权重值的处理,分箱权重值可以是woe(weight of evidence,证据权重)值。并且,得到特征分箱数据后,可通过获得特征分箱数据的iv值(infromation value,信息价值,用于评估风险指标或特征分箱数据预测异常风险的能力),评估候选风险指标的特征分箱数据,以调整特征分箱数据。针对多个候选风险指标中的每个候选风险指标,woe值可通过下述公式(3)计算得到,iv值可通过以下公式(4)、公式(5)计算:
[0107][0108]
[0109][0110]
其中,woei表征针对的候选风险指标中第i个分箱的woe值,第i个分箱即第i个特征分箱数据。badi表征针对的候选风险指标中第i个分箱的坏样本对象个数,bad
t
表征针对的候选风险指标的所有分箱中坏样本对象的个数,goodi表征针对的候选风险指标中第i个分箱的好样本对象个数,good
t
表征针对的候选风险指标的所有分箱中好样本对象的个数。ivi是针对的候选风险指标的第i个分箱的iv值,iv'是针对的候选风险指标中所有分箱的iv值。坏样本对象可以是存在异常资源的样本对象,好样本对象可以是不存在异常资源的样本对象。
[0111]
woei是针对的候选风险指标的第i个分箱中该分箱坏样本对象比例的对数,与该分箱好样本对象比例的对数的差值。其中,该分箱坏样本对象比例是该分箱坏样本对象个数与针对的候选风险指标的所有分箱的坏样本对象个数的比值,该分箱好样本对象比例是该分箱好样本对象个数与针对的候选风险指标的所有分箱的好样本对象个数的比值。
[0112]
ivi是针对的候选风险指标的第i个分箱中该分箱好坏比例差值与该分箱woe值的乘积,该分箱好坏比例差值是该分箱好样本对象比例与该分箱坏样本对象的差值。iv'是针对的候选风险指标中所有分箱的ivi的累加值。
[0113]
iv值的取值范围为0到正无穷,iv值越大,候选风险指标的预测能力越好。候选风险指标的iv值与候选风险指标的预测能力的对应关系可以是:当候选风险指标的iv值小于0.02时,该风险指标为无效指标;当候选风险指标的iv值大于或等于0.02且小于0.1时,该风险指标为弱效果指标;当候选风险指标的iv值大于或等于0.1且小于或等于0.5时,该候选风险指标为有效指标;当候选风险指标的iv值大于0.5时,该候选风险指标为强指标,可能存在不真实问题,需要结合业务经验判断。进行特征分箱时,可先获得每个候选风险指标的以不同方法或标准划分的多种分箱类型各自的特征分箱数据,可计算该候选风险指标的多种分箱类型各自的iv值,选择iv值最优时的特征分箱数据作为该候选风险指标的特征分箱数据。
[0114]
在一个实施例中,数据服务器可针对多个候选风险指标中的每个候选风险指标进行特征分箱处理,获得针对的候选风险指标的多个特征分箱数据,对针对的候选风险指标的多个特征分箱数据,分别通过公式(3)计算多个特征分箱数据的woe值,将多个特征分箱数据各自的woe值作为该针对的候选风险指标的样本风险数据。
[0115]
本实施例中,将多个候选风险指标各自的样本规整数据进行特征分箱处理,实现数据离散化,减少了多个候选风险指标各自的样本规整数据的数据量,保证了数据的稳定性,可避免后续训练得到训练模型的过拟合问题;而且对多个候选风险指标各自的多个特征分箱数据进行特征编码处理,每个特征分箱数据都有各自的权重,数据具有一定的复杂性,可提升训练模型的模型效果,进而提高通过目标评分模型预测目标对象的异常风险评分等级的准确度。
[0116]
在一个实施例中,多个目标风险指标包括模型运算指标和条件判断指标;将多个目标风险指标各自的风险数据输入目标评分模型进行处理,获得目标评分模型输出的目标对象的异常风险评分等级的步骤包括:将模型运算指标的风险数据和条件判断指标的风险数据输入目标评分模型进行处理;当条件判断指标的风险数据不符合预设条件,通过目标
评分模型对模型运算指标的风险数据处理,获得目标对象的评分数据;按照预设等级划分条件,确定目标对象的评分数据所属的异常风险评分等级。
[0117]
其中,评分数据是目标评分模型输出的对目标对象评定的得分数据。评分数据越高,目标对象的异常风险越低。预设等级划分条件是将评分数据映射为异常风险评分等级的条件。
[0118]
预设等级划分条件可以是将预设评分数据作为分界点以划分评分数据的异常风险评分等级;例如异常风险评分等级包括高风险等级和低风险等级,在目标对象的评分数据大于或者等级预设评分数据时,确定目标对象的异常风险评分等级为低风险等级;在目标对象的评分数据小于预设评分数据时,确定目标对象的异常风险评分等级为低风险等级。
[0119]
预设等级划分条件可以是基于多个样本对象的评分数据构建ks曲线获得ks值确定,还可以在多个样本对象的评分数据的ks值的基础上基于多个样本对象中坏样本对象的评分数据的累计概率分布函数确定,其中,多个样本对象的评分数据是将多个样本对象中每个样本对象的目标风险指标的样本风险数据输入目标评分模型得到。例如,在一个具体应用场景中,如图4所示,异常风险评分等级包括高风险等级、中风险等级、低风险等级,将坏样本对象累计概率为60%且样本对象累计占比25%时的评分数据取整后作为第一分界点,即500;以对多个样本对象的评分数据的构建的ks值最大时的评分数据取整后作为对称点,即600,获得与第一分界点对称的第二分界点对称的评分数据作为第三分界点,即700;当目标对象的评分数据小于或等于500时目标对象的异常风险评分等级为高风险等级,当目标对象的评分数据大于500时且小于700时目标对象的异常风险评分等级为中风险等级,当目标对象的评分数据大于或等于700时目标对象的异常风险评分等级为低风险等级。
[0120]
在一个实施例中,当存在多个条件判断指标和多个预设条件,数据服务器可将目标对象的多个条件判断指标各自的风险数据分别与多个预设条件一一对比,在目标对象的多个条件判断指标各自的风险数据符合任一预设条件,输出表征目标对象存在异常风险的预设异常风险评分数据,并输出表征目标对象存在异常风险的预设异常风险评分等级。
[0121]
在一个实施例中,当存在多个模型运算指标,且在目标对象的多个条件判断指标各自的风险数据都不符合预设条件的情况下,数据服务器可针对目标对象的多个模型运算指标中每个模型运算指标,根据针对的模型运算指标的风险数据获得针对的模型运算指标的评分数据,以获得多个模型运算指标各自的评分数据,基于多个模型运算指标各自的评分数据获得目标对象的评分数据。
[0122]
本实施例中,将目标对象的目标风险指标输入构建好的目标评分模型进行处理,自动输出目标对象的异常风险评分等级,评估效率高;而且目标评分模型处理时,优先通过目标对象的条件判断指标的风险数据进行处理,当目标对象的条件判断指标的风险数据符合预设条件,直接获知目标对象具有异常风险,当目标对象的条件判断指标的风险数据不符合预设条件,再通过模型运算指标的风险数据得到目标对象的异常风险评分等级,进一步提升了评估效率。
[0123]
在一个实施例中,目标对象的异常风险评分等级存储在模型输出结果集文件中;上述异常风险数据处理方法还包括读取并显示服务对象的异常风险评分等级和异常资源预测量的步骤,该步骤包括:通过异常资源量预测模型预测目标对象的异常资源预测量,并
将异常资源预测量存储在异常资源预测量文件中;响应于通过目标身份触发的异常预测功能的触发事件,显示与目标身份具有服务关系的服务对象;当服务对象属于目标对象,从模型输出结果集文件中读取服务对象的异常风险评分等级,并显示服务对象的异常风险评分等级;当服务对象的异常风险评分等级为表征存在异常风险的预设异常风险等级,从异常资源预测量文件中,读取服务对象的异常资源预测量并显示。
[0124]
其中,模型输出结果集文件是记录多个目标对象通过目标评分模型输出的各自的评分数据以及各自的异常风险评分等级的文件。异常资源量预测模型是用于获得目标对象的异常资源预测量的数学模型。异常资源预测量是预计目标对象将产生的异常资源的数量。异常资源的数量例如坏账金额。异常资源预测量文件是存储多个目标对象的异常资源预测量以供读取的文件。
[0125]
目标身份是具有触发异常预测功能权限的计算机身份。服务关系是目标身份为服务对象提供服务,例如帮助服务对象申请资源、对存在异常风险的服务对象发起风险提醒、向服务对象回收资源等。服务对象是从目标身份或目标身份所在的组织获取服务的对象,服务对象可以是资源需求方。
[0126]
异常预测功能是预测服务对象的异常风险的软件功能,至少可以预测服务对象的异常风险评分等级、获取服务对象的异常资源预测量。异常预测功能的触发事件是启用异常预测功能以预测服务对象的异常风险的事件,可以是自动触发事件,也可以是手动触发操作。自动触发事件可以是目标身份启动异常预测功能所在的应用时自动触发,也可以是异常预测功能被错误关闭后自动启动时触发。手动触发操作可以是目标身份对异常预测功能的标识信息的点击操作,标识信息可以是代表异常预测功能的图标或文字。
[0127]
在一个实施例中,终端可响应于通过目标身份触发的异常预测功能的触发事件,显示与目标对象具有服务关系的服务对象,当服务对象属于目标对象,终端可指示数据服务器,使得数据服务器从记录了目标对象的对象快速查询表中查询服务对象,当数据服务器查询到服务对象时,从模型输出结果集文件中读取服务对象的异常风险评分等级,并将服务对象的异常风险评分等级发送到终端显示。
[0128]
在一个实施例中,当服务对象的异常风险评分等级为表征存在异常风险的预设异常风险等级,终端可指示数据服务器,使得数据服务器从异常资源预测量文件中读取服务对象的异常资源预测量,数据服务器将服务对象的异常资源预测量发送到终端显示。
[0129]
本实施例中,目标对象的异常风险评分等级存储在模型输出结果集文件中,当需要显示服务对象的异常风险评分等级,且服务对象属于目标对象,直接从模型输出结果集文件读取并显示,响应速度快;而且当服务对象的异常风险评分等级表征其存在异常风险,从异常资源预测量文件中读取该服务对象的异常资源预测量,异常风险相关信息量更多,有助于目标身份获知服务对象的异常程度。
[0130]
在一个实施例中,通过异常资源量预测模型预测目标对象的异常资源预测量的步骤包括:响应于针对目标对象的异常资源预测事件,获取当前时段和预设历史统计周期内多个预设异常时长范围的待回收资源量;获取预设历史统计周期内各历史时段的多个预设异常时长范围各自的资源迁移比例;资源迁移比例,是基于各历史时段的各预设异常时长范围的待回收资源量,和上一历史时段的上一预设异常时长范围的待回收资源量确定的;基于各历史时段的各预设异常时长范围的资源迁移比例,确定预设历史统计周期内各预设
异常时长范围的预测损失比例;根据当前时段的各预设异常时长范围的待回收资源量,和预设历史统计周期内各预设异常时长范围的预测损失比例,确定目标对象的异常资源预测量。
[0131]
其中,异常资源预测事件是预测目标对象的异常资源预测量的事件,可以是自动触发事件,也可以是手动触发事件。自动触发事件可以是定期触发,也可以是在系统中新增目标对象时自动触发;手动触发事件可以是对异常资源预测功能键的标识信息的点击操作。
[0132]
当前时段是进行预测目标对象的异常资源预测量时所处的一段时间,例如当前月份。预设历史统计周期是当前时段之前预设时长内的一段时间,例如当前月份是2021年1月,预设时长是6个月,则预设历史统计周期是2020年7月至2020年12月。
[0133]
预设异常时长范围是预先设置的目标对象的待回收资源已超过回收期限的时长范围。多个预设异常时长范围中各预设异常时长范围在时间上是连续排布的。举例说明,在异常资源预测量是坏账金额预测量时,待回收资源可以是应收账款,也可以是应收余额,则预设异常时长范围可以是多个逾期天数范围,每个逾期天数范围对应一个逾期阶段,如图5所示,逾期阶段包括0至7在内的8个逾期阶段,逾期阶段0对应的逾期天数范围是0天,逾期阶段1对应的逾期天数范围是1天到30天,逾期阶段2对应的逾期天数范围是31天到60天,逾期阶段3对应的逾期天数范围是61天到90天,逾期阶段4对应的逾期天数范围是91天到120天,逾期阶段5对应的逾期天数范围是120天到150天,逾期阶段6对应的逾期天数范围是逾期151天到180天,逾期阶段7对应的逾期天数范围是181天以上。
[0134]
历史时段是预设历史统计周期内的按固定时长划分的时间段,例如预设历史统计周期是2020年7月至2020年12月,各历史时段可以是2020年7月、2020年8月、2020年9月、2020年10月、2020年11月以及2020年12月。资源迁移比例是各历史时段的各预设异常时长范围的待回收资源从上一历史时段的上一预设异常时长范围迁移而来的待回收资源的比例。资源迁移比例可通过公式(6)计算得到:
[0135][0136]
其中,m(i-[i+1])是各历史时段的第i+1个预设异常时长范围从上一历史时段的第i个预设异常时长范围迁移而来的待回收资源,mi是上一历史时段的第i个预设异常时长范围的待回收资源,fr是各历史时段的第i+1个预设异常时长范围的资源迁移比例,表征各历史时段的第i+1个预设异常时长范围从上一历史时段的第i个预设异常时长范围迁移而来的待回收资源,占上一历史时段的第i个预设异常时长范围的待回收资源的比例。
[0137]
预测损失比例是各预设异常时长范围预计损失资源的比例。预测损失比例可通过公式(7)计算得到:
[0138][0139]
其中,lri是第i个预设异常时长范围的预测损失比例,是第i个预设异常时长范围的平均迁移比例,是第i+1个预设异常时长范围的平均迁移比例,是多个预设异常时长范围中最后一个预设异常时长范围的平均迁移比例。第i个预设异常时长范围的预测损失比例是从第i个预设异常时长范围的平均迁移比例累乘到最后一个预设异常
时长范围的平均迁移比例的值。
[0140]
异常资源预测量可通过公式(8)计算得到:
[0141]
bd=∑mi'*lriꢀꢀꢀ
公式(8)
[0142]
其中,bd是当前时段目标对象的异常资源预测量,mi'是当前时段目标对象的第i个预设异常时长范围的待回收资源量,lri是第i个预设异常时长范围的预测损失比例,lri通过公式(7)计算得到。当前时段目标对象的异常资源预测量是当前时段各预设异常时间范围的待回收资源量与该预设异常时长范围的预测损失比例的乘积的累加值。
[0143]
举例说明,在待回收资源是应收余额、逾期阶段如图5所示的情况下,2020年7月到2020年12月各逾期阶段的应收余额如图6所示,除了逾期阶段7,2020年8月到2020年12月各自的逾期阶段1到逾期阶段6的应收余额只能从上个月的上一逾期阶段迁移而来,例如2020年8月的逾期阶段2的应收余额是从2020年7月的逾期阶段1的应收余额迁移而来。2020年8月到2020年12月各自的逾期阶段7应收余额包括由上月的逾期阶段6迁移到本月的逾期阶段7的应收余额,以及由上月的逾期阶段7迁移到本月的逾期阶段7以上的应收余额。为计算2020年8月到2020年12月各自的逾期阶段7应收余额中分别由上月的逾期阶段6和上月的逾期阶段7迁移而来的部分,可参考图6中的辅助计算行。2020年8月到2020年12月各逾期阶段从上个月的上一逾期阶段迁移而来的应收余额如图7所示,例如8月的逾期阶段1由2020年7月的逾期阶段0迁移而来的应收余额是62600,记为2020年8月的迁移阶段0-1的迁移金额为62600。
[0144]
结合图6以及图7,可计算2020年8月到2020年12月各自的逾期阶段0到逾期阶段7的资源迁移比例以及平均迁移率,如图8所示,逾期阶段0到逾期阶段7分别对应于迁移阶段0-1到迁移阶段7以上,例如2020年8月逾期阶段0(对应于8月的迁移阶段0-1,即2020年7月逾期阶段0迁移到2020年8月逾期阶段1)的资源迁移比例是62600/7000=89.4%,平均迁移比例是各逾期阶段每个月的资源迁移比例的平均值,图8显示的平均迁移比例是各逾期阶段2020年8月到2020年12月的平均迁移比例。
[0145]
预测损失比例是预测逾期损失比例,逾期阶段0到逾期阶段7各自的预测逾期损失比例计算公式如图9所示,根据逾期阶段0到逾期阶段7各自的预测逾期损失比例计算公式以及图8显示的迁移阶段0-1到迁移阶段7以上的平均迁移比例得到如图10所示的逾期阶段0到逾期阶段7的预测逾期损失比例。其中图8中迁移阶段0-1可视为对应于图9中逾期阶段0,以此类推。异常资源预测量可以是预测坏账金额,根据图10所示的逾期阶段0到逾期阶段7的预测逾期损失比例,以及当前月份逾期阶段0到逾期阶段7的应收余额,计算得到逾期阶段0到逾期阶段7的预测坏账金额以及目标对象的预测坏账金额如图11所示。其中,目标对象的预测坏账金额是逾期阶段0到逾期阶段7的预测坏账金额的累加值。
[0146]
在一个实施例中,数据服务器可获取目标对象的各历史时段的各预设异常时长范围的资源迁移比例,根据各历史时段的各预设异常时长范围的资源迁移比例,获得各预设异常时长范围的平均迁移比例,将各预设异常时长范围的平均迁移比例按公式(7)计算,得到目标对象的预设历史统计周期内各预设异常时长范围的预测损失比例。获取目标对象的当前时段的多个预设异常时长范围的待回收资源量,将目标对象的预设历史统计周期内各预设异常时长范围的预测损失比例以及目标对象的当前时段的多个预设异常时长范围的待回收资源量,按照公式(8)计算,得到目标对象的异常资源预测量。
[0147]
本实施例中,通过较为科学的方法获得目标对象的异常资源预测量,具有参考价值。具体基于目标对象在预设历史统计周期内各历史时段的多个预设异常时长范围各自待回收资源量以及迁移的待回收资源量,获得预测损失比例,将预设历史统计周期内各预设异常时长范围的预测损失比例作为当前时段内各预设异常时长范围的预测损失比例,最终获得的目标对象的异常资源预测量是较为准确的。
[0148]
在一个具体的应用场景中,资源可以是金融资源,待回收资源可以是应收余额,异常资源可以是坏账,对目标对象预测异常风险评分等级可以是对目标企业预测发生坏账的风险等级。异常风险数据处理方法的具体步骤可如图12所示,具体步骤如下:
[0149]
数据服务器可从资源交换系统如erp系统、公开信息源如司法网站等挖掘数据得到多源异构数据,如图13为通过公开信息源可挖掘的数据类型列表。可对挖掘到的数据中筛选出多个样本对象,针对多个样本对象中每个样本对象,获取多个候选风险指标各自的样本源数据。其中,多源异构数据即来源多样化、种类及形态具有复杂性的数据。多个候选风险指标可以是坏账风险指标库中的部分风险指标。坏账风险指标库可以是对挖掘到的数据进行数据整合、分类、重构后构建。样本对象为企业。
[0150]
数据服务器可将挖掘到的数据存储至专门的数据池中,并进行结构化处理,结构化处理例如针对风险指标将该风险指标与风险指标的风险数据所包含的字段信息建立对应关系,如图14所示,为erp系统的数据服务功能界面,当点击不同的风险指标时,显示与该点击的风险指标相应的字段信息。数据服务器可对多个候选风险指标各自的样本源数据进行样本预处理,例如按照各候选风险指标进行数据统计获得多个候选风险指标各自的样本规整数据,并定义多个样本对象中每个样本对象是否是坏账客户,形成5000条训练数据,部分训练数据展示如图15所示。其中,5000条训练数据中包括5000家企业,包括44个候选风险指标。
[0151]
数据服务器可对5000条训练数据中多个候选风险指标各自的样本规整数据进行特征分箱处理,获得多个候选风险指标各自的多个特征分箱数据,并对多个候选风险指标各自的多个特征分箱数据进行特征编码处理,获得每个候选风险指标下多个特征分箱数据各自的woe值。
[0152]
数据服务器可针对多个候选风险指标各自的样本规整数据,多次进行特征分箱处理和特征编码处理,计算每次进行特征分箱处理、特征编码处理时,多个候选风险指标各自的iv值,针对多个候选风险指标中每个候选风险指标,取针对的候选风险指标iv值最优时的多个特征分箱数据为针对的候选风险指标的多个特征分箱数据,并获得此时针对的候选风险指标的多个特征分箱数据各自woe值,形成多个候选风险指标各自的样本风险数据。
[0153]
数据服务器可基于多个候选风险指标各自的样本风险数据进行迭代训练,每次迭代遍历当前剩余的每个候选风险指标,基于遍历的候选风险指标的样本风险数据和已筛选出的目标风险指标的样本风险数据,训练获得训练模型,并评估模型效果,筛选出模型效果最优的训练模型对应的候选风险指标作为目标风险指标,直至迭代至剩余的每个候选风险指标对于相应训练模型的效果无效时停止迭代。其中,停止迭代后筛选出的候选风险指标是作为模型运算指标的目标风险指标,模型运算指标可包括最近365天平均逾期天数、最近30天逾期总金额、逾期总金额、逾期总次数等指标。
[0154]
数据服务器可基于预设的条件判断指标和停止迭代后得到的目标训练模型构建
目标评分模型,使得目标模型在输入不符合预设条件的数据由目标训练模型进行评分处理输出异常风险评分等级,并在输入符合预设条件的数据时直接输出表征存在异常风险的预设异常风险评分等级。
[0155]
数据服务器将目标评分模型输出的评分数据映射为异常风险等级时,可通过使用目标评分模型输出的多个样本对象的评分数据构建ks曲线,根据多个样本对象的评分数据构建的ks曲线如图16所示,其中good-bad曲线为ks曲线,ks曲线上各点表征好样本对象的概率与坏样本对象的概率的差值的绝对值,当该绝对值最大时,取得ks值,此时评分数据为629,区分好坏样本对象的能力最强。当异常风险评分等级包括高风险等级、中风险等级以及低风险等级,在图16的基础上,绘制坏样本对象(坏用户)以及好样本对象(好用户)各自的累计概率分布函数示意图如图17所示,图17中的三条竖直线中,中间竖直线的横坐标为629,即区分好坏样本对象的能力最强的评分数据,最左边竖直线的横坐标为585,表征坏样本对象累计概率为60%、且累计样本占比为25%时的评分数据,最右边竖直线的横坐标为673,是以中间竖直线为对称轴与最左边竖直线对称时取得的。基于图17,对评分数据取整,以评分数据为500、700为分界点划分异常风险评分等级,如图4所示。
[0156]
数据服务器可部署如图18所示的异常风险预测项目文件,以实现通过目标评分模型获得目标企业的异常风险等级的目的,异常风险预测项目文件的说明示意图如图19所示。具体地,数据服务器可响应于针对目标企业的异常风险评估事件,连接数据库以从资源交换记录系统以及至少一个公开信息源拉取多个目标风险指标各自的源数据,进行预处理获得多个目标风险指标各自的风险数据后,存储至模型输入数据集文件中,执行模型主文件以运行目标评分模型,从模型输入数据集文件中读取多个目标风险指标各自的风险数据,将多个目标风险指标中各自的风险数据输入目标评分模型进行处理,通过多个目标风险指标中多个条件判断指标各自的风险数据获得的评分数据存储至规则评分卡文件中,通过多个目标风险指标中多个模型运算指标各自的风险数据获得的评分数据存储至模型评分卡文件中,并基于规则评分卡文件和模型评分卡文件中的数据,形成风险等级划分文件,将规则评分卡文件、模型评分卡文件和风险等级划分文件中多个目标企业各自的评分数据和异常风险等级存储至模型输出结果集中。
[0157]
数据服务器在预测目标企业是否发生坏账时,条件判断指标可以是经营状态指标、逾期天数指标、账龄指标以及结算类型指标,条件判断指标的风险数据可符合以下三种预设条件中任一种时,输出目标企业的评分数据为300分,赋予异常风险等级为高风险等级,预设条件可以是经营状态指标的风险数据为表征吊销、注销、停业或清算中任一种,或者是逾期天数指标的风险数据表征逾期天数超过180天,或者是账龄指标的风险数据表征账龄超过5年且结算类型指标的风险数据表征目标企业是非内部结算类型。
[0158]
数据服务器可对目标企业预测坏账金额,如图20应收账款逾期到坏账的变化流程示意图所示,当销售方对目标企业产生了应收账款,目标企业在账期内未还款,则转变成逾期客户,逾期客户则可能转变成坏账客户,需预测坏账客户的坏账金额。其中,目标企业在多个逾期阶段各自的应收余额可存储在erp系统的应收款账龄分析表中。
[0159]
数据服务器可响应于针对目标企业的异常资源预测事件,获取当前月份和过去6个月内多个逾期阶段的应收余额;获取过去6个月内每个月的多个逾期阶段各自的迁移率,基于过去6个月内每个月的多个逾期阶段各自的迁移率,确定过去6个月内多个逾期阶段各
自的预测损失率,根据当前月份的多个逾期阶段的应收余额和过去6个月内多个逾期阶段各自的预测损失率,计算目标企业的预测坏账金额,并将目标企业的预测坏账金额存储在异常资源预测量文件中。
[0160]
终端上可运行企业管理系统,当企业管理账号订阅企业管理系统中应收坏账风险预测功能并具有应收坏账风险预测功能的权限,终端可响应于企业管理账号启用应收坏账风险预测功能,显示企业管理账号所服务的服务客户,当服务客户属于目标对象,从模型输出结果集文件中读取服务客户的异常风险评分等级并显示在应收坏账风险预测界面,当服务客户的异常风险评分等级为高风险等级,从异常资源预测量文件中,读取服务客户的预测坏账金额并显示在应收坏账风险预测界面,应收坏账风险预测界面如图21所示。
[0161]
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0162]
基于同样的发明构思,本技术实施例还提供了一种用于实现上述所涉及的异常风险数据处理方法的异常风险数据处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个异常风险数据处理装置实施例中的具体限定可以参见上文中对于异常风险数据处理方法的限定,在此不再赘述。
[0163]
在一个实施例中,如图22所示,提供了一种异常风险数据处理装置2200,包括:输入模块2210和执行模块2220,其中:
[0164]
输入模块2210,用于响应于针对目标对象的异常风险评估事件,按照目标评分模型评分所用的多个目标风险指标,从资源交换记录系统以及至少一个公开信息源,获取目标对象的多个目标风险指标各自的源数据,进行预处理获得多个目标风险指标各自的风险数据后,存储至模型输入数据集文件中。
[0165]
执行模块2220,用于执行模型主文件以运行目标评分模型,从模型输入数据集文件中读取多个目标风险指标各自的风险数据;将多个目标风险指标各自的风险数据输入目标评分模型进行处理,获得目标评分模型输出的目标对象的异常风险评分等级;目标评分模型在训练时从多个候选风险指标中筛选出了多个目标风险指标中的至少一部分目标风险指标。
[0166]
在一个实施例中,目标评分模型经过训练步骤获得,异常风险数据处理装置2200还包括模型训练模块,训练模块用于针对多个样本对象中的每个样本对象,从资源交换记录系统以及至少一个公开信息源,获取每个样本对象的多个候选风险指标各自的样本源数据;针对多个候选风险指标中的每个候选风险指标,对所针对的候选风险指标下的多个样本对象各自的样本源数据进行样本预处理,获得多个候选风险指标各自的样本风险数据;基于多个候选风险指标进行迭代训练,每次迭代遍历当前剩余的每个候选风险指标,基于遍历的候选风险指标的样本风险数据和已筛选出的目标风险指标的样本风险数据,训练获得训练模型,并评估模型效果,筛选出模型效果最优的训练模型对应的候选风险指标作为
目标风险指标,直至迭代至剩余的每个候选风险指标对于相应训练模型的效果无效时停止迭代;基于停止迭代后得到的目标训练模型构建目标评分模型。
[0167]
在一个实施例中,筛选出的候选风险指标是作为模型运算指标的目标风险指标,训练模块还用于基于预设的条件判断指标和停止迭代后得到的目标训练模型构建目标评分模型,使得目标评分模型在输入不符合预设条件的数据由目标训练模型进行评分处理输出异常风险评分等级,并在输入符合预设条件的数据时直接输出表征存在异常风险的预设异常风险评分等级。
[0168]
在一个实施例中,训练模块还用于对每个样本对象的多个候选风险指标各自的样本源数据进行数据规整,获得每个样本对象的多个候选风险指标各自的样本规整数据;针对多个候选风险指标中的每个候选风险指标,对所针对的候选风险指标下的多个样本对象各自的样本规整数据进行特征分箱处理,获得多个候选风险指标各自的多个特征分箱数据;对多个候选风险指标各自的多个特征分箱数据进行特征编码处理,形成多个候选风险指标各自的样本风险数据。
[0169]
在一个实施例中,多个目标风险指标包括模型运算指标和条件判断指标,执行模块2220还包括将模型运算指标的风险数据和条件判断指标的风险数据输入目标评分模型进行处理;当条件判断指标的风险数据不符合预设条件,通过目标评分模型对模型运算指标的风险数据处理,获得目标对象的评分数据;按照预设等级划分条件,确定目标对象的评分数据所属的异常风险评分等级。
[0170]
在一个实施例中,目标对象的异常风险评分等级存储在模型输出结果集文件,执行模块2220还用于通过异常资源量预测模型预测目标对象的异常资源预测量,并将异常资源预测量存储在异常资源预测量文件中;响应于通过目标身份触发的异常预测功能的触发事件,显示与目标身份具有服务关系的服务对象;当服务对象属于目标对象,从模型输出结果集文件中读取服务对象的异常风险评分等级,并显示服务对象的异常风险评分等级;当服务对象的异常风险评分等级为表征存在异常风险的预设异常风险等级,从异常资源预测量文件中,读取服务对象的异常资源预测量并显示。
[0171]
在一个实施例中,执行模块2220还用于响应于针对目标对象的异常资源预测事件,获取当前时段和预设历史统计周期内多个预设异常时长范围的待回收资源量;获取预设历史统计周期内各历史时段的多个预设异常时长范围各自的资源迁移比例;资源迁移比例,是基于各历史时段的各预设异常时长范围的待回收资源量,和上一历史时段的上一预设异常时长范围的待回收资源量确定的;基于各历史时段的各预设异常时长范围的资源迁移比例,确定预设历史统计周期内各预设异常时长范围的预测损失比例;根据当前时段的各预设异常时长范围的待回收资源量,和预设历史统计周期内各预设异常时长范围的预测损失比例,确定目标对象的异常资源预测量。
[0172]
上述异常风险数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0173]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图23所示。该计算机设备包括处理器、存储器、输入/输出接口(input/output,
简称i/o)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储异常风险数据处理方法执行时需存储的数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种异常风险数据处理方法。
[0174]
本领域技术人员可以理解,图23中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0175]
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
[0176]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0177]
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0178]
需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
[0179]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器(ferroelectric random access memory,fram)、相变存储器(phase change memory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
[0180]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0181]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1