1.本发明涉及信贷评分技术领域,尤其涉及一种数据评分方法及装置。
背景技术:2.在个人信贷风控与营销领域中,常用的一种评估进件(申请人或营销目标)资质的方式是建立数据评分模型。此类模型需要先基于特定的数据和算法进行构建工作,将构建的模型部署后,可由客户进行使用。一般来说,建立模型所涉及的特征(入模变量)可以来自于多个数据源,而由于数据源可能来自于多个组织,受硬件或网络环境影响,存在数据源在一定时间内失联或失效的可能性。而数据评分模型需要全部入模变量共同进行评估,如果部分或全部变量缺失(未获得响应值或响应值为空值),将导致模型失效(无输出值)或效果衰减(对产生的量化评估分数造成较大波动),并致使客户方相关业务流程中断受阻,损害实际效益。
3.现有技术中通过部署双模型作为上述情况的灾备方案,即在主模型构建的同时,使用其他数据源(与主模型不同,以免同时失效)构建一个辅助模型,并将二者同时部署,以此来维持相关业务的持续性。然而,由于辅助模型的区分能力与分数分布等相关指标同主模型存在差异,因此就需要针对辅助模型另外设置一套业务阈值,而由于两个模型设置的业务阈值对应评分分布差异化,相关业务监控指标会发生较大波动,导致辅助模型生成的评分与主模型生成的评分差异较大,从而影响相关业务简便、稳定、准确的进行。
技术实现要素:4.鉴于上述问题,本发明提供一种数据评分方法及装置,主要目的是为了减小辅助模型生成的评分与主模型生成的评分差异,以保证相关业务简便、稳定、准确的进行。
5.为解决上述技术问题,本发明提出以下方案:
6.第一方面,本发明提供了一种数据评分方法,所述方法包括:
7.将接收到的由客户端发出的目标样本输入至第一模型中;
8.判断第一模型的输出结果是否异常;
9.若异常,则将目标样本输入至第二模型中,以获得第二模型对应的第二评分结果,其中,第二模型为与第一模型的入模特征变量存在差异且整体特征缺失率相同的灾备模型;
10.基于分位数映射关系将第二评分结果转换为第一模型对应的第一评分结果,分位数映射关系是基于相同样本的第一评分结果与第二评分结果确定的映射关系;
11.将第一评分结果发送至客户端。
12.第二方面,本发明提供了一种数据评分装置,所述装置包括:
13.第一输入单元,用于将接收到的由客户端发出的目标样本输入至第一模型中;
14.判断单元,用于判断第一输入单元获得的第一模型的输出结果是否异常;
15.第二输入单元,用于若判断单元判断第一模型的输出结果异常,则将目标样本输
入至第二模型中,以获得第二模型对应的第二评分结果,其中,第二模型为与第一模型的入模特征变量存在差异且整体特征缺失率相同的灾备模型;
16.转换单元,用于基于分位数映射关系将第二输入单元获得的第二评分结果转换为第一模型对应的第一评分结果,分位数映射关系是基于相同样本的第一评分结果与第二评分结果确定的映射关系;
17.发送单元,用于将转换单元获得的第一评分结果发送至客户端。
18.为了实现上述目的,根据本发明的第三方面,提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述第一方面的数据评分方法。
19.为了实现上述目的,根据本发明的第四方面,提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述第一方面的数据评分方法。
20.借由上述技术方案,本发明提供的一种数据评分方法及装置,是在需要基于数据进行评分时,先将接收到的由客户端发出的目标样本输入至第一模型中,以获得第一模型的输出结果,再判断第一模型的输出结果是否异常,以确定第一模型是否可用,若异常,则说明第一模型不可用,因此可将目标样本输入至第二模型中,以获得第二模型对应的第二评分结果,其中,第二模型为与第一模型的入模特征变量存在差异且整体特征缺失率相同的灾备模型,接着基于分位数映射关系将第二评分结果转换为第一模型对应的第一评分结果,分位数映射关系是基于相同样本的第一评分结果与第二评分结果确定的映射关系,通过分位数映射关系可以确定与第二评分结果对应的第一评分结果,最后将第一评分结果发送至客户端,以便于客户方根据客户端接收的第一评分结果,并进行相关后续业务流程。通过本发明提供的数据评分方案,可以在第一模型输出结果异常时,应用第二模型对目标样本的第二评分结果进行计算,再通过分位数映射关系找到与第二评分结果对应的第一模型下的第一评分结果,最后将第一评分结果发送至客户端,使得无论是基于第一模型下获得的第一评分结果或基于第二模型下获得的第二评分结果转化而成的第一评分结果,均可通过第一模型对应的业务阈值进行处理,无需额外设置与第二模型对应的业务阈值,从而避免因由于两个模型设置的业务阈值对应评分分布差异化的情况,降低相关业务监控指标的波动,使得辅助模型生成的评分与主模型生成的评分差异减小,从而保证相关业务简便、稳定、准确的进行。
21.上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
22.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
23.图1示出了本发明实施例提供的一种数据评分方法流程图;
24.图2示出了本发明实施例提供的另一种数据评分方法流程图;
25.图3示出了本发明实施例提供的一种数据评分装置的组成框图;
26.图4示出了本发明实施例提供的另一种数据评分装置的组成框图。
具体实施方式
27.下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
28.在个人信贷风控与营销领域中,常用的一种评估进件(申请人或营销目标)资质的方式是建立数据评分模型。此类模型需要先基于特定的数据和算法进行构建工作(建模流程),将构建的模型部署后,可由客户进行使用(调用流程)。构建模型的标准流程为:提取带标签样本、数据清洗、特征匹配、模型构建、模型调优、模型部署。此外,由于一个模型可涉及多种特征,而不同特征的获取成本不同(如学历核验信息需从教育部采买),因此,通常情况下,构建的模型需要考虑成本收益比,评估某特征带来的增益(模型区分能力的提升)是否能覆盖采买该特征的成本,从而决定是否将某特征纳入模型。使用过程中(调用流程),通过将进件样本的多维度特征输入模型并通过特定逻辑计算后,可以获得对于进件资质的相关指标的量化值,基于该量化值可依据业务需求设定相关阈值,并针对不同分数段设定不同的业务流程,如通过或拒绝等。上述数据模型通常部署于线上平台,通过api接口等方式接受客户调用请求和测试样本,通过api接口接入数据源匹配的样本特征(入模变量),进行指定逻辑的运算,并通过api接口向申请方服务器返回评估分数。其中,模型所涉及的特征(入模变量)可以来自于多个数据源,而不同数据源可以来自于多个组织。
29.由于数据源可能来自于多个组织,受硬件或网络环境影响,存在因数据源一定时间内失联或失效的可能性。一般来说,数据评分模型需要全部入模变量共同进行评估,如果部分或全部变量缺失(未获得响应值或响应值为空值),将导致模型失效(无输出值)或效果衰减(对产生的量化评估分数造成较大波动),并致使客户方相关业务流程中断受阻,损害实际效益。而现有技术中通过部署双模型作为上述情况的灾备方案,即在主模型构建的同时,使用其他数据源(与主模型不同,以免同时失效)构建一个辅助模型,并将二者同时部署,以此来维持相关业务的持续性。然而,由于辅助模型的区分能力与分数分布等相关指标同主模型存在差异,因此就需要针对辅助模型另外设置一套业务阈值,而由于两个模型设置的业务阈值对应评分分布差异化,相关业务监控指标会发生较大波动,导致辅助模型生成的评分与主模型生成的评分差异较大,从而影响相关业务简便、稳定、准确的进行。为此,本发明实施例提供了一种数据评分方法,通过该方法能够减小辅助模型生成的评分与主模型生成的评分差异,以保证相关业务简便、稳定、准确的进行,其具体执行步骤如图1所示,包括:
30.101、将接收到的由客户端发出的目标样本输入至第一模型中。
31.需要说明的是,在本实施例中,第一模型是基于给定的具有好坏标签的样本及其特征数据,依据某特定的操作流程与构建算法而构建的主评分模型,并通过调整模型参数等方式优化模型表现,最终部署于应用平台以供使用,其中,其构建模型的样本特征是从一个或多个指定数据源中获取的,具体指样本某个维度的信息,如某自然人的年龄、学历、收入状况等特征,而目标样本具体指所要对其进行评分的对象,其是基于客户端发出的,而客
户指的是调用方,通常为银行、保险、互金机构等信贷部门,对此,本实施例不做具体限定。
32.102、判断第一模型的输出结果是否异常。
33.在本步骤中,由于第一模型是本实施例中对于目标样本的主评分模型,因此,在接收到目标样本后,将第一时间将目标样本输入至第一模型中,而第一模型则会基于目标样本获取其对应的入模特征变量,再通过入模特征变量向指定数据源发出入模特征匹配请求,此时若匹配到的入模特征完整(获得响应值),则直接应用第一模型的输出结果作为目标样本的评分结果,若匹配到的入模特征部分或全部缺失(未获得响应值或响应值为空值),则会导致第一模型的输出结果异常,其一般表现为无输出值(模型失效)或输出值为预设指定值,例如0或者50等(模型效果衰减),此时则执行后续步骤103。
34.103、将目标样本输入至第二模型中,以获得第二模型对应的第二评分结果。
35.其中,第二模型为与第一模型的入模特征变量存在差异且整体特征缺失率相同的灾备模型。在本实施例中,第二模型是基于给定的具有好坏标签的样本及其特征数据,依据某特定的操作流程与构建算法而构建的辅助评分模型,并通过调整模型参数等方式优化模型表现,最终部署于应用平台以供在第一模型失效或输出结果异常时使用,其与第一模型的建模样本是相同的,不同的是,第二模型构建模型的建模样本特征是从指定数据源之外的其他数据源中获取的,而指定数据源与其他数据源基于相同的建模样本而言,所具有的特征数据可能是不同的,也就是说,虽然第一模型和第二模型的建模样本一致,但由于其特征来源不同,也就导致建模样本在指定数据源中的特征数据与其他数据源中的特征数据存在差异,因此,在第一模型的输出结果异常时,即说明了第一模型在指定数据源中获得的入模特征是缺失的,也就无法得到对应于目标样本的准确的第一评分结果,故可通过第二模型对目标样本的评分结果进行计算,而对于第二模型的入模特征变量与第一模型的入模特征变量,其可以是部分差异也可以是全部差异,对此,本实施例不做限定。整体特征缺失率则是基于m个建模样本在所选的d维入模特征中的整体缺失率,由于第一模型和第二模型在建模时均是采用相同的建模样本的全部特征创建的,通过设置第二模型的整体特征缺失率使其与第一模型的整体特征缺失率相同,则可以保证调用方进行相关业务的稳定性,且可以提升基于同一个目标样本在分别输入第一模型和第二模型后获得的两个评分结果的区分度,但需要说明的是,本实施例中第一模型的整体特征缺失率与第二模型的整体特征缺失率相同并非完全等同,由于特征的数量及种类较多,在计算时难以做到完全相同,因此,可以设置预设范围,只要第二模型的的整体特征缺失率低于第一模型的整体特征缺失率在2%-5%以内,即可认为第一模型和第二模型的整体特征缺失率相同。示例性的,假设评分结果的区间为0-100,50分作为评定好坏的标准值,若处于51-100范围内,则评分结果为优,若处于1-49范围内,则评分结果为劣,具体的,若已知目标样本为好样本,且其在第一模型下的评分结果为优,若已知目标样本为坏样本,且其在第一模型下的评分结果为劣,则证明第一模型的区分度高,反之则证明第一模型的区分度低,而第二模型同理,因此,通过使两个模型的整体特征缺失率相同可以保证目标样本在第一模型下的评分结果处于同一优劣范围内,即区分度一致。
36.104、基于分位数映射关系将第二评分结果转换为第一模型对应的第一评分结果。
37.其中,分位数映射关系是基于相同样本的第一评分结果与第二评分结果确定的映射关系。在本实施例中,由于在步骤103中获得了目标样本在第二模型下的第二评分结果,
因此,在本步骤中,可以通过分位数映射关系获得与第二评分结果对应的第一模型下的第一评分结果,而分位数映射关系是基于多个相同的历史样本分别输入第一模型和第二模型后得到的第一评分结果数组和第二评分结果数组之间建立的,其中,分位数具体指某一数字在其所在的一系列有序数字所构成的数列中的位置,以0至1之间的等距分布的小数数组表示,如中位数具有分位数为0.5。
38.105、将第一评分结果发送至客户端。
39.本步骤中,由于目标样本是由调用方基于客户端发出的,因此,基于目标样本的评分结果(第一评分结果)就需要回传至客户端中,以便于调用方通过第一模型对应的业务阈值对第一评分结果进行处理,无需额外设置另一套业务阈值,从而保证相关业务准确、稳定、简便的进行。
40.基于上述图1的实现方式可以看出,本发明实施例所提出的一种数据评分方法,是在需要基于数据进行评分时,先将接收到的由客户端发出的目标样本输入至第一模型中,以获得第一模型的输出结果,再判断第一模型的输出结果是否异常,以确定第一模型是否可用,若异常,则说明第一模型不可用,因此可将目标样本输入至第二模型中,以获得第二模型对应的第二评分结果,其中,第二模型为与第一模型的入模特征变量存在差异且整体特征缺失率相同的灾备模型,接着基于分位数映射关系将第二评分结果转换为第一模型对应的第一评分结果,分位数映射关系是基于相同样本的第一评分结果与第二评分结果确定的映射关系,通过分位数映射关系可以确定与第二评分结果对应的第一评分结果,最后将第一评分结果发送至客户端,以便于客户方根据客户端接收的第一评分结果,并进行相关后续业务流程。通过本发明提供的数据评分方案,可以在第一模型输出结果异常时,应用第二模型对目标样本的第二评分结果进行计算,再通过分位数映射关系找到与第二评分结果对应的第一模型下的第一评分结果,最后将第一评分结果发送至客户端,使得无论是基于第一模型下获得的第一评分结果或基于第二模型下获得的第二评分结果转化而成的第一评分结果,均可通过第一模型对应的业务阈值进行处理,无需额外设置与第二模型对应的业务阈值,从而避免因由于两个模型设置的业务阈值对应评分分布差异化的情况,降低相关业务监控指标的波动,使得辅助模型生成的评分与主模型生成的评分差异减小,从而保证相关业务简便、稳定、准确的进行。
41.进一步的,作为对图1所示实施例的细化及扩展,本发明实施例还提供了另一种数据评分方法,如图2所示,其具体步骤如下:
42.201、从第一模型的建模样本集中获取第一评分结果为缺失的建模样本,并构成分析样本子集。
43.其中,分析样本子集是由样本特征相对于第一模型对应的指定数据源的固有特征为缺失的建模样本构成的集合。在本实施例中,需要说明的是,无论是指定数据源还是其他数据源,其所具有特征是固有的,由于第一模型是基于建模样本及其样本特征数据预先构建训练好的,且构建时是从指定数据源中获取相应的特征,因此,先获取在构建训练第一模型时输出的第一评分结果为缺失的建模样本,并构成分析样本子集,其目的在于通过对照第一评分结果为缺失的建模样本以及其对应的特征集,尽可能多的获得后续创建第二模型可用的第二模型建模特征集,以使得第一模型与第二模型的缺失样本重合,从而有利于使两个模型的整体特征缺失率相同。
44.202、抽取分析样本子集中的样本特征相对于其他数据源的固有特征为完全缺失的特征,并构成基本特征集。
45.其中,其他数据源为除了所述指定数据源之外的数据来源。在本步骤中,由于上述步骤201中已经确定了分析样本子集,也就能够通过对比确定分析样本子集中各个建模样本的样本特征相对于其他数据源的固有特征来说缺失的特征,即其他数据源中不存在的特征,将该特征抽取出来,构成基本特征集,以便后续作为创建第二模型的备选建模特征集。
46.203、将剩余待选特征按其各自在分析样本子集中的特征缺失率进行降序排列。
47.其中,剩余待选特征为分析样本子集中的样本特征相对于其他数据源的固有特征为部分缺失的特征。需要说明的是,在本步骤中,由于分析样本子集中相对于其他数据源的固有特征为全部缺失的特征已经被抽取,而为了使基本特征集的整体特征缺失率与第一模型的整体特征缺失率相同,则需要将剩余待选特征依次添加至基本特征集中,而为了提升添加的便捷性,具体的,针对第一模型的整体特征缺失率以及剩余待选特征按其各自在分析样本子集中的特征缺失率的计算,可将每一维度特征在每一个样本上的缺失情况以布尔值(真假值)存储,缺失为true,不缺失为false,对于d维特征和m个建模样本的情况下,构成一个m行d列的布尔矩阵。对矩阵中每一行判断是否全真(或者计算其“按位与”值),即为每一行对应的建模样本在该d维特征中的缺失情况,对所得m个布尔值计算其真值比例(真值的计数值/m)即为该m个样本在所选的d维特征中的整体缺失率,当第一模型的整体特征缺失率以及剩余待选特征按其各自在分析样本子集中的特征缺失率均计算完毕后,可基于特征缺失率对其进行降序排列,以便执行后续步骤204。
48.204、按照所述第一模型对应的整体特征缺失率依次将在分析样本子集中特征缺失率最高的剩余待选特征添加至基本特征集中,以使得第一模型对应的整体特征缺失率与基本特征集的整体特征缺失率相同。
49.在本步骤中,由于第一模型对应的整体特征缺失率以及剩余待选特征按其各自在分析样本子集中的特征缺失率均可获悉,为了使第二模型与第一模型的整体特征缺失率相同,则可将在分析样本子集中特征缺失率最高的特征依次添加至基本特征集中,直至基本特征集的整体特征缺失率与构建第一模型的整体特征缺失率相同,具体的,当添加一维入模特征变量时,需要计算其对应的入模特征的缺失率,仅需用该维特征在每一个建模样本上的缺失情况所构成的m个布尔值,与已选择的特征在每一个建模样本上的缺失情况所构成的m个布尔值进行“按位与”操作,即可获得添加一维特征之后的整体缺失情况,其中,相同并非完全等同,由于特征的数量及种类较多,在计算时难以做到完全相同,因此,可以设置预设范围,只要第二模型的的整体特征缺失率低于第一模型的整体特征缺失率在2%-5%以内,即可认为第一模型和构建第二模型的基本特征集的整体特征缺失率相同。基于上述方式,能够保证后续目标样本在输入第二模型后,得到的第二评分结果与第一评分结果的区分度一致。
50.205、基于基本特征集与建模样本集创建第二模型。
51.在本实施例中,由于第二模型与第一模型是通过相同建模样本及特征数据创建的,且由于上述步骤204中可知,基本特征集的整体特征缺失率也已确定,因此,可基于基本特征集与建模样本集创建第二模型,以作为第一模型的输出结果异常时的灾备模型。
52.206、获取第一模型的历史样本。
53.在本步骤中,历史样本可以是指定周期内的历史样本,也可以是全部历史样本,对此,本实施例不做具体限定。
54.207、将历史样本分别输入第一模型和第二模型中,以获得第一评分结果数组和第二评分结果数组。
55.在本步骤中,由于历史样本的数量可能是多个,其分别输入第一模型和第二模型后,得到的第一评分结果和第二评分结果也是多个,因此,可将多个第一评分结果和多个第二评分结果以数组的形式进行处理,以便执行后续步骤208。
56.208、基于第一评分结果数组和第二评分结果数组构建分位数映射关系。
57.在本步骤中,由于分位数具体指某一数字在其所在的一系列有序数字所构成的数列中的位置,而为了构建第一评分结果数组和第二评分结果数组之间的映射关系,具体的,分别对第一评分结果数组和第二评分结果数组中的评分结果进行升序排列,判断第一评分结果数组和第二评分结果数组中的评分结果数量是否相同,若不同,则对第一评分结果数组和第二评分结果数组进行缩放转化,以保证第一评分数组和第二评分数组中的评分结果的整体字段长度相同,对处于相同位置第一评分结果数组和第二评分结果数组中的评分结果构建分位数映射关系。
58.示例性的,假设数组a(第一评分结果数组)中非缺失评分数量为m,数组b(第二评分结果数组)中非缺失评分数量为n,若m与n不同,则需要将二者通过缩放转化为相同长度,以便保证数组b中每一个分数(评分结果)均可以找到在数组a中唯一对应的另一个分数(评分结果),这两个对应的分数(评分结果)在各自数组中其分数(评分结果)分布具有相同的分位数。不失一般性,假设m大于n,
59.数组a:[1,3,4,5,5,6,7,8,9,9];
[0060]
数组b:[2,4,4,5,8,9,9,9]。
[0061]
依据以下逻辑将数组b拓展为与数组a等长的数组。
[0062]
(1)、统计数组b中每一个唯一分数的频数,对其频数除以n获得其频率,再乘以m转化为在长度为m的数组中相应的频数,如表1所示:
[0063]
表1
[0064]
其中,数组c为数组b中各个分数的频率*m而设置的变形数组。
[0065]
(2)从小到大遍历缩放后的数组b中的每个分数的频数,累加得到每个分数的分位数,如表2所示:
[0066]
元素24589
每个数字的分位数1.253.7556.2510
[0067]
表2
[0068]
再从0到m遍历每个整数,选择大于该整数的最小分位数所对应的元素,加入数组c:{0:2,1:2,2:4,3:4,4:5,5:5,6:8,7:9,8:9,9:9},例如整数6,大于该整数的最小分位数为6.25,其所对应的数字为8,如表3所示:
[0069][0070]
表3
[0071]
(3)将数组a升序排列,将数组c升序排列,在两个数组中排序序号相同的数字间构建从数组a到数组c的一对一数据对,如表4所示:
[0072]
数组a1345567899数组c2244558999
[0073]
表4
[0074]
(4)a、对于同一个数组a的分数对应同一个数组c的分数的情况,构建这两个分数间的分位数映射关系(数组a的元素唯一对应一个数组c的元素)。例如:数组a中的元素1仅对应数组c中的元素2,因此有1映射为2的关系。而相对的,数组a中的元素5对应数组c中的元素4和元素5,因此,在本步骤中不能构成映射关系,而除去元素5后的对应关系,如表5所示:
[0075]
数组a中元素1346789数组c中元素2245899
[0076]
表5
[0077]
b、对于同一个数组a的分数对应多个数组c的分数的情况,统计数组a的分数所对应的数组c的分数的比例,作为其分位数映射关系。例如数组a中的元素5,在数组c中对应4或者5,因此,需要按其频率划分,即50%可能对应4,50%可能对应5。
[0078]
综上,将从数组a到数组b的关系表示为:
[0079][0080]
可以得到如下映射关系:
[0081][0082]
而基于上述方式,能够基于分位数映射关系快速找到第二评分结果对应的第一评分结果,从而基于第一评分结果对应的第一模型的业务阈值进行后续处理,大大提升相关业务进行的简便程度,无需额外设置一套业务阈值,降低使用复杂度。
[0083]
209、将接收到的由客户端发出的目标样本输入至第一模型中。
[0084]
本步骤结合上述方法中101步骤的描述,在此相同的内容不赘述。
[0085]
210、判断第一模型的输出结果是否异常。
[0086]
本步骤结合上述方法中102步骤的描述,在此相同的内容不赘述。具体的,基于目标样本获取对应于第一模型的入模特征变量,利用入模特征变量从指定数据源匹配相应的入模特征,将入模特征输入至第一模型中,以获得第一模型的输出结果,判断第一模型的输出结果是否符合预置规则,若符合,则确定第一模型的输出结果异常。
[0087]
其中,入模特征变量是基于第一模型提前设置好的,在第一模型接收到目标样本时,第一模型则会基于目标样本获取其对应的入模特征变量,再通过入模特征变量向指定数据源发出入模特征匹配请求,即利用利用入模特征变量从指定数据源匹配相应的入模特征,此时若匹配到的入模特征变量完整(获得响应值),则直接应用第一模型的输出结果作为目标样本的评分结果,若匹配到的入模特征部分或全部变量缺失(未获得响应值或响应值为空值),而预置规则是用于确定第一模型的输出结果异常而设置的规则,例如第一模型的输出结果无输出值(模型失效)或输出值为预设指定值等,而若第一模型的输出结果符合预置规则,则确定第一模型的输出结果异常,即第一模型的输出结果无输出值(模型失效)或输出值为预设指定值,例如0或者50等(模型效果衰减),从而保证目标样本从第一模型向第二模型的过渡更为迅速、准确。
[0088]
进一步的,还可以检测向指定数据源发出入模特征匹配请求是否超时,若超时,则重新发出入模特征匹配请求,以保证入模特征获取的效率,需要说明的是,本步骤同时针对第一模型和第二模型。
[0089]
211、将目标样本输入至第二模型中,以获得第二模型对应的第二评分结果。
[0090]
本步骤结合上述方法中103步骤的描述,在此相同的内容不赘述。
[0091]
212、基于分位数映射关系将第二评分结果转换为第一模型对应的第一评分结果。
[0092]
本步骤结合上述方法中104步骤的描述,在此相同的内容不赘述。
[0093]
213、将第一评分结果发送至客户端。
[0094]
本步骤结合上述方法中105步骤的描述,在此相同的内容不赘述。
[0095]
214、按照预设周期获取历史样本对应的第一评分结果数组和第二评分结果数组。
[0096]
在本步骤中,由于分位数映射关系是基于相同历史样本分别输入第一模型和第二模型后获得的第一评分结果数组和第二评分结果数组之间确定的,而随着后续对目标样本的处理,由于选择创建分位数映射关系的相同历史样本与目标样本之间的周期越来远长,且基于目标样本的多样性,其对应的第一评分结果和第二评分结果可能存在差异,导致分位数映射关系准确性降低,因此,为了保证分位数映射关系的准确性,可以按照预设周期内获取历史样本对应的第一评分结果数组和第二评分结果数组,其中,预设周期可以为以周、月等单位进行设置,且每次获取的历史样本的第一评分结果和第二评分结果可以为最近某一个时间段的评分结果数组,也可以是指定某个时间段的评分结果数组,而如果数据量过大,也可以选择抽取的方式进行获取,对此,本实施例不做具体限定。
[0097]
215、基于第一评分结果数组和第二评分结果数组更新分位数映射关系。
[0098]
在本步骤中,由于步骤214中已经获取历史样本对应的第一评分结果数组和第二评分结果数组,因此,可再次执行步骤208,以更新更新分位数映射关系,从而保证目标样本对应的第一评分结果的准确性,保证相关业务能够准确的进行。
[0099]
基于上述图2的实现方式可以看出,本发明实施例所提出的一种数据评分方法,是在需要基于数据进行评分时,可先从第一模型的建模样本集中获取第一评分结果为缺失的建模样本,并构成分析样本子集,再抽取分析样本子集中的样本特征相对于其他数据源的固有特征为完全缺失的特征,并构成基本特征集,接着将剩余待选特征按其各自在分析样本子集中的特征缺失率进行降序排列,然后按照第一模型对应的整体特征缺失率依次将在分析样本子集中特征缺失率最高的剩余待选特征添加至基本特征集中,以使得第一模型对应的整体特征缺失率与基本特征集的整体特征缺失率相同,最后基于基本特征集与建模样本集创建第二模型,基于上述方式,能够保证通过创建的第二模型的整体特征缺失率与第一模型的整体特征缺失率相同,进而保证客户端进行相关业务的稳定性,且可以提升基于同一个目标样本在分别输入第一模型和第二模型后获得的两个评分结果的区分度,使得评分结果更为准确,通过获取第一模型的历史样本,将历史样本分别输入第一模型和第二模型中,以获得第一评分结果数组和第二评分结果数组,基于第一评分结果数组和第二评分结果数组构建分位数映射关系,将接收到的由客户端发出的目标样本输入至第一模型中,将目标样本输入至第二模型中,以获得第二模型对应的第二评分结果,判断第一模型的输出结果是否异常,基于分位数映射关系将第二评分结果转换为第一模型对应的第一评分结果,将第一评分结果发送至客户端,按照预设周期内获取历史样本对应的第一评分结果数组和第二评分结果数组,基于第一评分结果数组和第二评分结果数组更新分位数映射关系,基于上述方式,能够基于分位数映射关系快速找到第二评分结果对应的第一评分结果,从而基于第一评分结果对应的第一模型的业务阈值进行后续处理,大大提升相关业务进行
的简便程度,无需额外设置一套业务阈值,降低使用复杂度,从而保证后续步骤的处理效果。
[0100]
进一步的,作为对上述图1所示方法的实现,本发明实施例还提供了一种数据评分装置,用于对上述图1所示的方法进行实现。该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。如图3所示,该装置包括:
[0101]
第一输入单元301,用于将接收到的由客户端发出的目标样本输入至第一模型中;
[0102]
判断单元302,用于判断所述第一输入单元301获得的第一模型的输出结果是否异常;
[0103]
第二输入单元303,用于若所述判断单元302判断所述第一模型的输出结果异常,则将所述目标样本输入至第二模型中,以获得所述第二模型对应的第二评分结果,其中,所述第二模型为与所述第一模型的入模特征变量存在差异且整体特征缺失率相同的灾备模型;
[0104]
转换单元304,用于基于分位数映射关系将所述第二输入单元303获得的第二评分结果转换为所述第一模型对应的第一评分结果,所述分位数映射关系是基于相同样本的所述第一评分结果与所述第二评分结果确定的映射关系;
[0105]
发送单元305,用于将所述转换单元304获得的第一评分结果发送至所述客户端。
[0106]
进一步的,如图4所示,所述装置还包括:第一获取单元306,用于在第二输入单元302之前从所述第一模型的建模样本集中获取所述第一评分结果为缺失的建模样本,并构成分析样本子集;
[0107]
抽取单元307,抽取所述第一获取单元306获得的分析样本子集中的所述样本特征相对于其他数据源的固有特征为完全缺失的特征,并构成基本特征集;
[0108]
排列单元308,用于将剩余待选特征按其各自在所述抽取单元307抽取后的分析样本子集中的特征缺失率进行降序排列;
[0109]
添加单元309,用于按照所述第一模型对应的所述整体特征缺失率依次将在所述分析样本子集中所述排列单元308获得的特征缺失率最高的所述剩余待选特征添加至所述基本特征集中,以使得所述第一模型对应的整体特征缺失率与所述基本特征集的整体特征缺失率相同;
[0110]
调整单元310,用于基于所述添加单元309获得的基本特征集与所述建模样本集创建所述第二模型。
[0111]
进一步的,如图4所示,所述装置还包括:
[0112]
第二获取单元311,用于在转换单元304之前获取所述第一模型的历史样本;
[0113]
第三输入单元312,用于将所述第二获取单元311获得的历史样本分别输入所述第一模型和所述第二模型中,以获得第一评分结果数组和第二评分结果数组;
[0114]
构建单元313,用于基于所述第三输入单元312获得的第一评分结果数组和所述第二评分结果数组构建所述分位数映射关系。
[0115]
进一步的,如图4所示,所述构建单元313,包括:
[0116]
排列模块3131,用于分别对所述第一评分结果数组和所述第二评分结果数组中的评分结果进行升序排列;
[0117]
第一判断模块3132,用于判断所述排列模块3131获得的第一评分数组和所述第二评分数组中的评分结果数量是否相同;
[0118]
处理模块3133,用于若所述第一判断模块3132判断所述第一评分数组和所述第二评分数组中的评分结果数量不同,则对所述第一评分结果数组和所述第二评分结果数组进行缩放转化,以保证所述第一评分数组和所述第二评分数组中的评分结果的整体字段长度相同;
[0119]
构建模块3134,用于对处于相同位置所述处理模块3133获得的第一评分结果数组和所述第二评分结果数组中的评分结果构建所述分位数映射关系。
[0120]
进一步的,如图4所示,所述装置还包括:
[0121]
第三获取单元314,用于按照预设周期内获取所述历史样本对应的所述第一评分结果数组和所述第二评分结果数组;
[0122]
更新单元315,用于基于所述第三获取单元获得的第一评分结果数组和所述第二评分结果数组更新所述分位数映射关系。
[0123]
进一步的,如图4所示,所述判断单元302,包括:
[0124]
获取模块3021,用于基于所述目标样本获取对应于所述第一模型的所述入模特征变量;
[0125]
匹配模块3022,用于利用所述获取模块3021获得的入模特征变量从指定数据源中匹配相应的入模特征;
[0126]
输入模块3023,用于将所述匹配模块3022获得的入模特征输入至所述第一模型中,以获得所述第一模型的输出结果;
[0127]
第二判断模块3024,用于判断所述输入模块3023获得的第一模型的输出结果是否符合预置规则;
[0128]
确定模块3025,用于若所述第二判断模块3024判断所述第一模型的输出结果符合预置规则,则确定所述第一模型的输出结果异常。
[0129]
进一步的,本发明实施例还提供一种存储介质,所述存储介质用于存储计算机程序,其中,所述计算机程序运行时控制所述存储介质所在设备执行上述图1-2中所述的数据评分方法。
[0130]
进一步的,本发明实施例还提供一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述图1-2中所述的数据评分方法。
[0131]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0132]
可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
[0133]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0134]
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发
明的最佳实施方式。
[0135]
此外,存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram),存储器包括至少一个存储芯片。
[0136]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0137]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0138]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0139]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0140]
在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
[0141]
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。存储器是计算机可读介质的示例。
[0142]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0143]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要
素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0144]
本领域技术人员应明白,本技术的实施例可提供为方法、系统或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0145]
以上仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。