数据处理方法、装置、设备及介质与流程

文档序号:29818841发布日期:2022-04-27 10:49阅读:90来源:国知局
数据处理方法、装置、设备及介质与流程

1.本技术属于数据处理领域,尤其涉及一种数据处理方法、装置、设备及介质。


背景技术:

2.随着大数据、人工智能等技术的不断成熟,机器学习算法也得到了广泛应用,但是由于多数机器学习算法需要多层次抽象判断,并且其涉及到因变量与自变量之间的关系过于复杂,以致于大多数机器学习算法的可解释性较低。
3.为了解决上述机器学习算法的可解释性较低的问题,在现有技术中,一般是通过在模型构建过程中,从整体方面对模型所涉及到的机器学习算法进行静态解读,但该解读方式过于复杂,不便于理解机器学习算法的输出结果。


技术实现要素:

4.本技术实施例提供一种数据处理方法、装置、设备及介质,可以直观简便地解释机器学习算法的输出结果。
5.第一方面,本技术实施例提供一种数据处理方法,方法包括:获取目标对象的待处理数据,待处理数据包括多个指标数据;
6.分别将待处理数据、除目标指标数据之外的至少一个指标数据输入至可解释模型中,确定与待处理数据对应的第一输出值,以及与除目标指标数据之外的至少一个指标数据对应的第二输出值;
7.根据第一输出值,计算待处理数据的总shap值;并根据第二输出值,计算除目标指标数据之外的至少一个指标数据的第一shap值;
8.确定总shap值与第一shap值的差值为目标指标数据的shap值;
9.显示目标指标数据的shap值;
10.其中,目标指标数据为多个指标数据中的任意一个,shap值为每一指标数据对可解释模型的输出结果的贡献值。
11.在第一方面的一种可选的实施方式中,方法包括:
12.确定总shap值、与第一shap值和预设基准值之和的差值,为目标指标数据的shap值。
13.在第一方面的一种可选的实施方式中,可解释模型包括分布式梯度增强xgboost模型。
14.在第一方面的一种可选的实施方式中,预设基准值为可解释模型对所有待处理数据的输出值的平均shap值的相反数。
15.在第一方面的一种可选的实施方式中,在得到第一输出值之后,方法还包括:
16.根据第一输出值,计算目标对象的优势比值;
17.基于第一预设值、第二预设值和优势比值,计算目标对象的标准评分,标准评分用于评价目标对象的风险等级。
18.在一方面的一种可选的实施方式中,方法还包括:
19.基于第一预设值、第二预设值和总shap值,计算目标对象的标准评分。
20.第二方面,本技术实施例提供了一种数据处理装置,装置包括:
21.获取模块,用于获取目标对象的待处理数据,待处理数据包括多个指标数据;
22.确定模块,用于分别将待处理数据、除目标指标数据之外的至少一个指标数据输入至可解释模型中,确定与待处理数据对应的第一输出值,以及与除目标指标数据之外的至少一个指标数据对应的第二输出值;
23.计算模块,用于根据第一输出值,计算待处理数据的总shap值;并根据第二输出值,计算除目标指标数据之外的至少一个指标数据的第一shap值;
24.确定模块,还用于确定总shap值与第一shap值的差值为目标指标数据的shap值;
25.显示模块,用于显示目标指标数据的shap值;
26.其中,目标指标数据为多个指标数据中的任意一个,shap值为每一指标数据对可解释模型的输出结果的贡献值。
27.第三方面,提供一种数据处理设备,包括:存储器,用于存储计算机程序指令;处理器,用于读取并运行存储器中存储的计算机程序指令,以执行第一方面和第二方面中任一可选的实施方式提供的数据处理方法。
28.第四方面,提供一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现第一方面和第二方面中的任一可选的实施方式提供的数据处理方法。
29.第五方面,提供一种计算机程序产品,计算机程序产品中的指令由电子设备的处理器执行时,使得电子设备执行第一方面和第二方面中的任一可选的实施方式提供的数据处理方法。
30.本技术实施例提供的一种数据处理方法、装置、设备及介质,在获取目标对象的待处理数据之后,通过分别将待处理数据、以及待处理数据中除目标指标数据之外的至少一个指标数据输入至可解释模型中,确定与待处理数据对应的第一输出值,以及与除目标指标数据之外的至少一个指标数据对应的第二输出值,并分别根据第一输出值和第二输出值,计算待处理数据的总shap值,以及与除目标指标数据之外的至少一个指标数据的第一shap值,进而可以显示基于总shap值以及第一shap值计算目标指标数据的shap值,如此,通过显示待处理数据中每一指标数据对于可解释模型的输出结果的贡献值,可以直观简便地解释可解释模型的输出结果。
附图说明
31.为了更清楚地说明本技术实施例的技术方案,下面将对本技术实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
32.图1是本技术实施例提供的一种数据处理方法的流程示意图;
33.图2是本技术实施例提供的一种解释可解释模型的输出结果的示意图;
34.图3是本技术实施例提供的另一种数据处理方法的流程示意图;
35.图4是本技术实施例提供的一种数据处理装置的结构示意图;
36.图5是本技术实施例提供的一种数据处理设备的结构示意图。
具体实施方式
37.下面将详细描述本技术的各个方面的特征和示例性实施例,为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本技术进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本技术,而不是限定本技术。对于本领域技术人员来说,本技术可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本技术的示例来提供对本技术更好的理解。
38.需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括
……”
限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
39.本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。
40.为了解决现有技术中的机器学习算法的解读方式过于复杂的问题,本技术实施例提供了一种数据处理方法、装置、设备及介质。该方法主要在获取目标对象的待处理数据之后,通过分别将待处理数据、以及待处理数据中除目标指标数据之外的至少一个指标数据输入至可解释模型中,确定与待处理数据对应的第一输出值,以及与除目标指标数据之外的至少一个指标数据对应的第二输出值,并分别根据第一输出值和第二输出值,计算待处理数据的总shap值,以及与除目标指标数据之外的至少一个指标数据的第一shap值,进而显示基于总shap值以及第一shap值计算的目标指标数据的shap值,如此,通过显示待处理数据中每一指标数据对于可解释模型的输出结果的贡献值,可以直观简便地解释可解释模型的输出结果。
41.本技术提供的数据处理方法,执行主体可以是数据处理装置,或是该数据处理装置中用于执行数据处理方法的部分模块。本技术实施例中以数据处理装置执行数据处理方法为例,详细说明本技术实施例提供的数据处理方法。
42.下面结合附图,通过具体的实施例对本技术实施例提供的数据处理方法、装置、设备及存储介质进行详细描述。
43.图1是本技术实施例提供的一种数据处理方法的流程示意图。
44.如图1所示,该数据处理方法的执行主体是数据处理方法装置,具体可以包括如下步骤:
45.s110,获取目标对象的待处理数据。
46.其中,目标对象可以是用户、项目等需要对自身数据进行数据处理的对象,例如,目标对象可以是需要进行风险评价的用户,在此不作过多限定。待处理数据包括多个指标数据。待处理数据以及待处理数据中所包括的多个指标数据需要视具体的情况而定,例如,待处理数据可以包括资产数据、资信数据、同业风险数据、生态合作数据等数据,相应的,指
标数据可以是待处理数据中任意一个。在此不作具体限定。
47.具体地,数据处理装置可以实时获取目标对象的待处理数据,和/或,从数据库中获取预设时间段的目标对象的待处理数据,和/或,从互联网等外部环境获取有关目标对象的待处理数据。如此,可以通过多渠道获取目标对象的待处理数据,进而提高了对模型的输出结果解释的准确性。
48.s120,分别将待处理数据、除目标指标数据之外的至少一个指标数据输入至可解释模型中,确定与待处理数据对应的第一输出值,以及与除目标指标数据之外的至少一个指标数据对应的第二输出值。
49.其中,目标指标数据为多个指标数据中的任意一个。可解释模型也可以是具体情况而定,例如,可解释模型可以是分布式梯度增强(extreme gradient boosting,xgboost)模型,在此不作过多限定。第一输出值为将待处理数据输入可解释模型中,可解释模型输出的结果,相应的,第二输出值是将除目标指标数据之外的至少一个指标数据输入可解释模型后,可解释模型输出的结果,第一输出值和第二输出值可以是概率,也可以评分,具体的输出结果的形式可以根据可解释模型以及具体的应用场景而定,在此不作具体限定。
50.具体地,数据处理装置可以通过将待处理数据输入可解释模型中,确定与待处理数据对应的第一输出值,并将除目标指标数据之外的至少一个指标数据输入可解释模型中,以确定与除目标指标数据之外的至少一个指标数据的第二输出值。
51.在一个示例中,假设可解释模型为xgboost模型,目标对象的待处理数据中可以包括目标对象在第一预设时间段内的信贷审批查询机构数、第二预设时间段内贷款超过x元的次数、第三预设时间段内贷记卡超过y元的次数、第四预设时间段内资产均值以及目标对象学历等指标数据。其中,第一预设时间段、第二预设时间段、第三预设时间段和第四预设时间段都是基于实际需要预先设置的,在此不做过多限定。假设将上述待处理数据中的所有指标数据输入xgboost模型中,可以得到待处理数据的风险概率m1,若其大于预设值m0,表明目标对象的风险偏大,反之亦然。在得到将待处理数据输入xgboost模型之后的输出结果之后,可以依次将除目标指标数据之外的其他指标数据输入xgboost模型,以得到相应的输出结果。
52.在该示例中,由于xgboost模型是一个树类算法,可以通过树节点的遍历和分支,可以使得模型的输出结果具有可解释性。由此,可以将待处理数据,以及除目标指标数据之外的至少一个指标数据输入该xgboost模型中,分别得到待处理数据的第一输出值,以及除目标指标数据之外的至少一个指标数据的第二输出值,便于后续得到每一指标数据对模型输出结果的解释,进而可以直观简便地显示可解释模型的输出结果,即xgboost模型的输出结果。
53.s130,根据第一输出值,计算待处理数据的总shap值;并根据第二输出值,计算除目标指标数据之外的至少一个指标数据的第一shap值。
54.其中,由于shap是shapley value启发的可解释模型,shap(shapley additive explanation)值为模型输入数据的贡献值。所以总shap值为待处理数据对可解释模型输出的第一输出值的贡献值,第一shap值为除目标指标数据之外的至少一个指标数据对可解释模型输出的第二输出值的贡献值。
55.具体地,在数据处理装置分别基于待处理数据,以及除目标指标数据之外的至少
一个指标数据,得到与待处理数据对应的第一输出值,以及与除目标指标数据之外的至少一个指标数据对应的第二输出值之后,数据处理装置可以根据与待处理数据对应的第一输出值,计算得到待处理数据的总shap值,并根据与除目标指标数据之外的至少一个指标数据对应的第二输出值,计算除目标指标数据之外的至少一个指标数据的第一shap值,以便于后续基于总shap值和第一shap值,可以准确得到待处理数据中每一指标数据的shap值,进而便于简便直观地解释模型的输出结果。
56.在一个实施例中,上述基于第一输出值,计算待处理数据的总shap值,以及基于第二数据值,计算除目标指标数据之外的至少一个指标数据的第一shap值,均可以根据如下所示的公式(1)计算得到:
[0057][0058]
其中,p为可解释模型的输出结果,shap为可解释模型的输入数据对可解释模型的输出结果的贡献值。
[0059]
s140,确定总shap值与第一shap值的差值为目标指标数据的shap值。
[0060]
在数据处理装置计算得到待处理数据的总shap值,以及出目标指标数据之外的至少一个指标数据的第一shap值之后,可以直接确定总shap值与第一shap值的差值为目标指标数据的shap值。其中,目标指标数据的shap值为待处理数据中每一指标数据对可解释模型的输出结果的贡献值。如此,可以得到待处理数据中每一指标数据对可解释模型的输出结果的贡献值,进而可以直观显示每一指标数据的对可解释模型的输出结果的贡献值。
[0061]
在另一个实施例中,确定总shap值、与第一shap值和预设基准值之和的差值,为目标指标数据的shap值。
[0062]
其中,预设基准值可以是可解释模型对所有待处理数据的输出值的平均shap值的相反数。
[0063]
在数据处理装置计算得到待处理数据的总shap值,以及除目标指标数据之外的至少一个指标数据的第一shap值之后,数据处理装置还可以确定总shap值、与第一shap值和预设基准值之和的差值,为目标指标数据的shap值。
[0064]
在该实施例中,可以通过设置预设基准值,并基于该预设基准值,确定总shap值、与第一shap值与预设基准值之和的差值为目标指标数据的shap值,即确定总shap值-第一shap值-预设基准值=目标指标数据的shap值。如此,可以通过设置预设基准值,使得所有待处理数据基于同一基准进行计算,进而提高计算得到的待处理数据中每一指标数据的shap值的准确度,避免了计算结果的偏高或偏低,便于更加准确直观地解释可解释模型的输出结果。
[0065]
s150,显示目标指标数据的shap值。
[0066]
在数据处理装置计算得到待处理数据中每一指标数据的shap值之后,可以直接在界面上显示目标指标数据shap值。如此,实现了针对单个目标对象的每一指标数据对模型的输出结果的贡献值进行可视化展示,也便于辅助目标对象基于模型的输出结果进行有效的决策。
[0067]
另外,需要说明的是,由于shap值有正值,也有负值,假设某一指标数据的shap值为正值,表示该指标数据对可解释模型的输出结果具有正向的贡献,并且该指标数据的
s6r6s5r5s4r4s3r3s2r2s1r1[0082]
在一个示例中,可以基于表1中的标准评分与优势比值的对应关系,设置优势比值θ,以及优势比值β,将优势比值θ和优势比值β依次带入公式(2),进而可以通过计算得到第一预设值和第二预设值。具体设置优势比值θ和优势比值β是需要考虑实际情况,此处不作过多限定。
[0083]
在该实施例中,可以基于根据可解释模型的输出结果计算的优势比值,以及第一预设值和第二预设值,将可解释模型的输出结果转化为标准评分,使得更加直观表示目标对象的风险等级。
[0084]
在另一实施例中,上述涉及到的数据处理方法还包括:
[0085]
基于第一预设值、第二预设值和总shap值,计算目标对象的标准评分。
[0086]
其中,标准评分用于评价目标对象的风险等级。
[0087]
并且上述涉及到的基于第一预设值、第二预设值和总shap值,计算目标对象的标识评分步骤满足如下所示的公式(3):
[0088]snew
=a+b*shap
ꢀꢀ
(3)
[0089]
其中,a为第一预设值,b为第二预设值,shap为待处理数据的总shap值。
[0090]
在该实施例中,在计算得到待处理数据的总shap值之后,可以根据第一预设值、第二预设值和总shap值,计算目标对象的标准评分。由此,可以将可解释模型的输出结果转化为标准评分,使得更加直观表示目标对象的风险等级。
[0091]
基于相同的发明构思,本技术实施例还提供了一种数据处理装置。具体结合图4进行说明
[0092]
图4是本技术实施例提供的一种数据处理装置的结构示意图。
[0093]
如图4所示,该数据处理装置400可以包括:获取模块410、确定模块420、计算模块430和显示模块440。
[0094]
获取模块410,用于获取目标对象的待处理数据,待处理数据包括多个指标数据;
[0095]
确定模块420,用于分别将待处理数据、除目标指标数据之外的至少一个指标数据输入至可解释模型中,确定与待处理数据对应的第一输出值,以及与除目标指标数据之外的至少一个指标数据对应的第二输出值;
[0096]
计算模块430,用于根据第一输出值,计算待处理数据的总shap值;并根据第二输出值,计算除目标指标数据之外的至少一个指标数据的第一shap值;
[0097]
确定模块420,还用于确定总shap值与第一shap值的差值为目标指标数据的shap值;
[0098]
显示模块440,用于显示目标指标数据的shap值;
[0099]
其中,目标指标数据为多个指标数据中的任意一个,shap值为每一指标数据对可解释模型的输出结果的贡献值。
[0100]
在一个实施例中,确定模块,还用于确定总shap值、与第一shap值和预设基准值之和的差值,为目标指标数据的shap值。
[0101]
在一个实施例中,可解释模型包括分布式梯度增强xgboost模型。
[0102]
在一个实施例中,预设基准值为可解释模型对所有待处理数据的输出值的平均shap值的相反数。
[0103]
在一个实施例中,计算模块,还用于根据第一输出值,计算目标对象的优势比值;
[0104]
基于第一预设值、第二预设值和优势比值,计算目标对象的标准评分,标准评分用于评价目标对象的风险等级。
[0105]
在一个实施例中,计算模块,还用于基于第一预设值、第二预设值和总shap值,计算目标对象的标准评分,标准评分用于评价目标对象的风险等级
[0106]
本技术实施例提供的一种数据处理方法、装置、设备及介质,在获取目标对象的待处理数据之后,通过分别将待处理数据、以及待处理数据中除目标指标数据之外的至少一个指标数据输入至可解释模型中,确定与待处理数据对应的第一输出值,以及与除目标指标数据之外的至少一个指标数据对应的第二输出值,并分别根据第一输出值和第二输出值,计算待处理数据的总shap值,以及与除目标指标数据之外的至少一个指标数据对应的第一shap值,进而显示基于总shap值以及第一shap值计算的目标指标数据的shap值,如此,通过显示待处理数据中每一指标数据对于可解释模型的输出结果的贡献值,可以直观简便地解释可解释模型的输出结果。
[0107]
本技术实施例提供的数据处理装置中的各个模块可以实现图2或图3所示实施例的方法步骤,并能达到与其相应的技术效果,为简洁描述,在此不再赘述。
[0108]
图5是本技术实施例提供的一种数据处理设备的结构示意图。
[0109]
如图5所示,本实施例中的数据处理设备500包括输入设备501、输入接口502、中央处理器503、存储器504、输出接口505、以及输出设备506。其中,输入接口502、中央处理器503、存储器504、以及输出接口505通过总线510相互连接,输入设备501和输出设备506分别通过输入接口502和输出接口505与总线510连接,进而与数据处理设备500的其他组件连接。
[0110]
具体地,输入设备501接收来自外部的输入信息,并通过输入接口502将输入信息传送到中央处理器503;中央处理器503基于存储器504中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器504中,然后通过输出接口505将输出信息传送到输出设备506;输出设备506将输出信息输出到数据处理设备500的外部供用户使用。
[0111]
在一个实施例中,图5所示的数据处理设备500包括:存储器404,用于存储程序;处理器503,用于运行存储器中存储的程序,以执行本技术实施例提供的图2或图3所示实施例的方法。
[0112]
本技术实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现本技术实施例提供的图2或图3所示实施例的方法。
[0113]
需要明确的是,本技术并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和展示出了若干
具体地步骤作为示例。但是,本技术的方法过程并不限于所描述和展示出的具体步骤,本领域的技术人员可以在领会本技术的精神后,做出各种改变、修改和添加,或者改变步骤之间的顺序。
[0114]
以上的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(application specificintegrated circuit,asic)、适当的固件、插件、功能卡等等。当以软件方式实现时,本技术的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、只读存储器(read-only memory,rom)、闪存、可擦除rom(erom)、软盘、cd-rom、光盘、硬盘、光纤介质、射频(radio frequency,rf)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
[0115]
还需要说明的是,本技术中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本技术不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
[0116]
以上,仅为本技术的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1