基于隐私计算处理多数据源缺失值的填充方法及装置与流程

文档序号:33191369发布日期:2023-02-04 08:37阅读:66来源:国知局
基于隐私计算处理多数据源缺失值的填充方法及装置与流程

1.本技术涉及数据处理技术领域,具体涉及一种基于隐私计算处理多数据源缺失值的填充方法及装置。


背景技术:

2.目前,基于多个数据源的融合评分是银行卡中心、消费金融公司和小贷机构等开发的重点方向。由于不同数据源的覆盖率有较大的差别,导致缺失值的处理比较困难,因此缺失值的处理成为了本领域技术人员亟待解决的问题。
3.传统做法是,大部分机构会按missing处理,或者根据甲方的y标签通过缺失客群的odds(好坏比)进行对比填充,但是这两种填充方式都会带来一定的不精确性。
4.具体的,如果针对某个数据源的缺失按照missing来进行处理,万一缺失的这部分missing具有特殊的含义,例如针对某大型电商平台这个数据源为例,缺失的客户可能早已经被电商平台的风控规则拦截,不具备开通账号的权限,这时候如果针对missing处理,可能会丢失这个用户的风险pattern;如果根据甲方的y标签进行对应处理,这可能是较多甲方的常用操作方法,这样做可以找到处理缺失值的一个通用解法,但是针对后续变换的客群属性,缺少稳定性,并且给后续迭代带来了更高的成本。


技术实现要素:

5.为此,本技术提供一种基于隐私计算处理多数据源缺失值的填充方法及装置,以解决现有技术存在的填充方式都会带来一定的不精确性的问题。
6.为了实现上述目的,本技术提供如下技术方案:
7.第一方面,一种基于隐私计算处理多数据源缺失值的填充方法,包括:
8.向数据源平台发送查询数据授权请求;数据源平台确认授权后返回确认授权信息;
9.接收数据源平台返回的确认授权信息后查询数据,得到数据源的缺失样本和非缺失样本的真实坏率;
10.通过隐私求交获取缺失样本在不同客群的好坏比;
11.根据第一公式调整数据源中各个客群的好环比;
12.所述第一公式为:di=ci1*b11+ci2*b12+ci3*b13,其中,di代表数据源i中调整后的各个客群的好坏比,ci1代表数据源i中的信用卡客群的权重系数,ci2代表数据源i中的消金客群的权重系数,ci3代表数据源i中的小贷客群的权重系数;bij代表数据源i中缺失样本在不同客群的好坏比,j代表各个客群,j=1or 2or 3,1代表信用卡客群,2代表消金客群,3代表小贷客群;
13.根据调整后的各个客群的好坏比和非缺失样本的真实坏率填充数据源的缺失值。
14.作为优选,所述根据调整后的各个客群的好坏比和非缺失样本的真实坏率填充数据源的缺失值,具体为:若调整后的各个客群的好坏比等于非缺失样本的真实坏率,则得到
最终的缺失值。
15.作为优选,ci1+ci2+ci3=1。
16.第二方面,一种基于隐私计算处理多数据源缺失值的填充装置,包括:
17.数据查询模块,用于向数据源平台发送查询数据授权请求;数据源平台确认授权后返回确认授权信息;
18.以及接收数据源平台返回的确认授权信息后查询数据,得到数据源的缺失样本和非缺失样本的真实坏率;
19.隐私查询模块,用于通过隐私求交获取缺失样本在不同客群的好坏比;
20.计算模块,根据第一公式调整数据源中各个客群的好环比;
21.所述第一公式为:di=ci1*b11+ci2*b12+ci3*b13,其中,di代表数据源i中调整后的各个客群的好坏比,ci1代表数据源i中的信用卡客群的权重系数,ci2代表数据源i中的消金客群的权重系数,ci3代表数据源i中的小贷客群的权重系数;bij代表数据源i中缺失样本在不同客群的好坏比,j代表各个客群,j=1or 2or 3,1代表信用卡客群,2代表消金客群,3代表小贷客群;
22.以及根据调整后的各个客群的好坏比和非缺失样本的真实坏率填充数据源的缺失值。
23.作为优选,所述根据调整后的各个客群的好坏比和非缺失样本的真实坏率填充数据源的缺失值,具体为:若调整后的各个客群的好坏比等于非缺失样本的真实坏率,则得到最终的缺失值。
24.作为优选,ci1+ci2+ci3=1。
25.第三方面,一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现基于隐私计算处理多数据源缺失值的填充方法的步骤。
26.第四方面,一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现基于隐私计算处理多数据源缺失值的填充方法的步骤。
27.相比现有技术,本技术至少具有以下有益效果:
28.本技术提供了一种基于隐私计算处理多数据源缺失值的填充方法及装置,方法包括:向数据源平台发送查询数据授权请求;数据源平台确认授权后返回确认授权信息;接收数据源平台返回的确认授权信息后查询数据,得到数据源的缺失样本和非缺失样本的真实坏率;通过隐私求交获取缺失样本在不同客群的好坏比;根据缺失样本在不同客群的好坏比调整数据源中各个客群的好环比;根据调整后的各个客群的好坏比和非缺失样本的真实坏率填充数据源的缺失值。本技术提供的基于隐私计算处理多数据源缺失值的填充方法及装置,能够完整的得到建模样本在各个数据源缺失部分的信息丢失,最大程度上还原了缺失客群的风险表现,为后续的建模性能带来较好提升。
附图说明
29.为了更直观地说明现有技术以及本技术,下面给出几个示例性的附图。应当理解,附图中所示的具体形状、构造,通常不应视为实现本技术时的限定条件;例如,本领域技术人员基于本技术揭示的技术构思和示例性的附图,有能力对某些单元(部件)的增/减/归属
划分、具体形状、位置关系、连接方式、尺寸比例关系等容易作出常规的调整或进一步的优化。
30.图1为本技术实施例一提供的一种基于隐私计算处理多数据源缺失值的填充方法流程图;
31.图2为本技术实施例一提供的一种基于隐私计算处理多数据源缺失值的填充方法框图。
具体实施方式
32.以下结合附图,通过具体实施例对本技术作进一步详述。
33.在本技术的描述中:除非另有说明,“多个”的含义是两个或两个以上。本技术中的术语“第一”、“第二”、“第三”等旨在区别指代的对象,而不具有技术内涵方面的特别意义(例如,不应理解为对重要程度或次序等的强调)。“包括”、“包含”、“具有”等表述方式,同时还意味着“不限于”(某些单元、部件、材料、步骤等)。
34.本技术中所引用的如“上”、“下”、“左”、“右”、“中间”等的用语,通常是为了便于对照附图直观理解,而并非对实际产品中位置关系的绝对限定。在未脱离本技术揭示的技术构思的情况下,这些相对位置关系的改变,当亦视为本技术表述的范畴。
35.实施例一
36.请参阅图1和图2,本实施例提供了一种基于隐私计算处理多数据源缺失值的填充方法,包括:
37.s1:向数据源平台发送查询数据授权请求;数据源平台确认授权后返回确认授权信息;
38.具体的,建模的数据需要确认用户侧的授权,特别是对于三方数据的授权是否满足合理、必要及最少化原则;其次,确认授权无误后才能开启数据源侧的查询。
39.s2:接收数据源平台返回的确认授权信息后查询数据,得到数据源的缺失样本和非缺失样本的真实坏率;
40.s3:通过隐私求交获取缺失样本在不同客群的好坏比;
41.具体的,隐私求交即隐私计算,隐私计算是指在保护数据本身不对外泄露的前提下实现数据分析计算的技术集合,达到对数据“可用、不可见”的目的。通过隐私求交的方式能够获取样本更真实的违约概率。
42.好坏比(odds):在某一个样本中好坏用户的占比,例如坏的定义是mob6_30+,odds=4:1,表示这批样本mob6_30+的坏用户是好用户的四倍。
43.s4:根据第一公式调整数据源中各个客群的好环比;
44.第一公式为:di=ci1*b11+ci2*b12+ci3*b13,
45.其中,ci1+ci2+ci3=1,di代表数据源i中调整后的各个客群的好坏比,ci1代表数据源i中的信用卡客群的权重系数,ci2代表数据源i中的消金客群的权重系数,ci3代表数据源i中的小贷客群的权重系数;bij代表数据源i中缺失样本在不同客群的好坏比,j代表各个客群,j=1or 2or 3,1代表信用卡客群,2代表消金客群,3代表小贷客群;
46.具体的,建模侧认定客群最终的表现趋向于消金客群,可以赋于ci2更接近于1的权重值。
47.s5:根据调整后的各个客群的好坏比和非缺失样本的真实坏率填充数据源的缺失值。
48.具体的,通过最终输出的di与样本中非缺失的真实坏率比较后,若调整后的各个客群的好坏比等于非缺失样本的真实坏率,则得到最终的缺失值,这样最终真实的还原缺失客户的风险pattern。
49.本实施例提供的基于隐私计算处理多数据源缺失值的填充方法完整的洞察出建模样本在各个数据源缺失部分的信息丢失,最大程度还原了缺失客群风险表现,为后续的建模性能带来较好提升。
50.实施例二
51.本实施例提供了一种基于隐私计算处理多数据源缺失值的填充装置,包括:
52.数据查询模块,用于向数据源平台发送查询数据授权请求;数据源平台确认授权后返回确认授权信息;
53.以及接收数据源平台返回的确认授权信息后查询数据,得到数据源的缺失样本和非缺失样本的真实坏率;
54.隐私查询模块,用于通过隐私求交获取缺失样本在不同客群的好坏比;
55.计算模块,根据第一公式调整数据源中各个客群的好环比;
56.具体的,第一公式为:di=ci1*b11+ci2*b12+ci3*b13,其中,ci1+ci2+ci3=1,di代表数据源i中调整后的各个客群的好坏比,ci1代表数据源i中的信用卡客群的权重系数,ci2代表数据源i中的消金客群的权重系数,ci3代表数据源i中的小贷客群的权重系数;bij代表数据源i中缺失样本在不同客群的好坏比,j代表各个客群,j=1or2 or 3,1代表信用卡客群,2代表消金客群,3代表小贷客群;
57.以及根据调整后的各个客群的好坏比和非缺失样本的真实坏率填充数据源的缺失值。
58.若调整后的各个客群的好坏比等于非缺失样本的真实坏率,则得到最终的缺失值。
59.关于基于隐私计算处理多数据源缺失值的填充装置的具体限定可以参见上文中对于基于隐私计算处理多数据源缺失值的填充方法的限定,在此不再赘述。
60.实施例三
61.本实施例提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现基于隐私计算处理多数据源缺失值的填充方法的步骤。
62.实施例四
63.本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现基于隐私计算处理多数据源缺失值的填充方法的步骤。
64.以上实施例的各技术特征可以进行任意的组合(只要这些技术特征的组合不存在矛盾),为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述;这些未明确写出的实施例,也都应当认为是本说明书记载的范围。
65.上文中通过一般性说明及具体实施例对本技术作了较为具体和详细的描述。应当
理解,基于本技术的技术构思,还可以对这些具体实施例作出若干常规的调整或进一步的创新;但只要未脱离本技术的技术构思,这些常规的调整或进一步的创新得到的技术方案也同样落入本技术的权利要求保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1