征信保护类客户的识别方法、装置、电子设备和存储介质与流程

文档序号:32669513发布日期:2022-12-24 02:05阅读:22来源:国知局
征信保护类客户的识别方法、装置、电子设备和存储介质与流程

1.本技术涉及银行数据技术领域,更具体地说,涉及一种征信保护类客户的识别方法、装置、电子设备和存储介质。


背景技术:

2.征信保护是指当某地区在某时间段内发生自然灾害等特殊情况时,根据政府或相关金融机构政策,对部分因暂时失去收入来源,从而无法正常偿还银行贷款的企业或个人,给予一定的还款宽限期,并不以违约上报征信记录。
3.近年来,受疫情等自然灾害影响,国家在金融领域提出了一系列金融纾困政策,作为重要的金融支持措施,征信保护政策在具体实施层面通过“客户申请-银行审批”的业务流程实现,其中银行审批环节需要人工完成审批。当受灾人数较多时,人工审批方式下因审批速度较低导致无法满足实际需要。


技术实现要素:

4.有鉴于此,本技术提供一种征信保护类客户的识别方法、装置、电子设备和存储介质,用于对需要进行征信保护的客户自动识别,以提高识别效率。
5.为了实现上述目的,现提出的方案如下:
6.一种征信保护类客户的识别方法,应用于电子设备,所述识别方法包括步骤:
7.获取多个参与方中每个所述参与方掌握的个人身份数据集;
8.基于所述个人身份数据集进行模型训练,得到sercureboost模型;
9.基于所述sercureboost模型进行客户识别,得到需要得到征信保护的征信保护类客户。
10.可选的,所述多个参与方包括商业银行、通信运营商和税务部门。
11.可选的,所述基于所述个人身份数据集进行模型训练,得到sercureboost模型,包括步骤:
12.对所述个人身份数据集进行数据加密对齐,得到训练样本集;
13.基于所述训练样本集进行模型训练,得到所述sercureboost模型。
14.可选的,所述对所述个人身份数据集进行数据加密对齐,得到训练样本集,包括步骤:
15.接收独立第三方生成的公私密钥对;
16.所述多个参与方中的非主动方将经过所述公私密钥对加密过的个人身份识别号码发送至所述多个参与方中的主动方进行汇总;
17.所述主动方在执行汇总后进行隐私求交(psi)运算,得到所述训练样本集。
18.可选的,还包括步骤:
19.对所述征信保护类客户的名单与申请征信保护的清单进行比对;
20.根据所述名单与所述清单的比对结果对所述训练样本集进行优化处理。
21.一种征信保护类客户的识别装置,应用于电子设备,所述识别装置包括:
22.数据获取模块,被配置为获取多个参与方中每个所述参与方掌握的个人身份数据集;
23.模型训练模块,被配置为基于所述个人身份数据集进行模型训练,得到sercureboost模型;
24.识别执行模块,被配置为基于所述sercureboost模型进行客户识别,得到需要得到征信保护的征信保护类客户。
25.可选的,所述多个参与方包括商业银行、通信运营商和税务部门。
26.可选的,所述模型训练模块包括:
27.样本准备单元,被配置为对所述个人身份数据集进行数据加密对齐,得到训练样本集;
28.训练执行单元,被配置为基于所述训练样本集进行模型训练,得到所述sercureboost模型。
29.可选的,所述样本准备单元被配置为执行如下步骤:
30.接收独立第三方生成的公私密钥对;
31.所述多个参与方中的非主动方将经过所述公私密钥对加密过的个人身份识别号码发送至所述多个参与方中的主动方进行汇总;
32.所述主动方在执行汇总后进行隐私求交(psi)运算,得到所述训练样本集。
33.可选的,还包括:
34.结果比对模块,被配置为对所述征信保护类客户的名单与申请征信保护的清单进行比对;
35.模型优化模块,被配置为根据所述名单与所述清单的比对结果对所述训练样本集进行优化处理。
36.一种电子设备,包括至少一个处理器和与所述处理器连接的存储器,其中:
37.所述存储器用于存储计算机程序或指令;
38.所述处理器用于执行所述计算机程序或指令,以使所述电子设备实现如上所述的征信类客户的识别方法。
39.一种存储介质,应用于电子设备,所述存储介质承载有一个或多个计算机程序,所述一个或多个计算机程序能够被所述电子设备执行,从而使所述电子设备实现如上所述的征信类客户的识别方法。
40.从上述的技术方案可以看出,本技术公开了一种征信保护类客户的识别方法、装置、电子设备和存储介质,该方法和装置应用于电子设备,具体为获取多个参与方中每个参与方掌握的个人身份数据集;基于个人身份数据集进行模型训练,得到sercureboost模型;基于sercureboost模型进行客户识别,得到需要得到征信保护的征信保护类客户。本方案无需人工审核即可完成征信保护类客户的识别,从而提高了识别效率。
41.本实施例中的方案通过联邦学习技术,在数据不出属地的情况下,完成了联合机器学习模型的构建,也践行了数据隐私保护的要求。
附图说明
42.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
43.图1为本技术所述的一种征信保护类客户的识别方法的流程图;
44.图2为本技术所述的另一种征信保护类客户的识别方法的流程图;
45.图3为本技术所述的一种征信保护类客户的识别装置的框图;
46.图4为本技术所述的另一种征信保护类客户的识别装置的框图;
47.图5为本技术所述的又一种征信保护类客户的识别装置的框图;
48.图6为本技术所述的一种电子设备的框图。
具体实施方式
49.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
50.实施例一
51.图1为本技术所述的一种征信保护类客户的识别方法的流程图。
52.如图1所示,本实施例提供的识别方法应用于电子设备,用于识别需要得到征信保护的征信保护类客户,该电子设备可以理解为具有数据计算能力和信息处理能力的计算机或服务器,该识别方法包括如下步骤:
53.s1、获取多个参与方中每个参与方掌握的个人身份数据集,
54.本技术中的多个参与方是指其掌握的信息与征信保护相关的部门或行业,具体来说,本技术中的参与方是指联邦学习的多个参与方,具体包括商业银行、通信运营商和税务部门。
55.并且,本技术中各参与方的数据按其特征进行分类,具体分类如下表所示:
56.57.s2、基于个人身份数据集进行模型训练。
58.在得到上述个人身份数据集后,基于该数据集进行模型训练,得到sercureboost模型,具体过程为:
59.首先,对个人身份数据集进行数据集加密对齐,得到训练样本集。
60.在实施数据加密对齐时,接收独立于上述商业银行、通信运营商和税务部门的第三方生成的公私密钥对;多个参与方中的非主动方将经过该公私密钥对加密过的个人身份识别号码发送至主动方进行汇总,这里的非主动方是指本实施例中的通信运营商和税务部门,主动方则指的是商业银行,个人身份识别号码优选个人的身份证号码;主动方在接收到个人身份识别号码后进行隐私求交(psi)运算,得到上述训练样本集。
61.然后,在得到训练样本集后进行模型训练,从而得到该sercureboost模型。
62.由于secureboost模型已经比较成熟,所以此处简述其原理及数据加密和流转过程。根据secureboost模型定义,商业银行在本方案中是拥有标签值的“主动方”,运营商与个税部门则为“被动方”。所以首先由商业银行生成用于加密训练的公私钥对。
63.在每一轮迭代中,3个参与方之间交换加密的模型模型参数的中间结果(梯度值和损失值),进行梯度直方图构建;完成构建后,被动方将加密后的梯度直方图发送至商业银行,进行解密后寻找最优分裂点。以上过程经多轮迭代,最终满足训练终止条件。
64.s3、基于secureboost模型进行客户识别。
65.在联邦学习中,各方的数据特征阈值都是透明的,且只有自己知道。识别过程由商业银行实现,通信运营商及税务部门参与特征分裂方向的查找。最终基于该secureboost模型进行客户识别,得到客户是否应该得到征信保护的预测结果,从而得到需要进行征信保护的客户,即征信保护类客户。
66.从上述技术方案可以看出,本实施例提供了一种征信保护类客户的识别方法,该方法应用于电子设备,具体为获取多个参与方中每个参与方掌握的个人身份数据集;基于个人身份数据集进行模型训练,得到sercureboost模型;基于sercureboost模型进行客户识别,得到需要得到征信保护的征信保护类客户。本方案无需人工审核即可完成征信保护类客户的识别,从而提高了识别效率。
67.另外,在本技术的一个具体实施方式中,还包括如下步骤,如图2所示:
68.s4、对征信保护类客户的名单与申请征信保护的清单进行比对。
69.即将包括多个上述征信类客户的名单与接收到的申请征信保护的客户的清单进行比对,两者之间会存在部分重叠。为便于描述,我们将该名单记为l1,将该清单记为l2。
70.s5、根据名单与清单的比对结果对secureboost模型进行优化处理。
71.经过比对筛选后,对于名单与清单之间的数据出入根据不同政策情况调整模型,具体为调整训练集的数据。
72.若政策要求尽可能提升征信保护的客户覆盖,则对l
1-l2中的客户,经人工分析后,将其确定需要进行征信保护的数据加入训练集提升模型覆盖度。
73.若政策要求尽可能提升征信保护的门槛,则对l
2-l1中的客户,经人工分析后,将确定不需要进行征信保护的数据加入训练集提升模型精确性。
74.通过上述操作,可以进一步提升模型的识别精度。本实施例中的方案通过联邦学习技术,在数据不出属地的情况下,完成了联合机器学习模型的构建,也践行了数据隐私保
护的要求。
75.附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
76.虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。
77.应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
78.可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如c语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机。
79.实施例二
80.图3为本技术所述的一种征信保护类客户的识别装置的框图。
81.如图3所示,本实施例提供的识别装置应用于电子设备,用于识别需要得到征信保护的征信保护类客户,该电子设备可以理解为具有数据计算能力和信息处理能力的计算机或服务器,该识别装置包括数据获取模块10、模型训练模块20和识别执行模块30。
82.数据获取模块用于获取多个参与方中每个参与方掌握的个人身份数据集,
83.本技术中的多个参与方是指其掌握的信息与征信保护相关的部门或行业,具体来说,本技术中的参与方是指联邦学习的多个参与方,具体包括商业银行、通信运营商和税务部门。
84.并且,本技术中各参与方的数据按其特征进行分类,具体分类如下表所示:
[0085][0086]
模型训练模块用于基于个人身份数据集进行模型训练。
[0087]
在得到上述个人身份数据集后,基于该数据集进行模型训练,得到sercureboost模型,该模型训练模块包括样本准备单元21和训练执行单元22,如图4所示。
[0088]
样本准备单元用于对个人身份数据集进行数据集加密对齐,得到训练样本集。
[0089]
在实施数据加密对齐时,接收独立于上述商业银行、通信运营商和税务部门的第三方生成的公私密钥对;多个参与方中的非主动方将经过该公私密钥对加密过的个人身份识别号码发送至主动方进行汇总,这里的非主动方是指本实施例中的通信运营商和税务部门,主动方则指的是商业银行,个人身份识别号码优选个人的身份证号码;主动方在接收到个人身份识别号码后进行隐私求交(psi)运算,得到上述训练样本集。
[0090]
训练执行模块用于在样本准备单元得到训练样本集后进行模型训练,从而得到该sercureboost模型。
[0091]
由于secureboost模型已经比较成熟,所以此处简述其原理及数据加密和流转过程。根据secureboost模型定义,商业银行在本方案中是拥有标签值的“主动方”,运营商与个税部门则为“被动方”。所以首先由商业银行生成用于加密训练的公私钥对。
[0092]
在每一轮迭代中,3个参与方之间交换加密的模型模型参数的中间结果(梯度值和损失值),进行梯度直方图构建;完成构建后,被动方将加密后的梯度直方图发送至商业银行,进行解密后寻找最优分裂点。以上过程经多轮迭代,最终满足训练终止条件。
[0093]
识别执行模块用于基于secureboost模型进行客户识别。
[0094]
在联邦学习中,各方的数据特征阈值都是透明的,且只有自己知道。识别过程由商业银行实现,通信运营商及税务部门参与特征分裂方向的查找。最终基于该secureboost模型进行客户识别,得到客户是否应该得到征信保护的预测结果,从而得到需要进行征信保护的客户,即征信保护类客户。
[0095]
从上述技术方案可以看出,本实施例提供了一种征信保护类客户的识别装置,该装置应用于电子设备,具体为获取多个参与方中每个参与方掌握的个人身份数据集;基于个人身份数据集进行模型训练,得到sercureboost模型;基于sercureboost模型进行客户识别,得到需要得到征信保护的征信保护类客户。本方案无需人工审核即可完成征信保护类客户的识别,从而提高了识别效率。
[0096]
另外,在本技术的一个具体实施方式中,还包括结果比对模块40和模型优化模块50,如图5所示:
[0097]
结果比对模块用于对征信保护类客户的名单与申请征信保护的清单进行比对。
[0098]
即将包括多个上述征信类客户的名单与接收到的申请征信保护的客户的清单进行比对,两者之间会存在部分重叠。为便于描述,我们将该名单记为l1,将该清单记为l2。
[0099]
模型优化模块用于根据名单与清单的比对结果对secureboost模型进行优化处理。
[0100]
经过比对筛选后,对于名单与清单之间的数据出入根据不同政策情况调整模型,具体为调整训练集的数据。
[0101]
若政策要求尽可能提升征信保护的客户覆盖,则对l
1-l2中的客户,经人工分析后,将其确定需要进行征信保护的数据加入训练集提升模型覆盖度。
[0102]
若政策要求尽可能提升征信保护的门槛,则对l
2-l1中的客户,经人工分析后,将确定不需要进行征信保护的数据加入训练集提升模型精确性。
[0103]
通过上述操作,可以进一步提升模型的识别精度。本实施例中的方案通过联邦学习技术,在数据不出属地的情况下,完成了联合机器学习模型的构建,也践行了数据隐私保护的要求。
[0104]
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。
[0105]
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、片上系统(soc)、复杂可编程逻辑设备(cpld)等等。
[0106]
实施例三
[0107]
参考图6所示,其示出了适于用来实现本公开实施例中的电子设备的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、pda(个人数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。本实施例的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
[0108]
电子设备可以包括处理装置(例如中央处理器、图形处理器等)601,其可以根据存储在只读存储器(rom)602中的程序或者从存储装置608加载到随机访问存储器(ram)603中的程序而执行各种适当的动作和处理。在ram 603中,还存储有电子设备操作所需的各种程序和数据。处理装置601、rom 602以及ram 603通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。
[0109]
通常,以下装置可以连接至i/o接口605:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(lcd)、扬声器、振动器等的输出装置607;包括例如磁带、硬盘等的存储装置608;以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代
地实施或具备更多或更少的装置。
[0110]
实施例四
[0111]
本实施例提供了一种计算机可读的存储介质,该计算机可读的存储介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备获取多个参与方中每个参与方掌握的个人身份数据集;基于个人身份数据集进行模型训练,得到sercureboost模型;基于sercureboost模型进行客户识别,得到需要得到征信保护的征信保护类客户。本方案无需人工审核即可完成征信保护类客户的识别,从而提高了识别效率。
[0112]
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、rf(射频)等等,或者上述的任意合适的组合。
[0113]
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
[0114]
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
[0115]
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
[0116]
以上对本发明所提供的技术方案进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1