本说明书涉及计算机,尤其涉及一种风险识别模型训练方法、装置、存储介质及电子设备。
背景技术:
1、随着信息科技的发展,基于联邦学习训练机器学习模型得到了广泛的应用,尤其,应用在风险控制领域,其中,联邦学习是一种多个参与方共同合作训练机器学习模型的技术。联邦学习分为横向联邦学习、纵向联邦学习以及联邦迁移学习。
2、目前,在用户使用服务提供方提供的功能时,用户可能出现违规行为。故对于某一用户,服务提供方可以根据历史上该用户与其他用户之间的业务关系,构建该用户的关系图,关系图中的节点表示各用户或者各用户对应的用户信息,节点与节点之间的边表示用户与用户之间存在的关系,比如交易关系、亲属关系、朋友关系等。根据该用户的关系图以及历史上关系图上各用户的风险情况,确定该用户是否存在风险。
3、但是,一些服务提供方可能只有各用户之间的业务关系,没有历史上各用户的风险情况,或者只有历史上各用户的风险情况,而没有各用户之间的业务关系。对于这种类型的服务提供方来说,可能无法根据自身已有的数据,确定用户是否存在风险。故只有各用户之间的业务关系的服务提供方以及只有历史上各用户的风险情况的服务提供方可以基于纵向联邦学习联合训练风险识别模型,以通过训练完成的风险识别模型确定用户是否存在风险。但是,用于训练风险识别模型的数据中存在用户的隐私数据,在共同训练风险识别模型时各服务提供方之间不能够泄露用户的隐私数据。因此,如何训练风险识别模型以保证不泄露隐私数据是一个亟待解决的问题。
4、基于此,本说明书提供一种风险识别模型训练方法。
技术实现思路
1、本说明书提供一种风险识别模型训练方法、装置、存储介质及电子设备,以部分的解决现有技术存在的上述问题。
2、本说明书采用下述技术方案:
3、本说明书提供一种风险识别模型训练方法,所述方法应用于存储训练样本的第一参与方,包括:
4、根据历史上各用户执行业务的业务数据,构建以所述各用户对应的用户信息为节点,所述各用户之间的业务关系为边的关系图,并作为训练样本;
5、将所述训练样本输入待训练的风险识别模型的隐私表示提取子网,以通过所述隐私表示提取子网提取所述训练样本的隐私特征;其中,所述隐私表示提取子网包含若干隐私表示层;针对每一个隐私表示层,通过该隐私表示层提取所述训练样本的各节点对应的特征,并对提取到的所述各节点对应的特征进行加噪,根据该隐私表示层与下一个隐私表示层之间的传递权重,对所述各节点的加噪后的特征进行加权并输入下一个隐私表示层;
6、将所述隐私特征发送给第二参与方;
7、接收所述第二参与方根据所述隐私特征返回的梯度;其中,所述梯度是所述第二参与方根据隐私特征和所述待训练的风险识别模型中的识别层得到所述训练样本对应的输出结果后,根据所述输出结果和所述训练样本的标注得到的,所述第二参与方存储所述训练样本的标注,所述标注为历史上所述训练样本中各用户的风险情况;
8、根据所述梯度,调整所述待训练的风险识别模型的隐私表示提取子网中各隐私表示层的参数,其中,所述参数至少包括所述各隐私表示层之间的传递权重,训练完成的风险识别模型用于根据待识别用户的业务数据,确定所述待识别用户的风险情况。
9、可选地,通过该隐私表示层提取所述训练样本的各节点对应的特征,并对提取到的所述各节点对应的特征进行加噪,具体包括:
10、当该隐私表示层为所述隐私表示提取子网中第一个隐私表示层时,针对所述训练样本的每一个节点,通过该隐私表示层对所述训练样本进行特征提取,确定该节点的特征,并作为聚合特征;
11、对该节点的聚合特征进行加噪。
12、可选地,通过该隐私表示层提取所述训练样本的各节点对应的特征,并对提取到的所述各节点对应的特征进行加噪,具体包括:
13、当该隐私表示层不为所述隐私表示提取子网中第一个隐私表示层时,针对所述训练样本的每一个节点,从该隐私表示层的上一个隐私表示层输入的所述各节点对应的传递特征中,确定该节点的传递特征以及与该节点连接的其他节点的传递特征,其中,所述传递特征为该隐私表示层的上一个隐私表示层输入到该隐私表示层的特征;
14、将该节点的传递特征以及与该节点连接的其他节点的传递特征进行聚合,确定该节点的聚合特征;
15、对该节点的聚合特征进行加噪。
16、可选地,所述待训练的风险识别模型为图卷积神经网络;
17、通过该隐私表示层提取所述训练样本的各节点对应的特征,并对提取到的所述各节点对应的特征进行加噪,具体包括:
18、在该隐私表示层不为所述隐私表示提取子网中第一个隐私表示层时,针对所述训练样本的每一个节点,确定在所述关系图中该节点对应的度;
19、判断该节点的度是否不小于预设的数值;
20、若是,从该隐私表示层的上一个隐私表示层输入的所述各节点对应的传递特征中,确定该节点的传递特征以及与该节点连接的其他节点的传递特征,并将该节点的传递特征以及与该节点连接的其他节点的传递特征进行聚合,确定该节点的聚合特征,其中,所述传递特征为该隐私表示层的上一个隐私表示层输入到该隐私表示层的特征;
21、若否,从该隐私表示层的上一个隐私表示层输入的所述各节点对应的传递特征中,确定该节点的传递特征,并根据该节点的传递特征,确定该节点的聚合特征;
22、对该节点的聚合特征进行加噪。
23、可选地,通过该隐私表示层提取所述训练样本的各节点对应的特征,并对提取到的所述各节点对应的特征进行加噪,具体包括:
24、在该隐私表示层不为所述隐私表示提取子网中第一个隐私表示层时,针对所述训练样本的每一个节点,从该隐私表示层的上一个隐私表示层输入的所述各节点对应的传递特征中,确定该节点的传递特征,以及确定指定数量的与该节点连接的其他节点的传递特征;
25、将确定出的其他节点的传递特征以及该节点的传递特征进行聚合,确定该节点的聚合特征;
26、对该节点的聚合特征进行加噪。
27、可选地,根据该隐私表示层与下一个隐私表示层之间的传递权重,对所述各节点的加噪后的特征进行加权并输入下一个隐私表示层,具体包括:
28、针对所述训练样本的每一个节点,对该节点加噪后的特征进行标准化,确定该节点的标准化特征;
29、根据该隐私表示层与下一个隐私表示层之间的传递权重,对所述各节点的标准化特征进行加权,确定所述各节点的传递特征;
30、将所述各节点的传递特征输入该隐私表示层的下一个隐私表示层,直到输入到最后一个隐私表示层时,通过所述最后一个隐私表示层对提取到的所述各节点对应的特征进行加噪,并根据对所述各节点的加噪后的特征,确定所述训练样本的隐私特征。
31、可选地,对提取到的所述各节点对应的特征进行加噪,具体包括:
32、基于预先设置的正态分布函数,对提取到的所述各节点对应的特征添加高斯噪声。
33、可选地,所述方法还包括:
34、确定待识别用户的业务数据,并根据所述业务数据,确定所述待识别用户的关系图;
35、将所述关系图输入训练完成的风险识别模型的隐私表示提取子网,确定所述待识别用户的隐私特征;
36、将所述隐私特征发送给所述第二参与方,使第二参与方将所述隐私特征输入所述风险识别模型的识别层,确定所述待识别用户的风险情况,并返回;
37、根据接收到的所述待识别用户的风险情况,对所述待识别用户进行风险控制。
38、本说明书中还提供一种风险识别模型训练方法,所述方法应用于存储训练样本的标注的第二参与方,包括:
39、接收第一参与方发送的隐私特征,其中,所述第一参与方存储用于训练待训练的风险识别模型的训练样本,所述隐私特征为通过将所述训练样本输入所述待训练的风险识别模型的隐私表示提取子网确定出的;
40、将所述隐私特征输入待训练的风险识别模型的识别层,得到输出结果;
41、将存储的历史上各用户的风险情况作为训练样本的标注,并根据所述输出结果以及所述标注,确定所述待训练的风险识别模型的梯度;
42、根据所述梯度,调整所述待训练的风险识别模型的识别层的参数,并将所述梯度发送给所述第一参与方,使所述第一参与方根据接收到的所述梯度,调整所述待训练的风险识别模型的隐私表示提取子网中各隐私表示层的参数。
43、本说明书提供了一种风险识别模型训练装置,包括:
44、确定模块,用于根据历史上各用户执行业务的业务数据,构建以所述各用户对应的用户信息为节点,所述各用户之间的业务关系为边的关系图,并作为训练样本;
45、隐私表示模块,用于将所述训练样本输入待训练的风险识别模型的隐私表示提取子网,以通过所述隐私表示提取子网提取所述训练样本的隐私特征;其中,所述隐私表示提取子网包含若干隐私表示层;针对每一个隐私表示层,通过该隐私表示层提取所述训练样本的各节点对应的特征,并对提取到的所述各节点对应的特征进行加噪,根据该隐私表示层与下一个隐私表示层之间的传递权重,对所述各节点的加噪后的特征进行加权并输入下一个隐私表示层;
46、发送模块,用于将所述隐私特征发送给第二参与方;
47、第一接收模块,用于接收所述第二参与方根据所述隐私特征返回的梯度;其中,所述梯度是所述第二参与方根据隐私特征和所述待训练的风险识别模型中的识别层得到所述训练样本对应的输出结果后,根据所述输出结果和所述训练样本的标注得到的,所述第二参与方存储所述训练样本的标注,所述标注为历史上所述训练样本中各用户的风险情况;
48、第一调整模块,用于根据所述梯度,调整所述待训练的风险识别模型的隐私表示提取子网中各隐私表示层的参数,其中,所述参数至少包括所述各隐私表示层之间的传递权重,训练完成的风险识别模型用于根据待识别用户的业务数据,确定所述待识别用户的风险情况。
49、可选地,所述隐私表示模块具体用于,当该隐私表示层为所述隐私表示提取子网中第一个隐私表示层时,针对所述训练样本的每一个节点,通过该隐私表示层对所述训练样本进行特征提取,确定该节点的特征,并作为聚合特征;对该节点的聚合特征进行加噪。
50、可选地,所述隐私表示模块具体用于,当该隐私表示层不为所述隐私表示提取子网中第一个隐私表示层时,针对所述训练样本的每一个节点,从该隐私表示层的上一个隐私表示层输入的所述各节点对应的传递特征中,确定该节点的传递特征以及与该节点连接的其他节点的传递特征,其中,所述传递特征为该隐私表示层的上一个隐私表示层输入到该隐私表示层的特征;将该节点的传递特征以及与该节点连接的其他节点的传递特征进行聚合,确定该节点的聚合特征;对该节点的聚合特征进行加噪。
51、可选地,所述待训练的风险识别模型为图卷积神经网络;
52、所述隐私表示模块具体用于,在该隐私表示层不为所述隐私表示提取子网中第一个隐私表示层时,针对所述训练样本的每一个节点,确定在所述关系图中该节点对应的度;判断该节点的度是否不小于预设的数值;若是,从该隐私表示层的上一个隐私表示层输入的所述各节点对应的传递特征中,确定该节点的传递特征以及与该节点连接的其他节点的传递特征,并将该节点的传递特征以及与该节点连接的其他节点的传递特征进行聚合,确定该节点的聚合特征,其中,所述传递特征为该隐私表示层的上一个隐私表示层输入到该隐私表示层的特征;若否,从该隐私表示层的上一个隐私表示层输入的所述各节点对应的传递特征中,确定该节点的传递特征,并根据该节点的传递特征,确定该节点的聚合特征;对该节点的聚合特征进行加噪。
53、可选地,所述隐私表示模块具体用于,在该隐私表示层不为所述隐私表示提取子网中第一个隐私表示层时,针对所述训练样本的每一个节点,从该隐私表示层的上一个隐私表示层输入的所述各节点对应的传递特征中,确定该节点的传递特征,以及确定指定数量的与该节点连接的其他节点的传递特征;将确定出的其他节点的传递特征以及该节点的传递特征进行聚合,确定该节点的聚合特征;对该节点的聚合特征进行加噪。
54、可选地,所述隐私表示模块具体用于,针对所述训练样本的每一个节点,对该节点加噪后的特征进行标准化,确定该节点的标准化特征;根据该隐私表示层与下一个隐私表示层之间的传递权重,对所述各节点的标准化特征进行加权,确定所述各节点的传递特征;将所述各节点的传递特征输入该隐私表示层的下一个隐私表示层,直到输入到最后一个隐私表示层时,通过所述最后一个隐私表示层对提取到的所述各节点对应的特征进行加噪,并根据对所述各节点的加噪后的特征,确定所述训练样本的隐私特征。可选地,所述隐私表示模块具体用于,基于预先设置的正态分布函数,对提取到的所述各节点对应的特征添加高斯噪声。
55、可选地,所述装置还包括:
56、应用模块,用于确定待识别用户的业务数据,并根据所述业务数据,确定所述待识别用户的关系图;将所述关系图输入训练完成的风险识别模型的隐私表示提取子网,确定所述待识别用户的隐私特征;将所述隐私特征发送给所述第二参与方,使第二参与方将所述隐私特征输入所述风险识别模型的识别层,确定所述待识别用户的风险情况,并返回;根据接收到的所述待识别用户的风险情况,对所述待识别用户进行风险控制。
57、本说明书还提供了另一种风险识别模型训练装置,所述装置应用于存储训练样本的标注的第二参与方,包括:
58、第二接收模块,用于接收第一参与方发送的隐私特征,其中,所述第一参与方存储用于训练待训练的风险识别模型的训练样本,所述隐私特征为通过将所述训练样本输入所述待训练的风险识别模型的隐私表示提取子网确定出的;
59、结果模块,用于将所述隐私特征输入待训练的风险识别模型的识别层,得到输出结果;梯度模块,用于将存储的历史上各用户的风险情况作为训练样本的标注,并根据所述输出结果以及所述标注,确定所述待训练的风险识别模型的梯度;
60、第二调整模块,用于根据所述梯度,调整所述待训练的风险识别模型的识别层的参数,并将所述梯度发送给所述第一参与方,使所述第一参与方根据接收到的所述梯度,调整所述待训练的风险识别模型的隐私表示提取子网中各隐私表示层的参数。
61、本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述风险识别模型训练方法。
62、本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述风险识别模型训练方法。
63、本说明书采用的上述至少一个技术方案能够达到以下有益效果:
64、本说明书提供的风险识别模型训练方法中,根据历史上各用户执行业务的业务数据,构建以各用户对应的用户信息为节点,各用户之间的业务关系为边的关系图,并作为训练样本。再将训练样本输入待训练的风险识别模型的隐私表示提取子网,以通过隐私表示提取子网提取训练样本的隐私特征。其中,针对每一个隐私表示层,通过该隐私表示层提取训练样本的各节点对应的特征,并对提取到的各节点对应的特征进行加噪,根据该隐私表示层与下一个隐私表示层之间的传递权重,对各节点的加噪后的特征进行加权并输入下一个隐私表示层。之后,将隐私特征发送给第二参与方,使第二参与方根据隐私特征和待训练的风险识别模型中的识别层得到训练样本对应的输出结果后,根据输出结果和训练样本的标注,确定梯度,并返回。第一参与方根据接收到的梯度,调整待训练的风险识别模型的隐私表示提取子网中各隐私表示层的参数。
65、从上述方法中可以看出,本方法中在训练风险识别模型时,根据历史上各用户执行业务的业务数据,构建以各用户对应的用户信息为节点,各用户之间的业务关系为边的关系图,并作为训练样本。再将训练样本输入待训练的风险识别模型的隐私表示提取子网,以通过隐私表示提取子网提取训练样本的隐私特征。其中,针对每一个隐私表示层,通过该隐私表示层提取训练样本的各节点对应的特征,并对提取到的各节点对应的特征进行加噪,根据该隐私表示层与下一个隐私表示层之间的传递权重,对各节点的加噪后的特征进行加权并输入下一个隐私表示层。之后,将隐私特征发送给第二参与方,使第二参与方根据隐私特征和待训练的风险识别模型中的识别层得到训练样本对应的输出结果后,根据输出结果和训练样本的标注,确定梯度,并返回。第一参与方根据接收到的梯度,调整待训练的风险识别模型的隐私表示提取子网中各隐私表示层的参数,使得第一参与方与第二参与方在联合训练风险识别模型时,第一参与方通过隐私表示提取子网对训练样本的节点特征进行隐私化,不会泄露用于训练模型的数据,第二参与方也无法获知第一参与方用于训练模型的数据,保护用户的隐私。同时,第一参与方与第二参与方联合训练风险识别模型,训练完成的风险识别模型的准确率提高。