本说明书一个或多个实施例涉及人工智能领域,尤其涉及一种样本标注方法及装置。
背景技术:
1、随着移动支付和电子购物的蓬勃发展,电子服务平台上的交易量日渐增加,与此同时,许多风险用户利用电子支付手段进行交易欺诈、账户盗用等风险交易,严重侵害了其它普通用户的权益。对潜在的风险进行识别和处理,是保证服务平台安全和维护用户资产和交易安全的重要手段。
2、目前,有监督机器学习技术被广泛应用在风险交易检测中,有监督学习依赖于有标注的用户/交易样本对模型进行训练。然而,真实应用场景中往往还存在大量无标注的用户/交易样本,这些样本无法被直接应用于有监督学习中。因此,需要一种样本标注方法,对这些无标注样本进行标注,使得它们能够被用于训练风险检测模型的过程中,以提升风险检测模型的质量。
技术实现思路
1、本说明书一个或多个实施例描述了一种样本标注方法及装置,旨在通过综合用户提供的标签函数的标注结果,对样本给出可靠程度更高的标注。
2、第一方面,提供了一种样本标注方法,包括:
3、获取无标签的样本集以及多个标签函数,所述样本集中包含交易样本和/或用户样本,任一标签函数用于给样本添加标签,所述标签指示对应样本是否具有特定风险;
4、使用所述多个标签函数为所述样本集中的各个样本添加弱标签,得到标签矩阵;所述标签矩阵中任一位置的值指示其对应的标签函数针对该位置对应的样本是否具有特定风险的判定结果;
5、基于所述标签矩阵构造第一图结构;所述第一图结构中的节点对应标签函数,连接边的值指示其连接的两个节点所对应标签函数之间的潜在关联关系,任一连接边上具有相应的权重值;
6、基于所述第一图结构中各个连接边的值和权重值,确定最大熵模型;
7、基于噪声对比估计和图稀疏约束求解所述最大熵模型,得到各个连接边上的权重值的更新结果;
8、基于更新后的各个权重值,确定各个标签函数之间的第二图结构;所述第二图结构用于对所述样本集中的样本进行标注。
9、在一种可能的实施方式中,还包括:
10、基于所述第二图结构和所述标签矩阵,训练关于标签矩阵和样本标签的生成式模型;
11、根据所述生成式模型,确定所述样本集中各个样本的强标签;所述强标签指示对应样本是否具有特定风险。
12、在一种可能的实施方式中,还包括:
13、基于所述样本集以及强标签,训练风险识别模型;所述风险识别模型为判别式模型,用于判断样本是否具有特定风险。
14、在一种可能的实施方式中,所述标签函数至少包括以下一种或多种:关键词检索、模式匹配、第三方模型、远程监督和有噪声的人工标注。
15、在一种可能的实施方式中,所述第一图结构为全连接的无向图。
16、在一种可能的实施方式中,所述第一图结构包含连接了第一节点和第二节点的第一连接边,所述第一节点对应第一标签函数,所述第二节点对应第二标签函数;当所述第一标签函数和第二标签函数给第一样本添加的标签相同时,所述第一连接边的值为真;当所述第一标签函数和第二标签函数给第一样本添加的标签不同时,所述第一连接边的值为假。
17、在一种可能的实施方式中,基于所述第一图结构中各个连接边的值和权重值,确定最大熵模型,包括:
18、根据所述各个连接边的值的加权求和结果的自然指数结果与归一化常数的商,确定最大熵模型。
19、在一种可能的实施方式中,基于噪声对比估计和图稀疏约束求解所述最大熵模型,得到各个连接边上的权重值的更新结果,包括:
20、将噪声对比估计施加于所述最大熵模型,得到第一损失;
21、将所述图稀疏约束添加到所述第一损失中,得到第二损失;
22、对所述第二损失进行梯度下降,得到各个连接边上的权重值的更新结果。
23、在一种可能的实施方式中,将噪声对比估计施加于所述最大熵模型,得到第一损失,包括:
24、基于所述样本集中的样本和所述最大熵模型,确定第一期望值;
25、基于从噪声分布中采样得到的噪声样本和所述最大熵模型,确定第二期望值;
26、根据所述第一期望值和第二期望值,确定第一损失。
27、在一种可能的实施方式中,所述噪声分布为伯努利分布。
28、在一种可能的实施方式中,各个连接边上的权重值构成权重向量;所述图稀疏约束至少包括以下之一:所述权重向量的l1范数、所述权重向量的弹性网络范数。
29、在一种可能的实施方式中,基于更新后的各个权重值,确定各个标签函数之间的第二图结构,包括:
30、对于所述第一图结构中的任一目标连接边,其连接第一目标节点和第二目标节点,当所述目标连接边对应的更新后的目标权重值不为0时,则在第二图结构中对应的第一目标节点和第二目标节点之间建立连接边。
31、第二方面,提供了一种样本标注装置,包括:
32、获取单元,配置为,获取无标签的样本集以及多个标签函数,所述样本集中包含交易样本和/或用户样本,任一标签函数用于给样本添加标签,所述标签指示对应样本是否具有特定风险;
33、标签矩阵确定单元,配置为,使用所述多个标签函数为所述样本集中的各个样本添加弱标签,得到标签矩阵;所述标签矩阵中任一位置的值指示其对应的标签函数针对该位置对应的样本是否具有特定风险的判定结果;
34、第一图结构确定单元,配置为,基于所述标签矩阵构造第一图结构;所述第一图结构中的节点对应标签函数,连接边的值指示其连接的两个节点所对应标签函数之间的潜在关联关系,任一连接边上具有相应的权重值;
35、模型确定单元,配置为,基于所述第一图结构中各个连接边的值和权重值,确定最大熵模型;
36、模型求解单元,配置为,基于噪声对比估计和图稀疏约束求解所述最大熵模型,得到各个连接边上的权重值的更新结果;
37、第二图结构确定单元,配置为,基于更新后的各个权重值,确定各个标签函数之间的第二图结构;所述第二图结构用于对所述样本集中的样本进行标注。
38、在一种可能的实施方式中,还包括:
39、第一模型训练单元,配置为,基于所述第二图结构和所述标签矩阵,训练关于标签矩阵和样本标签的生成式模型;
40、样本标注单元,配置为,根据所述生成式模型,确定所述样本集中各个样本的强标签;所述强标签指示对应样本是否具有特定风险。
41、在一种可能的实施方式中,还包括:
42、第二模型训练单元,配置为,基于所述样本集以及强标签,训练风险识别模型;所述风险识别模型为判别式模型,用于判断样本是否具有特定风险。
43、第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
44、第四方面,提供了一种计算设备,包括存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
45、本说明书实施例提出的一种样本标注方法及装置,通过构建最大熵模型,对用户提供的标签函数之间的关联关系进行建模,并使用噪声对比估计和图稀疏约束求解该最大熵模型,以得到各个标签函数之间的关联关系。使得模型可以通过学习各个标签函数之间的图结构,综合用户提供的标签函数的标注结果,对样本给出可靠程度更高的标注。