利用机器学习的选择算子确定、策略组合优化方法及装置与流程

文档序号：30050002发布日期：2022-05-17 14:30阅读：196来源：国知局

1.本说明书一个或多个实施例涉及数据处理技术领域，尤其涉及一种利用机器学习的选择算子确定、策略组合优化方法及装置。

背景技术：

2.随着社会的发展和科技的进步，涌现出越来越多的业务平台，为用户提供各种服务，以满足用户在生活、工作中的各种需求。在业务平台向用户提供服务的过程中，往往会利用预先制定的策略进行与服务相关的决策。例如，信贷平台利用预设策略判别某个用户是否为风险用户，从而决策是否向其提供信用贷款服务。在实际应用中，为了优化决策效果，往往会先建立策略总集，从策略总集中选择最合适的决策组合进行使用。
3.因此，希望能有改进的方案，可以提高从策略总集中选择最合适的策略组合时的效果。

技术实现要素：

4.本说明书一个或多个实施例描述了一种利用机器学习的选择算子确定、策略组合优化方法及装置，以确定更合适的选择算子，进而提高从策略总集中选择最合适的策略组合时的效果。具体的技术方案如下。
5.第一方面，实施例提供了一种策略组合中的选择算子确定方法，所述选择算子用于在从第一策略总集中选择策略组合时确定策略组合针对多个风险用户样本的识别结果的识别效果评分，所述策略组合用于识别风险用户；所述方法包括：确定选择策略组合时的目标条件和约束条件；所述目标条件包括针对所述识别结果的目标值满足预设优选条件，约束条件包括针对所述识别结果的约束值满足预设限制条件；基于所述目标条件和约束条件构建待确定的选择算子，所述选择算子包含若干个基算子和对应的待确定的系数；确定所述系数的多组第一取值，得到对应的待选选择算子，针对任意一个待选选择算子，利用多个风险用户样本和该待选选择算子，从所述第一策略总集中选择识别效果评分最高的策略组合，并确定所述策略组合对应的识别结果的目标值；将所述多组第一取值作为训练样本，将对应的目标值作为训练样本的标注值，利用所述训练样本和对应的标注值，训练机器学习模型；确定所述系数的多组第二取值，将所述多组第二取值输入训练后的机器学习模型，得到对应的多组预测的目标值；基于已得的目标值中满足所述预设优选条件的目标值和对应的系数取值，确定选择算子。
6.在一种实施方式中，基于目标条件和约束条件构建待确定的选择算子的步骤，包括：
基于所述目标条件中的目标值和所述约束条件中的约束值，构建若干个基算子；基于为每个基算子分配的待确定的系数，对所述若干个基算子进行组合，得到待确定的选择算子。
7.在一种实施方式中，所述利用多个风险用户样本和该待选选择算子，从所述第一策略总集中选择识别效果评分最高的策略组合的步骤，包括：从所述第一策略总集中确定多组策略组合；针对任意一组策略组合，确定该组策略组合针对多个风险用户样本的识别结果，利用该待选选择算子确定所述识别结果的识别效果评分；当得到多组策略组合和对应的识别效果评分时，将最高的识别效果评分对应的策略组合确定为选出的策略组合。
8.在一种实施方式中，所述从所述第一策略总集中确定多组策略组合的步骤，包括：从所述第一策略总集中确定初始的多组策略组合；当从所述初始的多组策略组合中确定选出的策略组合之后，还包括：针对所述第一策略总集中除所述选出的策略组合之外的多个可选策略，将其分别添加至所述选出的策略组合，得到更新后的多组策略组合，返回执行针对任意一组策略组合，确定该组策略组合针对多个风险用户样本的识别结果的步骤。
9.在一种实施方式中，利用训练样本和对应的标注值，训练机器学习模型的步骤，包括：将所述训练样本输入所述机器学习模型，得到预测的样本目标值；基于所述训练样本对应的标注值与所述样本目标值的差异，确定预测损失；向减小所述预测损失的方向，更新所述机器学习模型。
10.在一种实施方式中，所述基于已得的目标值中满足所述预设优选条件的目标值和对应的系数取值，确定选择算子的步骤，包括：从已得的目标值中选择满足所述预设优选条件的第一数量个目标值，得到对应的第一数量组取值；基于所述第一数量组取值，确定第一数量个待选选择算子；针对任意一个待选选择算子，利用多个风险用户样本和该待选选择算子，从所述第一策略总集中选择识别效果评分最高的策略组合，并确定所述策略组合对应的识别结果的目标值，作为该待选选择算子对应的目标值；当得到所述第一数量个待选选择算子对应的目标值时，将满足所述预设优选条件的目标值对应的待选选择算子，确定为选择算子。
11.在一种实施方式中，任意一个风险用户样本包括对应用户的用户特征，任意一个策略组合中的策略包括：基于用户特征设定的判别条件，以及满足该判别条件时的风险判别结果。
12.在一种实施方式中，所述目标值包括识别出的风险用户数量，所述预设优选条件包括所述风险用户数量取最大值；所述约束值包括识别出的非风险用户数量，所述预设限制条件包括所述非风险用户数量取最小值。
13.在一种实施方式中，所述目标值包括识别出的风险用户的异常交易金额，所述预设优选条件包括所述异常交易金额取最大值；所述约束值包括识别出的风险用户的正常交
易金额，所述预设限制条件包括所述正常交易金额取最小值。
14.在一种实施方式中，所述机器学习模型采用线性回归模型或决策树模型训练。
15.第二方面，实施例提供了一种策略组合的优化方法，用于利用选择算子从第一策略总集中选择策略组合，所述选择算子用于确定策略组合针对多个风险用户样本的识别结果的识别效果评分，所述策略组合用于识别风险用户，所述方法包括：确定选择策略组合时的目标条件和约束条件；所述目标条件包括针对所述识别结果的目标值满足预设优选条件，约束条件包括针对所述识别结果的约束值满足预设限制条件；基于所述目标条件和约束条件构建待确定的选择算子，所述选择算子包含若干个基算子和对应的待确定的系数；确定所述系数的多组第一取值，得到对应的待选选择算子，针对任意一个待选选择算子，利用多个风险用户样本和该待选选择算子，从所述第一策略总集中选择识别效果评分最高的策略组合，并确定所述策略组合对应的识别结果的目标值；将所述多组第一取值作为训练样本，将对应的目标值作为训练样本的标注值，利用所述训练样本和对应的标注值，训练机器学习模型；确定所述系数的多组第二取值，将所述多组第二取值输入训练后的机器学习模型，得到对应的多组预测的目标值；基于已得的目标值中满足预设优选条件的目标值和对应的系数取值，确定选择算子；利用确定的选择算子，从所述第一策略总集中选择识别效果评分最高的策略组合，作为优化的策略组合。
16.第三方面，实施例提供了一种策略组合的优化方法，包括：获取待优化的第二策略总集；获取在第一方面中确定的选择算子；利用多个风险用户样本和所述确定的选择算子，从所述第二策略总集中选择识别效果评分最高的策略组合，作为优化的策略组合。
17.第四方面，实施例提供了一种策略组合中的选择算子确定方法，所述选择算子用于在从第一策略总集中选择策略组合时确定策略组合针对多个任务标注样本的识别结果的识别效果评分，所述策略组合用于执行指定识别任务；所述方法包括：确定选择策略组合时的目标条件和约束条件；所述目标条件包括针对所述识别结果的目标值满足预设优选条件，约束条件包括针对所述识别结果的约束值满足预设限制条件；基于所述目标条件和约束条件构建待确定的选择算子，所述选择算子包含若干个基算子和对应的待确定的系数；确定所述系数的多组第一取值，得到对应的待选选择算子，针对任意一个待选选择算子，利用多个任务标注样本和该待选选择算子，从所述第一策略总集中选择识别效果评分最高的策略组合，并确定所述策略组合对应的识别结果的目标值；将所述多组第一取值作为训练样本，将对应的目标值作为训练样本的标注值，利用所述训练样本和对应的标注值，训练机器学习模型；
确定所述系数的多组第二取值，将所述多组第二取值输入训练后的机器学习模型，得到对应的多组预测的目标值；基于已得的目标值中满足所述预设优选条件的目标值和对应的系数取值，确定选择算子。
18.第五方面，实施例提供了一种策略组合中的选择算子确定装置，所述选择算子用于在从第一策略总集中选择策略组合时确定策略组合针对多个风险用户样本的识别结果的识别效果评分，所述策略组合用于识别风险用户；所述装置包括：第一确定模块，配置为，确定选择策略组合时的目标条件和约束条件；所述目标条件包括针对所述识别结果的目标值满足预设优选条件，约束条件包括针对所述识别结果的约束值满足预设限制条件；第一构建模块，配置为，基于所述目标条件和约束条件构建待确定的选择算子，所述选择算子包含若干个基算子和对应的待确定的系数；第二确定模块，配置为，确定所述系数的多组第一取值，得到对应的待选选择算子，针对任意一个待选选择算子，利用多个风险用户样本和该待选选择算子，从所述第一策略总集中选择识别效果评分最高的策略组合，并确定所述策略组合对应的识别结果的目标值；第一训练模块，配置为，将所述多组第一取值作为训练样本，将对应的目标值作为训练样本的标注值，利用所述训练样本和对应的标注值，训练机器学习模型；第一预测模块，配置为，确定所述系数的多组第二取值，将所述多组第二取值输入训练后的机器学习模型，得到对应的多组预测的目标值；第三确定模块，配置为，基于已得的目标值中满足所述预设优选条件的目标值和对应的系数取值，确定选择算子。
19.第六方面，实施例提供了一种策略组合的优化装置，用于利用选择算子从第一策略总集中选择策略组合，所述选择算子用于确定策略组合针对多个风险用户样本的识别结果的识别效果评分，所述策略组合用于识别风险用户，所述装置包括：第一确定模块，配置为，确定选择策略组合时的目标条件和约束条件；所述目标条件包括针对所述识别结果的目标值满足预设优选条件，约束条件包括针对所述识别结果的约束值满足预设限制条件；第一构建模块，配置为，基于所述目标条件和约束条件构建待确定的选择算子，所述选择算子包含若干个基算子和对应的待确定的系数；第二确定模块，配置为，确定所述系数的多组第一取值，得到对应的待选选择算子，针对任意一个待选选择算子，利用多个风险用户样本和该待选选择算子，从所述第一策略总集中选择识别效果评分最高的策略组合，并确定所述策略组合对应的识别结果的目标值；第一训练模块，配置为，将所述多组第一取值作为训练样本，将对应的目标值作为训练样本的标注值，利用所述训练样本和对应的标注值，训练机器学习模型；第一预测模块，配置为，确定所述系数的多组第二取值，将所述多组第二取值输入训练后的机器学习模型，得到对应的多组预测的目标值；第三确定模块，配置为，基于已得的目标值中满足所述预设优选条件的目标值和
对应的系数取值，确定选择算子；第一优化模块，配置为，利用确定的选择算子，从所述第一策略总集中选择识别效果评分最高的策略组合，作为优化的策略组合。
20.第七方面，实施例提供了一种策略组合的优化装置，包括：第一获取模块，配置为，获取待优化的第二策略总集；第二获取模块，配置为，获取在第一方面中确定的选择算子；第二优化模块，配置为，利用多个风险用户样本和所述确定的选择算子，从所述第二策略总集中选择识别效果评分最高的策略组合，作为优化的策略组合。
21.第八方面，实施例提供了一种策略组合中的选择算子确定装置，所述选择算子用于在从第一策略总集中选择策略组合时确定策略组合针对多个任务标注样本的识别结果的识别效果评分，所述策略组合用于执行指定识别任务；所述装置包括：第一确定模块，配置为，确定选择策略组合时的目标条件和约束条件；所述目标条件包括针对所述识别结果的目标值满足预设优选条件，约束条件包括针对所述识别结果的约束值满足预设限制条件；第一构建模块，配置为，基于所述目标条件和约束条件构建待确定的选择算子，所述选择算子包含若干个基算子和对应的待确定的系数；第四确定模块，配置为，确定所述系数的多组第一取值，得到对应的待选选择算子，针对任意一个待选选择算子，利用多个任务标注样本和该待选选择算子，从所述第一策略总集中选择识别效果评分最高的策略组合，并确定所述策略组合对应的识别结果的目标值；第一训练模块，配置为，将所述多组第一取值作为训练样本，将对应的目标值作为训练样本的标注值，利用所述训练样本和对应的标注值，训练机器学习模型；第一预测模块，配置为，确定所述系数的多组第二取值，将所述多组第二取值输入训练后的机器学习模型，得到对应的多组预测的目标值；第三确定模块，配置为，基于已得的目标值中满足所述预设优选条件的目标值和对应的系数取值，确定选择算子。
22.第九方面，实施例提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面至第四方面中任一项所述的方法。
23.第十方面，实施例提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面至第四方面中任一项所述的方法。
24.本说明书实施例提供的方法及装置中，基于目标条件和约束条件构建待确定的选择算子，并通过对选择算子中的系数进行不同取值，得到对应的不同的待选选择算子，并通过系数的第一取值和对应的目标值，构建训练样本用于训练机器学习模型，利用该机器学习模型预测更多组系数取值的目标值，从中选择更优的目标值对应的系数取值，确定选择算子。本说明书实施例无需人工耗时耗力地构建选择算子，而是通过构建待选选择算子，自适应地从中选择出效果更好的选择算子，当提高了选择算子的效果时，也能相应地提高从策略总集中选择最合适策略组合时的效果。
附图说明
25.为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
26.图1为本说明书披露的一个实施例的实施场景示意图；图2为实施例提供的一种策略组合中的选择算子确定方法的流程示意图；图3为实施例提供的一种策略组合的优化方法的流程示意图；图4为实施例提供的一种策略组合的优化方法的流程示意图；图5为实施例提供的一种策略组合中的选择算子确定方法的流程示意图；图6为实施例提供的一种策略组合中的选择算子确定装置的示意性框图；图7为实施例提供的一种策略组合的优化装置的示意性框图；图8为实施例提供的一种策略组合的优化装置的示意性框图；图9为实施例提供的一种策略组合中的选择算子确定装置的示意性框图。
具体实施方式
27.下面结合附图，对本说明书提供的方案进行描述。
28.在许多业务场景中，策略总集中存在数以千计的大量备选策略，需要从中挑选出最合适策略子集（即策略组合），用于执行对应场景下的业务决策。其中，策略总集又称为策略池或策略库，策略又可以称为规则。通常，可以从策略总集中选取一定的策略组合，利用这些策略组合对多个风险用户样本进行识别，得到识别结果，利用选择算子从识别结果中确定该策略组合的识别效果评分。这样，可以得到多组策略组合的识别效果评分，将最高的识别效果评分对应的策略组合确定为最合适的策略组合。图1为本说明书披露的一个实施例的实施场景示意图，其中，策略总集中示例性地包含
①
、
②
、
③
等12个策略，从策略总集中可以选取策略组合，例如
①
和
②
、
①
和
③
、或
①
和
④
，利用这些策略组合对多个用户样本进行识别，分别得到对应的识别结果，利用选择算子分别从识别结果中确定识别效果评分，根据最高的识别效果评分即可找出最合适的策略组合。上述过程中从策略总集中选取策略组合时，可以采用一定的算法，例如贪心算法或其他算法。
29.其中，选择算子是一种用于从多个策略组合中选出最合适的策略组合的算子，通过该选择算子可以计算出识别结果的识别效果评分，作为对应的策略组合的识别效果，进而通过识别效果评分的数值来评价策略组合对风险用户的识别效果。也就是说，利用选择算子对识别结果进行计算，得到的算子值就是识别效果评分。选择算子可以表示成一种函数映射关系或计算公式，例如y=f（x），其中，x表示识别结果中的参量，y可以理解为选择算子，y值表示计算出的识别效果评分。
30.设计合适的选择算子才能选出合适的规则子集。通常，选择算子可以是某领域的专家结合领域知识和业务知识来定义的。但是，这种人工定义的方式耗时耗力。
31.本说明书实施例提供了一种选择算子确定方法，能够自适应地确定出优选的选择算子，进而能够利用该优选的选择算子，提高从策略总集中选择出最合适的策略组合时的效果。在该方法中，包括以下步骤：s210，确定选择策略组合时的目标条件和约束条件；目标
条件包括针对识别结果的目标值满足预设优选条件，约束条件包括针对识别结果的约束值满足预设限制条件；s220，基于所述目标条件和约束条件构建待确定的选择算子，所述选择算子包含若干个基算子和对应的待确定的系数；s230，确定系数的多组第一取值，得到对应的待选选择算子，针对任意一个待选选择算子，利用多个风险用户样本和该待选选择算子，从第一策略总集中选择识别效果评分最高的策略组合，并确定策略组合对应的识别结果的目标值；s240，将多组第一取值作为训练样本，将对应的目标值作为训练样本的标注值，利用训练样本和对应的标注值，训练机器学习模型；s250，确定系数的多组第二取值，将多组第二取值输入训练后的机器学习模型，得到对应的多组预测的目标值；s260，基于已得的目标值中满足所述预设优选条件的目标值和对应的系数取值，确定选择算子。
32.本实施例通过构建待选的选择算子，并利用多组系数取值和对应的目标值训练机器学习模型，从而快速地、自适应地从多个待选的选择算子中选择出效果更好的选择算子，无需通过人工的方式耗时耗力地构建选择算子，因此能够快速地、自适应地得到效果更好的选择算子，从而提高从策略总集中选择最合适策略组合时的效果。下面结合图2所示对本实施例进行详细说明。
33.图2为实施例提供的一种策略组合中的选择算子确定方法的流程示意图。其中，选择算子用于在从第一策略总集z1中选择策略组合时确定策略组合针对多个风险用户样本的识别结果的识别效果评分。也就是说，策略组合用于从多个风险用户样本中识别出风险用户（即识别结果），选择算子用于确定该风险用户的识别效果评分。其中，第一策略总集z1是任意一个针对识别风险用户而构建的策略总集。
34.多个风险用户样本可以理解为包含风险用户的多个用户样本，例如有n个用户样本，其中包含风险用户和正常用户（即非风险用户），风险用户是指存在风险的用户。这n个用户样本也可以称为风险用户样本，但这不代表提到风险用户样本时，该样本一定是风险用户。任意一个风险用户样本包括对应用户的用户特征。
35.任意一个策略组合中可以包含至少一条策略，任意一条策略包括：基于用户特征设定的判别条件，以及满足该判别条件时的风险判别结果。一条策略可以表示成if《判别条件》then《判断结果》。例如，某个策略为：if 《用户的不良交易记录大于1》 and 《用户存在未按期还款的次数大于2》 then 《该用户为风险用户》。
36.本方法实施例可以通过任何的计算设备执行，该计算设备可以通过任何具有计算、处理能力的装置、设备、平台、设备集群等来实现。
37.在步骤s210中，确定选择策略组合时的目标条件和约束条件。目标条件包括针对所述识别结果的目标值满足预设优选条件，约束条件包括针对所述识别结果的约束值满足预设限制条件。
38.在一种场景中，目标是尽可能识别更多的风险用户，约束是尽可能减少对正常用户的打扰。目标值obj可以包括识别出的风险用户数量，预设优选条件包括风险用户数量取最大值，目标条件可以表示为max（obj）。约束值cons包括识别出的非风险用户数量，预设限制条件包括非风险用户数量取最小值，约束条件可以表示为min（cons）。在一种实施方式中，上述的目标和约束可以交换。
39.在另一场景中，目标是识别出的风险用户的黑交易总和尽可能多，约束是识别出的风险用户的白交易总和尽可能少。黑交易是指异常交易，白交易是指正常交易。目标值
obj包括识别出的风险用户的异常交易金额，预设优选条件包括异常交易金额取最大值，目标条件可以表示为max（obj）。约束值cons包括识别出的风险用户的正常交易金额，预设限制条件包括正常交易金额取最小值，约束条件可以表示为min（cons）。本场景中的目标和约束可以交换。
40.目标条件和约束条件通常是相互限制、被反向要求的。目标条件可以包括针对一个或多个目标值的要求，约束条件也可以包括针对一个或多个约束值的要求。上述两段中仅以目标条件包括针对一个目标值的要求，约束条件包括针对一个约束值来举例。
41.在本步骤中，可以基于开发人员的输入操作确定目标条件和约束条件；目标条件和约束条件也可以预先存储到计算设备中，在需要确定选择算子时，获取预先存储的目标条件和约束条件。
42.在步骤s220中，基于目标条件和约束条件构建待确定的选择算子。选择算子包含若干个基算子和对应的待确定的系数。选择算子包含的基算子可以是一个或多个，每一个基算子都有对应的系数。该系数可以认为是该基算子在选择算子中的占比，可以理解为是权重的作用。
43.在具体实施时，可以基于目标值obj和预设优选条件、约束值cons和预设限制条件构建若干个基算子以及基算子之间的组合形式。
44.例如，可以基于目标值obj和约束值cons，构建若干个基算子；基于为每个基算子分配的待确定的系数，对若干个基算子进行组合，得到待确定的选择算子。其中，组合可以是线性组合，也可以是非线性组合。
45.例如，待确定的选择算子可以采用以下公式表示：其中，indicator是待确定的选择算子，sub_indicatori是第i个基算子，θi是第i个基算子的系数，k是基算子的数量。
46.利用目标值obj和约束值cons得到以下基算子：obj，1/cons，obj/cons，cons，1/obj，cons/obj，obj*cons，1/obj*cons等。
47.下面说明上述基算子的构建思路。目标和约束一般的要求是相反的，例如一个要求越大越好，另一个要求越小越好。下面以目标值obj越大越好，约束cons越小越好为例说明。根据这个性质，利用目标值和约束值构建基算子时，可以得到的基算子是obj和1/cons。利用这两个基算子，可以想到，obj和1/cons之间可以有很多组合形式来表达需要的算子，例如，两者相乘得到新的基算子obj/cons。
48.又因为，obj也可能是越小越好，cons可能是越大越好，所以可以对应地得到1/obj、cons、cons/obj这些基算子。为了全面描述，基算子还可以包含混合项，即obj * cons，以及1/obj * cons。这样就可以得到基算子sub_indicatori的以下表达形式：obj，1/cons，obj/cons，cons，1/obj，cons/obj，obj*cons，1/obj*cons。
49.在实际应用中，obj还可以采用δobj来代替。δobj表示在策略组合中增加一条策略时，给选择算子的值带来的增益值。
50.以上仅是以目标值和约束值均是一个为例进行的说明，根据以上的基算子构建思路，可以很容易地得到，当目标值是多个或约束值是多个时的基算子。
51.在步骤s230中，确定系数的多组第一取值，得到对应的待选选择算子indicatorj，针对任意一个待选选择算子indicatorj，利用多个风险用户样本和该待选选择算子indicatorj，从第一策略总集z1中选择识别效果评分最高的策略组合，并确定策略组合对应的识别结果的目标值。
52.基算子的系数可以是一个或多个，一组系数包含若干个基算子的系数的取值，例如一组系数θj可以表示为θj={θ
1j
,θ
2j
,
…
,θ
kj
}。每个系数可以在预设数值范围内取值。
53.在确定系数的多组第一取值时，可以利用随机搜索算法或网格搜索算法，确定系数的多组系数取值，作为多组第一取值，得到多个θj。多组第一取值的数量可以预先设定，例如可以根据要生成的训练样本的数量，确定多组第一取值的数量。例如，要生成n个训练样本，则在本步骤中可以确定n组第一取值。
54.在步骤s230中，针对任意一个待选选择算子indicatorj，利用多个风险用户样本和该待选选择算子，从第一策略总集z1中选择识别效果评分最高的策略组合时，可以采用多种实施方式。例如，从第一策略总集z1中确定多组策略组合，可以采用随机组合的方式得到多组策略组合；针对任意一组策略组合，确定该策略组合针对多个风险用户样本进行识别，得到包含风险用户的识别结果，利用该待选选择算子indicatorj确定该识别结果对应的识别效果评分。这样，可以得到多组策略组合和对应的识别效果评分，从而可以将识别效果评分最高的策略组合确定为选出的策略组合。
55.为了提高找到识别效果评分最高的策略组合的效率，可以采用以下步骤1a~4a的循环过程迭代地寻找识别效果评分最高的策略组合：步骤1a，从第一策略总集z1中确定初始的多组策略组合。初始时，可以将第一策略总集z1中的任意一个策略作为一组策略组合；步骤2a，针对任意一组策略组合，确定该组策略组合针对多个风险用户样本的识别结果，利用该待选选择算子确定该识别结果的识别效果评分；步骤3a，当得到多组策略组合和对应的识别效果评分时，将最高的识别效果评分对应的策略组合确定为选出的策略组合；步骤4a，针对第一策略总集z1中除选出的策略组合之外的多个可选策略，将其分别添加至选出的策略组合，得到更新后的多组策略组合，返回执行步骤2a。
56.在执行步骤2a时，当一组策略组合中包含多个策略时，可以将每个策略对多个风险用户样本进行识别，得到识别出的风险用户；当得到多个策略分别对应识别出的风险用户时，将这些风险用户求和，得到该组策略组合的识别结果。
57.当步骤1a~4a所示的循环迭代过程满足停止准则时，可以终止该循环迭代过程。其停止准则可以是识别效果评分达到最大值，或者识别效果评分开始减小时。由于目标和约束通常是反向变化的、相互制约的，从多个风险用户样本中识别出的风险用户数量不会一直增加，当达到一定程度时，约束值的作用会显示出来，从而限制识别效果评分的数值无法增加。
58.当存在多个待选选择算子indicatorj时，针对任意一个待选选择算子indicatorj都执行一遍上述循环迭代过程，找到与任意一个待选选择算子indicatorj对应的识别效果评分最高的策略组合，并确定该策略组合对应的识别结果的目标值。例如，当目标值是风险用户数量时，可以确定该策略组合对应的识别结果中的风险用户数量；当目标值是异常交
易金额时，可以确定该策略组合对应的识别结果中风险用户的异常交易金额。待选选择算子、识别效果评分最高的策略组合、目标值这三者之间是相互关联的一一对应关系。因此可以得到多个待选选择算子indicatorj分别对应的目标值。
59.在步骤s240中，将多组第一取值作为训练样本，将对应的目标值作为训练样本的标注值，利用训练样本和对应的标注值，训练机器学习模型。其中，机器学习模型可以采用线性回归模型lr或决策树模型xgb训练。机器学习模型用于预测训练样本对应的目标值。
60.在训练机器学习模型时，可以将训练样本输入机器学习模型，得到预测的样本目标值，基于训练样本对应的标注值与样本目标值的差异，确定预测损失，向减小预测损失的方向，更新机器学习模型。在将训练样本输入机器学习模型时，可以将训练样本分批输入训练模型，确定预测损失时，确定该分批训练样本对应的总预测损失，对机器学习模型进行一次更新。在确定预测损失loss时，可以采用确定标注值与样本目标值的平方误差的方式，确定预测损失。对机器学习模型进行多次更新，直至训练过程达到收敛条件。收敛条件可以是预测损失小于预设值，也可以是模型的更新次数达到预设次数等。
61.以线性回归模型为例，其预测的目标值y可以采用以下公式表示：y=α1*θ1+α2*θ2+
…
αk*θk其中，α1、α2、
…
、αk是机器学习模型中待训练的模型参数，θ1、θ2、
…
、θk是一组系数取值，也就是一个训练样本的特征。当机器学习模型训练完成时，即得到了较好的模型参数，进而可以利用该机器学习模型，预测一组或多组系数取值对应的目标值。
62.在步骤s250中，确定系数的多组第二取值，将多组第二取值输入训练后的机器学习模型，得到对应的多组预测的目标值。在确定系数的多组第二取值时，可以在系数的取值空间中随机取值。多组第二取值，一般来说与多组第一取值之间不存在重合的系数取值。因为，确定多组第二取值，是为了利用机器学习模型来预测该多组第二取值分别对应的目标值，多组第一取值对应的目标值已经在步骤s230中得到了。
63.多组第二取值的组数量可以很大。在将多组第二取值输入机器学习模型时，可以将每一组第二取值作为一个特征，输入机器学习模型，得到该组第二取值对应的预测的目标值。
64.相比于采用步骤s230确定一组系数取值对应的目标值，本步骤中采用机器学习模型预测更多组系数取值，能够更快速地确定多组系数取值对应的目标值，很大程度上提高找到符合条件的目标值的效率。
65.在步骤s260中，基于已得的目标值中满足预设优选条件的目标值和对应的系数取值，确定选择算子。其中，已得的目标值包括多组第二取值对应的预测的目标值和多组第一取值对应的目标值。对应的系数取值可以包括多组第二取值和多组第一取值。
66.在确定选择算子时，可以直接根据满足预设优选条件的目标值对应的系数取值，确定选择算子。目标值可以用于衡量多个最合适策略组合之间的优劣。例如，当预设优选条件是取目标值的最大值时，可以将最大的一个或多个目标值对应的待选选择算子确定为选择算子。当预设优选条件是取目标值的最小值时，可以将最小的一个或多个目标值对应的待选选择算子确定为选择算子。
67.在一种实施方式中，为了更准确地确定选择算子，在执行步骤s260时，可以按照以下步骤执行：
步骤1b，从已得的目标值中选择满足预设优选条件的第一数量m个目标值，得到对应的m组取值；步骤2b，基于m组取值，确定m个待选选择算子；步骤3b，针对任意一个待选选择算子，利用多个风险用户样本和该待选选择算子，从第一策略总集z1中选择识别效果评分最高的策略组合，并确定策略组合对应的识别结果的目标值，作为该待选选择算子对应的目标值；步骤4b，当得到m个待选选择算子对应的目标值时，将满足预设优选条件的目标值对应的待选选择算子，确定为选择算子。
68.其中，第一数量m可以是预先设定的数值，例如可以取10或20等。第一数量可以远小于第二取值的组数量。在步骤1b中，选择满足预设优选条件的第一数量个目标值时，当预设优选条件是取目标值的最大值时，可以选择最大的m个目标值。当预设优选条件是取目标值的最小值时，可以选择最小的m个目标值。在执行步骤3b时，可以参照步骤s230中的相关说明，此处不再赘述。在步骤4b中，当预设优选条件是取目标值的最大值时，可以从m个目标值中，将最大的一个或多个目标值对应的待选选择算子确定为选择算子。当预设优选条件是取目标值的最小值时，可以从m个目标值中，将最小的一个或多个目标值对应的待选选择算子确定为选择算子。
69.在本实施方式中，当利用机器学习模型得到多组第二取值对应的预测的目标值时，从中选择优选的多个预测的目标值，基于这些预测的目标值对应的系数取值确定待选选择算子，再利用多个风险用户样本从第一策略总集z1中确定每个待选选择算子对应的真实的目标值，利用真实的目标值从待选选择算子中确定选择算子。利用预测的目标值能够快速地缩小对系数取值的筛选范围，进而高效地找到最合适的选择算子。
70.以上步骤s210~s260的执行，确定了在目标条件和约束条件下的最合适的选择算子。而在确定该最合适的选择算子的过程中，实际上也从第一策略总集z1中确定了最合适的策略组合。因此，通过对步骤s210~s260的执行，也能在目标条件和约束条件下从第一策略总集z1中确定最合适的策略组合，将该最合适的策略组合用于识别风险用户。因此，基于图2所示实施例可以得到图3所示的策略组合的优化方法实施例。
71.图3为实施例提供的一种策略组合的优化方法的流程示意图。该方法用于利用选择算子从第一策略总集z1中选择策略组合。该选择算子用于确定策略组合针对多个风险用户样本的识别结果的识别效果评分，策略组合用于识别风险用户。该方法可以通过计算设备执行，包括以下步骤：步骤s310，确定选择策略组合时的目标条件和约束条件，目标条件包括针对识别结果的目标值满足预设优选条件，约束条件包括针对所述识别结果的约束值满足预设限制条件；步骤s320，基于目标条件和约束条件构建待确定的选择算子，选择算子包含若干个基算子和对应的待确定的系数；步骤s330，确定系数的多组第一取值，得到对应的待选选择算子，针对任意一个待选选择算子，利用多个风险用户样本和该待选选择算子，从第一策略总集z1中选择识别效果评分最高的策略组合，并确定该策略组合对应的识别结果的目标值；步骤s340，将多组第一取值作为训练样本，将对应的目标值作为训练样本的标注
值，利用训练样本和对应的标注值，训练机器学习模型；步骤s350，确定系数的多组第二取值，将所述多组第二取值输入训练后的机器学习模型，得到对应的多组预测的目标值；步骤s360，基于已得的目标值中满足预设优选条件的目标值和对应的系数取值，确定选择算子；步骤s370，利用确定的选择算子，从第一策略总集z1中选择识别效果评分最高的策略组合，作为优化的策略组合。
72.本实施例中，步骤s310~s360的执行过程与图2中步骤s210~s260的执行过程完全相同，具体说明可以参考图2所示实施例，此处不再赘述。
73.如果在步骤s360确定选择算子时，已经基于步骤1b~4b确定了m个待选选择算子对应的真实的目标值，那么在步骤s370中，可以直接获取确定的选择算子对应的识别效果评分最高的策略组合，将其作为优化后的策略组合，确定的优化的策略组合可以有一个或多个。在确定优化的策略组合之后，可以将该策略组合用于识别业务数据中的风险用户。业务数据可以包括用户的用户特征，该用户特征可以与上述多个风险用户样本中的用户特征具有相同的属性。
74.图2所示的方法实施例，利用第一策略总集z1确定出了最合适的选择算子，该选择算子还可以应用在从第二策略总集z2中确定优化的策略组合。从第二策略总集z2中选择策略组合时的目标条件和约束条件与步骤s210中的目标条件和约束条件分别相同。因此，本说明书还提供了图4所示的方法实施例。
75.图4为实施例提供的一种策略组合的优化方法的流程示意图。该方法通过计算设备执行，包括：在步骤s410中，获取待优化的第二策略总集z2。第二策略总集z2是为了从多个风险用户样本中识别出风险用户而构建的新的策略总集；在步骤s420中，获取采用图2所示实施例提供的方法确定的选择算子；在步骤s430中，利用多个风险用户样本和确定的选择算子，从第二策略总集z2中选择识别效果评分最高的策略组合，作为优化的策略组合。
76.多个风险用户样本的用户特征可以与图2所示实施例中的相同。在执行步骤s430时，可以按照步骤s230中提供的确定识别效果评分最高的策略组合的方法进行，此处不再详述。
77.以上实施例主要针对将策略组合和选择算子应用于风险用户识别场景进行的介绍。申请人通过研究发现，上述选择算子的确定方法和策略组合的优化方法还可以应用在其他的指定识别任务场景。例如，应用在最大配送覆盖、设备异常检测问题等场景中。其中，最大配送覆盖问题的目标在于选择骑手子集来覆盖更多的配送区域，设备异常检测问题的目的在于，检测出更多数量的异常设备。对此，本说明书还提供了一种应用于执行指定识别任务的场景的实施例。
78.图5为实施例提供的一种策略组合中的选择算子确定方法的流程示意图。该选择算子用于在从第一策略总集中选择策略组合时确定策略组合针对多个任务标注样本的识别结果的识别效果评分，策略组合用于执行指定识别任务。例如，当指定识别任务为设备异常检测时，某个策略可以为，if《设备温度高于200摄氏度》and《转速低于10r/s》then《设备
异常》。该方法通过计算设备执行，包括以下步骤。
79.步骤s510，确定选择策略组合时的目标条件和约束条件，目标条件包括针对所识别结果的目标值满足预设优选条件，约束条件包括针对识别结果的约束值满足预设限制条件。
80.例如，在设备异常检测场景中，任务标注样本包括设备的参数特征。目标值可以包括检测出的异常设备数量，预设优选条件包括异常设备数量取最大值；约束值可以包括检测出的正常设备数量，预设限制条件包括正常设备数量取最小值。
81.在最大配送覆盖场景中，策略总集包括的策略可以是骑手，任务标注样本包括每个骑手的配送范围，不同骑手对应不同的配送覆盖范围，策略组合代表骑手的组合，目标条件是策略组合中的骑手组合具有的配送覆盖范围取最大值（越大越好），约束条件是策略组合中的骑手数量取最小值（越小越好）。
82.步骤s520，基于目标条件和约束条件构建待确定的选择算子，选择算子包含若干个基算子和对应的待确定的系数。具体的，可以基于目标值和约束值，构建若干个基算子，基于为每个基算子分配的待确定的系数，对若干个基算子进行组合，得到待确定的选择算子。
83.步骤s530，确定系数的多组第一取值，得到对应的待选选择算子，针对任意一个待选选择算子，利用多个任务标注样本和该待选选择算子，从所述第一策略总集中选择识别效果评分最高的策略组合，并确定所述策略组合对应的识别结果的目标值。
84.在最大配送覆盖场景中，在执行针对任意一个待选选择算子，利用多个任务标注样本和该待选选择算子，从第一策略总集中选择识别效果评分最高的策略组合，并确定策略组合对应的识别结果的目标值的步骤时，确定一个策略组合，也就是确定了一个骑手组合，利用待选选择算子可以针对该骑手组合的配送覆盖范围确定识别效果评分。策略组合的目标值即是骑手组合的总的配送覆盖范围。
85.步骤s540，将所述多组第一取值作为训练样本，将对应的目标值作为训练样本的标注值，利用所述训练样本和对应的标注值，训练机器学习模型。
86.步骤s550，确定系数的多组第二取值，将多组第二取值输入训练后的机器学习模型，得到对应的多组预测的目标值。
87.步骤s560，基于已得的目标值中满足预设优选条件的目标值和对应的系数取值，确定选择算子。
88.本实施例的执行可以参照图2所示实施例中各个步骤的说明进行，此处不再赘述。图5所示实施例的执行，实际上也是确定最合适策略组合的过程，在步骤s560之后增加一个步骤，即利用确定的选择算子，从第一策略总集中选择识别效果评分最高的策略组合，作为优化的策略组合。这样，可以将图5所示实施例转换为一种策略组合的优化方法。
89.本说明书中，第一策略总集、第一取值中的“第一”，以及文中相应的“第二”，仅仅是为了区分和描述方便，而不具有任何限定意义。
90.上述内容对本说明书的特定实施例进行了描述，其他实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行，并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要按照示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理
也是可以的，或者可能是有利的。
91.图6为实施例提供的一种策略组合中的选择算子确定装置的示意性框图。该选择算子用于在从第一策略总集中选择策略组合时确定策略组合针对多个风险用户样本的识别结果的识别效果评分，策略组合用于识别风险用户。该装置实施例与图2所示方法实施例相对应。该装置600包括：第一确定模块610，配置为，确定选择策略组合时的目标条件和约束条件；所述目标条件包括针对所述识别结果的目标值满足预设优选条件，约束条件包括针对所述识别结果的约束值满足预设限制条件；第一构建模块620，配置为，基于所述目标条件和约束条件构建待确定的选择算子，所述选择算子包含若干个基算子和对应的待确定的系数；第二确定模块630，配置为，确定所述系数的多组第一取值，得到对应的待选选择算子，针对任意一个待选选择算子，利用多个风险用户样本和该待选选择算子，从所述第一策略总集中选择识别效果评分最高的策略组合，并确定所述策略组合对应的识别结果的目标值；第一训练模块640，配置为，将所述多组第一取值作为训练样本，将对应的目标值作为训练样本的标注值，利用所述训练样本和对应的标注值，训练机器学习模型；第一预测模块650，配置为，确定所述系数的多组第二取值，将所述多组第二取值输入训练后的机器学习模型，得到对应的多组预测的目标值；第三确定模块660，配置为，基于已得的目标值中满足所述预设优选条件的目标值和对应的系数取值，确定选择算子。
92.在一种实施方式中，所述第一构建模块620具体配置为：基于所述目标条件中的目标值和所述约束条件中的约束值，构建若干个基算子；基于为每个基算子分配的待确定的系数，对所述若干个基算子进行组合，得到待确定的选择算子。
93.在一种实施方式中，所述第二确定模块630，利用多个风险用户样本和该待选选择算子，从所述第一策略总集中选择识别效果评分最高的策略组合时，包括：组合子模块（图中未示出），配置为，从所述第一策略总集中确定多组策略组合；评分子模块（图中未示出），配置为，针对任意一组策略组合，确定该组策略组合针对多个风险用户样本的识别结果，利用该待选选择算子确定所述识别结果的识别效果评分；选出子模块（图中未示出），配置为，当得到多组策略组合和对应的识别效果评分时，将最高的识别效果评分对应的策略组合确定为选出的策略组合。
94.在一种实施方式中，所述组合子模块具体配置为，从所述第一策略总集中确定初始的多组策略组合；在第二确定模块630的选出子模块之后，还包括：添加子模块（图中未示出），配置为，当从所述初始的多组策略组合中确定选出的策略组合之后，针对所述第一策略总集中除所述选出的策略组合之外的多个可选策略，将其分别添加至所述选出的策略组合，得到更新后的多组策略组合，返回执行评分子模块。
95.在一种实施方式中，第一训练模块640具体配置为：
将所述训练样本输入所述机器学习模型，得到预测的样本目标值；基于所述训练样本对应的标注值与所述样本目标值的差异，确定预测损失；向减小所述预测损失的方向，更新所述机器学习模型。
96.在一种实施方式中，第三确定模块660包括：选择子模块（图中未示出），配置为，从已得的目标值中选择满足所述预设优选条件的第一数量个目标值，得到对应的第一数量组取值；待选子模块（图中未示出），配置为，基于所述第一数量组取值，确定第一数量个待选选择算子；识别子模块（图中未示出），配置为，针对任意一个待选选择算子，利用多个风险用户样本和该待选选择算子，从所述第一策略总集中选择识别效果评分最高的策略组合，并确定所述策略组合对应的识别结果的目标值，作为该待选选择算子对应的目标值；确定子模块（图中未示出），配置为，当得到所述第一数量个待选选择算子对应的目标值时，将满足所述预设优选条件的目标值对应的待选选择算子，确定为选择算子。
97.在一种实施方式中，任意一个风险用户样本包括对应用户的用户特征，任意一个策略组合中的策略包括：基于用户特征设定的判别条件，以及满足该判别条件时的风险判别结果。
98.在一种实施方式中，所述目标值包括识别出的风险用户数量，所述预设优选条件包括所述风险用户数量取最大值；所述约束值包括识别出的非风险用户数量，所述预设限制条件包括所述非风险用户数量取最小值。
99.在一种实施方式中，所述目标值包括识别出的风险用户的异常交易金额，所述预设优选条件包括所述异常交易金额取最大值；所述约束值包括识别出的风险用户的正常交易金额，所述预设限制条件包括所述正常交易金额取最小值。
100.在一种实施方式中，所述机器学习模型采用线性回归模型或决策树模型训练。
101.图7为实施例提供的一种策略组合的优化装置的示意性框图。该装置700用于利用选择算子从第一策略总集中选择策略组合，所述选择算子用于确定策略组合针对多个风险用户样本的识别结果的识别效果评分，所述策略组合用于识别风险用户。该装置实施例与图3所示实施例相对应。所述装置700包括：第一确定模块710，配置为，确定选择策略组合时的目标条件和约束条件；所述目标条件包括针对所述识别结果的目标值满足预设优选条件，约束条件包括针对所述识别结果的约束值满足预设限制条件；第一构建模块720，配置为，基于所述目标条件和约束条件构建待确定的选择算子，所述选择算子包含若干个基算子和对应的待确定的系数；第二确定模块730，配置为，确定所述系数的多组第一取值，得到对应的待选选择算子，针对任意一个待选选择算子，利用多个风险用户样本和该待选选择算子，从所述第一策略总集中选择识别效果评分最高的策略组合，并确定所述策略组合对应的识别结果的目标值；第一训练模块740，配置为，将所述多组第一取值作为训练样本，将对应的目标值作为训练样本的标注值，利用所述训练样本和对应的标注值，训练机器学习模型；第一预测模块750，配置为，确定所述系数的多组第二取值，将所述多组第二取值
输入训练后的机器学习模型，得到对应的多组预测的目标值；第三确定模块760，配置为，基于已得的目标值中满足所述预设优选条件的目标值和对应的系数取值，确定选择算子；第一优化模块770，配置为，利用确定的选择算子，从所述第一策略总集中选择识别效果评分最高的策略组合，作为优化的策略组合。
102.图8为实施例提供的一种策略组合的优化装置的示意性框图。该装置实施例与图4所示实施例相对应。该装置800包括：第一获取模块810，配置为，获取待优化的第二策略总集；第二获取模块820，配置为，获取图2所示方法实施例中确定的选择算子；第二优化模块830，配置为，利用多个风险用户样本和所述确定的选择算子，从所述第二策略总集中选择识别效果评分最高的策略组合，作为优化的策略组合。
103.图9为实施例提供的一种策略组合中的选择算子确定装置的示意性框图。选择算子用于在从第一策略总集中选择策略组合时确定策略组合针对多个任务标注样本的识别结果的识别效果评分，所述策略组合用于执行指定识别任务。该装置实施例与图5所示方法实施例相对应。所述装置900包括：第一确定模块910，配置为，确定选择策略组合时的目标条件和约束条件；所述目标条件包括针对所述识别结果的目标值满足预设优选条件，约束条件包括针对所述识别结果的约束值满足预设限制条件；第一构建模块920，配置为，基于所述目标条件和约束条件构建待确定的选择算子，所述选择算子包含若干个基算子和对应的待确定的系数；第四确定模块930，配置为，确定所述系数的多组第一取值，得到对应的待选选择算子，针对任意一个待选选择算子，利用多个任务标注样本和该待选选择算子，从所述第一策略总集中选择识别效果评分最高的策略组合，并确定所述策略组合对应的识别结果的目标值；第一训练模块940，配置为，将所述多组第一取值作为训练样本，将对应的目标值作为训练样本的标注值，利用所述训练样本和对应的标注值，训练机器学习模型；第一预测模块950，配置为，确定所述系数的多组第二取值，将所述多组第二取值输入训练后的机器学习模型，得到对应的多组预测的目标值；第三确定模块960，配置为，基于已得的目标值中满足所述预设优选条件的目标值和对应的系数取值，确定选择算子。
104.上述各个装置实施例提供的装置均可以部署在计算设备中，该计算设备可以通过任何具有计算、处理能力的装置、设备、平台、设备集群等来实现。上述装置实施例与方法实施例相对应，具体说明可以参见方法实施例部分的描述，此处不再赘述。装置实施例是基于对应的方法实施例得到，与对应的方法实施例具有同样的技术效果，具体说明可参见对应的方法实施例。
105.本说明书实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行图1至图5任一项所述的方法。
106.本说明书实施例还提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现图1至图5任一项所述的方法。
107.本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于存储介质和计算设备实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。
108.本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
109.以上所述的具体实施方式，对本发明实施例的目的、技术方案和有益效果进行了进一步的详细说明。所应理解的是，以上所述仅为本发明实施例的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：顾咏丰丁皓吴华
技术所有人：支付宝（杭州）信息技术有限公司
我是此专利的发明人

上一篇：一种预制墙体安装用快速定位装置的制作方法
上一篇：一种清淤工程用围堰装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。