一种业务数据处理方法、装置、电子设备及存储介质与流程

文档序号:31469047发布日期:2022-09-09 22:33阅读:67来源:国知局
一种业务数据处理方法、装置、电子设备及存储介质与流程

1.本技术涉及数据处理技术领域,尤其涉及一种业务数据处理方法、装置、电子设备及存储介质。


背景技术:

2.业务人员在面对海量的用户数据时,需要快速精准的确定各个用户的特点和/或分类,以便针对各个用户制定有针对性的业务服务策略。
3.相关技术中,比如应用机器学习模型来确定各个用户的特点和/或分类。但是,用户数据有很多,同一个用户的数据也涉及到不同的维度,每个维度的数据可以作为样本的特征。对于业务人员来说,不同的样本特征对于区分各个用户的特点和/或分类来说,其重要重度是有差别的。如果直接将样本的特征用来对模型进行训练,导致训练的模型不准确,进而区分的用户的特点和/或分类不准确。


技术实现要素:

4.本技术实施例提供一种业务数据处理方法、装置、电子设备及存储介质,用以提高根据用户数据划分用户所属的目标群体的准确性。
5.第一方面,本技术一实施例提供了一种业务数据处理方法,包括:
6.获取待处理的用户数据;所述用户数据包括用户基本信息和业务关联数据;
7.将所述待处理的用户数据输入至预先训练的机器学习模型,确定输出的所述用户所属的目标群体;
8.其中,通过如下方式确定所述机器学习模型的训练过程应用到的目标训练样本集合:
9.根据训练样本集合确定训练样本特征集合;其中,所述训练样本集合中的每个训练样本包括训练样本用户的基本信息和所述训练样本用户的业务关联数据;
10.将所述训练样本特征集合中的连续特征进行离散化处理,将离散化处理得到的离散特征和所述训练样本特征集合中的离散特征构成目标训练特征集合;
11.针对所述目标训练特征集合中的任意一个离散特征,确定所述离散特征的分布差异指数;其中,所述分布差异指数表征所述离散特征在正例样本与负例样本中的差异程度;所述正例样本为基本信息满足预设用户属性和/或所述业务关联数据满足预设业务属性的样本,所述负例样本为基本信息不满足预设用户属性且所述业务关联数据不满足预设业务属性的样本;
12.基于各个所述离散特征的分布差异指数对各个所述离散特征筛选,基于得到的基准特征集合确定目标训练样本集合。
13.在一些示例性的实施方式中,所述确定所述离散特征的分布差异指数,包括:
14.统计所有正例样本在所述离散特征上的第一取值计数向量,以及统计所有负例样本在所述离散特征上的第二取值计数向量;
15.根据所述第一取值计数向量和所述正例样本的总数确定所述正例样本在所述离散特征上的第一分布概率向量,以及根据所述第二取值计数向量和所述负例样本的总数确定所述负例样本在所述离散特征上的第二分布概率向量;
16.根据所述第一分布概率向量、所述第二分布概率向量,以及所述离散特征的不同取值的数量,确定所述离散特征的分布差异指数。
17.在一些示例性的实施方式中,所述统计所有正例样本在所述离散特征上的第一取值计数向量,包括:
18.针对所述离散特征的每个取值,确定所有所述正例样本中所述离散特征为所述取值的正例样本的第一数量;
19.将各个第一数量作为第一取值计数向量的元素,构成所述第一取值计数向量;
20.所述统计所有负例样本在所述离散特征上的第二取值计数向量,包括:
21.针对所述离散特征的每个取值,确定所有所述负例样本中所述离散特征为所述取值的负例样本的第二数量;
22.将各个第二数量作为第二取值计数向量的元素,构成所述第二取值计数向量。
23.在一些示例性的实施方式中,所述根据所述第一分布概率向量、所述第二分布概率向量,以及所述离散特征的不同取值的数量,确定所述离散特征的分布差异指数,包括:
24.针对每个取值,根据所述取值对应的第一数量在所述第一取值计数向量中的元素的位置,确定所述第一分布概率向量中的所述取值对应的第一概率;根据所述取值对应的第一数量在所述第一取值计数向量中的元素的位置,确定第二分布概率向量中的所述取值对应的第二概率;根据所述第一概率与所述第二概率的差值的绝对值,以及所述离散特征的不同取值的数量确定所述取值对应的参考指数;
25.将各个取值对应的参考指数的和确定为所述离散特征的分布差异指数。
26.在一些示例性的实施方式中,所述基于各个所述离散特征的分布差异指数对各个所述离散特征筛选,得到基准特征集合,包括:
27.选取分布差异指数大于预设指数阈值的离散特征构成基准特征集合;或
28.按照分布差异指数的大小选取预设数量的离散特征构成基准特征集合。
29.在一些示例性的实施方式中,所述基于得到的基准特征集合确定目标训练样本集合之后,还包括:
30.按照预设展示方式展示所述基准特征集合;
31.其中,针对任意一个基准特征,若所述基准特征对应的原始特征的特征取值的范围跨度大于预设阈值,则所述预设展示方式为折线对比图方式;若所述基准特征对应的原始特征的特征取值的范围跨度小于或等于预设阈值,则所述预设展示方式直方对比图方式;所述折线对比图以及所述直方对比图的横坐标为所述基准特征对应的取值,纵坐标为所述基准特征对应的第一概率分布向量中各个元素的取值以及第二概率分布向量中各个元素的取值。
32.在一些示例性的实施方式中,所述方法还包括:
33.针对任意一个目标测试样本的任意一个离散特征,基于所述机器模型对所述目标测试样本的预测结果确定所述目标测试样本在所述离散特征上的shap值;其中,所述目标测试样本为将测试样本经过离散化处理操作后得到的;所述测试样本包括测试样本用户的
基本信息和所述测试样本用户的业务关联数据;
34.对所有目标测试样本在所述离散特征上的shap值进行加权平均处理,得到所述离散特征与各个所述目标测试样本的预测结果的关联度;其中,所述关联度表征对应的离散特征在模型训练过程中的决策程度;
35.确定各个离散特征对应的关联度。
36.在一些示例性的实施方式中,所述基于所述机器模型对所述目标测试样本的预测结果确定所述目标测试样本在所述离散特征上的shap值之后,所述方法还包括:
37.针对任意一个所述离散特征,按照散点图展示方式展示各个目标测试样本的所述离散特征的预测结果;
38.其中,所述散点图的横坐标为所述离散特征的shap值,所述散点图的纵坐标为所述离散特征的取值;其中,所述散点图表征所述离散特征的各个取值对各个目标测试样本的所述离散特征的预测结果的影响程度。
39.第二方面,本技术一实施例提供了一种业务数据处理装置,包括:
40.数据获取模块,用于获取待处理的用户数据;所述用户数据包括用户基本信息和业务关联数据;
41.确定模块,用于将所述待处理的用户数据输入至预先训练的机器学习模型,确定输出的所述用户所属的目标群体;
42.其中,还包括模型训练模块,用于通过如下方式确定所述机器学习模型的训练过程应用到的目标训练样本集合:
43.根据训练样本集合确定训练样本特征集合;其中,所述训练样本集合中的每个训练样本包括训练样本用户的基本信息和所述训练样本用户的业务关联数据;
44.将所述训练样本特征集合中的连续特征进行离散化处理,将离散化处理得到的离散特征和所述训练样本特征集合中的离散特征构成目标训练特征集合;
45.针对所述目标训练特征集合中的任意一个离散特征,确定所述离散特征的分布差异指数;其中,所述分布差异指数表征所述离散特征在正例样本与负例样本中的差异程度;所述正例样本为基本信息满足预设用户属性和/或所述业务关联数据满足预设业务属性的样本,所述负例样本为基本信息不满足预设用户属性且所述业务关联数据不满足预设业务属性的样本;
46.基于各个所述离散特征的分布差异指数对各个所述离散特征筛选,基于得到的基准特征集合确定目标训练样本集合。
47.在一些示例性的实施方式中,所述模型训练模块具体用于:
48.统计所有正例样本在所述离散特征上的第一取值计数向量,以及统计所有负例样本在所述离散特征上的第二取值计数向量;
49.根据所述第一取值计数向量和所述正例样本的总数确定所述正例样本在所述离散特征上的第一分布概率向量,以及根据所述第二取值计数向量和所述负例样本的总数确定所述负例样本在所述离散特征上的第二分布概率向量;
50.根据所述第一分布概率向量、所述第二分布概率向量,以及所述离散特征的不同取值的数量,确定所述离散特征的分布差异指数。
51.在一些示例性的实施方式中,所述模型训练模块具体用于:
52.针对所述离散特征的每个取值,确定所有所述正例样本中所述离散特征为所述取值的正例样本的第一数量;
53.将各个第一数量作为第一取值计数向量的元素,构成所述第一取值计数向量;
54.所述统计所有负例样本在所述离散特征上的第二取值计数向量,包括:
55.针对所述离散特征的每个取值,确定所有所述负例样本中所述离散特征为所述取值的负例样本的第二数量;
56.将各个第二数量作为第二取值计数向量的元素,构成所述第二取值计数向量。
57.在一些示例性的实施方式中,所述模型训练模块具体用于:
58.针对每个取值,根据所述取值对应的第一数量在所述第一取值计数向量中的元素的位置,确定所述第一分布概率向量中的所述取值对应的第一概率;根据所述取值对应的第一数量在所述第一取值计数向量中的元素的位置,确定第二分布概率向量中的所述取值对应的第二概率;根据所述第一概率与所述第二概率的差值的绝对值,以及所述离散特征的不同取值的数量确定所述取值对应的参考指数;
59.将各个取值对应的参考指数的和确定为所述离散特征的分布差异指数。
60.在一些示例性的实施方式中,所述模型训练模块具体用于:
61.选取分布差异指数大于预设指数阈值的离散特征构成基准特征集合;或
62.按照分布差异指数的大小选取预设数量的离散特征构成基准特征集合。
63.在一些示例性的实施方式中,还包括第一展示模块,用于在基于得到的基准特征集合确定目标训练样本集合之后,按照预设展示方式展示所述基准特征集合;
64.其中,第一展示模块具体用于:针对任意一个基准特征,若所述基准特征对应的原始特征的特征取值的范围跨度大于预设阈值,则所述预设展示方式为折线对比图方式;若所述基准特征对应的原始特征的特征取值的范围跨度小于或等于预设阈值,则所述预设展示方式直方对比图方式;所述折线对比图以及所述直方对比图的横坐标为所述基准特征对应的取值,纵坐标为所述基准特征对应的第一概率分布向量中各个元素的取值以及第二概率分布向量中各个元素的取值。
65.在一些示例性的实施方式中,还包括测试模块,所述测试模块具体用于:
66.针对任意一个目标测试样本的任意一个离散特征,基于所述机器模型对所述目标测试样本的预测结果确定所述目标测试样本在所述离散特征上的shap值;其中,所述目标测试样本为将测试样本经过离散化处理操作后得到的;所述测试样本包括测试样本用户的基本信息和所述测试样本用户的业务关联数据;
67.对所有目标测试样本在所述离散特征上的shap值进行加权平均处理,得到所述离散特征与各个所述目标测试样本的预测结果的关联度;其中,所述关联度表征对应的离散特征在模型训练过程中的决策程度;
68.确定各个离散特征对应的关联度。
69.在一些示例性的实施方式中,还包括第二展示模块,用于在所述基于所述机器模型对所述目标测试样本的预测结果确定所述目标测试样本在所述离散特征上的shap值之后:
70.针对任意一个所述离散特征,按照散点图展示方式展示各个目标测试样本的所述离散特征的预测结果;
71.其中,所述散点图的横坐标为所述离散特征的shap值,所述散点图的纵坐标为所述离散特征的取值;其中,所述散点图表征所述离散特征的各个取值对各个目标测试样本的所述离散特征的预测结果的影响程度。
72.第三方面,本技术一实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行计算机程序时实现上述任一种方法的步骤。
73.第四方面,本技术一实施例提供了一种计算机可读存储介质,其上存储有计算机程序指令,该计算机程序指令被处理器执行时实现上述任一种方法的步骤。
74.第五方面,本技术一实施例提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如本技术第一方面中提供的任一方法的步骤。
75.本技术实施例具备如下有益效果:
76.通过将待处理包括用户基本信息和业务关联数据的用户数据输入至预先训练的机器学习模型,可以确定该用户所属的目标群体。而在这个过程中,在机器学习模型训练的过程中,对训练样本集合进行一系列处理,得到目标训练样本集合,应用该目标训练样本集合进行训练。该有一些处理中,首先是将训练样本特征集合中的连续特征进行离散化处理,将离散化处理得到的离散特征和训练样本特征集合中的离散特征构成目标训练特征集合;其次,针对目标训练特征集合中的任意一个离散特征,确定表征离散特征在正例样本与负例样本中的差异程度的分布差异指数。再基于各个离散特征的分布差异指数对各个离散特征筛选,筛选出特征的取值分布在正例样本和负例样本中存在明显差异(表明该特征能有效区分正例样本与负例样本)的特征,这样,应用基于得到的基准特征集合确定目标训练样本集合对机器学习模型进行训练,得到的机器学习模型在对用户数据进行预测时,提高根据用户数据划分用户所属的目标群体的准确性。
附图说明
77.为了更清楚地说明本技术实施例的技术方案,下面将对本技术实施例中所需要使用的附图作简单地介绍,显而易见地,下面所介绍的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
78.图1为本技术一实施例提供的一种业务数据处理方法的应用场景示意图;
79.图2为本技术一实施例提供的一种业务数据处理方法的流程示意图;
80.图3为本技术一实施例提供的一种训练样本集合的处理过程的示意图;
81.图4为本技术一实施例提供的一种正例样本和负例样本在“年龄”特征上的分布对比的示意图;
82.图5为本技术一实施例提供的一种正例样本和负例样本在“车主标识”特征上的分布对比的示意图;
83.图6为本技术一实施例提供的一种离散特征36的取值的预测结果的相关性分析的示意图;
84.图7为本技术一实施例提供的一种业务数据处理装置的结构示意图;
85.图8为本技术一实施例提供的一种电子设备的结构示意图。
具体实施方式
86.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述。
87.为了方便理解,下面对本技术实施例中涉及的名词进行解释:
88.(1)机器学习:指计算机利用已有的数据,从已有的数据中训练学习得出某种模型,并利用此模型预测结果的一种方法。
89.(2)shap:全称为shapley additive explanation,是python开发的一个“模型解释”包,可以解释任何机器学习模型的输出。
90.附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
91.在具体实践过程中,在面对海量的用户数据时,需要快速精准的确定各个用户的特点和/或分类,以便针对各个用户制定有针对性的业务服务策略。由于用户数据有很多,同一个用户的数据也涉及到不同的维度,每个维度的数据可以作为样本的特征。对于业务人员来说,不同的样本特征对于区分各个用户的特点和/或分类来说,其重要重度是有差别的。如果直接将样本的特征用来对模型进行训练,导致训练的模型不准确,进而区分的用户的特点和/或分类不准确。
92.为此,本技术提供了一种业务数据处理方法,该方法中,获取待处理的用户数据;用户数据包括用户基本信息和业务关联数据;将待处理的用户数据输入至预先训练的机器学习模型,确定输出的用户所属的目标群体。该过程中,通过对训练样本集合确定的训练样本特征集合进行处理,筛选出在正例样本和负例样本中差异程度大的离散特征作为基准特征,再根据得到的基准特征确定目标训练样本集合。应用该方式得到的目标训练样本集合训练得到的机器学习模型来确定用户所属的目标群体,用以提高根据用户数据划分用户所属的目标群体的准确性。
93.在介绍完本技术实施例的设计思想之后,下面对本技术实施例的技术方案能够适用的应用场景做一些简单介绍,需要说明的是,以下介绍的应用场景仅用于说明本技术实施例而非限定。在具体实施时,可以根据实际需要灵活地应用本技术实施例提供的技术方案。
94.参考图1,其为本技术实施例提供的一种业务数据处理方法的应用场景示意图。其中,一个用户对应一条用户数据,用户数据以20万条为例,为了让业务人员更准确的为各个用户制定服务策略,应用本技术实施例中的业务数据处理方法(11为业务数据处理设备),将20万条用户数据分类,确定适合做风险投资类、适合做稳健投资类以及适合做小额灵活储蓄类。这样,业务员人员可以根据分类结果了解各个用户的特性。
95.当然,本技术实施例提供的方法并不限用于图1所示的应用场景中,还可以用于其它可能的应用场景,本技术实施例并不进行限制。对于图1所示的应用场景的各个设备所能实现的功能将在后续的方法实施例中一并进行描述,在此先不过多赘述。
96.为进一步说明本技术实施例提供的技术方案,下面结合附图以及具体实施方式对此进行详细的说明。虽然本技术实施例提供了如下述实施例或附图所示的方法操作步骤,但基于常规或者无需创造性的劳动在方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中,这些步骤的执行顺序不限于本技术实施例提供的执行顺
序。
97.下面结合图1所示的应用场景,对本技术实施例提供的技术方案进行说明。
98.参考图2,本技术实施例提供一种业务数据处理方法,包括以下步骤:
99.s201、获取待处理的用户数据;用户数据包括用户基本信息和业务关联数据。
100.s202、将待处理的用户数据输入至预先训练的机器学习模型,确定输出的用户所属的目标群体。
101.其中,通过如下方式确定机器学习模型的训练过程应用到的目标训练样本集合:
102.根据训练样本集合确定训练样本特征集合;其中,训练样本集合中的每个训练样本包括训练样本用户的基本信息和训练样本用户的业务关联数据;
103.将训练样本特征集合中的连续特征进行离散化处理,将离散化处理得到的离散特征和训练样本特征集合中的离散特征构成目标训练特征集合;
104.针对目标训练特征集合中的任意一个离散特征,确定离散特征的分布差异指数;其中,分布差异指数表征离散特征在正例样本与负例样本中的差异程度;正例样本为基本信息满足预设用户属性和/或业务关联数据满足预设业务属性的样本,负例样本为基本信息不满足预设用户属性且业务关联数据不满足预设业务属性的样本;
105.基于各个离散特征的分布差异指数对各个离散特征筛选,基于得到的基准特征集合确定目标训练样本集合。
106.通过将待处理包括用户基本信息和业务关联数据的用户数据输入至预先训练的机器学习模型,可以确定该用户所属的目标群体。而在这个过程中,在机器学习模型训练的过程中,对训练样本集合进行一系列处理,得到目标训练样本集合,应用该目标训练样本集合进行训练。该有一些处理中,首先是将训练样本特征集合中的连续特征进行离散化处理,将离散化处理得到的离散特征和训练样本特征集合中的离散特征构成目标训练特征集合;其次,针对目标训练特征集合中的任意一个离散特征,确定表征离散特征在正例样本与负例样本中的差异程度的分布差异指数。再基于各个离散特征的分布差异指数对各个离散特征筛选,筛选出特征的取值分布在正例样本和负例样本中存在明显差异(表明该特征能有效区分正例样本与负例样本)的特征,这样,应用基于得到的基准特征集合确定目标训练样本集合对机器学习模型进行训练,得到的机器学习模型在对用户数据进行预测时,提高根据用户数据划分用户所属的目标群体的准确性。
107.涉及到s201,获取待处理的用户数据,该用户数据包括用户基本信息和业务关联数据,其中,用户基本信息包括用户年龄、性别、工作、自有住房情况、存款和年收入等,业务关联数据包括历史投资数据、投资风险评估报告、可接受最高投资额度等。
108.涉及到s202,在获取到待处理的用户数据后,为了确定该用户所属的目标群体,将该待处理的用户数据输入至预先训练的机器学习模型(gbm或者随机森林),这样确定目标用户所属的群体后,比如是投资金额为10万,以便业务人员向该用户推荐合适的产品。
109.示例性的,结合图3,通过如下方式确定机器学习模型的训练过程应用到的目标训练样本集合:
110.s301、根据训练样本集合确定训练样本特征集合;其中,训练样本集合中的每个训练样本包括训练样本用户的基本信息和训练样本用户的业务关联数据。
111.s302、将训练样本特征集合中的连续特征进行离散化处理,将离散化处理得到的
离散特征和训练样本特征集合中的离散特征构成目标训练特征集合。
112.s303、针对目标训练特征集合中的任意一个离散特征,确定离散特征的分布差异指数;其中,分布差异指数表征离散特征在正例样本与负例样本中的差异程度;正例样本为基本信息满足预设用户属性和/或业务关联数据满足预设业务属性的样本,负例样本为基本信息不满足预设用户属性且业务关联数据不满足预设业务属性的样本。
113.s304、基于各个离散特征的分布差异指数对各个离散特征筛选,基于得到的基准特征集合确定目标训练样本集合。
114.应用上述方式对各个离散特征进行筛选,进而得到参与模型训练的样本的特征均为在正例样本与负例样本中的差异程度较大的(也即有效的特征,使模型的特定指标最优化,提高在用户数据预测过程中机器学习算法的性能),这样训练得到的机器学习模型更准确,应用该机器学习模型对用户数据进行预测确定用户所属的目标群体也更准确。
115.在根据用户数据确定用户特点/类别,或者确定用户所属群体后,目的是指导业务人员准确了解用的特点,以便有针对性的提供服务策略。因此,该过程主要面向业务人员,若业务人员基于已有业务经验和主观判断来选择一定数量的特征作为模型输入,这种筛选方式主观性强,带有业务人员个体认知的差异,难以复用。
116.另外,与现有技术中的应用现有方法计算各个特征的方差、特征对目标值的相关系数、各个特征对目标的相关性,然后根据阈值选择计算结果大于阈值的特征作为建模特征相比,无需建模人员(业务人员)理解相关指标原理,也无需依赖算法工程师的分析经验,筛选过程更直观,降低了业务人员的操作难度。
117.涉及到s301,获取多个训练样本,构成训练样本集合,每个训练样本用户的数据为一个训练样本,每个训练样本包括训练样本用户的基本信息和业务关联数据。提取各个样本用户的特征,得到训练样本特征集合。在一个具体的例子中,训练样本特征集合中的特征主要包括连续特征和离散特征两类,其中,连续特征比如是用户年龄、投资意向金额等,离散特征可以是用户性别等。
118.涉及到s302,为了降低连续特征和离散特征自身特征差异带来的误差,这里将连续特定均进行离散化处理,并将处理后得到离散特征和原本的离散特征进行组合,得到目标训练特征集合,也即,目标训练特征集合中的任意一个特征均为离散特征。
119.在一个具体的例子中,对离散化处理的过程进行说明:
120.使用等距分箱法对所有连续特征进行分箱处理,假设一共包括m个连续特征,以第i个连续特征为例,假设mi表示样本在特征i上的取值,max(mi)是所有样本中第i个连续特征的最大值,min(mi)是所有样本中第i个连续特征的最小值,将连续型特征统一映射到k(分箱个数)个区间,则特征i每个分箱区间对应的分箱宽度为:
[0121][0122]
进一步得到分箱区间的分界点为向量:
[0123][0124]
根据上述计算的分界点,若为1,则将原始取值mi设置为[0,1,2,...k]的某个值。
[0125]
涉及到s303,在离散化处理后,目标训练特征集合中均为离散特征,接下来,针对每个离散特征,确定该离散特征的分布差异指数,其中,分布差异指数表征该离散特征在正例样本与负例样本中的差异程度,差异程度越大,表明该离散特征在模型训练过程中起作用越大。在实际的应用过程中,训练样本集合中的样本可以按照是否满足预设用户属性和/或业务关联数据是否满足预设业务属性的条件,划分为正例样本和负例样本。其中,预设用户属性比如是25-45岁的人群,预设业务属性比如是投资意向金大于100万。这样可以将符合二者作为正例样本,不符合的作为负例样本。
[0126]
在一个具体的例子中,针对任意一个离散特征,通过如下方式确定该离散特征的分布差异指数:
[0127]
a、统计所有正例样本在离散特征上的第一取值计数向量,以及统计所有负例样本在离散特征上的第二取值计数向量。
[0128]
步骤a中,统计第一取值计数向量的方式通过如下方式实现:
[0129]
a1、针对离散特征的每个取值,确定所有正例样本中离散特征为取值的正例样本的第一数量。
[0130]
其中,离散特征以年龄为例,如果在全部训练样本中,年龄的取值为20到60岁不等的41个取值,针对每个取值,确定所有正例样本中离散特征取值为20的正例样本有多少个,记为第一数量。这样针对41个取值,得到41个第一数量。
[0131]
a2、将各个第一数量作为第一取值计数向量的元素,构成第一取值计数向量。
[0132]
其中,将41个第一数量作为第一取值计数向量的元素,各个元素的顺序可以预先设定,比如按照取值从小到大的顺序作为各个元素的顺序,这样可以构成第一取值计数向量。
[0133]
步骤a中,统计第二取值计数向量的方式通过如下方式实现:
[0134]
a3、针对离散特征的每个取值,确定所有负例样本中离散特征为取值的负例样本的第二数量。
[0135]
其中,离散特征仍以年龄为例,确定所有正例样本中离散特征取值为20的负例样本有多少个,记为第二数量。这样针对41个取值,得到41个第二数量。
[0136]
a4、将各个第二数量作为第二取值计数向量的元素,构成第二取值计数向量。
[0137]
其中,将41个第二数量作为第二取值计数向量的元素,各个元素的顺序可以预先设定,比如按照取值从小到大的顺序作为各个元素的顺序,这样可以构成第二取值计数向量。
[0138]
b、根据第一取值计数向量和正例样本的总数确定正例样本在离散特征上的第一分布概率向量,以及根据第二取值计数向量和负例样本的总数确定负例样本在离散特征上的第二分布概率向量。
[0139]
其中,将第一取值计数向量中的各个元素除以正例样本的总数,得到正例样本在离散特征上的第一分布概率向量;将第二取值计数向量中的各个元素除以负例样本的总数,得到负例样本在离散特征上的第二分布概率向量。
[0140]
c、根据第一分布概率向量、第二分布概率向量,以及离散特征的不同取值的数量,确定离散特征的分布差异指数。
[0141]
在步骤c中,确定该离散特征的分布差异指数通过如下方式实现:
[0142]
c1、针对每个取值,根据取值对应的第一数量在第一取值计数向量中的元素的位置,确定第一分布概率向量中的取值对应的第一概率;根据取值对应的第二数量在第二取值计数向量中的元素的位置,确定第二分布概率向量中的取值对应的第二概率;根据第一概率与第二概率的差值的绝对值,以及离散特征的不同取值的数量确定取值对应的参考指数。
[0143]
其中,仍以上述年龄为例,比如取值为20,则根据对应的第一数量m1在第一取值计数向量中的元素的位置,比如第一个,确定取值20对应的第一概率p1。同理,确定该取值对应的第二概率p2。再根据二者的差值的绝对值和离散特征的不同取值的数量确定取值对应的参考指数。
[0144]
c2、将各个取值对应的参考指数的和确定为离散特征的分布差异指数。
[0145]
如上,将各个取值(20到60)对应的参考指数进行加和,得到该离散特征的分布差异指数。
[0146]
在一个具体的例子中,以一个离散特征为例,对该离散特征的分布差异指数进行说明:
[0147]
经过离散处理后,m为所有特征,其维度为|m|,假设特征i共有n个取值,分别统计正例样本和负例样本在特征i上的每个取值的个数向量。用表示正例样本在第i个特征上取值计数向量(第一取值计数向量),用f
qi
表示负例样本在第i个特征上的取值计数向量(第二取值计数向量)。如下:
[0148][0149]qit
为正例样本在特征i上取值为t的样本数
[0150][0151]
q`
it
为负例样本在特征i上取值为t的样本数。
[0152]
假设正例样本的样本个数为|t|,负例样本个数为|f|,则应用上述向量中的元素(样本数)分别除以样本个数,则分别得到正负例样本在特征i的每个取值上的样本数占比向量,也即,第一概率分布向量和第二概率分布向量。
[0153]
ti=(p
i1
,p
i2
,p
i3


,p
it


,p
it
)i∈[1,|m|];
[0154]
p
it
为正例样本在特征i上取值为t的概率分布
[0155]fi
=(p`
i1
,p`
i2
,p

i3

,p

it
)i∈[1,|m|];
[0156]
p

it
为负例样本在特征i上取值为t的概率分布。
[0157]
计算正例样本和负例样本在特征i上每个取值区间的分布差异,假设特征i包含n个取值,则特征i的特征分布差异指数为:
[0158][0159]
其中,为参考指数,各个参考指数的加和为分布差异指数zi。
[0160]
对所有的|m|个特征对应的特征分布差异指数进行逆序排序,得到特征分布差异排名表,排名越靠前的特征,代表特征在正负例样本中的差异越大。
[0161]
涉及到s304,由于分布差异指数表征离散特征在正例样本与负例样本中的差异程
度,差异程度越大,表明该离散特征对于机器学习模型的训练过程越重要。因此,可以通过如下方式基于各个离散特征的分布差异指数对各个离散特征进行筛选,再基于得到的基准特征集合确定目标训练样本集合。
[0162]
在一个具体的例子中,可以选取分布差异指数大于预设指数阈值的离散特征构成基准特征集合;也可以按照分布差异指数的大小选取预设数量的离散特征构成基准特征集合。
[0163]
由于本技术实施例中,在基于得到的基准特征集合确定目标训练样本集合之后,为了将哪些属于被筛选出来的用来参与模型训练的特征直观的展示给业务人员,按照预设展示方式展示基准特征集合。
[0164]
具体的,针对任意一个基准特征,若基准特征对应的原始特征的特征取值的范围跨度大于预设阈值,则预设展示方式为折线对比图方式;若基准特征对应的原始特征的特征取值的范围跨度小于或等于预设阈值,则预设展示方式直方对比图方式;折线对比图以及直方对比图的横坐标为基准特征的取值,纵坐标为基准特征对应的第一概率分布向量中各个元素的取值以及第二概率分布向量中各个元素的取值。
[0165]
其中,由于基准特征均为离散特征,其对应的原始特征可能是离散特征,也可能是连续特征。而在展示过程中,为了让业务人员更好的了解特征本身对模型训练的影响,在展示过程中,需要应用基准特征对应的原始特征来判断。实际的展示过程中,根据基准特征对应的原始特征的特征取值与预设阈值的大小关系,主要分为如下两种情况:
[0166]
情况1:基准特征对应的原始特征的特征取值的范围跨度大于预设阈值,这里的范围跨度是指最小值到最大值以及之间包括的取值的数量。这种情况中,预设展示方式为折线对比图的方式。在这个例子中,基准特征以“年龄”为例,预设阈值比如是10,该示例中,范围跨度是从1到100构成的100,大于预设阈值10。参考图4,示出了一种正例样本和负例样本在“年龄”特征上的分布对比的示意图。其中,cst1代表正例样本特征分布曲线,cst2代表正负例样本特征分布曲线,横坐标代表经离散化处理后的特征取值,纵坐标代表对应特征取值概率值(单位%)。由图4可观察到在特征“年龄”上,正负例样本存在明显的分布差异,正例样本的用户更年轻化。
[0167]
情况2:基准特征对应的原始特征的特征取值的范围跨度小于或等于预设阈值。这种情况中,预设展示方式为直方对比图的方式。这种情况中,预设展示方式为直方对比图的方式。在这个例子中,基准特征以“车主标识”为例,预设阈值比如是10,该示例中,而“车主标识”仅包含两种取值,因此,范围跨度是从1到2构成的2,小于预设阈值10。参考图5,示出了一种正例样本和负例样本在“车主标识”特征上的分布对比的示意图。cst3代表正例样本特征分布直方图,cst4代表负例样本特征分布直方图,横坐标代表经离散化处理后的特征取值,纵坐标代表对应特征取值概率值(单位%)。
[0168]
另外,为了验证训练得到的机器学习模型的准确性,应用测试样本对机器学习模型的训练结果进行验证,该验证过程如下:
[0169]
d1、针对任意一个目标测试样本的任意一个离散特征,基于机器模型对目标测试样本的预测结果确定目标测试样本在离散特征上的shap值;其中,目标测试样本为将测试样本经过离散化处理操作后得到的;测试样本包括测试样本用户的基本信息和测试样本用户的业务关联数据。
[0170]
该步骤中,测试样本的类型以及针对测试样本的处理与对训练样本的处理相同,这里不赘述。在一个具体的例子中,通过如下方式确定目标测试样本在离散特征上的shap值。
[0171]
在一个具体的例子中,shap值的确定方式如下:
[0172]
基于shap可加性解释法,引入合作博弈论思想,计算一个特征加入到模型时的边际贡献,然后考虑该特征在所有特征序列的情况下不同的边际贡献的均值。其数学表达式如下:
[0173][0174]
其中g为解释模型,m为训练集中所有的特征的数量,z`i∈{0,1}m表示相应特征是否存在(1表示存在,0表示不存在);是每个特征的归因值,是一个常数(所有训练样本的预测平均值,由于树模型的输入必须是结构化数据,对于实例x,z`应该是所有值为1的向量,即所有特征均能被观察到),则上述公式简化为:
[0175][0176]
对于样本x而言,样本x在特征i上的shap值的计算方式为:
[0177][0178]
其中,{x1,...,x
|m|
}是样本x的所有输入特征组成的集合,s是从特征库m中抽取出来的子集。其维度为|s|,f
x
(s)是基于特征子集s的预测;表示在对应特征子集s下,对于上述包含特征i和不含特征i的情况下,样本取值之差的权重值。由于在所有的特征m下,能够抽取出多种特征组合,构成子集s,因此,样本x在特征i的shapley值是枚举出了所有可能的特征子集s的情况下的一个综合分,考虑了除其本身之外,其他特征对特征i的影响关系。
[0179]
d2、对所有目标测试样本在离散特征上的shap值进行加权平均处理,得到离散特征与各个目标测试样本的预测结果的关联度;其中,关联度表征对应的离散特征在模型训练过程中的决策程度。
[0180]
在一个具体的例子中,前述第j个样本在特征i上的shap值记为
[0181]
对所有样本在特征i上的shap值进行加权平均,得到特征i与预测结果的关联度spi:
[0182][0183]
对所有|m|个特征的关联度进行逆序排序,得到特征关联度排序表,排序越高的特征,代表特征在模型决策的过程中发挥的作用越大。
[0184]
d3、确定各个离散特征对应的关联度。
[0185]
按照上述确定一个离散特征对应的关联度的方式,确定各个离散特征对应的关联度。
[0186]
另外,在基于机器模型对目标测试样本的预测结果确定目标测试样本在离散特征上的shap值之后,通过如下方式将验证结果展示给业务人员:
[0187]
针对任意一个离散特征,按照散点图展示方式展示各个目标测试样本的离散特征的预测结果;其中,散点图的横坐标为离散特征的shap值,散点图的纵坐标为离散特征的取值;其中,散点图表征离散特征的各个取值对各个目标测试样本的离散特征的预测结果的影响程度。
[0188]
参考图6,对于总体|t|+|f|个样本,随机抽取u个样本绘制排名前r1的特征的特征取值与预测结果之间的二维散点图,同时,为进步一步凸显样本的分布情况,对原图中的所有样本点进行密度测算,得到能反应样本集中度的热力图。
[0189]
以某个离散特征为例,比如离散特征36,图中的一个点代表一个样本,点所对应的纵轴代表特征36在该点上的取值,横坐标代表该特征取值与预测结果的相关性取值大小(shap值来表征),相关性取值为正,代表模型把样本预测为正例,相关性取值为负,代表模型把该样本预测为负例,绝对值越大,代表样本在该特征取值对模型预测结果发挥的作用越大。点对应的颜色代表点的密集程度,点的密集度与颜色的存在对应关系。
[0190]
因此,采用shap计算样本特征的取值与结果之间的关系,并引入特征取值与对应样本数量之间的关系,基于热力图的形式可视化样本特征与预测结果之间的关系,进一步方便业务人员理解特征在模型的预测结果中发挥的作用。
[0191]
综上,将模型的训练过程,以可视化的方式直接展现征取值与结果之间的分布状况,有利于业务人员理解模型决策过程并且信任基于模型的预测结果,方便业务人员基于模型学习到的模式沉淀业务经验。
[0192]
如图7所示,基于与上述业务数据处理方法相同的发明构思,本技术实施例还提供了一种业务数据处理装置,该装置至少包括数据获取模块71、确定模块72和模型训练模块73。
[0193]
其中,数据获取模块71,用于获取待处理的用户数据;用户数据包括用户基本信息和业务关联数据;
[0194]
确定模块72,用于将待处理的用户数据输入至预先训练的机器学习模型,确定输出的用户所属的目标群体;
[0195]
其中,还包括模型训练模块73,用于通过如下方式确定机器学习模型的训练过程应用到的目标训练样本集合:
[0196]
根据训练样本集合确定训练样本特征集合;其中,训练样本集合中的每个训练样本包括训练样本用户的基本信息和训练样本用户的业务关联数据;
[0197]
将训练样本特征集合中的连续特征进行离散化处理,将离散化处理得到的离散特征和训练样本特征集合中的离散特征构成目标训练特征集合;
[0198]
针对目标训练特征集合中的任意一个离散特征,确定离散特征的分布差异指数;其中,分布差异指数表征离散特征在正例样本与负例样本中的差异程度;正例样本为基本信息满足预设用户属性和/或业务关联数据满足预设业务属性的样本,负例样本为基本信息不满足预设用户属性且业务关联数据不满足预设业务属性的样本;
[0199]
基于各个离散特征的分布差异指数对各个离散特征筛选,基于得到的基准特征集合确定目标训练样本集合。
[0200]
在一些示例性的实施方式中,模型训练模块73具体用于:
[0201]
统计所有正例样本在离散特征上的第一取值计数向量,以及统计所有负例样本在离散特征上的第二取值计数向量;
[0202]
根据第一取值计数向量和正例样本的总数确定正例样本在离散特征上的第一分布概率向量,以及根据第二取值计数向量和负例样本的总数确定负例样本在离散特征上的第二分布概率向量;
[0203]
根据第一分布概率向量、第二分布概率向量,以及离散特征的不同取值的数量,确定离散特征的分布差异指数。
[0204]
在一些示例性的实施方式中,模型训练模块73具体用于:
[0205]
针对离散特征的每个取值,确定所有正例样本中离散特征为取值的正例样本的第一数量;
[0206]
将各个第一数量作为第一取值计数向量的元素,构成第一取值计数向量;
[0207]
统计所有负例样本在离散特征上的第二取值计数向量,包括:
[0208]
针对离散特征的每个取值,确定所有负例样本中离散特征为取值的负例样本的第二数量;
[0209]
将各个第二数量作为第二取值计数向量的元素,构成第二取值计数向量。
[0210]
在一些示例性的实施方式中,模型训练模块73具体用于:
[0211]
针对每个取值,根据取值对应的第一数量在第一取值计数向量中的元素的位置,确定第一分布概率向量中的取值对应的第一概率;根据取值对应的第一数量在第一取值计数向量中的元素的位置,确定第二分布概率向量中的取值对应的第二概率;根据第一概率与第二概率的差值的绝对值,以及离散特征的不同取值的数量确定取值对应的参考指数;
[0212]
将各个取值对应的参考指数的和确定为离散特征的分布差异指数。
[0213]
在一些示例性的实施方式中,模型训练模块73具体用于:
[0214]
选取分布差异指数大于预设指数阈值的离散特征构成基准特征集合;或
[0215]
按照分布差异指数的大小选取预设数量的离散特征构成基准特征集合。
[0216]
在一些示例性的实施方式中,还包括第一展示模块,用于在基于得到的基准特征集合确定目标训练样本集合之后,按照预设展示方式展示基准特征集合;
[0217]
其中,第一展示模块具体用于:针对任意一个基准特征,若基准特征对应的原始特征的特征取值的范围跨度大于预设阈值,则预设展示方式为折线对比图方式;若基准特征对应的原始特征的特征取值的范围跨度小于或等于预设阈值,则预设展示方式直方对比图方式;折线对比图以及直方对比图的横坐标为基准特征对应的取值,纵坐标为基准特征对应的第一概率分布向量中各个元素的取值以及第二概率分布向量中各个元素的取值。
[0218]
在一些示例性的实施方式中,还包括测试模块,测试模块具体用于:
[0219]
针对任意一个目标测试样本的任意一个离散特征,基于机器模型对目标测试样本的预测结果确定目标测试样本在离散特征上的shap值;其中,目标测试样本为将测试样本经过离散化处理操作后得到的;测试样本包括测试样本用户的基本信息和测试样本用户的业务关联数据;
[0220]
对所有目标测试样本在离散特征上的shap值进行加权平均处理,得到离散特征与各个目标测试样本的预测结果的关联度;其中,关联度表征对应的离散特征在模型训练过
程中的决策程度;
[0221]
确定各个离散特征对应的关联度。
[0222]
在一些示例性的实施方式中,还包括第二展示模块,用于在基于机器模型对目标测试样本的预测结果确定目标测试样本在离散特征上的shap值之后:
[0223]
针对任意一个离散特征,按照散点图展示方式展示各个目标测试样本的离散特征的预测结果;
[0224]
其中,散点图的横坐标为离散特征的shap值,散点图的纵坐标为离散特征的取值;其中,散点图表征离散特征的各个取值对各个目标测试样本的离散特征的预测结果的影响程度。
[0225]
本技术实施例提的业务数据处理装置与上述业务数据处理方法采用了相同的发明构思,能够取得相同的有益效果,在此不再赘述。
[0226]
基于与上述业务数据处理方法相同的发明构思,本技术实施例还提供了一种电子设备,该电子设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(personal digital assistant,pda)、服务器等。如图8所示,该电子设备可以包括处理器801和存储器802。
[0227]
处理器801可以是通用处理器,例如中央处理器(cpu)、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本技术实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
[0228]
存储器802作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(random access memory,ram)、静态随机访问存储器(static random access memory,sram)、可编程只读存储器(programmable read only memory,prom)、只读存储器(read only memory,rom)、带电可擦除可编程只读存储器(electrically erasable programmable read-only memory,eeprom)、磁性存储器、磁盘、光盘等等。存储器是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本技术实施例中的存储器802还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
[0229]
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;上述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于:移动存储设备、随机存取存储器(ram,random access memory)、磁性存储器(例如软盘、硬盘、磁带、磁光盘(mo)等)、光学存储器(例如cd、dvd、bd、hvd等)、以及半导体存储器(例如rom、eprom、eeprom、非易失性存储器(nand flash)、固态硬盘(ssd))等各种可以存储程序代码的介质。
[0230]
或者,本技术上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本技术各个实施例方法的全部或部分。而前述的存储介质包括:移动存储设备、随机存取存储器(ram,random access memory)、磁性存储器(例如软盘、硬盘、磁带、磁光盘(mo)等)、光学存储器(例如cd、dvd、bd、hvd等)、以及半导体存储器(例如rom、eprom、eeprom、非易失性存储器(nand flash)、固态硬盘(ssd))等各种可以存储程序代码的介质。
[0231]
以上实施例仅用以对本技术的技术方案进行了详细介绍,但以上实施例的说明只是用于帮助理解本技术实施例的方法,不应理解为对本技术实施例的限制。本技术领域的技术人员可轻易想到的变化或替换,都应涵盖在本技术实施例的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1