1.本申请涉及数据处理领域,尤其涉及一种目标用户筛选方法及相关装置。
背景技术:2.目标用户为传递目标信息、实施目标行为的用户。当有活动上线时,通常需要对不同用户进行分析,根据不同用户的行为特征筛选出目标用户,然后针对目标用户进行活动宣传和沟通。
3.当目标用户范围过大时,会造成资源浪费,并且活动效果较差,当目标用户范围过小时,同样也会降低活动效果,因此,如何确定目标用户对活动效果非常重要。目前,通常基于个人经验筛选目标用户,例如根据个人经验筛选出符合某些特征的用户作为目标用户。但是现有的基于个人经验筛选目标用户的方式效率较低,并且由于受个人经验的影响较大,导致目标用户筛选的精确性较低。
技术实现要素:4.本申请提供了一种目标用户筛选方法及相关装置,能够提高目标用户筛选的效率和精确性。
5.本申请第一方面提供了一种目标用户筛选方法,包括:
6.获取原始用户集合中每个用户的用户信息;
7.对所述每个用户的用户信息进行处理,以得到所述原始用户集合的用户画像;
8.对所述用户画像进行特征转换,以得到用户画像特征;
9.对所述用户画像特征进行特征消除,以得到筛选后的目标特征组合;
10.根据所述目标特征组合,从所述原始用户集合中筛选出目标用户。
11.本申请第二方面提供了一种目标用户筛选装置,包括:
12.获取模块,用于获取原始用户集合中每个用户的用户信息;
13.处理模块,用于对所述每个用户的用户信息进行处理,以得到所述原始用户集合的用户画像;
14.特征转换模块,用于对所述用户画像进行特征转换,以得到用户画像特征;
15.特征消除模块,用于对所述用户画像特征进行特征消除,以得到筛选后的目标特征组合;
16.筛选模块,用于根据所述目标特征组合,从所述原始用户集合中筛选出目标用户。
17.本申请第三方面提供了一种电子设备,所述电子设备包括处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行本申请第一方面任一方法中的步骤的指令。
18.本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现本申请第一方面任一方法中所描述的部分或全部步骤。
19.可以看到,通过本申请提出的目标用户筛选方法及相关装置,首先获取原始用户集合中每个用户的用户信息。其次对所述每个用户的用户信息进行处理,以得到所述原始用户集合的用户画像。其次对所述用户画像进行特征转换,以得到用户画像特征。然后对所述用户画像特征进行特征消除,以得到筛选后的目标特征组合。最后根据所述目标特征组合,从所述原始用户集合中筛选出目标用户。这样,在活动上线需要筛选出目标用户时,首先根据用户信息得到用户画像特征,然后对用户画像特征进行特征消除,得到影响用户的主要特征,根据这些主要特征从原始用户中筛选出最有效的目标用户,一方面可以减少人为筛选的消耗,提高了目标用户筛选的效率,另一方面由于避免了基于个人经验筛选,提高了目标用户筛选的精确性。
附图说明
20.为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
21.图1为本申请实施例提供的一种目标用户筛选方法的架构示意图;
22.图2为本申请实施例提供的一种目标用户筛选方法的流程示意图;
23.图3为本申请实施例提供的另一种目标用户筛选方法的流程示意图;
24.图4为本申请实施例提供的一种目标用户筛选装置的示意图;
25.图5为本申请实施例涉及的硬件运行环境的电子设备结构示意图。
具体实施方式
26.本申请实施例提供的目标用户筛选方法及相关装置,能够提高目标用户筛选的效率和精确性。
27.为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
28.本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
29.下面对本申请实施例进行详细介绍。
30.首先参见图1,图1为本申请实施例提供的一种目标用户筛选方法的架构示意图。如图1所示,在需要筛选目标用户时,将原始用户集合输入电子设备。其中,电子设备可以是便携式终端,例如手机、平板电脑、具备无线通讯功能的可穿戴设备(如智能手表)等,便携式终端的示例性实施例包括但不限于搭载或者其它操作系统的便携式终端。上述便携式终端也可以是其它便携式终端,只要能够获取用户信息,并且对用户信息进行数据处理即可。
还应当理解的是,在本申请其他一些实施例中,上述电子设备也可以不是便携式终端,而是能够获取用户信息,并且对用户信息进行数据处理的台式计算机等。
31.在本申请另一些实施例中,电子设备也可以无需具有数据处理的功能,而是具有通信功能。比如,电子设备获取用户信息之后,可以将用户信息发送到其它设备例如服务器,由其他设备使用本申请实施例提供的目标用户筛选方法进行数据处理,然后将筛选得到的目标用户发送给电子设备。
32.将原始用户集合输入电子设备后,首先获取原始用户集合中每个用户的用户信息。可选的,每个用户的用户信息可以是表格的形式,包括自变量和响应标签。其中,自变量指的是影响用户的因素,响应标签用于指示用户为响应用户或者未响应用户。举例来说,响应标签为0代表该用户为未响应用户,响应标签为1代表该用户为响应用户。
33.其次,对每个用户的用户信息进行处理,以得到原始用户集合的用户画像。其次,对用户画像进行特征转换,以得到用户画像特征。其次,对用户画像特征进行特征消除,以得到筛选后的目标特征组合。最后,根据目标特征组合,从原始用户集合中筛选出目标用户。
34.可以看出,通过本申请实施例提供的目标用户筛选方法,在活动上线需要筛选出目标用户时,首先根据用户信息得到用户画像特征,然后对用户画像特征进行特征消除,得到影响用户的主要特征,根据这些主要特征从原始用户中筛选出最有效的目标用户,一方面可以减少人为筛选的消耗,提高了目标用户筛选的效率,另一方面由于避免了基于个人经验筛选,提高了目标用户筛选的精确性。
35.参见图2,图2为本申请实施例提供的一种目标用户筛选方法的流程示意图。其中,如图2所示,本申请实施例提供的一种目标用户筛选方法可以包括:
36.201、获取原始用户集合中每个用户的用户信息。
37.可选的,每个用户的用户信息包括至少一个自变量中每个自变量对应的数值和所述每个用户对应的响应标签,所述响应标签用于指示所述每个用户为响应用户或者未响应用户。
38.具体的,每个用户的用户信息可以是表格的形式,包括自变量对应的数值和用户对应的响应标签。其中,自变量指的是影响用户的因素,例如对于金融产品而言,自变量可以是产品价格、产品口碑、产品评论、是否购买其他金融产品、购买其他金融产品的金额等。响应标签用于指示用户为响应用户或者未响应用户,响应用户表示购买过金融产品,未响应用户表示未购买过金融产品。可选的,响应标签可以为二分类,例如响应标签为0代表该用户为未响应用户,响应标签为1代表该用户为响应用户。
39.202、对所述每个用户的用户信息进行处理,以得到所述原始用户集合的用户画像。
40.可选的,对所述每个用户的用户信息进行处理,以得到所述原始用户集合的用户画像的方法可以是:根据所述每个自变量对应的数值的取值范围,对所述原始用户集合的所有用户在所述每个自变量下进行分组,以得到所述至少一个自变量对应的多个分组,其中,所述多个分组中每个分组对应一个影响因素;计算所述多个分组中每个分组对应的影响因素的证据权重。
41.具体的,根据每个自变量对应的数值的取值范围,对原始用户集合的所有用户在
每个自变量下进行分组,得到多个分组。举例来说,对于金融产品而言,自变量包括产品价格和是否购买过其他金融产品。自变量为产品价格时,对应的数值的取值范围为价格区间。例如a用户购买金融产品的产品价格为0
‑
1000元,b用户购买金融产品的产品价格为500
‑
1000元,c用户购买金融产品的产品价格为1000
‑
2000元,那么可以对a用户、b用户和c用户在产品价格下进行分组。例如可以分为两组,一组为(0
‑
1000),另一组为(1000
‑
2000),其中(0
‑
1000)的分组内包括a用户和b用户,(1000
‑
2000)的分组内包括c用户。(0
‑
1000)的分组对应的影响因素为:产品价格的区间为0
‑
1000元。(1000
‑
2000)的分组对应的影响因素为:产品价格的区间为1000
‑
2000元。
42.再例如,自变量为是否购买过其他金融产品时,对应的数值的取值范围为0或1。例如d用户和e用户购买过其他金融产品,对应的取值为1,f用户未购买过其他金融产品,对应的取值为0。那么可以对d用户、e用户和f用户在是否购买过其他金融产品下进行分组。例如可以分为两组,一组为0,一组为1,其中,0的分组内包括f用户,1的分组内包括d用户和e用户。0的分组对应的影响因素为:未购买过其他金融产品。1的分组对应的影响因素为购买过其他金融产品。
43.证据权重(weight of evidence,woe),是对原始自变量的一种编码形式,可将logistic回归模型转化为标准评分卡格式。计算多个分组中每个分组对应的影响因素的证据权重,即得到原始用户集合的用户画像。
44.203、对所述用户画像进行特征转换,以得到用户画像特征。
45.可选的,对所述用户画像进行特征转换,以得到用户画像特征的方法可以是:根据多个分组中每个分组对应的影响因素的证据权重,对多个分组进行独热编码,从而得到用户画像特征。
46.具体的,独热编码也称为one
‑
hot编码或者一位有效编码,其方法是使用n位状态寄存器来对n个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。
47.204、对所述用户画像特征进行特征消除,以得到筛选后的目标特征组合。
48.可选的,对所述用户画像特征进行特征消除,以得到筛选后的目标特征组合的方法可以是:获取预先输入的保留特征数;通过递归特征消除算法从所述用户画像特征中消除特征,直到筛选得到所述目标特征组合,所述目标特征组合中特征的数量与所述预先输入的保留特征数一致。
49.具体的,递归特征消除(recursive feature elimination,rfe)算法的主要思想是反复构建模型,然后选出最好的(或者最差的)特征(根据系数来选),消除已经选出来的特征,然后在剩余的特征上重复这个过程,直到遍历了所有的特征。得到用户画像特征后,通过递归特征消除算法从用户画像特征中消除不重要的特征,在剩余的特征集合中重复筛选的过程,直到留下的特征的数量与预先输入的保留特征数一致。
50.205、根据所述目标特征组合,从所述原始用户集合中筛选出目标用户。
51.可选的,根据所述目标特征组合,从所述原始用户集合中筛选出目标用户的方法可以是:确定所述目标特征组合中每个目标特征对应的影响因素;从所述原始用户集合中筛选出满足所述每个目标特征对应的影响因素的所述目标用户。
52.具体的,举例来说,通过递归特征消除算法,最终筛选出两个最重要的特征,该两
个最重要的特征对应的影响因素分别为购买过其他产品以及产品价格的区间为1000
‑
2000元。也就是说,在原始用户集合中,筛选出满足购买过其他产品以及产品价格的区间为1000
‑
2000元这两个影响因素的用户,即为最终筛选得到的目标用户。
53.可以看出,通过本申请实施例提出的目标用户筛选方法,首先获取原始用户集合中每个用户的用户信息。其次对所述每个用户的用户信息进行处理,以得到所述原始用户集合的用户画像。其次对所述用户画像进行特征转换,以得到用户画像特征。然后对所述用户画像特征进行特征消除,以得到筛选后的目标特征组合。最后根据所述目标特征组合,从所述原始用户集合中筛选出目标用户。这样,在活动上线需要筛选出目标用户时,首先根据用户信息得到用户画像特征,然后对用户画像特征进行特征消除,得到影响用户的主要特征,根据这些主要特征从原始用户中筛选出最有效的目标用户,一方面可以减少人为筛选的消耗,提高了目标用户筛选的效率,另一方面由于避免了基于个人经验筛选,提高了目标用户筛选的精确性。
54.参见图3,图3为本申请实施例提供的另一种目标用户筛选方法的流程示意图。其中,如图3所示,本申请实施例提供的另一种目标用户筛选方法可以包括:
55.301、获取原始用户集合中每个用户的用户信息,每个用户的用户信息包括至少一个自变量中每个自变量对应的数值和每个用户对应的响应标签。
56.具体的,每个用户的用户信息可以是表格的形式,包括自变量对应的数值和用户对应的响应标签。其中,自变量指的是影响用户的因素,例如对于金融产品而言,自变量可以是产品价格、产品口碑、产品评论、是否购买其他金融产品、购买其他金融产品的金额等。响应标签用于指示用户为响应用户或者未响应用户,响应用户表示购买过金融产品,未响应用户表示未购买过金融产品。可选的,响应标签可以为二分类,例如响应标签为0代表该用户为未响应用户,响应标签为1代表该用户为响应用户。
57.302、根据每个自变量对应的数值的取值范围,对原始用户集合的所有用户在每个自变量下进行分组,以得到至少一个自变量对应的多个分组。
58.可选的,根据每个自变量对应的数值的取值范围,对原始用户集合的所有用户在每个自变量下进行分组的方法可以是:根据所述每个自变量对应的数值的取值范围,判断所述每个自变量为离散变量或者连续变量;若所述每个自变量为离散变量,则按照所述每个自变量对应的数值,对所述原始用户集合的所有用户在所述每个自变量下进行分组;若所述每个自变量为连续变量,则按照预先设置的分组数,对所述原始用户集合的所有用户在所述每个自变量下进行分组。
59.举例来说,自变量为离散变量时,例如是否购买过其他产品,则可以分为两组,一组为购买过其他产品,一组为未购买过其他产品。自变量为连续变量时,例如产品金额,则可以按照预先设置的分组数进行分组。
60.303、计算多个分组中每个分组对应的影响因素的证据权重。
61.具体的,证据权重(weight of evidence,woe),是对原始自变量的一种编码形式,可将logistic回归模型转化为标准评分卡格式。计算多个分组中每个分组对应的影响因素的证据权重,即得到原始用户集合的用户画像。
62.计算多个分组中每个分组对应的影响因素的证据权重满足以下公式:
[0063][0064]
其中,wi为证据权重,yi为每个分组中的响应用户(响应标签为1的用户)的数量,yt是原始用户集合中的响应用户的数量,yi/yt表示每个分组中响应用户占原始用户集合中所有响应用户的比例,ni为每个分组中的未响应用户(响应标签为0的用户)的数量,nt为原始用户集合中的未响应用户的数量,ni/nt表示每个分组中未响应用户占原始用户集合中所有未响应用户的比例。
[0065]
304、根据多个分组中每个分组对应的影响因素的证据权重,对多个分组进行独热编码,从而得到用户画像特征。
[0066]
具体的,独热编码也称为one
‑
hot编码或者一位有效编码,其方法是使用n位状态寄存器来对n个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。
[0067]
305、获取预先输入的保留特征数。
[0068]
在筛选目标用户时,需要预先设置筛选规则,其中,筛选规则包括预先输入的保留特征数。
[0069]
306、通过递归特征消除算法从所述用户画像特征中消除特征,直到筛选得到所述目标特征组合,所述目标特征组合中特征的数量与所述预先输入的保留特征数一致。
[0070]
具体的,递归特征消除(recursive feature elimination,rfe)算法的主要思想是反复构建模型,然后选出最好的(或者最差的)特征(根据系数来选),消除已经选出来的特征,然后在剩余的特征上重复这个过程,直到遍历了所有的特征。得到用户画像特征后,通过递归特征消除算法从用户画像特征中消除不重要的特征,在剩余的特征集合中重复筛选的过程,直到留下的特征的数量与预先输入的保留特征数一致。
[0071]
307、确定所述目标特征组合中每个目标特征对应的影响因素。
[0072]
308、从所述原始用户集合中筛选出满足所述每个目标特征对应的影响因素的所述目标用户。
[0073]
举例来说,通过递归特征消除算法,最终筛选出两个最重要的特征,该两个最重要的特征对应的影响因素分别为购买过其他产品以及产品价格的区间为1000
‑
2000元。也就是说,在原始用户集合中,筛选出满足购买过其他产品以及产品价格的区间为1000
‑
2000元这两个影响因素的用户,即为最终筛选得到的目标用户。
[0074]
在一种可能的实施方式中,如果筛选出的目标用户的数量小于第一预设用户数量,则从筛选得到的目标特征组合中删除部分特征,得到更新后的目标特征组合,根据更新后的目标特征组合,重新从原始用户集合中筛选出目标用户。
[0075]
在另一种可能的实施方式中,如果筛选出的目标用户的数量大于第二预设用户数量,则需要重新输入保留特征数,重新输入的保留特征数多于原来输入的保留特征数。获取更新后的保留特征数,通过递归特征消除算法从用户画像特征中消除特征,直到筛选得到更新后的目标特征组合,更新后的目标特征组合中特征的数量与更新后的保留特征数一致。根据更新后的目标特征组合,重新从原始用户集合中筛选出目标用户。
[0076]
可以看出,通过本申请实施例提出的目标用户筛选方法,在活动上线需要筛选出目标用户时,首先根据用户信息得到用户画像特征,然后对用户画像特征进行特征消除,得
到影响用户的主要特征,根据这些主要特征从原始用户中筛选出最有效的目标用户,一方面可以减少人为筛选的消耗,提高了目标用户筛选的效率,另一方面由于避免了基于个人经验筛选,提高了目标用户筛选的精确性。
[0077]
参见图4,图4为本申请实施例提供的一种目标用户筛选装置的示意图。其中,如图4所示,本申请实施例提供的一种目标用户筛选装置可以包括:
[0078]
获取模块401,用于获取原始用户集合中每个用户的用户信息;
[0079]
处理模块402,用于对所述每个用户的用户信息进行处理,以得到所述原始用户集合的用户画像;
[0080]
特征转换模块403,用于对所述用户画像进行特征转换,以得到用户画像特征;
[0081]
特征消除模块404,用于对所述用户画像特征进行特征消除,以得到筛选后的目标特征组合;
[0082]
筛选模块405,用于根据所述目标特征组合,从所述原始用户集合中筛选出目标用户。
[0083]
本申请实施例中目标用户筛选装置的具体实施可参见上述目标用户筛选方法的各实施例,在此不做赘述。
[0084]
参见图5,图5为本申请的实施例涉及的硬件运行环境的电子设备结构示意图。其中,如图5所示,本申请的实施例涉及的硬件运行环境的电子设备可以包括:
[0085]
处理器501,例如cpu。
[0086]
存储器502,可选的,存储器可以为高速ram存储器,也可以是稳定的存储器,例如磁盘存储器。
[0087]
通信接口503,用于实现处理器501和存储器502之间的连接通信。
[0088]
本领域技术人员可以理解,图5中示出的电子设备的结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0089]
如图5所示,存储器502中可以包括操作系统、网络通信模块以及目标用户筛选程序。操作系统是管理和控制电子设备硬件和软件资源的程序,支持目标用户筛选程序以及其他软件或程序的运行。网络通信模块用于实现存储器502内部各组件之间的通信,以及与电子设备中其他硬件和软件之间通信。
[0090]
在图5所示的电子设备中,处理器501用于执行存储器502中存储的目标用户筛选程序,实现以下步骤:
[0091]
获取原始用户集合中每个用户的用户信息;
[0092]
对所述每个用户的用户信息进行处理,以得到所述原始用户集合的用户画像;
[0093]
对所述用户画像进行特征转换,以得到用户画像特征;
[0094]
对所述用户画像特征进行特征消除,以得到筛选后的目标特征组合;
[0095]
根据所述目标特征组合,从所述原始用户集合中筛选出目标用户。
[0096]
本申请实施例中电子设备的具体实施可参见上述目标用户筛选方法的各实施例,在此不做赘述。
[0097]
本申请的另一个实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行以实现以下步骤:
[0098]
获取原始用户集合中每个用户的用户信息;
[0099]
对所述每个用户的用户信息进行处理,以得到所述原始用户集合的用户画像;
[0100]
对所述用户画像进行特征转换,以得到用户画像特征;
[0101]
对所述用户画像特征进行特征消除,以得到筛选后的目标特征组合;
[0102]
根据所述目标特征组合,从所述原始用户集合中筛选出目标用户。
[0103]
本申请实施例中计算机可读存储介质的具体实施可参见上述目标用户筛选方法的各实施例,在此不做赘述。
[0104]
还需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0105]
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。