1.本说明书一个或多个实施例涉及信息数据处理技术领域,尤其涉及一种用户属性数据分组方法。
背景技术:2.资源供给是生产工作中的所不可或缺的最重要的保障条件之一,在实际生产工作过程中需要根据作为资源需求方的实体用户的用户行为来确定资源分配供给策略,具体或涉及到对用户各项属性数据进行针对性分组划分,以便于对用户行为进行评价或预测。
3.现有的对用户各项属性数据进行分组的方法可分为有监督分箱和无监督分箱。其中常用的有:等距分箱、等频分箱、最优化分箱、卡方分箱。等距分箱与等频分箱为非监督分箱方法,等距分箱是按照样本值的区间范围按照设定分箱数按样本值进行切分,等频分箱是按照样本大小排序,按照每个箱内相同样本数确定切分点进行划分。最优化分箱和卡方分箱是有监督分箱方法,最优化分箱是按照信息熵或基尼系数最大原则对样本进行切分分箱;卡方分箱是按照自底向上原则,先切分小区间,将最小卡方值的相邻区间合并在一起,直到满足确定的停止准则。
4.然而实际应用中,在针对样本数量不充足以及好坏样本不平衡程度较高的应用场景中,以上方法不能很好的兼顾分箱的样本区分度和业务可解释性的要求:等距分箱受样本分布以及异常值影响较大,对于非均匀或非正态的样本分布情况,可能导致在部分箱体内的样本数量过大或过小;等频分箱是更为通用的分箱方法,但是这种方法有2个缺点,一是在样本值在某个数据较为集中的条件下,无法实现传统的等频分箱,二是由于没有考虑到标签分布情况,分箱效果可能区分度不够,从而使得最终模型效果欠拟合;最优化分箱和卡方分箱都是利用标签信息,使得分箱区分度达到最高。但是在样本数量不够或者是标签不均衡程度较高时,这种分箱效果一是可能导致过拟合的情况,二是可能产生数据操纵而与专家经验不一致,数据业务解释性不强。
技术实现要素:5.有鉴于此,本说明书一个或多个实施例的目的在于提出一种用户属性数据分组方法,以解决现有分组技术不能很好的兼顾数据样本区分度和业务可解释性的要求的问题。
6.基于上述目的,本说明书一个或多个实施例提供了一种用户属性数据分组方法,其特征在于,包括:
7.获取用户属性数据,确定所述用户属性数据的取值范围;
8.在所述取值范围内对所述用户属性数据进行初始化分组处理;
9.根据初始化分组结果,对每一分组中的所述用户属性数据进行统计分析,计算确定所述分组的用户行为预测参数;
10.选取分组排序方式,按照所述分组排序方式对初始化分组结果进行排序,确定所述用户行为预测指数的变化趋势;
11.根据所述变化趋势对所述初始化分组结果进行调整,确定目标分组结果。
12.可选的,所述在所述取值范围内对所述用户属性数据进行初始化分组处理,包括:
13.在所述取值范围内,对所述用户属性数据进行升序排列;
14.计算所述用户属性数据的累计分位数值;
15.根据所述累计分位数值对所述用户属性数据进行等频分箱,获取分组切分点的属性数值;
16.根据所述分组切分点的属性数值对所述用户属性数据进行分组切分,使分组切分后每一分组中包含相同数量的所述用户属性数据。
17.可选的,所述根据初始化分组结果,对每一分组中的所述用户属性数据进行统计分析,计算确定所述分组的用户行为预测参数,包括:
18.获取所述用户属性数据相应用户的用户行为记录,根据所述用户行为记录将所述用户划分为积极用户与消极用户;
19.统计每一分组所对应积极用户数量、消极用户数量以及全部用户中积极用户总数量与消极用户总数量,并计算确定相应所述分组的用户行为预测参数:
[0020][0021]
其中,woei表示第i个分组的所述用户行为预测参数,pyi表示第i个分组的积极用户概率,pni表示第i个分组的消极用户概率;
[0022]
yi表示在第i个分组中的积极用户数量,ni表示在第i个分组中的消极用户数量,y
t
表示全部用户中积极用户总数量,n
t
表示全部用户中消极用户总数量。
[0023]
可选的,所述根据所述变化趋势对所述初始化分组结果进行调整,确定目标分组结果,包括:
[0024]
将所述变化趋势与所述分组排序方式相应的期望变化趋势进行对比;
[0025]
若所述变化趋势与所述期望变化趋势不相符,则对所述初始化分组结果进行合并调整,使合并调整后的分组结果相应变化趋势与所述期望变化趋势相一致;
[0026]
变化趋势与所述期望变化趋势相一致的所述分组结果即所述目标分组结果。
[0027]
可选的,所述对所述初始化分组结果进行合并调整,包括:
[0028]
对所述初始化分组结果中相邻两分组进行合并操作,得到第一分组结果;
[0029]
计算确定所述第一分组结果相应所述用户行为预测参数的变化趋势,将所述第一分组结果相应所述变化趋势与所述期望变化趋势进行对比;
[0030]
若所述第一分组结果相应所述变化趋势与所述期望变化趋势不相符,则对所述第一分组结果中相邻两分组进行再次合并操作,得到第二分组结果;
[0031]
计算确定所述第二分组结果相应所述用户行为预测参数的变化趋势,将所述第二分组结果相应所述变化趋势与所述期望变化趋势进行对比;
[0032]
若所述第二分组结果相应所述变化趋势与所述期望变化趋势仍不相符,则重新对所述用户属性数据进行初始化分组处理,对重新初始化分组结果进行排序调整。
[0033]
可选的,在重新对所述用户属性数据进行初始化分组处理时,控制初始化分组结果中每组用户数量为原用户数量的二倍。
[0034]
可选的,所述分组排序方式根据历史经验数据选取确定;
[0035]
所述方法还包括:
[0036]
若对重新初始化分组结果进行合并调整后,相应所述变化趋势仍与所述期望变化趋势不符,则对选取的所述分组排序方式进行验证调整;
[0037]
对所述分组排序方式进行验证调整,包括:
[0038]
在根据初始化分组结果,对每一分组中的所述用户属性数据进行统计分析,计算确定所述分组的用户行为预测参数时,还计算所述初始化分组结果对应的初始精度比参数ar;
[0039]
在对所述初始化分组结果进行合并调整后,计算合并调整后分组结果对应的调整精度比参数ar
′
;
[0040]
将所述初始精度比参数ar与所述调整精度比参数ar
′
进行对比,若合并调整后分组结果对应的调整精度比参数ar
′
小于所述初始精度比参数,则说明最初选取的所述分组排序方式错误,重新选取新的分组排序方式。
[0041]
从上面所述可以看出,本说明书一个或多个实施例提供的一种用户属性数据分组方法,先对用户属性数据进行初始化分组处理,再在初始化分组处理的基础上,结合实际业务解释情况,对初始化分组结果进行排序,根据排序后各分组的性能表现对初始化分组结果进行适应性调整,采用这同样的方式很好地能够兼顾用户属性数据的分组数据表现和实际业务可解释性,最终得到的分组结果更有利于对用户行为进行准确评价或预测。
附图说明
[0042]
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0043]
图1为本说明书一个或多个实施例所提供的用户属性数据分组方法示意图;
[0044]
图2为本说明书一个或多个实施例所提供的用户属性数据分组方法中初始化分组方法示意图;
[0045]
图3为本说明书一个或多个实施例所提供的用户属性数据分组方法中分组排序方式验证调整方法示意图。
具体实施方式
[0046]
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
[0047]
需要说明的是,除非另外定义,本说明书一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本说明书一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关
系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
[0048]
在一方面,本说明书一个或多个实施例提供了一种用户属性数据分组方法。
[0049]
如图1所示,本说明书的一些可选实施例提供的一种用户属性数据分组方法,包括:
[0050]
s1:获取用户属性数据,确定所述用户属性数据的取值范围;
[0051]
s2:在所述取值范围内对所述用户属性数据进行初始化分组处理;
[0052]
s3:根据初始化分组结果,对每一分组中的所述用户属性数据进行统计分析,计算确定所述分组的用户行为预测参数;
[0053]
s4:选取分组排序方式,按照所述分组排序方式对初始化分组结果进行排序,确定所述用户行为预测指数的变化趋势;
[0054]
s5:根据所述变化趋势对所述初始化分组结果进行调整,确定目标分组结果。
[0055]
所述用户属性数据分组方法,先对用户属性数据进行初始化分组处理,再在初始化分组处理的基础上,结合实际业务解释情况,对初始化分组结果进行排序,根据排序后各分组的性能表现对初始化分组结果进行适应性调整,采用这同样的方式很好地能够兼顾用户属性数据的分组数据表现和实际业务可解释性,最终得到的分组结果更有利于对用户行为进行准确评价或预测。
[0056]
如图2所示,在本说明书的一些可选实施例所提供的一种用户属性数据分组方法中,所述在所述取值范围内对所述用户属性数据进行初始化分组处理s2,包括:
[0057]
s201:在所述取值范围内,对所述用户属性数据进行升序排列;
[0058]
对非空的所述用户属性数据按照升序进行排列,若所述用户属性数据值重复则随机产生相邻排序序号;
[0059]
s202:计算所述用户属性数据的累计分位数值;例如,若存在5个用户属性数据,对这5个用户属性数据进行排序后标号的序号是[1,2,3,4,5],那么对应的累计分位数值是[0,0.25,0.5,0.75,1.0];
[0060]
s203:根据所述累计分位数值对所述用户属性数据进行等频分箱,获取分组切分点的属性数值;
[0061]
在等频分箱时,原始用户属性数据的切分点取对应分位切分点的线性插值结果,例如对排序后的用户属性数据[1.2,2,3,6,8],排序的分位点为[0,0.25,0.5,0.75,1.0],取3组的等频分箱,切分点分位值分别[0.33,0.66],则对应用户属性数据值切分点由x坐标[0.25,0.5]/[0.5,0.75],y坐标[2,3]/[3,6]确定,最终确定为[2.33,5.0];
[0062]
s204:根据所述分组切分点的属性数值对所述用户属性数据进行分组切分,使分组切分后每一分组中包含相同数量的所述用户属性数据。
[0063]
按照之前所确定的切分点对原始用户属性数据值进行切分分箱,相同切分点数值自动合并为一箱,例如切分点为[0.0,0.0,1.0,3.0,5.0]的情况时自动按照[0.0,1.0,3.0,5.0]进行切分分箱。
[0064]
在所述用户属性数据分组方法中,首先对用户属性数据按照其取值范围进行等频分箱的初始分组处理作为分组调整的数据基础,在之后对初始化分组结果的分组调整操作始终以此为依据,能够保证最终确定的分组结果始终兼顾用户属性数据的分组数据表现。
[0065]
在本说明书的一些可选实施例所提供的一种用户属性数据分组方法中,所述根据
初始化分组结果,对每一分组中的所述用户属性数据进行统计分析,计算确定所述分组的用户行为预测参数s3,包括:
[0066]
获取所述用户属性数据相应用户的用户行为记录,根据所述用户行为记录将所述用户划分为积极用户与消极用户;
[0067]
在一些可选实施例中,根据相应用户的用户行为记录可以准确地将用户划分为积极用户与消极用户,例如在资源分配应用场景下将资源调配给目标用户后目标用户需要及时给予反馈,根据目标用户是否按时反馈可以将目标用户划分为守约用户与违约用户,在这一应用场景下守约用户即积极用户,违约用户即消极用户;例如在生产任务分配应用场景下,同时为多个不同目标用户分配生产任务,目标用户需要在规定时间内完成相应任务,根据目标用户是否按时完成任务可以将目标用户划分为达标用户与未达标用户,在这一应用场景下达标用户即积极用户,未达标用户即消极用户;
[0068]
统计每一分组所对应积极用户数量、消极用户数量以及全部用户中积极用户总数量与消极用户总数量,并计算确定相应所述分组的用户行为预测参数:
[0069][0070]
其中,woei表示第i个分组的所述用户行为预测参数,pyi表示第i个分组的积极用户概率,pni表示第i个分组的消极用户概率;
[0071]
yi表示在第i个分组中的积极用户数量,ni表示在第i个分组中的消极用户数量,y
t
表示全部用户中积极用户总数量,n
t
表示全部用户中消极用户总数量。
[0072]
在所述用户数据分组方法中,针对初始化分组结果中各分组中的数据,利用积极用户与消极用户二者的概率之比作为计算用户行为预测参数的基础参量,所述用户行为预测参数与积极用户概率成正相关,能够较为简单清楚地表现相应分组中积极用户与消极用户的分布情况。
[0073]
在本说明书的一些可选实施例所提供的一种用户属性数据分组方法中,所述根据所述变化趋势对所述初始化分组结果进行调整,确定目标分组结果,包括:
[0074]
将所述变化趋势与所述分组排序方式相应的期望变化趋势进行对比;
[0075]
若所述变化趋势与所述期望变化趋势不相符,则对所述初始化分组结果进行合并调整,使合并调整后的分组结果相应变化趋势与所述期望变化趋势相一致;
[0076]
变化趋势与所述期望变化趋势相一致的所述分组结果即所述目标分组结果。
[0077]
所述用户属性数据分组方法中,根据分组相应用户行为预测指数变化趋势对初始化分组结果进行调整以实现分组的业务可解释性。在所述用户属性数据分组方法中先根据选取的所述分组排序方式对初始化分组结果进行排序,所选取的所述分组排序方式有其相对应用户行为预测指数的预期变化趋势,例如根据所选取的分组排序方式,相对应的所述预期变化趋势一般有单增、单减、u型、倒u型这四种类型,也可以是其他的有规律的变化趋势。根据所述分组排序方式对初始化分组结果进行排序后,初始化分组结果中各分组相应的用户行为预测参数也呈一定的变化趋势,如果初始化分组结果也具备较好的业务可解释性,那么相应的用户行为预测参数变化趋势与所述分组排序方式对应的期望变化趋势是相符的,若所述变化趋势与所述期望变化趋势不相符则说明仅仅对所述用户属性数据进行初始化分组处理所得到的分组结果其业务可解释性欠佳,此时就需要针对初始化分组结果作
出进一步调整。
[0078]
在本说明书的一些可选实施例所提供的一种用户属性数据分组方法中,所述对所述初始化分组结果进行合并调整,包括:
[0079]
对所述初始化分组结果中相邻两分组进行合并操作,得到第一分组结果;
[0080]
计算确定所述第一分组结果相应所述用户行为预测参数的变化趋势,将所述第一分组结果相应所述变化趋势与所述期望变化趋势进行对比;
[0081]
若所述第一分组结果相应所述变化趋势与所述期望变化趋势不相符,则对所述第一分组结果中相邻两分组进行再次合并操作,得到第二分组结果;
[0082]
计算确定所述第二分组结果相应所述用户行为预测参数的变化趋势,将所述第二分组结果相应所述变化趋势与所述期望变化趋势进行对比;
[0083]
若所述第二分组结果相应所述变化趋势与所述期望变化趋势仍不相符,则重新对所述用户属性数据进行初始化分组处理,对重新初始化分组结果进行排序调整。
[0084]
所述用户属性数据分组方法中,根据分组相应用户行为预测指数变化趋势对初始化分组结果进行调整以实现分组的业务可解释性。在所述用户属性数据分组方法中,初始化分组结果相应所述变化趋势与所述期望变化趋势不相符时,说明初始化分组结果其在业务可解释性方面无法达到要求,此时就需要针对初始化分组结果进行进一步调整,在调整时采用相邻分组合并的方式,合并操作之后原相邻两组合并为一组得到所述第一分组结果。所述第一分组结果中各分组的排序方式仍依照所述分组排序方式,各分组的用户行为预测参数会发生变化。重新计算确定所述第一分组结果的用户行为预测参数变化趋势,将其与期望变化趋势进行对比,若仍不相符则继续重复上述的合并操作,得到第二分组结果再次对比趋势。
[0085]
需要注意的是,在对初始化分组结果进行进一步调整时至多进行两次合并操作,超过两次就会造成对数据的过度操纵,会对所述用户属性数据的分组数据表现造成影响。
[0086]
在本说明书的一些可选实施例所提供的一种用户属性数据分组方法中在重新对所述用户属性数据进行初始化分组处理时,控制初始化分组结果中每组用户数量为原用户数量的二倍。
[0087]
所述用户属性数据分组方法中,根据分组相应用户行为预测指数变化趋势对初始化分组结果进行调整以实现分组的业务可解释性。在所述用户属性数据分组方法中,初始化分组结果相应所述变化趋势与所述期望变化趋势不相符时,说明初始化分组结果其在业务可解释性方面无法达到要求,此时就需要针对初始化分组结果进行进一步调整。
[0088]
在此过程中若两次合并操作后分组结果相应的变化趋势与所述期望变化趋势仍不相符,导致这样结果可能的原因在于最初获取的所述用户属性数据本身的数据样本量不足或者用户属性数据在取值范围中的分布不均匀,这种情况下最初的所述初始化分组结果可能存在分组结果的分组数过多的问题,每一分组中数据量过少。
[0089]
针对所述问题,在一些可选实施例中,对初始化分组处理进行调整,控制初始化分组结果中每组用户数量为原用户数量的二倍。在实际操作中过程为:首先采用10等频分箱分组,如果分箱结果与期望趋势不相符,则进行两次相邻分箱的合并操作,若合并分箱后结果仍与期望趋势不相符,则重新初始化分箱;对于重新初始化分箱,采用5等频分箱分组此时分组数约为原来的二分之一,每组的用户数量约为原来的二倍。
[0090]
如图3所示,在本说明书的一些可选实施例所提供的一种用户属性数据分组方法中,所述分组排序方式根据历史经验数据选取确定;
[0091]
所述方法还包括:
[0092]
若对重新初始化分组结果进行合并调整后,相应所述变化趋势仍与所述期望变化趋势不符,则对选取的所述分组排序方式进行验证调整;
[0093]
对所述分组排序方式进行验证调整,包括:
[0094]
s301:在根据初始化分组结果,对每一分组中的所述用户属性数据进行统计分析,计算确定所述分组的用户行为预测参数时,还计算所述初始化分组结果对应的初始精度比参数ar;
[0095]
s302:在对所述初始化分组结果进行合并调整后,计算合并调整后分组结果对应的调整精度比参数ar
′
;
[0096]
s303:将所述初始精度比参数ar与所述调整精度比参数ar
′
进行对比,若合并调整后分组结果对应的调整精度比参数ar
′
小于所述初始精度比参数,则说明最初选取的所述分组排序方式错误,重新选取新的分组排序方式。
[0097]
所述精度比参数(accuracy ratio,ar)是用于衡量数据分组结果对用户行为预测能力的指标,精度比参数值越大说明对用户行为预测能力越强结果越准确,所述精度比参数可以根据cap(cumulative accuracy profile)曲线求得。因此在所述用户属性数据分组方法中,利用精度比参数来衡量分组排序方式正确性,若合并调整分组结果之后对应的精度比参数即所述调整精度比参数ar
′
反而小于了调整之前分组结果对应的精度比参数即所述初始精度比参数,则说明调整之后的分组结果对于用户行为预测能力准确性反而降低。在实际实施情况中,所采取的方案为:当合并调整后分组结果对应的调整精度比参数ar
′
明显小于所述初始精度比参数ar,才重新选取新的分组排序方式,若调整精度比参数ar
′
只是略小于初始精度比参数ar,则不用重新选取,其中略小于的情况可以举例说明,例如当时可以认定为属于略小于的情况,当时认为是明显小于,或者当时可以认定为略小于的情况,当时认为是明显小于,具体的判断阈值可以根据实际情况进行调整设定。
[0098]
在所述用户属性数据分组方法中,所述分组排序方式是根据历史经验数据选取确定的,若根据所述分组排序方式对初始化分组结果排序后经过对初始化分组结果的合并调整以及分组用户数量调整后,分组结果相应用户行为预测指数变化趋势与期望变化趋势仍不相符,则说明最初所选取的分组排序方式存在问题,所选取的所述分组排序方式与所述用户属性数据的具体含义以及业务可解释性的对应关系不够准确,因此需要根据所述用户属性数据的具体含义结合历史经验数据重新选取其他的分组排序方式进行测试,从而保证最终的分组结果能够更好的兼顾适应性更佳的实际业务可解释性。
[0099]
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本说明书一个或多个实施例的不同方面的许多其它变化,为了简明它们没有在细
节中提供。
[0100]
另外,为简化说明和讨论,并且为了不会使本说明书一个或多个实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(ic)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本说明书一个或多个实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本说明书一个或多个实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本说明书一个或多个实施例。因此,这些描述应被认为是说明性的而不是限制性的。
[0101]
尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态ram(dram))可以使用所讨论的实施例。
[0102]
本说明书一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。