一种数据处理方法、装置、电子设备及存储介质与流程

文档序号:32125177发布日期:2022-11-09 07:55阅读:53来源:国知局
一种数据处理方法、装置、电子设备及存储介质与流程

1.本公开涉及计算机技术领域,具体涉及数据处理技术领域,尤其涉及一种数据处理方法、装置、电子设备及存储介质。


背景技术:

2.在数据处理技术领域,需要处理的数据通常包括连续型变量和离散型变量。在一些场景下,对于连续型变量例如年龄、金额等,需要对其进行变量分箱(即离散化处理),以利用连续型变量对应的离散化编码进行数据挖掘和分析。常用的分箱方式包括等频分箱、等距分箱、分布分箱等。


技术实现要素:

3.本公开提供了一种数据处理方法、装置、电子设备及存储介质,提高了数据离散的准确度。
4.根据本公开的一方面,提供了一种数据处理方法,该方法包括:从目标存储器中获取待离散的连续型特征序列,其中,所述连续型特征序列包括多个特征取值;确定特征取值对应的正样本比例;使用目标处理器,根据所述正样本比例,将所述连续型特征序列划分为多个目标区间,其中,所述目标区间内特征取值对应的正样本比例具有单调性;基于所述多个目标区间,确定所述连续型特征序列的离散化编码。
5.根据本公开的另一方面,提供了一种数据处理方法,该方法包括:从目标存储器中获取待离散的产品评分特征序列,其中,所述产品评分特征序列包括多个特征评分值;确定特征评分值对应的正样本比例,其中,正样本是基于产品品牌确定的;使用目标处理器,根据所述正样本比例,将所述产品评分特征序列划分为多个目标区间,其中,所述目标区间内特征评分值对应的正样本比例具有单调性;基于所述多个目标区间,确定所述产品评分特征序列的离散化编码。
6.根据本公开的另一方面,提供了一种数据处理装置,该装置包括:连续型特征序列获取模块,用于从目标存储器中获取待离散的连续型特征序列,其中,所述连续型特征序列包括多个特征取值;第一正样本比例确定模块,用于确定特征取值对应的正样本比例;第一划分模块,用于使用目标处理器,根据所述正样本比例,将所述连续型特征序列划分为多个目标区间,其中,所述目标区间内特征取值对应的正样本比例具有单调性;第一离散化编码确定模块,用于基于所述多个目标区间,确定所述连续型特征序列的离散化编码。
7.根据本公开的另一方面,提供了一种数据处理装置,该装置包括:产品评分特征序列获取模块,用于从目标存储器中获取待离散的产品评分特征序列,其中,所述产品评分特征序列包括多个特征评分值;第二正样本比例确定模块,用于确定特征评分值对应的正样本比例,其中,正样本是基于产品品牌确定的;第二划分模块,用于使用目标处理器,根据所述正样本比例,将所述产品评分特征序列划分为多个目标区间,其中,所述目标区间内特征评分值对应的正样本比例具有单调性;第二离散化编码确定模块,用于基于所述多个目标
区间,确定所述产品评分特征序列的离散化编码。
8.根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述的数据处理方法。
9.根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行前述的数据处理方法。
10.根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现前述的数据处理方法。
11.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
12.附图用于更好地理解本方案,不构成对本公开的限定。其中:
13.图1是本公开可以应用于其中的示例性系统架构图;
14.图2是根据本公开的数据处理方法的一个实施例的流程图;
15.图3是根据本公开的数据处理方法的另一个实施例的流程图;
16.图4是根据本公开的数据处理方法的又一个实施例的流程图;
17.图5是根据本公开的合并判断操作的流程示意图;
18.图6a-b是根据本公开的对目标区间进行合并的示意性图;
19.图7是根据本公开的数据处理方法的又一个实施例的流程图;
20.图8是根据本公开的数据处理装置的一个实施例的结构示意图;
21.图9是根据本公开的数据处理装置的另一个实施例的结构示意图;
22.图10是用来实现本公开实施例的数据处理方法的电子设备的框图。
具体实施方式
23.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
24.图1示出了可以应用本公开的数据处理方法的实施例的示例性系统架构100。如图1所示,系统架构100可以包括终端101、网络102和服务器103。网络102用以在终端101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
25.终端101可以通过网络102与服务器103交互,终端101包括目标存储器,其中,目标存储器中存储有待离散的连续型特征序列;服务器103可以从终端101的目标存储器处获取待离散的连续型特征序列,并对待离散的连续型特征序列进行处理,得到连续型特征序列的离散化编码,进一步利用服务器中预设的逻辑回归模型对离散化编码进行处理,得到预测信息,并将预测信息发送至终端101的显示界面,供用户查阅。
26.需要说明的是,服务器103可以是硬件,也可以是软件。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器103为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
27.应该理解,图1中的终端、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端、网络和服务器。
28.需要说明的是,本公开实施例所提供的数据处理方法一般由服务器103执行,相应地,用于数据处理的装置一般设置于服务器103中。
29.图2示出了本公开一个实施例提供的数据处理方法的示意图,如图2所示,该方法包括以下步骤:
30.s201、从目标存储器中获取待离散的连续型特征序列,其中,连续型特征序列包括多个特征取值。
31.需要说明的是,目标存储器可以是终端设备内的存储器,也可以是终端设备外接的存储器;特征序列为表征对象数据(如用户数据或产品数据)的特征的变量,其中,对应的特征取值为离散值的特征序列为离散型特征序列;对应的特征取值为连续值的特征序列为连续型特征序列。在本实施例中,执行主体从目标存储器中获取待离散的连续型特征序列,针对连续型特征序列进行分箱处理,以使得该连续型特征序列转换为离散型特征序列。
32.对于用户而言,连续型特征序列可以是考试成绩、年龄、身高等,并且连续型特征序列包括多个特征取值,例如年龄对应的特征取值可以为0-99,身高对应的特征取值可以为50厘米到200厘米等。
33.在本实施例中,假如某工厂有130件产品,产品评分(连续型特征序列)的特征取值为45,80,88,77,68,99,60,92,85,其中,有20件产品的产品评分为45分;有10件产品的产品评分为60分;有10件产品的产品评分为68分;有20件产品的产品评分为77分;有10件产品的产品评分为80分;有20件产品的产品评分为85分;有20件产品的产品评分为88分;有20件产品的产品评分为85分;有20件产品的产品评分为85分;有20件产品的产品评分为85分,即产品评分与产品数量的关系如表1所示:
34.表1
35.产品评分458088776899609285产品数量201010201020201010
36.s202、确定特征取值对应的正样本比例。
37.需要说明的是,正样本可以是根据业务场景预先设定的。通常用户会把样本数据中感兴趣的那个取值对应的样本称作正样本,而另一个值对应的样本则称作负样本。例如,对于“是否为a品牌”的样本数据来说,会有“是”=1和“否”=0这两个值,如果用户感兴趣的是a品牌,则可以将值为1(a品牌)的样本作为正样本;相应地,可以将值为0(其他品牌)的样本作为负样本。
38.在本实施例中,执行主体首先统计每个特征取值对应的样本总数量以及该特征取值下正样本的数量,其次,计算该特征取值下正样本的数量占该特征取值对应的样本总数量的比例,从而得到每个特征取值对应的正样本比例。
39.沿用前述示例的表1中所示的内容,假设正样本是a品牌的样本,首先统计各产品
评分在不同品牌下的产品数量,如表2所示;其次,计算每个产品评分下a品牌的数量占该产品评分下产品总数量的比例,从而得到每个产品评分取值对应的的正样本比例。
40.表2
41.产品评分458088776899609285a品牌312541365其他品牌1798156191745
42.例如,产品评分为45分的正样本比例为3(正样本的数量)/20(样本总数量)=0.15;产品评分为80分的正样本比例为1(正样本的数量)/10(样本总数量)=0.1;产品评分为88分的正样本比例为2(正样本的数量)/10(样本总数量)=0.2,由此得到表3示出的每个产品评分取值对应的正样本比例。
43.表3
44.产品评分458088776899609285正样本比例0.150.40.150.250.20.50.10.60.5
45.s203、使用目标处理器,根据正样本比例,将连续型特征序列划分为多个目标区间,其中,目标区间内特征取值对应的正样本比例具有单调性。
46.在本实施例中,服务器包括目标处理器,目标处理器根据由步骤202确定的每个特征取值的正样本比例,能够将连续型特征序列划分为多个目标区间,并使得目标区间内特征取值对应的正样本比例具有单调性。例如,沿用前述产品评分的示例,根据表3确定的每个产品评分取值对应的正样本比例,能够将产品评分从45分到99分的这一连续型特征序列划分成如下目标区间:45~60、68~80、85~92以及99,并且每个目标区间内产品评分对应的正样本比例具有单调性。
47.例如,目标区间68~80中产品评分为68分的正样本比例为0.2,产品评分为77分的正样本比例为0.25,产品评分为80分的正样本比例为0.4,即目标区间68~80内产品评分对应的正样本比例单调递增;基于相似的理由,可得目标区间45~60内产品评分对应的正样本比例单调递减;目标区间85~92内产品评分对应的正样本比例单调递增。
48.s204、基于多个目标区间,确定连续型特征序列的离散化编码。
49.在本实施例中,执行主体将连续型特征序列的特征取值映射到各个目标区间中,从而基于各个目标区间对应的离散化编码,得到具体特征取值的离散化编码。沿用前述产品评分的示例,若以上目标区间:45~60、68~80、85~92以及99对应的离散化编码分别为1、2、3和4,则产品评分为45分的离散化编码为1,产品评分为77分的离散化编码为2。
50.在本实施例的一些可选实现方式中,在确定好连续型特征序列的离散化编码之后,执行主体还可以执行以下步骤:利用预设的逻辑回归模型对离散化编码进行处理,得到连续型特征序列对应的预测信息。
51.在本实施例中,上述步骤s201-s204可用于算法模型的应用领域中。该算法模型例如是逻辑回归模型。举例而言,上述连续型特征序列可以是用户数据或产品数据,在基于逻辑回归模型预测用户或产品的相关信息的场景中,可以基于上述步骤s201-s204确定用户或产品的某个连续型特征序列的多个目标区间或者离散化区间,再基于该连续型特征序列的取值以及多个目标区间,确定连续型特征序列的离散化编码,从而将该用户或产品的离散化编码作为逻辑回归模型的输入信息,得到逻辑回归模型输出的该连续型特征序列的预
测信息。其中,连续型特征序列例如是用户的年龄、收入金额、消费金额等,或者是产品的售出数量、返修数量等。预测信息例如是用户的消费等级、产品的使用年限等。
52.在本实施例中,通过根据正样本比例的单调性对数据进行离散处理,在解决单调性缺失的同时提高了特征的区分度,在不额外增加硬件资源消耗的情况下,有效提升了数据离散的准确度。此外,利用逻辑回归模型对该连续型特征序列的离散化编码进行处理,可以提高预测信息的准确性。
53.继续参考图3,其示出了本公开又一个实施例提供的数据处理方法的示意图,该方法包括以下步骤:
54.s301、从目标存储器中获取待离散的连续型特征序列,其中,连续型特征序列包括多个特征取值。
55.在本实施例中,对s301的描述参考s201,本技术在此不再详述。
56.s302、确定特征取值对应的正样本比例。
57.在本实施例中,对s302的描述参考s202,本技术在此不再详述。
58.s303、基于连续型特征序列中特征取值的排列顺序,将对应的正样本比例进行排序。
59.本实施例中,将连续型特征序列的多个特征取值按照从小到大或从大到小的顺序进行排序,与特征取值对应的正样本比例则根据特征取值的排列顺序进行排序。例如,沿用上述产品评分的示例,对产品评分的多个特征取值按照从小到大的顺序进行排序,得到45、60、68、77、80、85、88、92、99,其次正样本比例与排序后的特征取值一一对应,实现对正样本比例的排序,表4示出了排序后的特征取值以及对应的正样本比例。
60.表4
61.产品评分456068778085889299正样本比例0.150.10.20.250.40.050.150.60.5
62.s304、利用对撞指针依次遍历排序后的正样本比例,将在数值上单调变化的多个正样本比例所对应的多个特征取值确定为一个目标区间。
63.在本实施例中,对撞指针包括左指针和右指针,首先从第一个特征取值开始遍历,即左指针和右指针同时指向第一个特征取值,此时,记当前特征取值对应的正样本比例为ration r1;其次,右指针指向第二个特征取值,记第二个特征取值对应的正样本比例为ration r2,若ration r1小于等于ration r2,标志位记为1;若ration r1大于ration r2,标志位记为0;随后,右指针指向第三个取值,记第三个特征取值对应的正样本比例为ration r3,同样,若ration r2小于等于ration r3,标志位记为1;若ration r2大于ration r3,标志位记为0,判断标志位的取值是否发生,若变化,表明第三个特征取值对应的正样本的比例不符合单调变化,则将左指针对应的特征取值和右指针对应的上一个特征取值确定为一个目标区间,即将第一个特征取值与第二个特征取值确定为一个目标区间;若未发生变化,则右指针指向第四个取值,并执行上述相同的判断,直至对撞指针遍历至最后一个特征取值对应的正样本比例,判断结束。
64.以表4中排序后的特征取值以及对应的正样本比例为例进行说明,左指针和右指针同时指向第一个特征取值45,对应的0.15,右指针指向第二个特征取值60,对应的正样本比例为0.1,标志位0;右指针指向第三个特征取值68,对应的正样本比例为0.2,标志位1,标
志位发生变化,将第一个特征取值与第二个特征取值确定为一个目标区间,即目标区间45~60。
65.s305、响应于遍历结束,得到多个目标区间。
66.在本实施例中,利用步骤304的方法,执行主体从第一个特征取值的正样本比例开始判断,直至最后一个特征取值的正样本比例判断结束,将在数值上单调变化的多个正样本比例所对应的多个特征取值确定为一个目标区间,最终得到多个目标区间。沿用前述产品评分的示例,能够得到的目标区间为45~60、68~80、85~92以及99。
67.在本实施例中,利用对撞指针对排序后的正样本比例进行遍历,能够提高对数据离散化处理的效率,并降低人工成本。
68.s306、基于多个目标区间,确定连续型特征序列的离散化编码。
69.在本实施例中,对s306的描述参考s204,本技术在此不再详述。
70.s307、利用预设的逻辑回归模型对离散化编码进行处理,得到连续型特征序列对应的预测信息。
71.在本实施例中,对s307的描述参考前述实施例,本技术在此不再详述。
72.继续参考图4,其示出了本公开又一个实施例提供的数据处理方法的示意图,该方法包括以下步骤:
73.s401、从目标存储器中获取待离散的连续型特征序列,其中,连续型特征序列包括多个特征取值。
74.s402、确定特征取值对应的正样本比例。
75.在本实施例中,对s401-s402的描述参考s201-s202,本技术在此不再详述。
76.s403、使用目标处理器,根据正样本比例,将连续型特征序列划分为多个目标区间,其中,目标区间内特征取值对应的正样本比例具有单调性。
77.在本实施例中,对s403的描述可以参考s203,在一些可选的实现方式中可以参考s303-s305,本技术在此不再详述。
78.s404、计算目标区间的信息价值。
79.在本实施例中,信息价值为表征预测能力的数值,也可以称为信息量。实际应用中,信息价值可用于衡量变量分箱后得到的各个变量分组,例如上述目标区间的预测能力。
80.示例性地,对于一个目标区间,其信息价值可以基于该目标区间的woe(weight of evidence,证据权重)计算得到,其中,woe表征该目标区间中正负样本的比值与样本总量中正负样本的比值之间的差异。
81.在本实施例中,以k代表某个目标区间,则目标区间k的信息价值可参考如下公式确定:
[0082][0083]
其中,pyk是该目标区间中的正样本的数量与所有样本数据中正样本的数量之间的比例;pnk是这个目标区间中负样本的数量与所有样本数据中所有负样本的数量之间的比例;#yk是这个目标区间中正样本的数量;#nk是这个目标区间中负样本的数量;#y
t
是所有
样本数据中正样本的数量;#n
t
是所有样本数据中负样本的数量。
[0084]
沿用前述产品评分的示例,得到的多个目标区间分别为:45~60、68~80、85~92以及99,其中,45~60区间内的正样本(a品牌的产品)数量为4;45~60区间内的负样本数量为26;所有产品的正样本数量为30;所有产品的负样本数量为100,则根据上述公式可得目标区间45~60的信息价值为:
[0085][0086]
进一步,参见表5,基于相似的计算方式,可得前述对产品评分进行离散得到的每个目标区间的信息价值。
[0087]
表5
[0088]
产品评分正样本数量负样本数量信息价值45~604260.0845968~8011290.0179885~9210400.0121599550.14046汇总30100—
[0089]
s405、根据各目标区间的信息价值,对满足合并条件的至少两个目标区间进行合并,得到多个分箱区间。
[0090]
在本实施例中,执行主体可将每相邻的两个目标区间作为一组,从而得到多组相邻的目标区间,进一步,根据各目标区间的信息价值,分别判断每组相邻的目标区间是否满足合并条件,若满足,则将对应的两个相邻目标区间进行合并,得到多个分箱区间。
[0091]
在本实施例的一些可选实现方式中,假设目标区间的个数为n,从第一个目标区间开始,执行合并判断操作,直至第n个目标区间判断完毕,得到多个分箱区间,其中,n为大于1的自然数,如图5所示,合并判断操作包括如下步骤:
[0092]
s4051、判断第i个目标区间和第i+1个目标区间是否满足合并条件。
[0093]
在本实施例中,执行主体首先计算第i个目标区间和第i+1个目标区间合并后的区间的信息价值,其次判断该信息价值是否大于预设信息价值阈值;若大于,则确定第i个目标区间和第i+1个目标区间满足合并条件。
[0094]
在本实施例的一些可选实现方式中,将第i个目标区间的信息价值与第i+1个目标区间的信息价值之和,确定为合并前信息价值;将第i个目标区间和第i+1个目标区间合并后的区间的信息价值,确定为合并后信息价值;响应于合并后信息价值大于等于合并前信息价值,则确定第i个目标区间和第i+1个目标区间满足合并条件。
[0095]
沿用前述产品评分的示例,当i=1时,以第一个目标区间为45~60,第二个目标区间为68~80为例,判断这两个区间是否满足合并条件。其中,合并前信息价值为第一个目标区间45~60的信息价值与第二个目标区间68~80的信息价值之和,即0.08459+0.01798=0.12057;合并后信息价值为将第一个目标区间45~60与第二个目标区间68~80合并后的区间45~80的信息价值,按照前述计算信息价值的方法,可得区间45~80的信息价值为0.00477,显然合并后信息价值0.00477小于合并前信息价值0.12057,则第一个目标区间45~60和第二个目标区间为60~80不满足合并条件。
[0096]
s4052、响应于第i个目标区间和第i+1个目标区间满足合并条件,将第i个目标区间和第i+1个目标区间进行合并,得到一个分箱区间,再次判断第i+2个目标区间和第i+3个目标区间是否满足合并条件。
[0097]
在本实施例中,如图6a所示,以首先判断目标区间1和目标区间2是否满足合并条件为例进行说明,当目标区间1和目标区间2满足合并条件时,将目标区间1和目标区间2进行合并,得到分箱区间1;并再次判断目标区间3和目标区间4是否满足合并条件,同样,若满足,将目标区间3和目标区间4进行合并,得到分箱区间2,依次类推,直至判断至最后一个目标区间,即目标区间n。
[0098]
s4053、响应于第i个目标区间和第i+1个目标区间不满足合并条件,将第i个目标区间作为一个分箱区间,再次判断第i+1个目标区间和第i+2个目标区间是否满足合并条件。
[0099]
在本实施例中,如图6b所示,同样以首先判断目标区间1和目标区间2是否满足合并条件为例进行说明,当目标区间1和目标区间2不满足合并条件时,将目标区间1作为分箱区间1;再次判断目标区间2和目标区间3是否满足合并条件,若满足,则将目标区间2和目标区间3进行合并得到分箱区间2,若不满足,则判断目标区间3和目标区间4是否满足合并条件,依次类推,直至判断至最后一个目标区间,即目标区间n。
[0100]
需要说明的是,本实施例中的i按照由小至大的顺序在{1,2,
……
,n-3}中取值,并可以根据实际需要连续取值或间隔取值。例如,当i取值为1时,响应于第一个目标区间和第二个目标区间满足合并条件,i取值变为3,执行主体判断第三个目标区间和第四个目标区间是否满足合并条件;响应于第一个目标区间和第二个目标区间不满足合并条件此时,i取值变为2,执行主体判断第二个目标区间和第三个目标区间是否满足合并条件。
[0101]
在本实施例的一些可选实现方式中,还可以对得到的分箱区间重复执行前述的合并判断操作。如图6a或6b所示,执行主体在得到分箱区间1、分箱区间2等m个分箱区间后(m为大于1的自然数),对这m个分箱区间再次执行前述的合并判断操作,例如,判断分箱区间1和分箱区间2是否满足合并条件等,直至没有可合并的区间时,得到最后的多个分箱区间,换句话说,相邻的两个分箱区间均不满足合并条件。
[0102]
在本实施例中,通过将合并后信息价值大于合并前信息价值的区间进行合并,有利于信息价值不断提高,从而在确定连续型特征序列的离散化区间的过程中,实现了信息价值的最大化,即实现了最优离散化。并且,相比基于人工经验对连续型特征序列进行复杂的分析,可以大大提高离散化处理的效率,降低人工成本。
[0103]
s406、计算分箱区间的证据权重。
[0104]
在本实施例中,通过计算每个分箱区间的证据权重,即woe值,确定离散化编码。需要说明的是,证据权重是基于多个样本数据中的目标数据的数量得到的,其中,目标数据可以是符合预设条件的数据,即正样本。以x代表某个分箱区间,则分箱区间x的证据权重可参考如下公式确定:
[0105][0106]
其中,py
x
是该分箱区间中的正样本的数量与所有样本数据中正样本的数量之间
的比例;pn
x
是该分箱区间中负样本的数量与所有样本数据中所有负样本的数量之间的比例;#y
x
是这个分箱区间中正样本的数量;#n
x
是这个分箱区间中负样本的数量;#y
t
是所有样本数据中正样本的数量;#n
t
是所有样本数据中负样本的数量。
[0107]
沿用前述产品评分的示例,假设最终得到的分箱区间为45~60、68~80、85~92以及99,以分箱区间为45~60为例,利用上述证据权重的计算公式,可得其对应的证据权重为:ln[(4/30)/(26/100)]=-0.66782。
[0108]
进一步,参见表6,基于相似的计算方式,可得每个分箱区间的证据权重。
[0109]
表6
[0110]
产品评分正样本数量负样本数量证据权重45~60426-0.6678268~8011290.2345785~921040-0.1823299551.20397汇总30100—
[0111]
s407、基于证据权重,得到连续型特征序列的离散化编码。
[0112]
在本实施例中,将步骤s408计算得到的分箱区间的证据权重,作为连续型特征序列对应的离散化编码。以前述产品评分为例,参考表6,如此,可将产品评分这一连续型特征序列的特征取值映射到各个目标区间中,并基于各个分箱区间对应的离散化编码,得到具体产品的离散化编码。其中,以上分箱区间对应的离散化编码分别为-0.66782、0.23457、-0.18232以及1.20397,则产品评分为45分的离散化编码为-0.66782,产品评分为77分的离散化编码为0.23457。
[0113]
在本实施例中,由于证据权重是基于目标区间内的正样本数量得到的,可以反映该区间的预测能力的大小,因此,将证据权重作为区间对应的离散化编码,可以在应用该离散化编码预测信息时,提高该离散化编码携带的信息量,从而提高预测准确性。
[0114]
s408、利用预设的逻辑回归模型对离散化编码进行处理,得到连续型特征序列对应的预测信息。
[0115]
在本实施例中,用分箱区间对应的证据权重做离散化编码替换原始连续型特征序列的特征取值,进一步将离散化编码输入至逻辑回归模型,得到预测信息。同时,由于在连续型特征序列的离散过程中实现了信息价值最大化,因此,利用逻辑回归模型对该连续型特征序列的离散化编码进行处理,可以提高预测信息的准确性。
[0116]
继续参考图7,其示出了根据本公开的数据处理方法的又一个实施例的流程。该方法包括以下步骤:
[0117]
s701、从目标存储器中获取待离散的产品评分特征序列,其中,产品评分特征序列包括多个特征评分值。
[0118]
在本实施例中,图1中示出的终端可以为产品评价器,执行主体从产品评价器中获取待离散的产品评分特征序列,其中,产品评分特征序列包括多个特征评分值。例如,特征评分值为45,80,88,77,68以及99等。
[0119]
s702、确定特征评分值对应的正样本比例,其中,正样本是基于产品品牌确定的。
[0120]
在本实施例中,假设产品为a品牌的产品为正样本,反之为负样本。对s602的描述
参考s202,本技术在此不再详述。
[0121]
s703、使用目标处理器,根据正样本比例,将产品评分特征序列划分为多个目标区间,其中,目标区间内特征评分值对应的正样本比例具有单调性。
[0122]
在本实施例中,根据由步骤s602确定的正样本比例,执行主体可将产品评分特征序列划分为多个目标区间,并使得目标区间内特征评分值对应的正样本比例具有单调性。其中,对s603的描述参考s203或s303-s305,本技术在此不再详述。
[0123]
s704、基于多个目标区间,确定产品评分特征序列的离散化编码。
[0124]
在本实施例中,执行主体能够基于多个目标区间,确定产品评分特征序列的离散化编码,例如计算目标区间的证据权重,并将各目标区间的证据权重,作为产品评分特征序列的离散化编码。其中,对s704的描述参考s204或s404-s407,本技术在此不再详述
[0125]
在本实施例中,在确定好产品评分特征序列的离散化编码之后,执行主体还可以执行以下步骤:
[0126]
利用预先训练的产品等级预测模型对离散化编码进行处理,得到产品评分特征序列对应的产品等级预测值。
[0127]
在本实施例中,用目标区间对应的离散化编码,替换原始特征评分值,从而将该离散化编码作为产品等级预测模型的输入信息,得到产品等级预测模型输出的该产品的相关信息,即产品等级预测值。其中,对该步骤的描述参考前述实施例,本技术在此不再详述。
[0128]
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
[0129]
作为上述各方法的实现,本公开实施例还提供一种数据处理装置800,如图8所示,该装置包括:
[0130]
连续型特征序列获取模块801,用于从目标存储器中获取待离散的连续型特征序列,其中,连续型特征序列包括多个特征取值;
[0131]
第一正样本比例确定模块802,用于确定特征取值对应的正样本比例;
[0132]
第一划分模块803,用于使用目标处理器,根据正样本比例,将连续型特征序列划分为多个目标区间,其中,目标区间内特征取值对应的正样本比例具有单调性;
[0133]
第一离散化编码确定模块804,用于基于多个目标区间,确定连续型特征序列的离散化编码。
[0134]
在本实施例的一些可选实施方式中,装置还包括:
[0135]
信息价值计算模块,用于计算目标区间的信息价值;
[0136]
合并模块,用于根据各目标区间的信息价值,对满足合并条件的至少两个目标区间进行合并,得到多个分箱区间;其中,离散化编码确定模块包括:
[0137]
证据权重计算单元,用于计算分箱区间的证据权重;
[0138]
离散化编码确定单元,用于基于证据权重,得到连续型特征序列的离散化编码。
[0139]
在本实施例的一些可选实施方式中,多个目标区间的个数为n,合并模块包括:
[0140]
合并判断单元,用于从第一个目标区间开始,执行合并判断操作,直至第n个目标区间判断完毕,得到多个分箱区间,其中,n为大于1的自然数,合并判断单元包括:
[0141]
第一子单元,用于判断第i个目标区间和第i+1个目标区间是否满足合并条件;
[0142]
第二子单元,用于响应于第i个目标区间和第i+1个目标区间满足合并条件,将第i
个目标区间和第i+1个目标区间进行合并,得到一个目标区间,再次判断第i+2个目标区间和第i+3个目标区间是否满足合并条件;
[0143]
第三子单元,用于响应于第i个目标区间和第i+1个目标区间不满足合并条件,将第i个目标区间作为一个目标区间,再次判断第i+1个目标区间和第i+2个目标区间是否满足合并条件;其中,i按照由小至大的顺序在{1,2,
……
,n-3}。
[0144]
在本实施例的一些可选实施方式中,第一子单元被配置为:
[0145]
将第i个目标区间的信息价值与第i+1个目标区间的信息价值之和,确定为合并前信息价值;将第i个目标区间和第i+1个目标区间合并后的区间的信息价值,确定为合并后信息价值;响应于合并后信息价值大于等于合并前信息价值,则确定第i个目标区间和第i+1个目标区间满足合并条件。
[0146]
在本实施例的一些可选实施方式中,第一划分模块包括:
[0147]
排序单元,用于基于连续型特征序列中特征取值的排列顺序,将对应的正样本比例进行排序;遍历单元,用于利用对撞指针依次遍历排序后的正样本比例,将在数值上单调变化的多个正样本比例所对应的多个特征取值确定为一个目标区间;目标区间生成单元,用于响应于遍历结束,得到多个目标区间。
[0148]
在本实施例的一些可选实施方式中,装置还包括:
[0149]
预测模块,用于利用预设的逻辑回归模型对离散化编码进行处理,得到连续型特征序列对应的预测信息。
[0150]
由于本技术实施例提出的一种数据处理装置与上述实施例提供的一种数据处理方法相对应,因此在前实施方式和有益效果也适用于本实施例提供的数据处理装置,在本实施例中不再详细描述。
[0151]
图9是本公开另一实施例提供的数据处理装置900,该装置包括:
[0152]
产品评分特征序列获取模块901,用于从目标存储器中获取待离散的产品评分特征序列,其中,产品评分特征序列包括多个特征评分值;
[0153]
第二正样本比例确定模块902,用于确定特征评分值对应的正样本比例,其中,正样本是基于产品品牌确定的;
[0154]
第二划分模块903,用于使用目标处理器,根据正样本比例,将产品评分特征序列划分为多个目标区间,其中,目标区间内特征评分值对应的正样本比例具有单调性;
[0155]
第二离散化编码确定模块904,用于基于多个目标区间,确定产品评分特征序列的离散化编码。
[0156]
在本实施例的一些可选实施方式中,该装置还包括:
[0157]
产品等级预测模块,用于利用预先训练的产品等级预测模型对离散化编码进行处理,得到产品评分特征序列对应的产品等级预测值。
[0158]
由于本技术实施例提出的一种数据处理装置与上述实施例提供的一种数据处理方法相对应,因此在前实施方式和有益效果也适用于本实施例提供的数据处理装置,在本实施例中不再详细描述。
[0159]
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
[0160]
图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电
子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0161]
如图10所示,设备1000包括计算单元1001,其可以根据存储在只读存储器(rom)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(ram)1003中的计算机程序,来执行各种适当的动作和处理。在ram1003中,还可存储设备1000操作所需的各种程序和数据。计算单元1001、rom1002以及ram1003通过总线1004彼此相连。输入/输出(i/o)接口1005也连接至总线1004。
[0162]
设备1000中的多个部件连接至i/o接口1005,包括:输入单元1006,例如键盘、鼠标等;输出单元1007,例如各种类型的显示器、扬声器等;存储单元1008,例如磁盘、光盘等;以及通信单元1009,例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0163]
计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理,例如一种数据处理方法。例如,在一些实施例中,数据处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1008。在一些实施例中,计算机程序的部分或者全部可以经由rom1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到ram1003并由计算单元1001执行时,可以执行上文描述的数据处理处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元1001可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行前述的数据处理方法。
[0164]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0165]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0166]
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可
读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0167]
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0168]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
[0169]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
[0170]
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
[0171]
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1