一种抽样方法和装置的制造方法
【技术领域】
[0001] 本发明设及计算机应用领域,特别是设及一种抽样方法和装置。
【背景技术】
[0002] 目前,在网站用户调研或者网站用户分析中,常常需要对用户进行抽样,使得样本 尽量多的保留总体信息。
[0003] 现有的用户抽样方案,主要包括下述步骤:
[0004] 步骤XI、对需要调研的用户总体进行分群,得到若干用户群。
[0005] 步骤x2、对于每个用户群,采用随机抽取的方式,从中抽取样本。
[0006] 步骤x3、将抽取到的所有用户群的样本合并,得到所述用户总体的样本集合。
[0007] 从上述方案可W看出,现有的用户抽样方法采用随机抽取的方法进行样本的抽 取,该样,每个用户被抽取的概率相同。而在实际应用中,不同样本间的相似度不同,采用随 机抽取的方式,就会导致可能出现被抽取到的多个用户的相似度较高,而差异性大的用户 没有被抽取到的情况,该样,就会导致抽取过程中总体信息流失过多,所抽取到的样本集合 不能准确地反映用户总体的特点,即每个样本的代表性不强。
[0008] 由此可见,现有的抽样方案由于采用随机抽取的方式,而存在总体信息流失多、样 本无法反映总体的问题,从而会影响基于样本进行用户分析的准确性。
【发明内容】
[0009] 有鉴于此,本发明的主要目的在于提供一种抽样方法和装置,可W减少抽样过程 中总体信息的流失,提高样本反映总体的准确度。
[0010] 为了达到上述目的,本发明提出的技术方案为:
[0011] 一种抽样方法,包括:
[0012] 将数据对象总体的特征划分为分类特征和拉了特征,其中,每个所述拉了特征的 取值个数大于每个所述分类特征的取值个数,且所述拉了特征的数量q满足;q= 2t,r为 大于1的整数;
[0013] 根据所述分类特征,对所述数据对象总体进行分群,其中,每个数据对象群i中的 拉了特征的数量di满足:为大于1的整数;
[0014] 对于每个数据对象群i,构建该群使用的近似正交的拉了超立方体N0L皿群组,其 中,所述N0L皿群组中每个拉了超立方体的列数等于该群对应的所述di;对群中每个拉了 特征的取值进行归类处理,所述归类处理后每个拉了特征的枚举值数量均为预设的该群的 单位特征枚举数阔值li;利用该群对应的所述N0L皿群组,确定一个拉了超立方体作为该 群用于抽样的拉了超立方体,其中,所确定的拉了超立方体的行数等于所述li;利用所确定 的拉了超立方体,对该群中的数据对象进行抽样;
[0015] 将所有数据对象群的抽样结果合并,得到所述数据对象总体的样本。
[0016] 一种抽样装置,包括:
[0017] 特征分类单元,用于将数据对象总体的特征划分为分类特征和拉了特征,其中,每 个所述拉了特征的取值个数大于每个所述分类特征的取值个数,且所述拉了特征的数量q 满足;q= 2t,r为大于1的整数;
[0018] 分群单元,用于根据所述分类特征,对所述数据对象总体进行分群,其中,每个数 据对象群i中的拉了特征的数量Qi满足:A= 2'=,为大于1的整数;
[0019] 抽样单元,用于对于每个数据对象群i,构建该群使用的近似正交的拉了超立方体 N0L皿群组,其中,所述N0L皿群组中每个拉了超立方体的列数等于该群对应的所述di;对 群中每个拉了特征的取值进行归类处理,所述归类处理后每个拉了特征的枚举值数量均为 预设的该群的单位特征枚举数阔值li;利用该群对应的所述N0L皿群组,确定一个拉了超 立方体作为该群用于抽样的拉了超立方体,其中,所确定的拉了超立方体的行数等于所述 li;利用所确定的拉了超立方体,对该群中的数据对象进行抽样;
[0020] 样本汇总单元,用于将所有数据对象群的抽样结果合并,得到所述数据对象总体 的样本。
[0021] 综上所述,本发明提出的抽样方法和装置,将数据对象总体的特征划分为分类特 征和拉了特征,根据分类特征对总体进行分群,然后利用拉了超立方体(N0LHD)抽样方法, 在每个群内进行抽样。如此,通过对总体分群、各群内单独拉了超立方体抽样,可W实现对 每个样本的控制,减少抽样的随机性,提升样本的代表性,从而可W使得样本可W准确地反 映总体的情况。
【附图说明】
[0022] 图1为本发明实施例的方法流程示意图;
[0023] 图2为本发明实施例的装置结构示意图。
【具体实施方式】
[0024] 为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对 本发明作进一步地详细描述。
[002引本发明的核屯、思想是:将拉了超立方体(N0LHD)抽样引入到了用户抽样中,首先 将总体的特征抽象为分类特征和拉了特征,然后根据分类特征对用户总体分群,然后对于 每个用户群,结合N0L皿群组,进行抽样。如此,通过对总体分群、各群内单独拉了超立方体 抽样,可W实现对每个样本的控制,减少抽样的随机性,提升样本的代表性,从而可W使得 样本更能反映总体的情况。
[0026] 图1为本发明实施例一的流程示意图,如图1所示,该实施例主要包括:
[0027] 步骤101、将数据对象总体的特征划分为分类特征和拉了特征,其中,每个所述拉 了特征的取值个数大于每个所述分类特征的取值个数,且所述拉了特征的数量q满足;q= 2t,r为大于1的整数。
[0028] 本步骤,用于对数据对象总体所包含的所有特征进行分类,即分为分类特征和拉 了特征。在实际应用中,所述数据对象可W是用户在计算机存储中存在的数值单元。
[0029] 该里特征分类的依据是:特征的取值个数。拉了特征的取值个数将大于所述分类 特征的取值个数,并且需要使得拉了特征的数量q为2的幕次方,即满足;q= 2t。
[0030] 其中,分类特征,是用于依据此进行分类的特征,该类特征的取值有限并且枚举值 很少,如用户的注册来源、用户的下单渠道等,因此,据此分类不会导致分类后的群中数据 对象数量过少的问题。
[0031] 对于拉了特征,该类特征的取值为连续的,或者枚举值很多。如用户的下单地址, 用户的下单金额、用户的下单量等。利用该类特征,可W构建相应的拉了超立方体,基于拉 了超立方体抽样,使得抽样结果的特征分布尽量与总体的特征分布相一致,从而确保样本 的代表性。
[0032] 步骤102、根据所述分类特征,对所述数据对象总体进行分群,其中,每个数据对象 群i中的拉了特征的数量Qi满足:9, = 2'=,r;为大于1的整数。
[0033] 本步骤,用分类特征进行分类,分类后的各群中拉了特征的数量应为2的幕次方, W便可W基于此构建相应的用于抽样的拉了超立方体。
[0034] 步骤103、对于每个数据对象群i,构建该群使用的近似正交的拉了超立方体 N0L皿群组,其中,所述N0L皿群组中每个拉了超立方体的列数等于该群对应的所述di;对 群中每个拉了特征的取值进行归类处理,所述归类处理后每个拉了特征的枚举值数量均为 预设的该群的单位特征枚举数阔值li;利用该群对应的所述N0L皿群组,确定一个拉了超 立方体作为该群用于抽样的拉了超立方体,其中,所确定的拉了超立方体的行数等于所述 li;利用所确定的拉了超立方体,对该群中的数据对象进行抽样。
[00巧]本步骤,对于每个数据对象群i,构建该群使用的近似正交的拉了超立方体N0LHD群组,然后再从中选择出适用于该群抽样的拉了超立方体,并利用该拉了超立方体,对该群 中的数据对象进行抽样。
[0036] 该里为了便于理解,先介绍一下拉了超立方体的特点W及构建方法。
[0037] 近似正交的拉了超立方体的设计(N0LHD);
[003引将n个试验、m个因子的拉了超立方体设计记为;L(n,m) = (li,l2,...,U,其中Ij是第j个因子,并且每个因子的n个水平是等距的。简单的说,L(n,m)就是一个nXm的 矩阵,每列的元素都是同一个等差数列,但排列方式不一样。
[003引 N0L皿是基于现有的孤(n)方阵构建得到的,n为方阵的阶数。
[0040] 0D(n)方阵的定义(具体见yangandliu(2012));
[0041] 一个nXn的方阵A,如果它满足下面S个条件,那么就称它为0D(n)方阵:
[00