本发明涉及网络信息技术领域,尤其是一种客户属性离散化指标的无监督分类方法。
背景技术:
网站为了提高浏览量和转化率,需要对客户属性进行统计分析。但是,由于客户的具体情况千差万别,没有办法事先给出分类标准对海量数据进行统计分析。
技术实现要素:
本发明要解决的技术问题是提供一种客户属性离散化指标的无监督分类方法,能够解决现有技术的不足,实现对于海量数据的快速分类。
为解决上述技术问题,本发明所采取的技术方案如下。
一种客户属性离散化指标的无监督分类方法,包括以下步骤:
a、对客户属性离散化指标进行收集,形成数据集合;
b、对数据集合进行归一化处理,建立数据处理矩阵;
c、提取数据处理矩阵的特征向量,确定分类维度;
d、对数据处理矩阵进行迭代处理,直至各分类维度的可信度大于设定阈值;
e、将数据分入与其符合度最大的分类维度中;
f、将步骤e中的数据还原为客户属性离散化指标,将分类维度还原为分类指标,完成客户属性离散化指标的无监督分类。
作为优选,步骤c中,以特征向量的维数作为分类维度的基准维度,遍历所有特征向量,若在某个维度上有50%以上的特征向量线性相关,则在基准维度上删除此维度,最终得到分类维度。
作为优选,步骤d中,对数据处理矩阵进行迭代处理包括以下步骤:
d1、建立训练矩阵,使用训练矩阵对数据处理矩阵进行更新;
d2、每次更新后计算各分类维度的可信度,并与设定阈值进行比较,若大于阈值则停止更新,否则使用训练矩阵对更新后的数据处理矩阵进行再次更新。
作为优选,步骤d1中,训练矩阵d为,
其中,d为n×n维的矩阵,u为m×n维的数据处理矩阵,ut为u的转置,v为u在各分类维度上的n×m维的投影矩阵;
对数据处理矩阵进行更新的方法为,
u=u+λud,
其中,λ∈(0,1)。
作为优选,步骤d2中,分类维度的可信度r定义为,
r=k×l(d,d’),
其中,l(d,d’)为更新前的分类维度d和更新后的分类维度d’的线性度,k为比例系数。
一种客户属性离散化指标的无监督分类系统,包括:
形成模块:对客户属性离散化指标进行收集,形成数据集合;
建立模块:对数据集合进行归一化处理,建立数据处理矩阵;
确定模块:提取数据处理矩阵的特征向量,确定分类维度;
迭代模块:对数据处理矩阵进行迭代处理,直至各分类维度的可信度大于设定阈值;
划分模块:将数据分入与其符合度最大的分类维度中;
还原模块:将划分模块中的数据还原为客户属性离散化指标,将分类维度还原为分类指标,完成客户属性离散化指标的无监督分类。
确定模块中,以特征向量的维数作为分类维度的基准维度,遍历所有特征向量,若在某个维度上有50%以上的特征向量线性相关,则在基准维度上删除此维度,最终得到分类维度。
迭代模块中,对数据处理矩阵进行迭代处理包括:建立训练矩阵,使用训练矩阵对数据处理矩阵进行更新;每次更新后计算各分类维度的可信度,并与设定阈值进行比较,若大于阈值则停止更新,否则使用训练矩阵对更新后的数据处理矩阵进行再次更新。
形成模块中,训练矩阵d为,
其中,d为n×n维的矩阵,u为m×n维的数据处理矩阵,ut为u的转置,v为u在各分类维度上的n×m维的投影矩阵;
对数据处理矩阵进行更新的方法为,
u=u+λud,
其中,λ∈(0,1)。
建立模块中,分类维度的可信度r定义为,
r=k×l(d,d’),
其中,l(d,d’)为更新前的分类维度d和更新后的分类维度d’的线性度,k为比例系数。
采用上述技术方案所带来的有益效果在于:本发明通过建立分类维度可信度这一指标,对数据处理矩阵进行迭代处理,可以有效提高原始数据在分类标准上的一致性,便于数据的快速、准确分类。
具体实施方式
本发明的一个具体实施方式包括以下步骤:
一种客户属性离散化指标的无监督分类方法,包括以下步骤:
a、对客户属性离散化指标进行收集,形成数据集合;
b、对数据集合进行归一化处理,建立数据处理矩阵;
c、提取数据处理矩阵的特征向量,确定分类维度;
d、对数据处理矩阵进行迭代处理,直至各分类维度的可信度大于设定阈值;
e、将数据分入与其符合度最大的分类维度中;
f、将步骤e中的数据还原为客户属性离散化指标,将分类维度还原为分类指标,完成客户属性离散化指标的无监督分类。
步骤c中,以特征向量的维数作为分类维度的基准维度,遍历所有特征向量,若在某个维度上有50%以上的特征向量线性相关,则在基准维度上删除此维度,最终得到分类维度。
步骤d中,对数据处理矩阵进行迭代处理包括以下步骤:
d1、建立训练矩阵,使用训练矩阵对数据处理矩阵进行更新;
d2、每次更新后计算各分类维度的可信度,并与设定阈值进行比较,若大于阈值则停止更新,否则使用训练矩阵对更新后的数据处理矩阵进行再次更新。
步骤d1中,训练矩阵d为,
其中,d为n×n维的矩阵,u为m×n维的数据处理矩阵,ut为u的转置,v为u在各分类维度上的n×m维的投影矩阵;
对数据处理矩阵进行更新的方法为,
u=u+λud,
其中,λ∈(0,1)。
步骤d2中,分类维度的可信度r定义为,
r=k×l(d,d’),
其中,l(d,d’)为更新前的分类维度d和更新后的分类维度d’的线性度,k为比例系数。
另外,在每次对数据处理矩阵进行更新后,对训练矩阵进行同步更新。根据更新前后的训练矩阵线性相关度对步骤d中的设定阈值进行等比例调整。步骤d中的设定阈值初始值可设定为80%。
上述描述仅作为本发明可实施的技术方案提出,不作为对其技术方案本身的单一限制条件。
本领域的技术人员应当理解,上述实施方式仅仅是为了清楚地说明本公开,而并非是对本公开的范围进行限定。对于所属领域的技术人员而言,在上述公开的基础上还可以做出其它变化或变型,并且这些变化或变型仍处于本公开的范围内。