一种用户聚类的方法和装置的制造方法
【技术领域】
[0001] 本发明设及数据挖掘的计算机应用领域,特别设及一种用户聚类的方法和装置。
【背景技术】
[0002] 目前,人类社会在每天产生的新数据都W爆炸形式迅速增长,实时分析处理运些 海量数据,并挖掘其内部关系是分析决策者非常关注的问题。例如,我国信息科学的发展十 分迅速,科研项目、发表的论文和申请的专利都难W计数,分析运些科研项目、论文和专利 的知识数据之间的关系网络,并预测未来该技术领域的研究热点或焦点,可W帮助科研管 理部口更有效地执行项目的管理与审批,为该领域的研究人员开辟新的研究热点方向。社 交媒体领域,新增用户数与用户之间的交流日益增长,分析用户之间的好友关系、社区结 构,对定向推荐投放,分析用户行为,区域用户差别式管理也有着重大意义。商品交易领域, 无论哪种销售模式,每天都会产生大量的商品交易,用户量、商户量和商品量都会达到千万 甚至上亿级别,并且其中的类别种类都很多,用户的类别也有很多。面对与各类用户相关的 数量众多、种类复杂的数据,仅仅通过对单一种类的数据对用户进行分析,进行聚类明显不 符合实际情况。
[0003] 现有方法是设置数据挖掘工作流,该工作流包括多个并行的数据处理任务,数据 处理任务,通过映射/归纳机制并行执行得到相应的处理结果。现有技术中,对数据的挖掘 聚类只是限于对一维角度,无法对数据进行多维度多角度的分析,W使对数据的分析和认 识不够全面,影响聚类效果。
【发明内容】
[0004] 本发明实施例的目的在于提供一种用户聚类的方法和装置,使用户的聚类结果符 合实际情况。
[000引第一方面,本发明实施例公开了一种用户聚类的方法,应用于聚类服务器,包括步 骤:
[0006] 接收聚类请求,根据所述聚类请求采集用户数据,所述聚类请求携带所要采集的 用户数据的类别;
[0007] 按照预设规则处理所述采集到的用户数据,获得每个用户数据的主属性和附属属 性,根据获得的每个用户数据的主属性和附属属性,确定所有附属属性,根据所有附属属 性,获得每个主属性对应的多维度数据;其中,所述主属性包括用户标识,附属属性包括从 每个用户数据中获得的该用户的相关信息;所述多维度数据标识了该主属性与所有附属属 性的有或无的关系;
[0008] 根据每个主属性对应的多维度数据,获得每个主属性与所有附属属性的相关度;
[0009] 根据每个主属性与所有附属属性的相关度,进行模糊聚类,获得聚类结果,
[0010] 包括:按照预设分类规则对所有主属性进行分类,获得每个主属性在每一类别中 的第一分布情况,根据所述每个主属性与所有附属属性的相关度和所述第一分布情况,确 定所述多维度数据的每个附属属性在每一类别中的第二分布情况,其中进行分类时,保证 每一类别中存在至少一个主属性;
[0011] 根据所述的第二分布情况,使用预设的模糊聚类算法,进行迭代运算,获得用户的 聚类结果。
[0012] 较佳的,所述按照预设规则处理所述采集到的用户数据,获得每个用户数据的主 属性和附属属性,包括:
[0013] 对所述采集到的用户数据进行分词处理、过滤无用词和非法字符处理;
[0014] 获得每个用户数据的唯一一个主属性和至少一个附属属性。
[0015] 较佳的,所述确定所述多维度数据的每个附属属性在每一类别中的第二分布情况 后,还包括:
[0016] 根据所述多维度数据的每个附属属性在每一类别中的第二分布情况,确定所述多 维度数据的每个附属属性占所述每一类别的权重;
[0017] 所述根据所述的第二分布情况,使用预设的模糊聚类算法,进行迭代运算,获得用 户的聚类结果,为:
[0018] 根据所述多维度数据的每个附属属性占所述每一类别的权重,使用预设的模糊聚 类算法,进行迭代运算,获得用户的聚类结果。
[0019] 较佳的,所述根据所述多维度数据的每个附属属性占所述每一类别的权重,使用 预设的模糊聚类算法,进行迭代运算,获得用户的聚类结果,包括:
[0020] S1:根据所述多维度数据的每个附属属性占所述每一个类别的权重,确定所述多 维度数据的每个主属性对每一类别的隶属度向量;其中,所述多维度数据的每个主属性对 每一类别的隶属度向量由所有的附属属性确定;
[0021] S2:根据所述多维度数据的每个主属性对每一类别的隶属度向量,确定每一类别 当前的聚类中屯、的中屯、向量,所述每一类别当前的聚类中屯、的中屯、向量为每一类别中存在 的所有的主属性对该类别的隶属度的平均值,所述隶属度向量包含所述多维度数据的每个 主属性对每一类别的隶属度;
[0022] S3:比较所述每一类别当前的聚类中屯、的中屯、向量与每一类别前一次的聚类中屯、 的中屯、向量之差的模和设定阔值的大小;
[0023] S4:若比较结果为小于或者等于所述设定阔值,则判定聚类结果收敛,结束聚类过 程;
[0024] S5:若比较结果为大于所述设定阔值,则判定聚类结果不收敛,继续聚类过程,将 所述多维度数据的每个主属性对每一类别的隶属度向量,确定为新一轮聚类过程的每一类 别中所述多维度数据的每个主属性在每一类别中新的第一分布情况,根据所述每个主属性 与所有附属属性的相关度和所述新的第一分布情况,确定所述多维度数据的每个附属属性 在每一类别中的第二分布情况,根据所述多维度数据的每个附属属性在每一类别中的第二 分布情况,确定所述多维度数据的每个附属属性占所述每一类别的权重;返回步骤S1。
[0025] 较佳的,所述判定聚类结果收敛,结束聚类过程之后还包括:
[0026] 将当前聚类过程中所述主属性对每一类别的隶属度向量,确定为所述主属性对于 每一类别的归属概率,根据所述主属性对于每一类别的归属概率,在每一类别中进行排序。
[0027] 第二方面,本发明实施例还提供了一种用户聚类的装置,应用于聚类服务器,所述 装置包括:
[0028] 聚类请求接收模块:用于接收聚类请求,根据所述聚类请求采集用户数据,所述聚 类请求携带所要采集的用户数据的类别;
[0029] 多维度数据获取模块:用于按照预设规则处理所述采集到的用户数据,获得每个 用户数据的主属性和附属属性,根据获得的每个用户数据的主属性和附属属性,确定所有 附属属性,根据所有附属属性,获得每个主属性对应的多维度数据;其中,所述主属性包括 用户标识,附属属性包括从每个用户数据中获得的该用户的相关信息;所述多维度数据标 识了该主属性与所有附属属性的有或无的关系;
[0030] 相关度获取模块:用于根据每个主属性对应的多维度数据,获得每个主属性与所 有附属属性的相关度;
[0031] 模糊聚类模块:用于根据每个主属性与所有附属属性的相关度,进行模糊聚类,获 得聚类结果,
[0032] 所述模糊聚类模块包括分布情况确定子模块和聚类结果获取子模块,
[0033] 所述分布情况确定子模块具体用于:按照预设分类规则对所有主属性进行分类, 获得每个主属性在每一类别中的第一分布情况,根据所述每个主属性与所有附属属性的相 关度和所述第一分布情况,确定所述多维度数据的每个附属属性在每一类别中的第二分布 情况,其中进行分类时,保证每一类别中存在至少一个主属性;
[0034] 所述聚类结果获取子模块具体用于:根据所述的第二分布情况,使用预设的模糊 聚类算法,进行迭代运算,获得用户的聚类结果。
[0035] 较佳的,所述多维度数据获取模块在按照预设规则处理所述采集到的用户数据, 获得每个用户数据的主属性和附属属性时,对所述采集到的用户数据进行分词处理、过滤 无用词和非法字符处理;获得的每个用户数据的唯一一个主属性和至少一个附属属性。
[0036] 较佳的,所述分布情况确定子模块在确定所述多维度数据的每个附属属性在每一 类别中的分布情况后,还包括:
[0037] 根据所述多维度数据的每个附属属性在每一类别中的第二分布情况,确定所述多 维度数据的每个附属属性占所述每一类别的权重;
[0038] 所述根据所述的第二分布情况,使用预设的模糊聚类算法,进行迭代运算,获得用 户的聚类结果,为:
[0039] 根据所述多维度数据的每个附属属性占所述每一类别的权重,使用预设的模糊聚 类算法,进行迭代运算,获得用户的聚类结果。
[0040] 较佳的,所述聚类结果获取子模块包括:隶属度向量确定子模块、中屯、向量确定子 模块、比较子模块、第一判定子模块和第二判定子模块,
[0041] 所述隶属度向量确定子模块:用于根据所述多维度数据的每个附属属性占所述每 一个类别的权重,确定所述多维度数据的每个主属性对每一类别的隶属度向量;其中,所述 多维度数据的每个主属性对每一类别的隶属度向量由所有的附属属性确定;
[0042] 所述中屯、向量