一种用户聚类的方法和装置的制造方法

文档序号：9687578阅读：336来源：国知局

一种用户聚类的方法和装置的制造方法
【技术领域】
[0001] 本发明设及数据挖掘的计算机应用领域，特别设及一种用户聚类的方法和装置。
【背景技术】
[0002] 目前，人类社会在每天产生的新数据都W爆炸形式迅速增长，实时分析处理运些海量数据，并挖掘其内部关系是分析决策者非常关注的问题。例如，我国信息科学的发展十分迅速，科研项目、发表的论文和申请的专利都难W计数，分析运些科研项目、论文和专利的知识数据之间的关系网络，并预测未来该技术领域的研究热点或焦点，可W帮助科研管理部口更有效地执行项目的管理与审批，为该领域的研究人员开辟新的研究热点方向。社交媒体领域，新增用户数与用户之间的交流日益增长，分析用户之间的好友关系、社区结构，对定向推荐投放，分析用户行为，区域用户差别式管理也有着重大意义。商品交易领域，无论哪种销售模式，每天都会产生大量的商品交易，用户量、商户量和商品量都会达到千万甚至上亿级别，并且其中的类别种类都很多，用户的类别也有很多。面对与各类用户相关的数量众多、种类复杂的数据，仅仅通过对单一种类的数据对用户进行分析，进行聚类明显不符合实际情况。
[0003] 现有方法是设置数据挖掘工作流，该工作流包括多个并行的数据处理任务，数据处理任务，通过映射/归纳机制并行执行得到相应的处理结果。现有技术中，对数据的挖掘聚类只是限于对一维角度，无法对数据进行多维度多角度的分析，W使对数据的分析和认识不够全面，影响聚类效果。

【发明内容】

[0004] 本发明实施例的目的在于提供一种用户聚类的方法和装置，使用户的聚类结果符合实际情况。
[000引第一方面，本发明实施例公开了一种用户聚类的方法，应用于聚类服务器，包括步骤：
[0006] 接收聚类请求，根据所述聚类请求采集用户数据，所述聚类请求携带所要采集的用户数据的类别；
[0007] 按照预设规则处理所述采集到的用户数据，获得每个用户数据的主属性和附属属性，根据获得的每个用户数据的主属性和附属属性，确定所有附属属性，根据所有附属属性，获得每个主属性对应的多维度数据;其中，所述主属性包括用户标识，附属属性包括从每个用户数据中获得的该用户的相关信息;所述多维度数据标识了该主属性与所有附属属性的有或无的关系；
[0008] 根据每个主属性对应的多维度数据，获得每个主属性与所有附属属性的相关度；
[0009] 根据每个主属性与所有附属属性的相关度，进行模糊聚类，获得聚类结果，
[0010] 包括:按照预设分类规则对所有主属性进行分类，获得每个主属性在每一类别中的第一分布情况，根据所述每个主属性与所有附属属性的相关度和所述第一分布情况，确定所述多维度数据的每个附属属性在每一类别中的第二分布情况，其中进行分类时，保证每一类别中存在至少一个主属性；
[0011] 根据所述的第二分布情况，使用预设的模糊聚类算法，进行迭代运算，获得用户的聚类结果。
[0012] 较佳的，所述按照预设规则处理所述采集到的用户数据，获得每个用户数据的主属性和附属属性，包括：
[0013] 对所述采集到的用户数据进行分词处理、过滤无用词和非法字符处理；
[0014] 获得每个用户数据的唯一一个主属性和至少一个附属属性。
[0015] 较佳的，所述确定所述多维度数据的每个附属属性在每一类别中的第二分布情况后，还包括：
[0016] 根据所述多维度数据的每个附属属性在每一类别中的第二分布情况，确定所述多维度数据的每个附属属性占所述每一类别的权重；
[0017] 所述根据所述的第二分布情况，使用预设的模糊聚类算法，进行迭代运算，获得用户的聚类结果，为：
[0018] 根据所述多维度数据的每个附属属性占所述每一类别的权重，使用预设的模糊聚类算法，进行迭代运算，获得用户的聚类结果。
[0019] 较佳的，所述根据所述多维度数据的每个附属属性占所述每一类别的权重，使用预设的模糊聚类算法，进行迭代运算，获得用户的聚类结果，包括：
[0020] S1:根据所述多维度数据的每个附属属性占所述每一个类别的权重，确定所述多维度数据的每个主属性对每一类别的隶属度向量;其中，所述多维度数据的每个主属性对每一类别的隶属度向量由所有的附属属性确定；
[0021] S2:根据所述多维度数据的每个主属性对每一类别的隶属度向量，确定每一类别当前的聚类中屯、的中屯、向量，所述每一类别当前的聚类中屯、的中屯、向量为每一类别中存在的所有的主属性对该类别的隶属度的平均值，所述隶属度向量包含所述多维度数据的每个主属性对每一类别的隶属度；
[0022] S3:比较所述每一类别当前的聚类中屯、的中屯、向量与每一类别前一次的聚类中屯、的中屯、向量之差的模和设定阔值的大小；
[0023] S4:若比较结果为小于或者等于所述设定阔值，则判定聚类结果收敛，结束聚类过程；
[0024] S5:若比较结果为大于所述设定阔值，则判定聚类结果不收敛，继续聚类过程，将所述多维度数据的每个主属性对每一类别的隶属度向量，确定为新一轮聚类过程的每一类别中所述多维度数据的每个主属性在每一类别中新的第一分布情况，根据所述每个主属性与所有附属属性的相关度和所述新的第一分布情况，确定所述多维度数据的每个附属属性在每一类别中的第二分布情况，根据所述多维度数据的每个附属属性在每一类别中的第二分布情况，确定所述多维度数据的每个附属属性占所述每一类别的权重;返回步骤S1。
[0025] 较佳的，所述判定聚类结果收敛，结束聚类过程之后还包括：
[0026] 将当前聚类过程中所述主属性对每一类别的隶属度向量，确定为所述主属性对于每一类别的归属概率，根据所述主属性对于每一类别的归属概率，在每一类别中进行排序。
[0027] 第二方面，本发明实施例还提供了一种用户聚类的装置，应用于聚类服务器，所述装置包括：
[0028] 聚类请求接收模块:用于接收聚类请求，根据所述聚类请求采集用户数据，所述聚类请求携带所要采集的用户数据的类别；
[0029] 多维度数据获取模块：用于按照预设规则处理所述采集到的用户数据，获得每个用户数据的主属性和附属属性，根据获得的每个用户数据的主属性和附属属性，确定所有附属属性，根据所有附属属性，获得每个主属性对应的多维度数据;其中，所述主属性包括用户标识，附属属性包括从每个用户数据中获得的该用户的相关信息;所述多维度数据标识了该主属性与所有附属属性的有或无的关系；
[0030] 相关度获取模块：用于根据每个主属性对应的多维度数据，获得每个主属性与所有附属属性的相关度；
[0031] 模糊聚类模块:用于根据每个主属性与所有附属属性的相关度，进行模糊聚类，获得聚类结果，
[0032] 所述模糊聚类模块包括分布情况确定子模块和聚类结果获取子模块，
[0033] 所述分布情况确定子模块具体用于：按照预设分类规则对所有主属性进行分类，获得每个主属性在每一类别中的第一分布情况，根据所述每个主属性与所有附属属性的相关度和所述第一分布情况，确定所述多维度数据的每个附属属性在每一类别中的第二分布情况，其中进行分类时，保证每一类别中存在至少一个主属性；
[0034] 所述聚类结果获取子模块具体用于:根据所述的第二分布情况，使用预设的模糊聚类算法，进行迭代运算，获得用户的聚类结果。
[0035] 较佳的，所述多维度数据获取模块在按照预设规则处理所述采集到的用户数据，获得每个用户数据的主属性和附属属性时，对所述采集到的用户数据进行分词处理、过滤无用词和非法字符处理;获得的每个用户数据的唯一一个主属性和至少一个附属属性。
[0036] 较佳的，所述分布情况确定子模块在确定所述多维度数据的每个附属属性在每一类别中的分布情况后，还包括：
[0037] 根据所述多维度数据的每个附属属性在每一类别中的第二分布情况，确定所述多维度数据的每个附属属性占所述每一类别的权重；
[0038] 所述根据所述的第二分布情况，使用预设的模糊聚类算法，进行迭代运算，获得用户的聚类结果，为：
[0039] 根据所述多维度数据的每个附属属性占所述每一类别的权重，使用预设的模糊聚类算法，进行迭代运算，获得用户的聚类结果。
[0040] 较佳的，所述聚类结果获取子模块包括:隶属度向量确定子模块、中屯、向量确定子模块、比较子模块、第一判定子模块和第二判定子模块，
[0041] 所述隶属度向量确定子模块:用于根据所述多维度数据的每个附属属性占所述每一个类别的权重，确定所述多维度数据的每个主属性对每一类别的隶属度向量;其中，所述多维度数据的每个主属性对每一类别的隶属度向量由所有的附属属性确定；
[0042] 所述中屯、向量

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：牛凯;杜帅;
技术所有人：北京邮电大学;
我是此专利的发明人

上一篇：基于地图显示功能的即时通信方法
上一篇：基于Mamdani算法的停车诱导决策方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。