用户行为的聚类方法和系统的制作方法

文档序号:6512934阅读:337来源:国知局
用户行为的聚类方法和系统的制作方法
【专利摘要】本发明提供一种用户行为的聚类方法及系统。根据所述聚类方法,先计算所获取的多个用于表示用户行为的多维数据点之间的距离,并提取所计算的距离在预设的距离范围内的各数据点;再建立由所提取的各数据点为节点、数据点之间的距离为边的最小生成树;以及按照所述最小生成树中的边由大到小的排序,并根据预设的条件将各所述边由大到小进行分割,将分割后的由边相连的各所述节点组成一种用户行为的聚类。本发明在用户行为的数据点之间建立最小生成树,能够简单、直接的用数据点之间的距离反应出用户行为的相似程度,再根据距离长短来划分用户行为的聚类,实现了以低运算量、高聚类精度来得到用户行为的聚类。
【专利说明】用户行为的聚类方法和系统

【技术领域】
[0001] 本发明涉及一种聚类方法,特别是涉及一种用户行为的聚类方法和系统。

【背景技术】
[0002] 随着用户在网络上的行为种类越来越多,技术人员通过用户在网络上的各种行为 所留下的数据进行分析,来统计、分析用户行为。其中,将用户行为的多维数据进行聚类是 一种进行数据统计、分析用户行为的手段。
[0003] 目前的聚类方法利用k-means方法来对多维数据进行聚类,这种方式主要适用于 数据量不大的应用场景,例如,医学影像等专业领域。而对于网络上的用户行为的多维数据 (如几十个维度的数据),使用现有方式则需要大量的运算,使用复杂度极高。因此,需要特 别针对用户行为的聚类方法进行改进。


【发明内容】

[0004] 鉴于以上所述现有技术的缺点,本发明的目的在于提供一种用户行为的聚类方法 和系统,用于解决现有技术中用户行为的数据的聚类运算量过大、使用不简便的问题。
[0005] 为实现上述目的及其他相关目的,本发明提供一种用户行为的聚类方法,其至少 包括:1)计算所获取的多个用于表示用户行为的多维数据点之间的距离,并提取所计算的 距离在预设的距离范围内的各数据点;2)建立由所提取的各数据点为节点、数据点之间的 距离为边的最小生成树;3)按照所述最小生成树中的边由大到小的排序,并根据预设的条 件将各所述边由大到小进行分割,将分割后的由边相连的各所述节点组成一种用户行为的 聚类。
[0006] 优选地,所述步骤2)还包括:2-1)依次将所提取的每个数据点至所提取的其他数 据点之间的距离在预设的距离范围内的各数据点划分为一个超球体,其中,各所述超球体 之间存在部分重叠的数据点;2-2)建立各所述超球体中的数据点的最小生成子树,将各所 述最小生成子树连接起来,以构成最小生成树。
[0007] 优选地,在执行步骤3)之前,所述聚类方法还执行步骤4):至少一次的将所述最 小生成树中只有一条边的数据点予以删减。
[0008] 优选地,所述步骤3 )还包括:利用公¥

【权利要求】
1. 一种用户行为的聚类方法,其特征在于,至少包括: 1) 计算所获取的多个用于表示用户行为的多维数据点之间的距离,并提取所计算的距 离在预设的距离范围内的各数据点; 2) 建立由所提取的各数据点为节点、数据点之间的距离为边的最小生成树; 3) 按照所述最小生成树中的边由大到小的排序,并根据预设的条件将各所述边由大到 小进行分割,将分割后的由边相连的各所述节点组成一种用户行为的聚类。
2. 根据权利要求1所述的用户行为的聚类方法,其特征在于,所述步骤2)还包括: 2-1)依次将所提取的每个数据点至所提取的其他数据点之间的距离在预设的距离范 围内的各数据点划分为一个超球体,其中,各所述超球体之间存在部分重叠的数据点; 2-2)建立各所述超球体中的数据点的最小生成子树,将各所述最小生成子树连接起 来,以构成最小生成树。
3. 根据权利要求1所述的用户行为的聚类方法,其特征在于,在执行步骤3)之前,所述 聚类方法还执行步骤4):至少一次的将所述最小生成树中只有一条边的数据点予以删减。
4. 根据权利要求1或3所述的用户行为的聚类方法,其特征在于,所述步骤3)还包括: 利用公式
来确定每条边两端的节点之间 的距离因数,其中,m、η为一条边两端的节点,cut(m,η)为节点m和节点η之间的距离,Am、An分别为在所述最小生成树上从所述节点m/节点η延伸至预设数量范围内、距离最小的各 节点的集合,其中,集合Am中不包含节点η,集合An中不包含节点m,assoc(Am)和assoc(An) 分别集合A1^An中各节点之间的最小距离之和; 按照各节点之间的距离因数Mcut(m,η)由大到小的排序,根据预设的条件将各所述 距离因数所对应的边进行分割,将分割后的由边相连的各所述节点组成一种用户行为的聚 类。
5. -种用户行为的聚类系统,其特征在于,至少包括: 提取模块,用于计算所获取的多个用于表示用户行为的多维数据点之间的距离,并提 取所计算的距离在预设的距离范围内的各数据点; 最小生成树生成模块,用于建立由所提取的各数据点为节点、数据点之间的距离为边 的最小生成树; 聚类确定模块,用于按照所述最小生成树中的边由大到小的排序,并根据预设的条件 将各所述边由大到小进行分割,将分割后的由边相连的各所述节点组成一种用户行为的聚 类。
6. 根据权利要求5所述的用户行为的聚类系统,其特征在于,所述最小生成树生成模 块包括: 超球体划分单元,用于依次将所提取的每个数据点至所提取的其他数据点之间的距离 在预设的距离范围内的各数据点划分为一个超球体,其中,各所述超球体之间存在部分重 叠的数据点; 最小生成树生成单元,用于建立各所述超球体中的数据点的最小生成子树,将各所述 最小生成子树连接起来,以构成最小生成树。
7. 根据权利要求5所述的用户行为的聚类系统,其特征在于,所述最小生成树生成模 块还包括:删减模块,用于至少一次的将所述最小生成树中只有一条边的数据点予以删减。
8. 根据权利要求5或7所述的用户行为的聚类系统,其特征在于,所述聚类确定模块包 括: 距离因数计算单元,用于利用公式
宋确定 每条边两端的节点之间的距离因数,其中,m、n为一条边两端的节点,cut(m,η)为节点m和 节点η之间的距离,Am、An分别为在所述最小生成树上从所述节点m/节点η延伸至预设数 量范围内、距离最小的各节点的集合,其中,集合Am中不包含节点η,集合An中不包含节点 m,assoc(Am)和assoc(An)分别集合八…An中各节点之间的最小距离之和; 聚类确定单元,用于按照各节点之间的距离因数Mcut(m,η)由大到小的排序,根据预 设的条件将各所述距离因数所对应的边进行分割,将分割后的由边相连的各所述节点组成 一种用户行为的聚类。
【文档编号】G06F17/30GK104462139SQ201310438913
【公开日】2015年3月25日 申请日期:2013年9月24日 优先权日:2013年9月24日
【发明者】范志刚, 许春玲, 李明齐 申请人:中国科学院上海高等研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1