一种基于密度与几何信息的聚类算法的制作方法

文档序号:6352923阅读:643来源:国知局
专利名称:一种基于密度与几何信息的聚类算法的制作方法
技术领域
本发明涉及一种聚类分析算法,具体来说涉及一种基于密度与几何信息的聚类分析法算法。
背景技术
作为数据挖掘领域内的一个重要基础问题,聚类分析近些年来受到了越来越多的重视,而且在其他许多领域,比如机器学习、模式识别、图像分析和生物信息等,也都有广泛的应用。所谓聚类(clustering),就是将物理或抽象的对象集合分组成为由类似的对象组成的多个类或簇(cluster),在同一簇中的对象之间具有较高的相似度,而不同簇中的对象之间差别较大。K-means是最为常用也最为知名的聚类算法。K-means算法有很多变形。K-means算法尝试把数据集划分为K个类,(C1, C2, , Ck),这个划分使得数据集中所有数据对象的均方差之和E最小。均方差之和E用公式表示为:
权利要求
1.一种基于密度与几何信息的聚类算法,包括:建立数据结构K-d tree,将数据集空间划分为多个区域;选择所述每个区域的初始类中心;以所述的初始类中心作为候选中心使用迭代算法找出最优的类中心。
2.根据权利要求1的聚类算法,其特征在于,所述的数据结构K-dtree是二叉树。
3.根据权利要求1的聚类算法,其特征在于:选择所述每个区域的初始类中心的过程包括:定义每个叶子节点Li的密度PiS:
4.根据前述权利要求之一的聚类算法,其特征在于还采用一种过滤机制:当选择一个候选点作为候选初始类中心后,判断它与已选中的初始类中心是否属于同一个类,如果属于同一个类则把它过滤掉,否则就选为初始类中心。
5.根据权利要求4的聚类算法,其特征在于,判断两个点是否属于同一个类的标准是:如果两个点之间是密度可达的,则判断它们属于同一个类,否则就不属于。
6.根据权利要求4是聚类算法,其特征在于,所述的密度可达按如下规则判断: (1)给定一个数据对象,以它为圆心,半径为ε的区域成为该对象的ε_邻域; (2)如果一个数据对象的ε-邻域内至少包含了 Iin个数据对象,则称它为核心对象; (3)给定一个核心对象P,它邻域内的任意一个对象对它来说是直接密度可达; (4)如果存在一个数据对象链,P1,ρ2,…,Pn,对于任意Pi, I < i < n,pi+1是从Pi关于ε和Mniin直接密度可达的,那么ρη是从P1关于ε和Mniin密度可达的。
7.根据权利要求6的聚类算法,其特征在于,假设已经选择X个类中心,当前选出的候选点为m, m与第i个初始类中心之间的叶子结点集合为Si, I < i < X,根据以下公式 V € sP{pa > [min (ps, P麵)X ww.#;fht] ] 为新的类中心;1 ^ i ^ x 来选择新的类中心,其中,η代表叶子节点,PnSn的密度,Wweight为设定的权重。
8.根据权利要求7的聚类算法,其特征在于,所述权重Wireight为I。
全文摘要
本发明提出一种基于密度与几何信息的聚类算法,包括建立数据结构K-d tree,将数据集空间划分为多个区域;选择所述每个区域的初始类中心;以所述的初始类中心作为候选中心使用迭代算法找出最优的类中心。通过采用K-d tree结构,将相邻的数据对象捆绑在一起计算,大大改善了算法的性能。
文档编号G06F17/30GK103164487SQ201110427318
公开日2013年6月19日 申请日期2011年12月19日 优先权日2011年12月19日
发明者张轩溢, 沈强, 高海洋, 唐朝伟, 赵志军, 慈松, 唐晖 申请人:中国科学院声学研究所, 无锡中科智能信息处理研发中心有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1