一种双阈值顺序聚类方法与流程

文档序号：21366631发布日期：2020-07-04 04:42阅读：来源：国知局

技术特征：

1.一种双阈值顺序聚类方法，其特征在于，应用于顺序聚类系统中，所述顺序聚类系统包括数据库与处理器，所述方法包括以下步骤：

s1：处理器从数据库提取数据集x＝{x}ⁿ，规模为n，n∈n；

s2：处理器确定阈值和阈值的取值范围，其中，

s3：处理器确定聚类簇数量q的值；

s4：根据阈值阈值和聚类簇数量q进行顺序聚类，直到所有数据点都被归类。

2.根据权利要求1所述的双阈值顺序聚类方法，其特征在于，步骤s2中确定阈值和阈值具体为：

s2.1：每次以相同的顺序表示数据，不同的阈值执行多次顺序聚类；

s2.2：根据不同阈值下的顺序聚类结果计算平均畸变程度，所述平均畸变程度为所有簇的畸变程度的平均，簇的畸变程度为每个簇的质点与簇内样本点的平方距离误差和；

s2.3：以横坐标为值，纵坐标为平均畸变程度作图，以图中平均畸变程度趋于稳定的拐点作为阈值

s2.4：阈值选为阈值阈值的相邻点对应的阈值选为阈值

3.根据权利要求2所述的双阈值顺序聚类方法，其特征在于，步骤s3中确定聚类簇数量q的值，具体为：

以不同的顺序表示数据，以相同的阈值，执行多次顺序聚类，取不同顺序情况下各聚类簇数量平均值q作为聚类簇数量q。

4.根据权利要求3所述的双阈值顺序聚类方法，其特征在于，步骤s4中根据阈值阈值和聚类簇数量q进行顺序聚类，具体为：

s4.1：通过顺序排列好数据集中的所有数据，依次进行运算：

以第一个数据点作为初始质心，并归为a簇，依次算出其他点到a簇质心的距离d：

(1)若则认为这两个点属于一个簇，并重新计算a簇的质心；

(2)若则认为这两个点不属于一个簇，将这个点作为另一个质心，并归为b类；(3)若则存在不确定性，该点的分配到待定数据集x’，等第一次遍历数据集后再次扫描该类数据重新归类；

s4.2：后面的数据点要同时计算与现有的所有簇的质心距离，重复步骤s4.1，直到所有点都被第一次归类；

s4.3：第一次遍历数据集x’，并且留下一项x’的待分类数据集，保持已归类的数据结果，将x’中的数据依次执行步骤s4.1至s4.2，直到所有点都被归类。

5.根据权利要求4所述的双阈值顺序聚类方法，其特征在于，步骤s4.1中质心的计算为所有数据点的横坐标和纵坐标分别加起来再分别求均值点横坐标和纵坐标。

6.根据权利要求5所述的双阈值顺序聚类方法，其特征在于，执行创建新的簇时，检测已建立的簇个数q’是否等于q，若q’＝q，则此后不再新建簇，将的点归到最近质心的那个簇。

7.根据权利要求6所述的双阈值顺序聚类方法，其特征在于，步骤s4还包括：

s4.4：对聚类后的簇进行合并。

8.根据权利要求7所述的双阈值顺序聚类方法，其特征在于，步骤s4.4中簇的合并具体为：

定义一个距离值r，用来衡量簇之间的接近程度，比较两个簇的质心，若小于r值，则将两个簇合并。

技术总结
本发明公开了一种双阈值顺序聚类方法，应用于顺序聚类系统中，所述顺序聚类系统包括数据库与处理器，所述方法包括以下步骤：S1：处理器从数据库提取数据集X＝{x}n，规模为n，n∈N；S2：处理器确定阈值和阈值的取值范围，其中，S3：处理器确定聚类簇数量Q的值；S4：根据阈值阈值和聚类簇数量Q进行顺序聚类，直到所有数据点都被归类。本发明相对于其他的聚类算法，运算更快，复杂度更低；相对于基础的顺序算法，对阈值的选取有了一定的改进。本发明中的范围选取法能有一定的容错率，但能降低因阈值的不合理和随机的数据顺序而产生的正确率；该方法对聚类结果的簇数量有了限制，不再完全依赖阈值和数据顺序。

技术研发人员：晏开;谢胜利
受保护的技术使用者：广东工业大学
技术研发日：2020.02.11
技术公布日：2020.07.03

完整全部详细技术资料下载

当前第2页1 2