一种多分辨率数据聚类分析方法

文档序号:24620365发布日期:2021-04-09 20:25阅读:54来源:国知局
一种多分辨率数据聚类分析方法

本发明涉及聚类分析技术领域,特别涉及一种多分辨率数据聚类分析方法。



背景技术:

随着人工智能的发展,数据是人工智能快速发展的核心动力之一。数据作用于人工智能的第一步是数据预处理,在人脸识别领域,人脸图像聚类时人脸数据预处理非常重要的一步,即同一个人的不同图像归到同一个类别或者标签。随着互联网的发展、监控摄像头的普及,能够获取的人脸数据越来越多,海量的人脸数据聚类需要大量的人力和物力。

目前人脸聚类的方法主要为:通过深度学习模型,把人脸图像转化为特征向量,两张人脸图片的相似度转化为两个人脸特征向量的相似度,设定一个相似度阈值,两张人脸相似度超过设定阈值,认定是同一个人。聚类时,取一张待聚类图片,跟已经聚类的所有图片一一进行比较,找到跟已分类的哪一类图像相似,将该图像归到哪一类。而在聚类的过程中,人脸特征越清晰,且人脸特征之间区别越明确,人脸图像的聚类越准确。

聚类分析又称群分析,它是研究(无标记样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的重要算法。聚类是由若干模式组成的,通常,模式是一种度量,或者是多维空间的一个点。最近30年有大量的聚类算法被提出,但是与本技术相关的各个算法都有不少的缺陷:

1.dbscan算法是基于密度的聚类,能发现任意形状的簇,但涉及的邻域半径和邻域内数据点数目两个参数难以设置,容易将边缘点和处于稀疏区域的点归类为噪声。

2.rnndbscan算法利用逆k最近邻域遍历数据集,避免设置参数,但并没有很好解决非噪声点聚类的问题。

3.optics算法提出了聚类结构,但optics给出的聚类结构很难确定聚类的起始点,聚类间的间断点不明确,造成聚类结果不准确。

4.wavecluster算法对数据点的每个维度进行小波变换,找出聚类间的突变信息,但对于边缘重叠的多个聚类,则不能识别聚类间的突变信息。

综上,采用上述聚类分析方案,存在人脸特征的聚类间断点不明确和人脸特征聚类间的突变信息不能识别,导致人脸图像聚类准确度低。



技术实现要素:

为解决当前的人脸图像聚类分析方法存在人脸特征的聚类间断点不明确和人脸特征聚类间的突变信息不能识别,导致人脸图像聚类准确度低的技术问题,本发明提供一种多分辨率数据聚类分析方法。

本发明基础方案如下:

一种多分辨率数据聚类分析方法,包括以下步骤:

步骤s1,采用累积泊松概率密度函数对数据集中的数据对象的逆k最近邻数目进行度量得到动态局部密度,k为最近邻数目;

步骤s2,根据动态局部密度的降排序,采用逆k最近邻扩展的方法依次遍历数据集,生成聚类结构;

步骤s3,将聚类结构向量作为一维信号,利用小波变换对聚类结构进行分析,得到聚类结果,聚类结果包括类簇大小、密度变化、数据密度分布和边缘分布。

进一步,步骤s1中,数据集s,数据集s包含n个数据对象p,数据对象p的动态局部密度dld(p)的计算模型定义为:

在公式(1)中,j=1,2,...,k,j表示k值动态增加,ck为数据对象p的逆k最近邻数目,cj-1为数据对象p的逆j-1最近邻数目,cj为数据对象p的逆j最近邻数目,(cj-cj-1)cj为动态贡献权重,表示累积泊松概率密度,表示考虑贡献权重的动态局部密度。

进一步,数据集s的动态局部密度dld的计算过程为:

步骤s101,计算数据集s中第i个数据对象p的j最近邻数目,其中,i=1,2,...n,j=1,2,...,k;

步骤s102,计算数据集s中第i个数据对象p的动态逆j最近邻数目,根据公式(1),计算第i个数据对象p的动态局部密度dld(i);

步骤s103,数据集s中所有数据对象的动态局部密度的集合为动态局部密度dld。

进一步,步骤s2中,逆k最近邻扩展的方法具体为:

步骤s200,将数据对象均标记为未遍历;

步骤s201,依据动态局部密度的降排序找出未遍历的数据对象,若找到未遍历的数据对象,执行步骤s202;若未找到未遍历的数据对象,则得到聚类结构;

步骤s202,若数据对象的逆k最近邻数目小于预设阈值t,将数据对象标记为已遍历;若数据对象的逆k最近邻数目大于等于预设阈值t,将数据对象的逆k最近邻加入到聚类结构,并重新按照动态局部密度的降排序对数据对象进行排序,执行步骤s201。

进一步,步骤s3的具体分析方法为:

步骤s301,将聚类结构向量看做一维信号,利用小波变换对聚类结构进行分析,同时得到时频域上的聚类结构;

步骤s302,对时频域上的聚类结构进行突变点分析,频域上的聚类结构的突变点对应时域上的聚类间断点索引;

步骤s303,根据突变点的索引将聚类结构划分为多个类簇,得到聚类结果。

数据集包括人脸图像数据集、文本数据集和网页数据集。

本技术方案采用累积泊松概率密度函数对人脸图像数据集中的数据对象的逆k最近邻数目进行度量得到动态局部密度。然后将动态局部密度进行降排序,采用逆k最近邻扩展的方法依次遍历数据集,生成聚类结构。最后,将聚类结构向量看作一维信号,利用小波变换对聚类结构进行分析,得到人脸图像数据的聚类结果。

1.小波变换可以同时保留时域和频域的聚类结构信息,使得本方案中得到的聚类结构包含了丰富的聚类结果如类簇大小、密度变化、数据密集分布和边缘分布等,相较于现有技术所得到的的聚类结果更加清楚,明确,即能够准确的识别人脸图像数据聚类结果。

2.本方案提出的聚类分析方法对人脸图像数据中的噪声不敏感、聚类间断点清晰,能够识别出不同密度、不同形状、不同大小聚类结构,相对于现有的聚类分析方法,人脸图像数据的聚类准确度更高。

附图说明

图1为一种多分辨率数据聚类分析方法实施例的流程图;

图2为一种多分辨率数据聚类分析方法实施例的compoud数据集聚类结构图;

图3为一种多分辨率数据聚类分析方法实施例的compoud数据集聚类结果图;

图4为一种多分辨率数据聚类分析方法实施例的t7数据集的聚类结构图;

图5为一种多分辨率数据聚类分析方法实施例的t7数据集的决策图;

图6为一种多分辨率数据聚类分析方法实施例的t7数据集的聚类结果图;

图7为一种多分辨率数据聚类分析方法实施例的t4数据集的聚类结构图;

图8为一种多分辨率数据聚类分析方法实施例的t4数据集的决策图;

图9为一种多分辨率数据聚类分析方法实施例的t4数据集的聚类结果图。

具体实施方式

下面通过具体实施方式进一步详细说明:

实施例

一种多分辨率数据聚类分析方法,如图1所示,包括以下步骤:

步骤s1,采用累积泊松概率密度函数对数据集中的数据对象的逆k最近邻数目进行度量得到动态局部密度,k为最近邻数目。数据集包括人脸图像数据集、文本数据集和网页数据集等,本实施例中数据集为人脸图像数据集包括同一个人的n张人脸图像,数据对象为人脸特征。

逆k最近邻是动态增加的,随着k值的增加,每次增加的逆k最近邻数量也是变化的,因此,逆k最近邻每次增加的数量对局部密度的贡献是不一样的。除此之外,较传统用逆k最近邻数目度量局部密度,本实施例中动态局部密度的计算模型定义为:给出数据集s,数据集s包含n个数据对象p,ck为数据对象p的逆k最近邻数目,cj-1为数据对象p的逆j-1最近邻数目,cj为数据对象p的逆j最近邻数目,(cj-cj-1)/cj为动态贡献权重,数据对象p的动态局部密度dld(p)为:

在公式(1)中,表示累积泊松概率密度。因为,数据对象p的逆k最近邻数目越多,局部密度也越大。表示考虑贡献权重的动态局部密度,j=1,2,...,k,j表示k值动态增加。

数据集s的动态局部密度dld的计算过程如下:

步骤s101,计算数据集s中第i个数据对象p的j最近邻数目,其中,i=1,2,...n,j=1,2,...,k;

步骤s102,计算数据集s中第i个数据对象p的动态逆j最近邻数目,根据公式(1),计算第i个数据对象p的动态局部密度dld(i);

步骤s103,数据集s中所有数据对象的动态局部密度的集合为动态局部密度dld。

步骤s2,根据动态局部密度的降排序,采用逆k最近邻扩展的方法依次遍历数据集,生成聚类结构。逆k最近邻扩展的方法具体为:步骤s200,将数据对象均标记为未遍历;步骤s201,依据动态局部密度的降排序找出未遍历的数据对象,若找到未遍历的数据对象,执行步骤s202;若未找到未遍历的数据对象,则得到聚类结构;步骤s202,若数据对象的逆k最近邻数目小于预设阈值t,将数据对象标记为已遍历;若数据对象的逆k最近邻数目大于等于预设阈值t,将数据对象的逆k最近邻加入聚类结构,并重新按照动态局部密度的降排序对数据对象进行排序,执行步骤s201。

步骤s3,将聚类结构向量看作一维信号,利用小波变换对聚类结构进行分析,得到聚类结果,聚类结果包括类簇大小、密度变化、数据密度分布和边缘分布等。步骤s3具体包括以下步骤:步骤s301,将聚类结构向量看做一维信号,利用小波变换对聚类结构进行分析,同时得到时频域上的聚类结构;步骤s302,对时频域上的聚类结构进行突变点分析,频域上的聚类结构的突变点对应时域上聚类间断点的索引;步骤s303,根据突变点的索引将聚类结构划分为多个类簇,得到聚类结果。

如图2所示,以人脸图像数据集compoud为例,将人脸图像数据集compoud经过步骤s1和步骤s2后,得到人脸图像数据集compoud时域上的聚类结构,将利用小波变换对人脸图像数据集compoud的聚类结构进行分析,得到人脸图像数据集compoud时频域上的聚类结构。对数据集compoud频域上的聚类结构进行密度变化分析,得到人脸图像数据集compoud频域上的聚类结构包含4个锥形波谷,即具有4个突变点,突变点为时域上聚类结构的聚类间断点,4个聚类间断点对应的4个索引为[4662100242],根据4个索引对时域上聚类结构进行区域分割,得到类簇[046]、[46100]、[100242]和[242399],在分割区间[100242]中还包含索引144和172对应的两个波峰,在分割区间[242399]中还包括索引308对应的波峰。

如图3所示,为索引[4662100242]、[242308399]、[100144242]和[100172242]的聚类结果。由图3可知,通过索引[4662100242]能够得到正确的聚类结果。利用分割区间内的索引144,172和308可以进一步分析数据的分布情况,得到数据分布的密集区域、稀疏区域和边缘区域等。从图3中可知,本方案所提出的聚类分析方法对噪声不敏感、聚类间断点清晰,能够识别出不同密度、不同形状、不同大小的聚类结构。

从图4和图7的聚类结构图中可以看出,聚类结构图中包含了形状类似“锥形”的波谷,本实施例中的波谷是指从最低的局部密度突然上升到某个最高的局部密度而形成的“锥形”,这些波谷即是聚类间断点。从图5和图8的决策图中可知,本技术方案能够准确的捕获聚类结构中的波谷,bp矩形框起来的点为识别出的聚类间断点,聚类间断点将数据集分成了正确的聚类数目,同时取得了非常好的聚类效果。从图6和图9的聚类结果图中可知,各类簇间分布了许多噪声点,但是对聚类结果没有影响,即通过本技术方案能够获取到正确的聚类数目、发现不同的类簇形状,相对于现有的聚类分析方法,人脸图像数据的聚类准确度更高。

表1给出dbscan、dpc、rnndbscan和cspc在7个人工数据集(aggregation、d31、flame、jain、path、r15和average)上的实验对比结果,表2给出了dbscan、dpc、rnndbscan和cspc在7个真实数据集(breast、digits、ecol、glass、iris、seeds和average)上的实验对比结果,其中cspc为本技术方案。

另外,表1和表2中,f1是指f1分数,又称平衡f分数,为精确率和召回率的调和平均数,nmi是归一化互信息,指两个随机变量之间的关联程度。

表1在人工数据集上的聚类结果

从表1中可以看出,本技术方案在数据集flame、jain和path上取得了最好的聚类结果。在d31数据集上,本技术方案聚类结果要优于rnndbscan算法。dpc算法在数据分布形状规则、密度相对集中的aggregation、d31和r15取得了最好的聚类结果。为了方便对比,在表1的最后给出了6个数据集上聚类结果的平均值。从平均值来看,本技术方案取得了最高的f1均值0.968和nmi均值0.958,本技术方案的f1均值和nmi均值比rnndbscan的f1均值0.954和nmi均值0.948分别高出1.4个百分点和1个百分点。dbscan的f1均值0.845和nmi均值0.842要略高于dpc的f1均值0.842和nmi均值0.735。

表2在真实数据集上的聚类结果

从表2中可以看出,本技术方案在4个数据集上均取得了最好的结果。从均值来看,本技术方案也取得了最高的f1均值0.677和nmi均值0.647,并且本技术方案取得的f1均值0.677比rnndbscan的f1平均值0.647高出3个百分点,本技术方案取得的nmi均值0.647比rnndbscan的nmi均值0.608高出近4个百分点。

以上所述的仅是本发明的实施例,方案中公知的具体结构及特性等常识在此未作过多描述。应当指出,对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1