本发明属于无监督深度学习图像聚类的,是一种无监督聚类技术方案,具体涉及一种基于sliced-wasserstein距离的图卷积结构深度嵌入式聚类方法及系统,本发明可用于公交乘客人群的划分,能快速识别出乘客群体中的成人与儿童的人群分布。
背景技术:
1、聚类是将无分类标签的一组数据划分为几个簇的过程,是一种无监督学习方法,根据“物以类聚,人以群分”让不同簇的样本尽可能相似,相同簇的样本尽可能不相似。随着互联网的飞速发展,数据呈现海量爆发式增长,而这些数据的背后隐藏着许多重要的信息价值,为了快速分析这些数据巨大的隐藏价值,需要对这些数据经过聚类处理,节省时间资源成本。例如通过对特定运营目的和商业目的所挑选出的指标变量进行聚类分析,把目标群体划分成几个具有明显特征区别的细分群体,从而可以在运营活动中为这些细分群体采取精细化,个性化的运营和服务,最终提升运营的效率和商业效果。又如把付费用户按照几个特定维度,如利润贡献、用户年龄、续费次数等聚类分析后得到不同特征的群体。图像聚类的一个重要用途就是针对目标群体进行多指标的群体划分,类似这种目标群体的分类就是精细化经营,个性化运营的基础和核心,只有进行了正确的分类,才可以有效进行个性化和精细化的运营,服务及产品支持等。近年来,聚类从深度学习中得到了重要的灵感,取得了先进的性能,因此将基于深度学习的图像聚类方法应用在上述场景中可以极大提高商业运营效率。
2、目前的聚类方法通常是通过自编码器学习一个中间特征表示,来提高聚类结果,这表明对于图像聚类来说学习一个有效的表示是一个重要的过程。然而随着技术的发展,现有的数据通常变得具有高维度、噪声等特性。对于它们的距离度量往往还仅限于在原始数据空间中,因此需要一种新的距离度量来衡量数据信息之间的相似度。数据除了自身所具有信息,数据结构间也具备重要的信息,随着图卷积网络(gcn)在对图结构进行编码方面取得的巨大成功,本发明尝试使用图卷积网络来将结构信息集成到聚类中,从而改善聚类的效果。
3、基于上述现状,本发明提出了一种聚类方法,其提升了图像聚类的效果,使得人群划分更为精确,有利于实时掌握人群动态。
技术实现思路
1、针对现有技术存在的缺陷,本发明提出了一种基于sliced-wasserstein距离的图卷积结构深度嵌入式聚类方法。
2、本发明是一种无监督聚类方法。提出了一种基于sliced-wasserstein距离的图卷积结构深度嵌入式聚类方法,利用自编码器和图卷积网络完成对数据的特征提取并同时完成聚类的过程。其中基于sliced-wasserstein距离的自编码器能够将原始数据映射到指定的特征空间中,得到一个适用于聚类的低维特征表示,将自编码器的每一层与相应的gcn层连接起来,这样就可以将编码器的一层得到的表示集成到相应的gcn层中。最后将自编码器和gcn模块以及聚类模块统一到同一个框架内,并有效地对整个网络进行端到端聚类训练。
3、为实现上述目的,本发明采用以下技术方案:
4、一种基于sliced-wasserstein距离的图卷积结构深度嵌入式聚类方法,包括如下步骤:
5、步骤1:构造邻接矩阵;
6、步骤2:构造自编码器模块;
7、步骤3:构造gcn模块和自编码器模块的集成网络;
8、步骤4:构造聚类模块中的聚类分配优化函数;
9、步骤5:构造聚类模块中的kl损失优化函数;
10、步骤6:构造聚类模块中的gcn损失优化函数;
11、步骤7:将自编码器模块、gcn模块和聚类模块联合,构造基于sliced-wasserstein距离的图卷积结构深度嵌入式聚类网络;
12、步骤8:将数据集输入到步骤7中的聚类网络中进行迭代训练,当达到指定的精度或训练次数时,聚类网络终止训练,完成聚类。
13、优选的,步骤1,通过计算得到每个原始样本与其相邻的k个样本之间的相似度邻接矩阵。
14、假设原始数据x∈rn·d,其中n是样本数,r代表数据空间,d是维数。对于第i个样本,找到其前k个相似的相邻样本,并设置边将其与相邻样本连接它;计算样本相似度矩阵s的方法有很多种,本发明优选两种计算方法:
15、(1)第i个样本xi和第j个样本xj之间的相似性(t是一个时间参数),此方法适用于连续数据。
16、(2)第i个样本xi和第j个样本xj之间的相似性sij=xjtxi,此方法适用于离散数据。
17、在计算完每个样本的相似度矩阵s后,选择每个样本的前k个相似点作为相邻点,构造出具有k个相似点连接成的邻近图,得到邻接矩阵a。
18、优选的,步骤2具体如下:
19、自编码器模块是由编码器和解码器组成,编码器网络用来学习对原始数据的表示,解码器用来重构原始数的输入。假设自编码器中有l层,每层有n层数,则可以得到第n层自编码器网络学习到的表示为h(n),
20、h(n)=(we(n)h(n-1)+be(b)) (1)
21、其中,we(n)和be(b)分别是编码器网络的权重矩阵和偏差,h(n-1)表示自编码器在第n-1层得到的表示。h(0)表示原始数据x,在编码器的末端输出中间特征向量z。解码器网络用来对原始数据x的重构,则解码器的第n层表示为
22、h(n)=(wd(n)h(n-1)+bd(b)) (2)
23、其中,wd(n)和bd(b)分别是解码器网络的权重矩阵和偏差,z是自编码器网络中编码器输出的特征向量,为了使网络重构后的数据和原始数据更相近,采用式(3)mse损失、式(4)l1损失、式(5)wasserstein距离以及式(6)sliced-wasserstein近似距离作为式(7)的优化约束条件
24、
25、
26、
27、
28、
29、其中,xn表示原始数据,xn′表示对原始输入数据的重构。wp(η,μ)表示两个分布之间的wasserstein距离,表示一维切片wasserstein距离,μ是原始输入数据的分布,η是经过自编码器网络重构后的重构数据分布,pz是编码后的中间特征分布,qz是预先定义的采样分布,λ是超参数,设sd-1是概率空间ωd中的单位球,对于一个向量v∈sd-1,其中v={v1,...,vn}代表选取的n个切片单元,(πv)#η表示η的投影分布,γ(η,μ)表示η和μ组合起来的所有联合分布的集合。
30、优选的,步骤3具体如下:虽然自编码器网络能学习到数据自身有用的表示形式,但是忽略了数据与数据之间的关系,所以使用gcn模块来有效传播在编码器网络中学习到的数据表示。一旦编码器模块学习到的所有表示都集成到gcn中,那么gcn中可传播的表示将能够适应两种不同类型的信息,即数据本身和数据之间的关系,则gcn中第l层的表示为式(8)
31、
32、其中,i是单位矩阵,为归一化邻接矩阵,w(l-1)是权重矩阵,φ表示编码层,z(l-1)表示gcn中第l-1层的表示,h(l-1)表示自编码器在第l-1层的表示。考虑到自编码器h(l-1)学习到的表示能够重构数据本身,并包含不同的有价值的信息,将两种表示z(l-1)和h(l-1)组合在一起,得到一个更完整、更强大的表示如下:
33、z(l-1)=(1-ε)z(l-1)+εh(l-1) (9)
34、其中,ε是的平衡系数,设置0.5,这样,就可以逐层地将自编码器和gcn连接起来,第一层gcn的输入是原始数据x,
35、
36、gcn模块的最后一层是softmax多分类层:
37、
38、最后一层输出的概率zij表示第i个样本属于聚类中心为j的概率,z可以看成一个概率分布。
39、优选的,步骤4构造聚类分配模块中的聚类分配优化函数具体如下:
40、考虑将一组数据样本聚类成k个簇的问题,设每个簇的初始质心μj,j=1......k。本发明不是直接在数据空间x中聚类,而是首先用非线性映射zi=fθ(xi)∈z,x→z转换数据,其中θ是可学习参数,z是潜在特征空间。使用t分布来衡量中间特征向量z和聚类质心μj之间的相似性由式(12)可得
41、
42、其中,α是自由度,设置为1,qij可以表示为将样本i分配给聚类质心为j的簇的概率。
43、优选的,步骤5构造聚类模块中的kl损失优化函数具体如下:
44、本发明模型是通过将软分配分布匹配到目标分布p来训练,因此,将目标定义为软分配qij和辅助目标分布pij之间的kl散度损失,如式(13)
45、
46、计算pij,首先提高qij到二次幂,然后按每个簇的频率归一化
47、
48、是软聚类频率。
49、优选的,步骤6构造聚类模块中的gcn损失优化函数具体如下:
50、由于gcn网络输出端也会产生一个聚类分配的分布z,因此,可以使用目标分布p来监督分布z,
51、
52、优选的,步骤7具体如下:
53、网络整体框架如图1所示。综合在前面步骤中的优化损失函数,可以得到最终的整个网络的损失函数为:
54、l=lmse+ll1+αl1+βl2+lswd (16)
55、其中,α>0是平衡原始数据的聚类优化和局部结构保存的超参数,β>0是控制gcn模块对嵌入空间的干扰的系数。lmse表示输入与输出之间的重构误差mse损失,表示输入与输出重构之间的l1损失,l1表示软分配分布q与目标分布p之间的kl损失,l2表示软分配分布与gcn网络输出的概率分布z之间的kl损失,lswd表示原始输入与输出之间的sliced-wasserstein距离损失约束。
56、优选的,步骤8具体如下:网络整体搭建好以后,先使用xavier uniform方法初始化网络的聚类中心,再将处理好的数据集输入到网络中进行迭代训练,微调相关超参数,当达到指定的精度或者训练次数时,网络终止训练,从而完成聚类。
57、本发明还公开了一种基于上述聚类方法的系统,其包括如下模块:
58、邻接矩阵构造模块:构造邻接矩阵;
59、自编码器构造模块:构造自编码器模块;
60、集成网络构造模块:构造gcn模块和自编码器模块的集成网络;
61、聚类分配优化函数构造模块:构造聚类模块中的聚类分配优化函数;
62、kl损失优化函数构造模块:构造聚类模块中的kl损失优化函数;
63、gcn损失优化函数构造模块:构造聚类模块中的gcn损失优化函数;
64、聚类网络构造模块:将自编码器模块、gcn模块和聚类模块联合,构造基于sliced-wasserstein距离的图卷积结构深度嵌入式聚类网络;
65、聚类模块:将数据集输入聚类网络中进行迭代训练,当达到指定的精度或训练次数时,聚类网络终止训练,完成聚类。
66、本发明基于sliced-wasserstein距离的图卷积结构深度嵌入式聚类方法及系统,引入了均方误差损失、l1损失、软分配聚类损失,以及kl损失进行联合优化聚类,在网络的迭代训练过程中,同时优化了自编码器模块、gcn模块以及聚类模块,最终实现聚类的效果。
67、本发明公开的基于无监督学习的图像聚类方法和系统,利用自编码器和图卷积网络完成对数据的特征提取并同时完成聚类的过程,提升了图像聚类的效果,使得人群划分更为精确,有利于实时掌握人群动态。