本发明属于数据集降维领域,尤其涉及一种基于改进的深度递归嵌入高维数据集降维与分类方法。
背景技术:
1、如今,高维数据集在生命科学、计算机科学等领域频频出现,通常高维数据集维度较高,例如rna数据、图像数据、设计参数数据、蛋白质结构数据等。虽然随着存储技术的发展,高维数据集可以方便地进行存储。然而,高维数据集复杂的结构以及丰富的信息量,对于后续的处理带来极大的困难。对于人类而言,无法直接观察到三维以及三维以上的数据集特点,因此高维数据集的降维尤为关键。
2、目前大多高维数据集的降维通常针对其全局结构进行保留,或者针对其局部结构进行保留,无法同时兼顾高维数据集的全局信息以及局部信息。因此,用户无法通过降维同时获得高维数据集的全局信息以及局部信息,这影响了用户对于高维数据集特征的获取,进而会影响对于高维数据集分类的效果。
技术实现思路
1、针对现有技术中的缺陷,本发明提供一种基于改进的深度递归嵌入高维数据集降维与分类方法,所述方法包括如下步骤:
2、步骤1:数据预处理
3、依据不同的输入类型选择合适的方法构建高维数据集。当输入为彩色图像时,需要将彩色图像转变为灰度图像,并进行归一化处理。
4、需要读取彩色图像红、绿、蓝对应的值,采用平均灰度值法进行计算所述图像在当前像素点的灰度值,所述平均灰度值法为:
5、
6、其中,gray表示彩色图像经过平均灰度值变换后的灰度值大小,r表示彩色图像中的红色通道数值的大小,g表示彩色图像中的绿色通道数值的大小,b表示彩色图像中的蓝色通道数值的大小。
7、步骤2:构建深度学习网络架构
8、依据输入构建深度学习网络架构的输入层结构。构建改进的深度递归嵌入网络,并建立损失函数,所述损失函数为lt-sne,以及lumap,在深度递归嵌入网络中的卷积部分加入三次递归,递归函数使用lt-sne,在最后一层递归中使用lumap损失,完成改进的深度递归嵌入网络的构建。
9、所述的损失函数lt-sne满足如下关系:
10、
11、其中,lt-sne是基于最小化高维空间中数据点的估计概率分布p和低维空间中数据点的估计概率分布q之间的kullback-leibler(kl)散度。其中,p代表高维空间中的数据点x,q代表低维空间中的y。pij和qij是归一化的两两相似度,pij是高维空间中高斯分布下数据点选择数据点xj作为其邻居的概率,qij是数据点yi选择数据点yi的概率数据点yj作为低维空间中t分布下的邻居。
12、所述的损失函数lumap满足如下关系:
13、
14、其中,lumap最小化两个模糊隶属函数v和w之间的模糊集交叉熵(ce),其中v代表高维空间中的x,w代表它们在低维空间中的y。
15、步骤3:对高维数据集进行聚类
16、将高维数据集作为输入,设置改进的深度递归嵌入网络的超参数,可得到高维数据集聚类后的结果,并使用定量评价指标对所述改进的深度递归嵌入网络进行评价。
17、步骤4:依据聚类信息进行分类
18、经过改进的深度递归嵌入网络降维后的高维数据,使用坐标(xi,yi)表示。根据所述的降维后的模型,计算每种类型中心点的坐标,并分别储存在数据库中。所述的降维后模型的每种类型中心点的坐标满足如下关系:
19、
20、其中,为所述的降维后的聚类类别坐标的x值,为所述的降维后的聚类类别坐标的y值,n为这种聚类类别的数量,i为这种聚类中的一个类别。
21、使用改进的深度递归嵌入网络处理未知类别的图像,得到所述降维后的坐标值。将所述未知类别的图像降维后的坐标值依次与所述数据库中存储的不同类别中心点坐标进行比较,距离最近的中心点所对应的类别认为是所述图像的类别。
22、优选地,步骤1中的图像为灰度图像时,可以直接进行归一化处理。
23、优选地,步骤3中的定量评价指标包括邻域命中、可信度、连续性、shepard指标和曲线下面积。
24、所述的邻域命中衡量数据在低维空间中的可分离性,有助于评估降维技术是否适合数据探索。邻域命中可以定义为在低维空间中,数据点的邻居是否在原始高维空间中也是邻居。如果低维空间中的邻居在高维空间中也是邻居,那么邻域命中就高。
25、所述的可信度衡量了在低维空间中映射接近的点在高维空间中也接近的比例,这可以表明人们可以在多大程度上信任投影中的局部模式。
26、所述的连续性定义为对于连续性的测量,可以衡量低维空间中映射到与原始空间中靠近的点的比例。
27、所述的shepard指标通过计算shepard图的spearman等级相关性来衡量整体距离保持。shepard图是一种用于可视化和评估降维算法的工具,它将高维空间和低维空间中的成对距离进行比较。
28、所述的曲线下面积是一种常用的性能度量指标,通常用于评估分类模型的性能。
29、有益效果
30、本发明提出的一种基于改进的深度递归嵌入高维数据集降维与分类方法,有益效果如下:
31、(1)通过发明步骤2将t-sne损失以及umap损失函数相结合,既可保留高维数据的局部特征,同时对于高维数据的全局特征也有所保留。
32、(2)通过发明步骤3将深度递归嵌入网络进行改进,在卷积部分加入了t-sne的递归,提高了算法的邻域命中、可信度、连续性、shepard指标和曲线下面积指标。
33、(3)本发明提出一种基于改进的深度递归嵌入高维数据集降维与分类方法。在降维处理步骤中,通过改进的深度递归嵌入网络对高维数据集进行降维,更好地保留局部结构以及全局结构。在低维空间内进行类别的判断,可以提高计算效率,最终提高分类的实时性和识别精度。
1.一种基于改进的深度递归嵌入高维数据集降维与分类方法,其特征在于,所述方法包括如下步骤:
2.根据权利要求1所述的改进的深度递归嵌入高维数据集降维与分类方法,其特征在于,步骤1中的图像为灰度图像时,可以直接进行归一化处理。
3.根据权利要求1所述的改进的深度递归嵌入高维数据集降维与分类方法,其特征在于,步骤3中的定量评价指标包括邻域命中、可信度、连续性、shepard指标和曲线下面积。