本发明属于医疗数据处理领域,具体涉及一种基于快速密度峰值聚类的医疗特征选择方法。
背景技术:
1、在医疗数据分析中,病人的数据特征量通常非常庞大,而且每种慢性病数据都有其独特的特征。这就导致了医疗数据的高维度和复杂度,给预测模型的构建和优化带来了困难。为了解决这个问题,需要一种有效的聚类方法,能够根据不同慢性病的特征进行分组,从而筛选出最重要和最相关的特征,降低数据维度,提高预测模型的效率和准确性。
2、rodriguez等人在2014年提出了密度峰值聚类算法(density peaks clustering,dpc)。dpc是一种基于密度的聚类算法,该算法首先计算样本的局部密度和相对距离;其次根据样本的局部密度和相对距离构造决策图;然后选择局部密度和相对距离均较大的点作为类簇中心;最后,将每个非中心点按局部密度由大到小分配到其高密度最近邻的类簇,后文将高密度最近邻称为前置点。dpc的优点包括:算法简单高效,不需要迭代优化目标函数,能够识别任意形状的类簇等。
3、但是,dpc存在一些不足:dpc算法需要计算数据集中每个点的局部密度和相对距离,这涉及计算每个点与所有其他点之间的距离。因此,dpc算法的时间和空间复杂度均为o(n2);导致在对医疗数据进行处理时,容易占用大量的运算资源和存储资源,不能快速筛选出最优的医疗特征。
技术实现思路
1、基于现有技术存在的问题,本发明提出了一种基于快速密度峰值聚类的医疗特征选择方法,能够根据数据点的局部密度和相对距离,确定聚类中心和聚类数目,从而将不同慢性病的数据特征进行分组,筛选出最具代表性和区分性的特征,降低数据维度,提高预测模型的效率和准确性。
2、一种基于快速密度峰值聚类的医疗特征选择方法,所述方法包括:
3、获取目标医疗数据,对所述目标医疗数据进行预处理,生成医疗特征样本;
4、根据每个医疗特征样本到坐标原点的欧式距离,确定出每个医疗特征样本与坐标原点相关的扇形截断域;
5、根据每个医疗特征样本在其截断域内与其他医疗特征样本的欧式距离,计算出每个医疗特征样本的局部密度;
6、根据每个医疗特征样本在其截断域内与其他医疗特征样本的局部密度,计算出每个医疗特征样本的相对距离;
7、根据每个医疗特征样本的局部密度和相对距离乘积,按照乘积从大到小进行排列,确定出中心的医疗特征样本。
8、本发明的有益效果:
9、1.本发明的一种基于快速密度峰值聚类的医疗特征选择方法,该方法能够根据数据点的局部密度和相对距离,自动确定聚类中心和聚类数目,从而将不同慢性病的数据特征进行分组,筛选出最具代表性和区分性的中心医疗特征样本。该方法具有高效和稳定的优点,可以在医学大数据集下快速删除多余特征,获取更具代表性的特征,从而降低数据维度,提高预测模型的效率和准确性。
10、2.在传统dpc聚类分析中,算法需要计算数据集中每个点的局部密度和相对距离,这涉及计算每个点与所有其他点之间的距离。因此,dpc算法的时间和空间复杂度均为o(n2)。所以,在处理大型数据集时,dpc算法的计算量和内存使用量会非常大。本发明提出了截断域的定义,通过截断域的定义可以大量减少欧氏距离的计算次数和相对距离的对比数量。其次,本发明基于截断域提出了局部密度和相对距离的新定义,并利用改进后的定义加快了寻找聚类中心的速度,计算局部密度时仅需计算所有点到原点的距离,因此降低了聚类过程中的内存使用量。
1.一种基于快速密度峰值聚类的医疗特征选择方法,其特征在于,所述方法包括:
2.根据权利要求1所述的一种基于快速密度峰值聚类的医疗特征选择方法,其特征在于,对所述目标医疗数据进行预处理包括对目标医疗数据中的无关特征数据进行删除,并对有少量缺失值的目标医疗数据使用数据填充方法进行填充,对于大量缺失值的目标医疗数据进行删除;计算出目标医疗数据样本之间的距离矩阵;并所述所述距离矩阵进行归一化处理,生成医疗特征样本。
3.根据权利要求1所述的一种基于快速密度峰值聚类的医疗特征选择方法,其特征在于,所述根据每个医疗特征样本到坐标原点的欧式距离,确定出每个医疗特征样本与坐标原点相关的扇形截断域包括将所有医疗特征样本投影到坐标系中;分别计算出每个医疗特征样本到坐标原点的欧式距离;根据当前医疗特征样本到坐标原点的欧式距离,确定出当前医疗特征样本在该欧式距离对应超参数截断距离范围的扇形截断域。
4.根据权利要求3所述的一种基于快速密度峰值聚类的医疗特征选择方法,其特征在于,所述将所有医疗特征样本投影到坐标系中包括根据医疗特征样本的分布情况,确定出每个维度的坐标范围;将每个医疗特征样本的特征值按照对应的坐标轴进行映射;将映射后的医疗特征样本进行可视化处理。
5.根据权利要求3所述的一种基于快速密度峰值聚类的医疗特征选择方法,其特征在于,所述当前医疗特征样本在该欧式距离对应超参数截断距离范围的扇形截断域表示为:
6.根据权利要求1所述的一种基于快速密度峰值聚类的医疗特征选择方法,其特征在于,所述根据每个医疗特征样本在其截断域内与其他医疗特征样本的欧式距离,计算出每个医疗特征样本的局部密度包括:
7.根据权利要求1所述的一种基于快速密度峰值聚类的医疗特征选择方法,其特征在于,所述根据每个医疗特征样本在其截断域内与其他医疗特征样本的局部密度,计算出每个医疗特征样本的相对距离包括:
8.根据权利要求1所述的一种基于快速密度峰值聚类的医疗特征选择方法,其特征在于,所述根据每个医疗特征样本的局部密度和相对距离乘积,按照乘积从大到小进行排列,确定出中心的医疗特征样本包括根据计算局部密度和相对距离的乘积,将各个医疗特征样本映射为决策点,根据所述乘积绘制决策图,判断所述决策图中是否有异常峰值的决策点存在;如果有,则将这些异常峰值对应的决策点作为聚类中心;如果没有,则通过预设阈值来选取前若干个决策值较高的样本点作为聚类中心。