一种基于样本包络多层聚类的数据集平衡化学习方法

文档序号：28627082发布日期：2022-01-26 13:40阅读：来源：国知局

技术特征：
1.一种基于样本包络多层聚类的数据集平衡化学习方法，其特征在于，包括步骤：s1、选择不平衡训练集，该不平衡训练集由少数类样本和多数类样本组成；s2、对所述少数类样本和多数类样本通过相似性测度来计算最相似样本、合并原样本，构造对应的包络化少数类样本和包络化多数类样本；s3、采用深度样本包络网络对所述包络化少数类样本进行深度样本变换，得到对应的l层包络化少数类深度样本，l≥1；s4、将所述包络化少数类样本与每层所述包络化少数类深度样本进行融合，得到样本数目与所述包络化多数类样本平衡的包络化少数类平衡样本；s5、将所述包络化少数类平衡样本与所述包络化多数类样本融合，得到平衡训练集。2.根据权利要求1所述的一种基于样本包络多层聚类的数据集平衡化学习方法，其特征在于，所述步骤s3具体包括步骤：s31、基于多层模糊均值聚类及最大平均差异的最小层间差异机制构建深度样本包络网络，所述深度样本包络网络的层数由聚类前后的样本数确定；s32、采用所述深度样本包络网络对所述包络化少数类样本进行深度样本变换，得到每层网络空间的深度包络样本；s33、在目标函数收敛后，将所有深度包络样本输出则得到所述包络化少数类深度样本。3.根据权利要求2所述的一种基于样本包络多层聚类的数据集平衡化学习方法，其特征在于：在所述步骤s31中，若聚类后样本数为聚类前样本数的1/t，则根据计算所述深度样本包络网络的最小层数l，l≥1，其中，n1、n2分别表示所述少数类样本、所述多数类样本的样本数目。4.根据权利要求3所述的一种基于样本包络多层聚类的数据集平衡化学习方法，其特征在于，在所述步骤s32中，进行深度样本变换采用公式：其中，j1(u,v)表示目标函数，minj1(u,v)表示最小化目标函数，c表示聚类的数目，u
ik
表示所述少数类样本x
min
中第k个样本属于第i个簇的隶属程度，m＞1表示模糊化系数；d
ik
表示样本与聚类中心v
i
的欧式距离，u代表所有的隶属程度u
ik
，v代表所有的聚类中心v
i
，表示求x
min
与聚类中心v之间的最大平均差异。5.根据权利要求4所述的一种基于样本包络多层聚类的数据集平衡化学习方法，其特征在于，表示为：其中，表示第k'个少数类样本，v
i'
表示第i'个聚类中心，k(,)为线性核函数，
k(v
i
,v
i'
)＝(v
i
)
t
v
i'
。6.根据权利要求5所述的一种基于样本包络多层聚类的数据集平衡化学习方法，其特征在于，在所述步骤s33中，采用以下公式输出包络化少数类深度样本v＝{v1,v2,...v
c
}：7.根据权利要求6所述的一种基于样本包络多层聚类的数据集平衡化学习方法，其特征在于，在所述步骤s5后还包括步骤：s6、采用所述平衡训练集训练分类器，得到平衡的分类模型；s7、获取测试数据，并利用训练后的分类模型得到最终的预测结果。8.根据权利要求7所述的一种基于样本包络多层聚类的数据集平衡化学习方法，其特征在于：所述分类器采用支持向量机。9.根据权利要求7所述的一种基于样本包络多层聚类的数据集平衡化学习方法，其特征在于：所述不平衡训练集和所述测试数据选自keel公共数据库中的yeast1数据集或glass2数据集，每个样本包括多个特征，并且yeast1数据集与glass2数据集在少数类样本和多数类样本的不平衡度上有差异；所述预测结果为待测对象的标签。

技术总结
本发明涉及人工智能技术领域，具体公开了一种基于样本包络多层聚类的数据集平衡化学习方法，包括步骤：选择不平衡训练集，该不平衡训练集由少数类样本和多数类样本组成；对少数类样本和多数类样本构造对应的包络化少数类样本和包络化多数类样本；对包络化少数类样本进行深度样本变换，得到对应的L层包络化少数类深度样本，L≥1；将包络化少数类样本与每层包络化少数类深度样本进行融合，得到样本数目与包络化多数类样本平衡的包络化少数类平衡样本；将包络化少数类平衡样本与包络化多数类样本融合，得到平衡训练集。本发明增加了少数类样本的多样性，提高了少数类样本的质量，从而增加了模型对少数类样本的学习能力，提升了其分类或预测的准确性。其分类或预测的准确性。其分类或预测的准确性。

技术研发人员：李勇明李帆王品张小恒贾云健李新科颜芳
受保护的技术使用者：重庆大学
技术研发日：2021.10.25
技术公布日：2022/1/25

完整全部详细技术资料下载

当前第2页1 2