专利名称:一种基于代表性样本的增强型关系分类器的制作方法
技术领域:
本发明属于模式识别领域,特别涉及一种基于聚类分析的关系分类器。
背景技术:
模式识别的主要任务是对表征事务或现象的各种形式的信息进行处理和分析,从而对事物或现象进行分类(或分组)和解释。传统模式识别领域包含两个重要的研究主题,即无监督型聚类和监督型分类。监督型分类旨在根据给定的数据及其类标号设计出类判别函数,从而能对未知样本的类别做出正确的预测。该类方法关注样本的类别归属,对未见过样本能导致相对好的推广性。但该类算法仅强调对样本个体的分类,而忽略了对样本空间隐藏的结构性知识的 挖掘和样本间相互关系的刻画,从而导致了分类结果的可解释性和透明性变差。典型的方法包括神经网络(Neural Networks),支持向量机(Support Vector Machine, SVM)等。无监督型聚类旨在利用样本间的相似性,把具有相同特性的样本分到同一个具有某种意义的簇中,从而发现样本的潜在分布结构,更好地理解和分析数据。该类方法可以揭示数据的结构分布,但无法决策样本的类别归属。这两类方法各有优缺点,因此设计出兼有两者优点、克服两者缺点的方法是个非常重要的研究课题。围绕这一课题,研究人员提出了一系列方法。从设计流程上看,这些方法都是先使用聚类算法来发掘数据的内在结构,再利用得到的数据结构来设计分类机制。径向基函数网络(Radial Basis Function Neural Network, RBFNN)是典型的无监督型聚类+分类器设计。RBFNN先使用无监督型聚类算法如C-均值或模糊C均值来确定隐层节点参数;再利用真实输出与目标输出间的平方误差准则(Mean Squared Error,MSE)来优化隐层和输出层之间的连接权值。这里的无监督型聚类方法被用来确定网络的复杂程度和参数,因此仅是网络设计的辅助手段,无法真正起到揭示数据内在结构的作用。所以,RBFNN没有真正融合聚类学习和分类学习各自的优势。学习矢量量化(Learning VectorQuantization)利用LVQ聚类算法得到中心点(即码书)的位置及其类别信息,并用基于这些中心点的I近邻(INeighbor-Nearest, 1NN)来实现分类功能。事实上,这些算法在分类器设计阶段都没有经过真正的训练,换句话说,它们并没有进行分类器的真正设计。模糊关系分类器(Fuzzy Relational Classifier,FRC)真正实现了无监督型聚类和监督型分类两类方法的优势互补。FRC通过构建聚类和类别间的模糊逻辑关系来沟通聚类和分类,达到分类结果的透明性和可解释性。FRC有两个显著的优点(I)利用算子运算构造出模糊关系矩阵,从而揭示出聚类和类别间的内在逻辑关系;(2)当样本空间的某些区域不存在足够判别信息时,分类器将拒绝对落入该区域的测试样本做出决策,从而保证分类结果的可信度。FRC分类器中存在一个重要的关系矩阵R,其作用是刻画数据的结构与类别间的模糊逻辑关系。这个矩阵的正确与否很大程度上决定了 FRC分类的有效性和鲁棒性。而在FRC中,分类器使用训练集合的所有样本来构造R,而没有根据输入空间的结构特点区别地使用样本点。当数据集中含有较多的类重叠区域时,这种方式构造的R无法正确真实地反映类别与结构间的逻辑关系,从而导致FRC存在以下缺陷分类缺乏鲁棒性;分类性能下降;计算负担重。这种现象的原因是落入类重叠区域的样本使最终生成的关系矩阵R不能正确地反映数据的分布特点。
发明内容
为了克服上述问题,通过区别地利用训练样本,本发明提出了一种基于代表性样本的增强型关系分类器(Enhanced FRC, EFRC),该分类器中的R可以更真实地反映数据结构和类别间的逻辑关系,因此可以有效提高分类器的有效性。为实现上述发明目的,本发明所采用的技术方案是一种基于代表性样本的增强型关系分类器,包括以下步骤步骤1 :采用无监督的模糊C均值产生聚类隶属度矩阵U和聚类中心V ; 步骤2 :根据所有样本的聚类隶属度矩阵U,确定具有代表性的样本集合XnOT,具体方法是根据聚类隶属度集合luu},对训练样本集合X进行硬划分,形成c个样本子集合Cj ;在每个样本子集合&中,样本按照其对第j个聚类的隶属度值从大到小排列;在排列后的样本子集合G中,选择聚类隶属度较大的前\ %样本形成代表性的样本集合Im=
入 e (0,I);步骤3 :根据代表性的样本集合Xnrat的聚类隶属度及其类标号,利用0复合算子建立聚类与类别间的模糊关系矩阵R,具体方法是首先,利用0复合算子计算代表性的样本集合Xnrat中的每个样本点对应的关系矩阵Ri (r^) ^min (I, I-Uj^yli), 1=1, 2,, L, j=l, 2,, c (I)其中yii为第i个样本对第I个类别的隶属度,其值由下式确定
权利要求
1.一种基于代表性样本的增强型关系分类器,其特征在于包括以下步骤 步骤I:采用无监督的模糊C均值产生聚类隶属度矩阵U和聚类中心V ; 步骤2 :根据所有样本的聚类隶属度矩阵U,确定具有代表性的样本集合X卿,具体方法是根据聚类隶属度集合luu},对训练样本集合X进行硬划分,形成c个样本子集合Cj ;在每个样本子集合G中,样本按照其对第j个聚类的隶属度值从大到小排列;在排列后的样本子集合G中,选择聚类隶属度较大的前\ %样本形成代表性的样本集合,入 e (O,I); 步骤3 :根据代表性的样本集合Xnrat的聚类隶属度及其类标号,利用0复合算子建立聚类与类别间的模糊关系矩阵R,具体方法是首先,利用0复合算子计算代表性的样本集合Xnrat中的每个样本点对应的关系矩阵Ri Ojl) J=Iiiin (I, I-Ujfyli),1=1,2,…,L, j=l, 2,…,c (I) 其中Yli为第i个样本对第I个类别的隶属度,其值由下式确定
全文摘要
本发明涉及一种基于代表性样本的增强型关系分类器。该方法主要包含两步首先,根据样本的聚类隶属度挑选出具有代表性的样本构成新的训练样本集合Xnew;然后,针对Xnew的聚类隶属度和类别隶属度,采用φ复合算子构建模糊关系矩阵R。本发明的主要特色有以下三点(1)矩阵R可揭示出聚类和类别间的内在逻辑关系;(2)矩阵R的计算复杂度从O(NLc)降至O(MLc),其中L为类别个数,c为聚类个数,N是原始数据集X的样本个数,M是Xnew的样本个数,并且N>M;(3)当样本空间的某些区域不存在足够判别信息时,分类器将拒绝对落入该区域的测试样本做出决策,从而保证分类结果的可信度。
文档编号G06K9/62GK102799902SQ20121028763
公开日2012年11月28日 申请日期2012年8月13日 优先权日2012年8月13日
发明者蔡维玲 申请人:南京师范大学