一种正则化rbf网络多标签分类方法

文档序号:9327496阅读:816来源:国知局
一种正则化rbf网络多标签分类方法
【技术领域】
[0001] 本发明属于多标签分类技术领域,具体涉及一种正则化RBF网络多标签分类方 法。
【背景技术】
[0002] 在传统机器学习的框架下,分类问题研究如何将待分类样本准确的划分到唯一的 某一类中。如果候选类别只有两个,这类问题被称作二值分类问题。如果候选类别有多个, 这类问题被称作多类分类问题。二值分类问题和多类分类问题都是单标签分类问题。然 而,在真实世界中,同时具有多个概念标记的歧义性对象广泛存在。例如在文档分类中,每 篇文档可能同时属于多个主题,从不同的角度分析一篇新闻报道,可将其划分为"政治"和 "经济"类;在功能基因组研究中,每个基因可能同时具有"新陈代谢"和"转录"等多种功 能;在场景分类中,每幅图像可能同时包含"海滩"和"落日"等多种语义信息。这样的分类 问题被称作多标签分类问题。
[0003] M. -L. Zhang. ML-RBF:RBF neural networks for multi-label learning. Neural Processing Letters, 2009, 29 (2) :61-74.提出了 RBF神经网络的多标签分类算法,该方法 包括:首先,对于训练集中的每一个标签,利用Kmeans算法对其聚类,聚类得出的中心点作 为RBF的隐藏层节点;其次,通过最小化平方和误差函数解得输出层权重向量。但是该方法 没有进行正则化处理,使得分类结果不能达到最优的效果。
[0004] M.-L. Zhang, Z.-J. Wang. MIMLRBF: RBF neural networks for multi-instance multi-label learning. Neurocomputing, 2009, 72 (16-18) :3951-3956.提出了 多实例 多标签问题的RBF神经网络算法,该方法包括:首先,对于训练集中的每一个标签,利用 k-MED0IDS算法对其聚类,聚类得出的中心点作为网络的隐藏层神经元;其次,通过最小 化平方和误差函数,优化隐藏层神经元与输出层神经元之间的权值矩阵。该方法是针对多 实例多标签问题的,不能直接用于解决单独的多标签分类问题,并且该方法也没有进行正 则化处理,使得分类方法不能得到最优的分类结果。
[0005] 上述RBF网络多标签分类方法,都没有使用正则化技术,限制了分类方法的分类 结果,降低了分类方法的泛化性能。

【发明内容】

[0006] 为了克服上述现有技术存在的缺陷,本发明的目的在于提供一种正则化RBF网络 多标签分类方法,该方法聚类速度快、泛化性能好,能够增强RBF网络的泛化性能。
[0007] 本发明是通过以下技术方案来实现:
[0008] -种正则化RBF网络多标签分类方法,包括以下步骤:
[0009] 步骤1 :构建RBF网络
[0010] 包括构造网络的输入层结点、隐藏层结点及输出层结点;
[0011] 输入层结点,由η个结点组成,每一个结点对应输入样本向量的一个特征;
[0012] 隐藏层结点,依次对数据集对应的标签集中的每一个标签.1的正样本集%进行聚 类,聚类之后得到A = 个聚类中心,α为常量参数;所有的标签聚类形成的聚类中心 构成了径向基函数RBF的隐藏层结点;
[0013] 输出层结点,由q个结点组成,每一个输出层结点都是一个潜在的输出标签;
[0014] 步骤2 :用训练数据训练RBF网络
[0015] 建立带正则项的RBF网络多标签分类模型,选取公开多标签数据集,选择其中的 一部分作为训练数据集,对RBF网络多标签分类器进行正则参数寻优,得到连接隐藏层和 输出层的权值矩阵;
[0016] 步骤3 :利用RBF网络预测标签
[0017] 对于RBF网络的输出层结点,设定常量0为阈值;利用连接隐藏层和输出层的权值 矩阵值,得出网络中每个结点的输出值,比较每个结点输出值与阈值〇的大小关系,大于阈 值〇的作为样本的潜在标签,实现多标签分类。
[0018] 步骤1所述的RBF网络构建,具体包括以下步骤:
[0019] 1)设;T = ITi或者f,表示维度为η的样本空间;其中,JT表示维度为η的实数空 间,Σ?表示维度为η的复数空间
表示具有q个可能的类标签的标签空 间,多标签训练集为:
[0020]
[0021] 包含m个样本数据,g e.;r;是一个η维的特征向量(?,?,…X 是与Χι 相对应的标签集;
[0022] 网络的输入层由η个结点组成,用于将η维的样本X1输入网络;
[0023] 2)对标签空间…M中的每一个标签&的正样本集"进行聚类;
[0024] 3)标签空间;F = 的维度为q,网络的输出层结点由q个结点组成,一个 输出结点对应标签空间中的一个标签,则网络输出为向量f :
[0025] 向量 f = [A, f2, . . .,fq];
[0026] 向量f的每一个分量值Λ对应网络的一个输出结点的输出值。
[0027] 步骤2)所述对正样本集K.进行聚类的具体步骤为:
中的每一个标签&,找出正样本集合
[0029] 其中,Uj, Yj为多标签训练集中的一个样本,x, 是一个η维的特征向量, K =>'是与Xj相对应的标签集,)??是集合Yj的一个元素;
[0030] (2)利用SOM聚类法,对正样本集合%聚类,聚类之后得到k个聚类中心, # =仏|%1,α为常量参数,形成聚类中心为向i

[0031] (3)重复步骤⑴和(2),直至标签集中的每一个标签对应的正样本集合都聚类产 生聚类中心,并将这些聚类中心合并,得到网络隐藏层结点为向量 隐藏层结点数量为L
9
[0032] 步骤2所述训练RBF网络,具体包括以下步骤:
[0033] 1)对于样本\,夂?是一个η维的特征向量,RBF网络输出层的第£个输出结 点,其输出值/;形式化的定义如下:
[0038] β为连接隐藏层和输出层的权值矩阵,見为矩阵β的第i行第《列元素,L为网 络的隐藏层结点数量,m为多标签训练集的总训练样本数量;Φ i (X],C1)为RBF网络的隐藏 层结点C1在网络输入样本为X ,时,隐藏层结点c 输出函数值;
[0039] RBF网络的隐藏层函数采用高斯函数作为径向基函数,则(J)1 (X],C1)函数形式化 的定义如下:
[0041] 其中,C1为径向基函数Φ J ·)的中心,即RBF网络隐藏层结点,σ称为径向基函 数的扩展常数,反应函数图像的宽度,通过计算每对网络隐藏层结点之间的距离来获得,形 式化的定义为:
[0043] 其中,μ为调节参数,为网络的隐藏层结点数量,dP Ch为网络隐藏层结点;
[0044] 则,RBF网络输出向量f = [4 f2, · · ·,fq]形式化的定义为:
[0045] f = Ηβ (6)
[0046] H和β定义如式⑵和式(3),向量f的每一个分量值/)为网络的一个输出结点 的输出值,定义如式⑴所示;
[0047] 2)最小化网络输出误差值,如下式:
[0049] 其中,T为多标签训练集的m个训练样本的目标标签矩阵,f为RBF网络输出向量, λ Ω (f)为正则项,λ为正则参数:
[0050] 则有,最小化
丨等价于:
[0051 ] minw(| |Ηβ-Τ| | + λ β) ⑶
[0052] 利用岭回归的方法求解,隐藏层和输出层的权值矩阵β表示为:
[0053] β = (ΗΤΗ+ λ I) 1Ht
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1