?标签 密度是在标签空间内对标签的基的归一化,计算表达式为
利用数据集对RBF网络 进行正则参数λ寻优,同时优化连接隐藏层和输出层的权值矩阵β。
[0108] 表1公开数据集
[0109]
[0110] RBF网络多标签分类器预测的标签为标签集h (X1)
其中X1为多标签数据集的第i个样本,是一个η维的特征向量,为标签空间 37 = {λ,,…中的一个标签,/i为网络的一个输出结点的输出值,t (X1)为阈值函数,设 为常量0,比较乂和0的大小,若大于0,则标签A为X1的可能的一个标签。
[0111] 实施例
[0112] 本实例以Yeast数据集为例,数据集属于生物学领域,包括1500个训练样本和917 个测试样本,训练样本用于训练多标签分类系统,测试样本作为未知标签的样本,用于标签 预测。Yeast数据集有103维特征和14个标签,平均标签数量为4. 24,标签密度为0. 303。
[0113] 正则化RBF网络多标签分类方法,如图1所示,利用包含1500个样本的训练数据 集构造RBF网络包括3个步骤,具体流程如下:
[0114] 步骤1 :网络输入层包括103个结点;
[0115] 步骤2 :对数据集的维度为14的标签空间y = J2:,.…中的每一个标签Ji, 在训练数据集中找出正样本集K进行聚类,具体步骤为:
[0116] 1)标签集合3^{乃,少2, - 714}中的标签71,在训练数据集中找出正样本集合1]1,1] 1 ={x.j I (x.j, Y.j) e D, yn e Y yjl> 〇},(X Yj)为第 j 个样本,yn为标签集 Y J的第一个标 签,集合仏包含元素个数为IU i I = 476,即有476个正样本;
[0117] 2)利用SOM法对正样本集合仏聚类,聚类中心数量为k,k = α · IU1I,α为〇. 01, 贝1J k = 5,最终形成包含5个元素的聚类中心向量c1,c1= {c hl, . . .,c1'5};
[0118] 3)重复以上两个步骤,直到标签集中的14个标签对应的正样本集合都聚类产生 聚类中心,合并这些聚类中心。
[0119] 经过以上三步操作,找出网络隐藏层结点为向量
,网络 的隐藏层结点数量为
[0120] 步骤3 :网络的输出层包括14个结点,网络输出向量f = [4 f2, . . .,f14]。
[0121] 如图3所示,利用包含1500个样本的训练数据集作为网络的输入,训练RBF网络 具体流程如下:
[0124] Φ i (X],C1)为RBF网络的隐藏层结点C1在网络输入样本为X ,时,隐藏层结点c 4勺 输出函数值,Xj为1500个样本中的第j个样本,c i为网络的第i个隐藏层结点,σ为径向 基函数的扩展常数,μ为调节参数,且μ = 1,CjPch为网络隐藏层结点;
[0125] 2)优化连接隐藏层和输出层的权值矩阵β
[0126] (1)隐藏层和输出层的权值矩阵β
[0127] β = (ΗΤΗ+ λ I) 1HtT
[0128] 其中,矩阵T为训练数据集的1500行14列的标签矩阵,I为69行69列的单位矩 阵。
[0129] (2)优化权值矩阵β即优化正则项λ。为了获得最优参数λ,λ的
[0130] 值被依次设置为27, 26,…,2 3,依次解出相应的权值矩阵β。Average precision 是一个流行的多标签评价指标,它被作为调节正则参数λ和β的依据。
[0131] 如图4所示,预测Yeast测试数据集的标签,测试数据集包括917个样本数据,具 体流程如下:
[0132] (I) RBF 网络输出向量f= [4&,...,匕],f = HtestL 其中
[0133]
[0134] (Xl,C1)为第1个样本在第1个隐藏层结点上的输出值,其余以此类推。β为RBF 网络隐藏层和输出层的权值矩阵。
[0135] (2)对向量f = Ef1, f2, . . .,f14]的每一个分量值./ e /,RBF网络多标签分类器 预测的标签为标签集h (X1),AU:. ) = i.v.. I./: > (VW丨,I S K 917,大于0的分量值Λ对应 的标签为即为样本X1的预测标签。
[0136] 选择 Hamming loss,One-error,Coverage,Ranking loss,Average-precision 这 5个流行的多标签评价指标,结果参见表2-7所示,评估方法的性能:
[0137] 选择传统的 ML-RBF(Multi-label RBF neural network)、 Rank-SVM、 BP-MLL (Back-Propagation for Multi-label Learning)、ML_KNN(Multi-label k Nearest Neighbor)和MLNB (Multi-label Naive Bayes)多标签分类算法与正则化RBF网络多标签 分类算法进行比较。得到结果如表2~7所示:
[0138] 表2在6个数据集上各算法的Hamming loss [01391
[0140] Hamming loss作为流行的多标签分类方法评价指标,在评价时,Hamming loss值 越小多标签分类方法越好,在表2中,最好的结果被加粗显示,从表2中可以看出,正则化 RBF网络多标签分类方法(R-RBF-ML)在所有的数据集上均取得了最好的结果。因此,根 据Hamming loss评价指标,正则化RBF网络多标签分类方法是所有多标签分类方法中最好 的。其中BP-MLL和MLNB计算复杂度太高,无法对TMC2007数据集进行分类,因此没有相应 的 Hamming loss 值。
[0141] 表3在6个数据集上各算法的Coverage
[0142]
[0143] Coverage作为流行的多标签分类方法评价指标,在评价时,Coverage值越小多标 签分类方法越好,在表3中,最好的结果被加粗显示,从表3中可以看出,在6个数据集上, 正则化RBF网络多标签分类方法(R-RBF-ML)在其中4个数据集上都取得了最好的结果。因 此,根据Coverage评价指标,正则化RBF网络多标签分类方法是所有多标签分类方法中相 对最好的。其中BP-MLL和MLNB计算复杂度太高,无法对TMC2007数据集进行分类,因此没 有相应的Coverage值。
[0144] 表4在6个数据集上各算法的One error
[0145]
[0146] One error作为流行的多标签分类方法评价指标,在评价时,One error值越小多 标签分类方法越好,在表4中,最好的结果被加粗显示,从表4中可以看出,正则化RBF网 络多标签分类方法(R-RBF-ML)在所有的数据集上均取得了最好的结果。因此,根据One error评价指标,正则化RBF网络多标签分类方法是所有多标签分类方法中最好的。其中, BP-MLL和MLNB计算复杂度太高,无法对TMC2007数据集进行分类,因此没有相应的One error 值。
[0147] 表5在6个数据集上各算法的Average precision
[0150] Average precision作为流行的多标签分类方法评价指标,在评价时,Average precision值越大多标签分类方法越好,在表5中,最好的结果被加粗显示,从表5中可以看 出,正则化RBF网络多标签分类方法(R-RBF-ML)在所有的数据集上均取得了最好的结果, 因此,根据Average precision