基于多标签二视角支持向量机的分类方法

文档序号:6612687阅读:508来源:国知局
专利名称:基于多标签二视角支持向量机的分类方法
技术领域
本发明属于标签技术领域,特别地涉及一种基于多标签二视角支持向量机的分类方法。
背景技术
随着信息时代的到来,多媒体数据已经实现了爆炸性的增长。标签,作为多媒体的内容形式之一,能帮助解决数据挖掘方面很多重要的现实应用,特别是在跨媒体领域,体现出非常重要的作用。例如,利用合适的标签作为图像注释的一部分,可以开发出强大的图像标注和图像检索技术;利用合适的标签作为电影评论的一部分,可以开发出有效的电影推荐系统;利用合适的标签作为网页标记的一部分,可以开发出更有效率的搜索引擎。
标签的种类是多种多样的,由于数据量日新月异爆炸性的增长,仅仅依靠数据处理人员对所有的数据手工加标签是不现实的。在这种前提下,社会标签就应运而生了。社会标签,又称合作标签,社会分类法,是一种让普通大众用户能将在线的数字资源和自己提供的标签做关联的方法,是由用户产生的、对网络内容进行组织和共享的自下而上的组织分类体系。在这里,普通民众都可以通过在线环境在相应的系统中为自己感兴趣的数字资源添加自己觉得合适的标签。正是基于这种特点,社会标签的结果往往是不准确的,包含有很多噪声,因为每一位参与社会标签的普通用户都不能排除自己的主观性,粗心大意,甚至是缺乏耐心去提供一个完美的标签。为了更好的利用社会标签为进一步的数据处理分析服务,必须尽可能的提高标签分类的准确度,降低噪声对标签分类的影响。同时,由于标签的种类是多种多样的,因此,多标签抗噪分类器应运而生,并且有着非常广阔的应用前景和非常重要的实用价值。传统的鉴别型分类器应用到多标签分类问题中时,一般将多标签问题转化为一对多(One Vs All)的分类模式,即把多标签分类问题转化为多个二分类问题。传统的鉴别型分类器在这个转化过程中并没有用到多标签空间中所包含的信息。而实际上,数据被标上的标签越多,标签空间中包含的信息也就越多,这些信息可以被利用起来。当判断数据点是否应该标上某个标签时,该数据点已有的其他标签会对判断起到一定的帮助作用。例如,当一幅包含动物的图像已有的标签为天空,云,草地,树木的时候,它更可能被标上的标签是鸟而不是鱼;而当一幅包含动物的图像已有的标签为水,水草,大海,珊瑚的时候,它更有可能被标上的标签是鱼而不是鸟。多标签空间中包含的信息在某种程度上可以帮助我们更好的进行分类,降低噪声对分类的影响。随着获取数据的终端的多样化,数据一般都拥有多视角的特征,尤其是在多媒体领域,一个事件会被文本,图像,声音,视频等多个视角进行记录和描述。即使是只有一种媒体,也可以把该媒体的多个相互条件独立的特征看作为多视角的特征。例如图像,可以从纹理,颜色,区域形状等多个视角进行分析。多个视角类似于多个独立的历史学家对于同一个历史事件的记录,尽管在这些记录中存在着一定的重叠部分,但是这些记录中的非重叠部分却是最有价值的,能够帮助后人尽可能的系统性的恢复整个历史事件,甚至纠正单个历史学家关于该历史事件的一 些零星出现的主观性的错误描述。同样,利用多视角进行学习,也能帮助我们更好的进行分类,降低噪声对分类的影响,提高多标签分类的准确度。本发明提出的鉴别型分类器可以有效的结合利用标签空间中所包含的信息和多视角空间中的信息来提高多标签分类的准确度。因此,处理多标签分类问题的鉴别型分类器已经成为当前数据挖掘领域一个非常重要的研究方向。

发明内容
为解决上述问题,本发明的目的在于提供一种基于多标签二视角支持向量机的分类方法,用于采用鉴别型分类器结合利用标签空间中所包含的信息和多视角中的信息处理多标签分类问题,对训练集标签进行降噪的同时,得到一种更准确的分类方法。为实现上述目的,本发明的技术方案为一种基于多标签二视角支持向量机的分类方法,包括以下步骤首先,在多标签空间中定义一种新型的距离度量方法,用来衡量在特定的分类目标下多标签空间中点与点之间的距离,其中所述新型的距离度量方法为,将多标签训练集表示为J,所述多标签训练集的两个相互条件独立的视角空间分别表示为!Fa)和!Fw,所述多标签训练集中的每个点J都被标上了多种多样的标签,所述多标签训练集的标签字典组成了 s维的多标签空间7%所述多标签训练集中的每个点於e J在视角空间!T㈣和!Γ·中的特征向量分别表示为xf和xf,在标签字典中的标签向量表示为Cli = (d,,1; Cli,2,...,
Cli, s)/,其中due {0,1},1彡r彡S表示标签字典中的第r个标签Tr是否在1中出现,同时用yi,!·表示Ii的分类标签,Yi, r = 2 · dij-l,在多标签一对多(One Vs All)的分类模式中,当一个标签I;被作为分类目标时,标签字典中其余的标签就会组成一个S-I维的标签特征空间I ,用表示Ii在空间厶中的特征向量,其中I = ((Iia, Cli^1, Cli,
H )定义
权利要求
1. 一种基于多标签二视角支持向量机的分类方法,其特征在于,包括以下步骤 首先,在多标签空间中定义一种新型的距离度量方法,用来衡量在特定的分类目标下多标签空间中点与点之间的距离,其中所述新型的距离度量方法为,将多标签训练集表示为I,所述多标签训练集的两个相互条件独立的视角空间分别表示为!Ffe)和yw,所述多标签训练集中的每个点Aei"都被标上了多种多样的标签,所述多标签训练集的标签字典组成了 s维的多标签空间7",所述多标签训练集中的每个点J1- € J.在视角空间;和;中的特征向量分别表示为和5在标签字典中的标签向量表示为(Ii = (dia,dij2,. . . ,(Ii,s)',其中due {0,1},1彡r彡S表示标签字典中的第r个标签Tr是否在Ii中出现,同时用Yi j表示Ii的分类标签,yi,r = 2· du-1,在多标签一对多的分类模式中,当一个标签I;被作为分类目标时,标签字典中其余的标签就会组成一个S-I维的标签特征空间^,用ti,r表示Ii在空间息中的特征向量,其中ti,r = (dia,…,Clijrt, dijr+1,…,U ', 定义
全文摘要
本发明实施例公开了一种基于多标签二视角支持向量机的分类方法,包括以下步骤首先,在多标签空间中定义一种新型的距离度量方法,用来衡量在特定的分类目标下多标签空间中点与点之间的距离;然后,在两个相互条件独立的视角上提取训练集的两组特征,结合利用二视角所包含的两组特征的互补信息;最后,结合多标签空间和二视角空间中的信息,利用定义的一种新的多标签二视角支持向量机分类器进行多标签分类训练。本发明用于采用鉴别型分类器结合利用标签空间中所包含的信息和多视角中的信息处理多标签分类问题,对训练集标签进行降噪的同时,得到一种更准确的分类方法。
文档编号G06K9/62GK102945370SQ20121039661
公开日2013年2月27日 申请日期2012年10月18日 优先权日2012年10月18日
发明者祁仲昂, 杨名, 张仲非, 张正友 申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1