基于最大期望参数估计的多分类器集成方法

文档序号:6337128阅读:653来源:国知局
专利名称:基于最大期望参数估计的多分类器集成方法
基于最大期望参数估计的多分类器集成方法技术领域
本发明所述的基于最大期望参数估计的多分类器集成方法,属于多媒体信息中 基于相关反馈的图像检索领域,主要涉及到一种对多个单一分类器用最大期望参数估计 方法进行集成的基于相关反馈的图像检索方法。
背景技术
目前随着多媒体技术的快速发展及Internet技术的日益普及,数字图像的来源 越来越广泛,每天各个领域都会产生数以千兆字节的图像信息。如何从浩瀚的图像信息 中快速准确的查找出用户所需要的信息成为了迫切需要解决的问题,基于内容的图像检 索技术应运而生,成为信息检索领域的研究热点,得到了国际学术界广泛研究。所谓基 于内容的图像检索,就是根据图像的颜色、纹理、形状等特征,按照某种相似度计算方 法,从图像库中找出与用户事先想要查询的图像最相似的若干幅图像。由于图像底层视 觉特征与图像高级语义之间存在代沟,因此人们提出了基于反馈的图像检索方法来解决 这一问题。早期的相关反馈技术主要采用启发式方法,并可大致分为两类查询点移动 和权值调整。前者通过修改查询向量的方式移动查询点,使得移动后的查询点靠近特征 空间中正样本集中的区域;后者通过调整特征分量权重的方式修改距离度量公制,以加 强那些能使正样本聚拢或能把正、负样本的特征分量。启发式方法基于这样一种假设 所有正样本大致被包含在特征空间中一个超椭球区域内,但是,该假设过于理想,实际 应用中很难满足。目前,学者们更倾向于将相关反馈过程看作机器学习问题,即系统根 据用户反馈信息训练一个学习器,然后利用学习器来预测数据库中图像与查询图像之间 的相关程度。其中,基于支持向量机6乂^1)的相关反馈方法由于支持向量机具有很好的 模式分类性能而被广泛应用。然而,相关反馈是一种典型的小样本学习问题,即训练样 本数远远小于特征空间维数,这种情况严重限制了 SVM的学习性能。因此本发明提出了 一种基于最大期望参数估计的集成方法将多个学习器组合起来,皆在创建一个改进的复 合学习模型。
所谓最大期望参数估计方法(EM),是一种在不完全数据情况下计算极大似然估 计或者后验分布的迭代算法,是一种针对概率模型设计的迭代优化技术。它分为计算期 望(E)和极大化(M)两步,这种方法主要应用于图像分割领域。由于在本发明中,我们 需要训练若干个分类器,然而各个分类器的样本的分类性能不同,因此我们将最大期望 参数估计方法引入到基于反馈的图像检索领域,在构造分类器时,根据每个分类器性能 的不同,用改方法为其加一个权值,最后再将各个单一分类器集成。这样能有效的克服 单个分类器稳定性弱,分类误差大等问题,针对上述现有技术中所存在的问题,研究设 计一种新型的基于最大期望参数估计的多分类器集成方法,从而克服现有技术中所存在 的问题是十分必要的。发明内容
鉴于上述现有技术中所存在的问题,本发明的目的是研究设计一种新型的基于 最大期望参数估计的多分类器集成方法,从而解决单个分类器稳定性弱,分类误差大等 问题。本发明所述的基于最大期望参数估计的多分类器集成方法包括提取单元、检索单 元、标记单元和学习单元;
步骤一提取单元
该单元是提取图像库中每幅图像的底层视觉特征,然后将提取的特征放入特征 库中,主要提取的底层视觉特征有颜色特征、纹理特征和形状特征;
步骤二 检索单元
该步骤属于一个人机交互的过程,用户随机从图像库中选取一幅示例图像,然 后系统将特征库中每幅图像特征与该图像进行相似度比较,最后返回给用户与该示例图 像最相似的N幅图像,其中N = 10 ;
步骤三标记单元
该步骤要对进行学习训练的样本图像进行标记;
步骤四学习单元
该单元主要包括三个步骤,
一构造分类器 asymmetric bagging SVM ;
二构造分类器 random subspace SVM ;
三为两类分类器加权来集成为一个分类器。
本发明所述的提取单元包括如下三个步骤
步骤一、颜色的提取,用颜色直方图作为颜色特征;首先将颜色空间由RGB转化 到HSV空间,然后将HSV颜色空间量化成64份,最后统计落在每一份中像素点的个数;
步骤二、纹理的提取,用离散小波变换后的均值和方差作为纹理特征;首先对 图像进行3级小波变换,然后计算每级变换后3个高频子带的均值和方差;
步骤三、形状的提取,用边缘方向直方图作为形状特征;首先用Sobel算子提取 图像边缘,然后统计图像边缘点在水平、45°、垂直、135°方向像素点个数。
本发明所述的检索单元是特征向量之间相似度比较,具体步骤为
步骤一、用户任选一幅示例图像;
步骤二、计算该示例图像的底层视觉特征X1G= 1,2,3);
步骤三、用欧式距离方法计算X1与图像库中任意图像^的相似度S1,
S1, j = exp(-|x-χ/);
步骤四、将S1, j排序并返回前10幅图像。
本发明所述的标记单元的步骤如下
步骤一、将反馈池中图像根据它们与用户所选示例图像是否同一个语义类将其 标记为正例样本和反例样本;
步骤二、从未标记图像中再选取若干幅最能提供信息的图像作为反例样本来增 加训练样本数量,进而提高系统性能。总的训练样本图像的数量为300幅。
本发明所述的学习单元的策略在于构造若干个分类器,并对各个分类器加权, 其具体步骤如下
步骤一、构造 asymmetric lagging SVM (AR-SVM)分类器
1)设置AR-SVM分类器个数Ta = 5 ;
2)构造训练样本集。训练样本包括正例训练样本S+,反例训练样本S—;
3)用bootstrap方法从反例样本S—随机取样,使得正例训练样本的数量和反例训 练样本的数量相等,即ItHh
4)将训练样本中的正例样本标记为+1,反例样本标记为-1 ;
5)构造 asymmetric bagging SVM 分类器 Q,C1 = I(S;,S+);
步骤二、构造random subspace SVM (RS-SVM)分类器
1)设置RS-SVM分类器个数Tr = 5 ;
2)构造底层特征集F ;
3)用bootstrap方法从底层特征集F中随机取样,构造新的底层特征F卩使得Fj 的维数大大少于F;
4)构造训练样本集。训练样本包括正例训练样本巧,反例训练样本& ;
5)将训练样本中的正例样本标记为+1,反例样本标记为-1 ;
6)构造 random subspace SVM 分类器 Cj,Cj = I(S] ,S)·,
步骤三、计算分类器权值(EM方法)
1)E阶段,计算各个分类器权值;
W1 (X) = P(xGCl\e,p,q) =-P(x p,q)at-e C1 I p, q)at + P(x ^ C1 | p, q)Pt
其中
OC1 =尸O1 (X) = /”.., (X) = / I X e C,,凡 g) = Π ρ、‘\k\ek(x)=i
β, = P(exC1 ,p,q) = \ Π qk,
α ,和β ,是独立于各个分类器的参数;
Pkj I = P (ek (X) = i|x e C1) Qk,=尸( {x)^i\xi C1)
敏感度ρ和特异性q是表示分类器性能的两个参数;Y#{x\ek(x) = i}[。_啊—《)=在驰⑷=力
P表示样本χ属于分类器C1的先验概率;
2) M阶段,更新性能参数ρ和q;
piM) =q(tM) =———-ο’! Σ,^ω Σ, αω)
本发明所述的基于最大期望参数估计的多分类器集成方法…基于支持向量机 (SVM)的相关反馈方法越来越广泛的应用到图像检索领域,但由于被标记的正例样本数 量很少,造成该种方法的性能很差。为了解决这个问题,我们发明设计了一种用最大期 望参数估计参数方法来集成若干个单一的分类器的相关反馈图像检索方法,仿真实验表 明,本方法可以进一步改进相关反馈性能,提高检索效果。…本发明所述的基于最大期望参数估计的多分类器集成方法…本发明的基本工作原理为首先提取图像库中每幅图 像的颜色、纹理、形状等底层视觉特征,用户随机从图像库中选取一幅图像,采用欧氏 距离计算方法将该图像特征与图像库中所用图像的底层特征进行相似度比对,将相似度 按大小排序并返回用户前10幅图像。用户根据返回图像与事先选取的图像是否属于同一 个语义类将其标记为正例图像和反例图像,然后将标记好的图像放到支持向量机中进行 训练学习,最后将学习后的结果反馈给用户,如果用户对反馈结果不满意,可以继续按 照上述过程重复进行,直到用户满意为止。
本发明在传统基于支持向量机反馈方法的基础上,构造若干个分类器,然后用 最大期望参数估计方法将这些分类器进行集成。该方法不仅解决了传统支持向量机由于 训练样本少不稳定的问题、正例样本远远少于反例样本造成分类器最优超平面偏移的问 题,而且解决了由于训练样本数量远远少于特征维数而造成的溢出问题。本发明大大改 进了支持向量机存在的缺陷,显著提高了分类器的性能,对基于相关反馈的图像检索研 究有很好的参考和实用价值。


本发明共有七张附图,其中,
图1 基于最大期望参数估计的多分类器集成方法的相关反馈图像检索流程
图2:基于最大期望参数估计的多分类器集成方法的相关反馈图像检索人机交互界面
图3反馈前检索结果
图4一次反欠贵后检索结果
图5两次反欠贵后检索结果
图6三次反欠贵后检索结果
图7四次反欠贵后检索结果具体实施方式
本发明的具体实施例如附图所示,附图1所示基于最大期望参数估计的多分类 器集成方法…本发明的基于最大期望参数估计的多分类器集成方法的具体实现流程如附 图所示,包括提取单元、检索单元、标记单元和学习单元,其具体步骤如下
1提取单元
在该环节中,我们主要是提取图像库中每幅图像的底层视觉特征,然后将提取 的特征放入特征库中,本发明主要用的底层特征有颜色特征、纹理特征和形状特征。
1)颜色。本发明用颜色直方图作为颜色特征;首先将颜色空间由RGB转化到 HSV空间,然后将HSV颜色空间量化成64份,最后统计落在每一份中像素点的个数。
2)纹理。本发明用离散小波变换后的均值和方差作为纹理特征;首先对图像进 行3级小波变换,然后计算每级变换后3个高频子带的均值和方差。
3)形状。本发明用边缘方向直方图作为形状特征;首先用Sobel算子提取图像 边缘,然后统计图像边缘点在水平、45°、垂直、135°方向像素点个数。
2检索单元
该环节属于一个人机交互的过程,用户随机从图像库中选取一幅示例图像,然 后系统返回给用户与该示例图像最相似的N幅图像,其中N= 10。
1)用户任选一幅示例图像。
2)计算该示例图像的底层视觉特征X1 (i = 1,2,3)。
3)用欧式距离方法计算X1与图像库中任意图像、的相似度S1,
S1, j = exp (_|x「x/)。
4)将S1, j排序并返回前10幅图像。
3标记单元
在该环节中,我们要对进行学习训练的样本图像进行标记。
1)将反馈池中图像根据它们与用户所选示例图像是否同一个语义类将其标记为 正例样本和反例样本。
2)从未标记图像中再选取若干幅最能提供信息的图像作为反例样本来增加训练 样本数量,进而提高系统性能。总的训练样本图像的数量为300幅。
4学习单元
该环节主要包括三个步骤,一是为解决传统支持向量机由于训练样本少不稳定 的问题和正例样本远远少于反例样本造成分类器最优超平面偏移的问题,构造了分类器 asymmetric bagging SVM。二是为解决由于训练样本数量远远少于特征维数而造成的溢出 问,构造了分类器Hffldom subspaceSVM。三是根据所构造的分类器的性能不同,为每个 分类器加权来集成为一个分类器。
a.构造 asymmetric bagging (AB) SVM 分类器
1)设置AR-SVM分类器个数Ta = 5。
2)构造训练样本集。训练样本包括正例训练样本S+,反例训练样本S—。
3)用bootstrap方法从反例样本S—随机取样,使得正例训练样本的数量和反例训 练样本的数量相等,即I I=I 1 °
4)将训练样本中的正例样本标记为+1,反例样本标记为-1。
5)构造 asymmetric bagging SVM 分类器 Q,C1 = I(S;,S+)。
b.构造 random subspace (RS) SVM 分类器
1)设置RS-SVM分类器个数Tr = 5。
2)构造底层特征集F。
3)用bootstrap方法从底层特征集F中随机取样,构造新的底层特征F卩使得Fj 的维数大大少于F。
4)构造训练样本集。训练样本包括正例训练样本巧,反例训练样本&。
5)将训练样本中的正例样本标记为+1,反例样本标记为-1。
6)构造 random subspace SVM 分类器 Cj,Cj = I(S] ,S])o
c.计算分类器权值(EM方法)
每个单独分类器的性能是有限的,为了改进系统整体性能,本发明用最大期望 参数估计方法(EM)为每个分类器加权来集成各个独立的若分类器。EM方法是一种在不 完全数据情况下计算极大似然估计或者后验分布的迭代算法,是一种针对概率模型设计 的迭代优化技术。它分为计算期望(E)和极大化(M)两步。
1)E阶段,计算各个分类器权值。
权利要求
1.一种基于最大期望参数估计的多分类器集成方法,其特征在于包括提取单元、检 索单元、标记单元和学习单元;步骤一提取单元该单元是提取图像库中每幅图像的底层视觉特征,然后将提取的特征放入特征库 中,主要提取的底层视觉特征有颜色特征、纹理特征和形状特征; 步骤二检索单元该步骤属于一个人机交互的过程,用户随机从图像库中选取一幅示例图像,然后系 统将特征库中每幅图像特征与该图像进行相似度比较,最后返回给用户与该示例图像最 相似的N幅图像,其中N= 10; 步骤三标记单元该步骤要对进行学习训练的样本图像进行标记;步骤四学习单元该单元主要包括三个步骤,一构造分类器 asymmetric bagging SVM ;二构造分类器 random subspace SVM ;三为两类分类器加权来集成为一个分类器。
2.根据权利要求1所述的基于最大期望参数估计的多分类器集成方法,其特征在于所 述的提取单元包括如下三个步骤步骤一、颜色的提取,用颜色直方图作为颜色特征;首先将颜色空间由RGB转化到 HSV空间,然后将HSV颜色空间量化成64份,最后统计落在每一份中像素点的个数;步骤二、纹理的提取,用离散小波变换后的均值和方差作为纹理特征;首先对图像 进行3级小波变换,然后计算每级变换后3个高频子带的均值和方差;步骤三、形状的提取,用边缘方向直方图作为形状特征;首先用Sobel算子提取图像 边缘,然后统计图像边缘点在水平、45°、垂直、135°方向像素点个数。
3.根据权利要求1所述的基于最大期望参数估计的多分类器集成方法,其特征在于所 述的检索单元是特征向量之间相似度比较,具体步骤为步骤一、用户任选一幅示例图像;步骤二、计算该示例图像的底层视觉特征X1G= 1,2,3); 步骤三、用欧式距离方法计算X1与图像库中任意图像^的相似度S1, S1, j = exp(-|x-χ/); 步骤四、将S1, J排序并返回前10幅图像。
4.根据权利要求1所述的基于最大期望参数估计的多分类器集成方法,其特征在于所 述的标记单元的步骤如下步骤一、将反馈池中图像根据它们与用户所选示例图像是否同一个语义类将其标记 为正例样本和反例样本;步骤二、从未标记图像中再选取若干幅最能提供信息的图像作为反例样本来增加训 练样本数量,进而提高系统性能。总的训练样本图像的数量为300幅。
5.根据权利要求1所述的基于最大期望参数估计的多分类器集成方法,其特征在于所 述的学习单元的策略在于构造若干个分类器,并对各个分类器加权,其具体步骤如下步骤一、构造 asymmetric bagging SVM (AB-SVM)分类器1)设置AB-SVM分类器个数Ta= 5 ;2)构造训练样本集。训练样本包括正例训练样本S+,反例训练样本S—;3)用bootstrap方法从反例样本S—随机取样,使得正例训练样本的数量和反例训练样 本的数量相等,即ItHh4)将训练样本中的正例样本标记为+1,反例样本标记为-1;5)构造asymmetric bagging SVM 分类器 Ci, C1 = I{S“S+); 步骤二、构造 random subspace SVM (RS-SVM)分类器1)设置RS-SVM分类器个数乃=5;2)构造底层特征集F;3)用bootstrap方法从底层特征集F中随机取样,构造新的底层特征F”使得]^的维 数大大少于F;4)构造训练样本集。训练样本包括正例训练样本巧,反例训练样本&;5)将训练样本中的正例样本标记为+1,反例样本标记为-1;6)构造random subspace SVM 分类器 Cj,Cj = I(S%S); 步骤三、计算分类器权值(EM方法)1)E阶段,计算各个分类器权值;
全文摘要
本发明所述的基于最大期望参数估计的多分类器集成方法,主要涉及到一种对多个单一分类器用最大期望参数估计方法进行集成的基于相关反馈的图像检索新方法,包括提取单元、检索单元、标记单元和学习单元;具体流程为首先提取图像库中每幅图像的颜色、纹理、形状等底层视觉特征,用户随机从图像库中选取一幅图像,采用欧氏距离计算方法将该图像特征与图像库中所有图像的底层特征进行相似度比对,将相似度按大小排序并返回给用户前10幅图像。用户根据返回图像与事先选取的图像是否属于同一个语义类将其标记为正例图像和反例图像,然后将标记好的图像放到支持向量机中进行训练学习,最后将学习后的结果反馈给用户。
文档编号G06K9/62GK102024030SQ20101056628
公开日2011年4月20日 申请日期2010年11月30日 优先权日2010年11月30日
发明者王向阳, 陈景伟 申请人:辽宁师范大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1