本发明涉及人类视觉模拟技术领域,具体地讲是利用机器学习实时在线建模,构建一种完全数据驱动的视觉显著性自动检测方法。
背景技术:
视觉显著性是构成视觉注意的基础。视觉显著性检测是当今计算机视觉研究领域的热点问题。如何模拟人类脑-眼系统,实现仿真人类视觉的机器视觉,一直是研究者们的探索方向。自然图像是典型的非结构化数据,而机器学习适合对非结构化数据开展建模。近年来,由浅层和深层神经网络构造的机器学习算法、基于自底向上和自顶向下框架,已被应用于解决视觉显著性检测等问题。自底向上框架可采用数据驱动的方法来建模,然而算法通常受一些先验知识的限制约束,且由于训练样本常不准确,模型容易出偏差。自顶向下框架中,深度学习已成功地用于图像分割和显著性检测;到目前为止,深度学习为基础的算法在许多应用中都反映了最好性能,但其缺陷也明显:深度学习需要大量已标记的样本数据,深层网络往往需要手工设计,相比于浅层神经网络,其训练需要更高的硬件资源,目前无法实时在线进行。
显然,如果实践中没有合适的先验知识和足够的有效样本,现有方法可能会无法实施。此外,我们注意到目前大多数显著性检测方法中,信息往往是单向映射的,缺乏动态反馈过程,与人类视觉系统存在很大差别,这可能是当前机器视觉与人类视觉相去甚远的原因之一。
技术实现要素:
有鉴于此,本发明要解决的技术问题是:借助机器学习手段,构建一种模拟人眼视觉过程的算法框架。通过在线学习自动应对实际场景变化,借助背景抑制技术减少学习过程中的样本误差,利用感知正反馈实现显著性检测。
本发明的技术解决方案是,提供以下步骤的显著性检测方法,包括:
1)输入图像。只需将图像边框区域一定宽度范围作为非注视区(负样本候选区),而居中的余下区域为注视区(正样本候选区)。
2)模拟人眼微跳视,通过集成的pelm(调和极限学习机)学习得到粗显著度图。
①对正样本候选区域内的高梯度值像素(大于该区域平均梯度的像素)随机抽样n个像素;对负样本区域内所有像素,进行等量的随机采样。采样过程可重复3-5次。
②利用样本像素及其8邻域像素的rgb特征(共27维),构成正负样本集;重复采样可形成多个样本集。分别利用这些样本集,进行pelm(调和极限学习机)学习建模。
③通过pelm模型对所有像素进行二值分类。每个pelm的二值图可被视为一种视觉刺激,将多个pelm的二值刺激图进行叠加可以形成粗显著图。
3)利用rbd(鲁棒的背景检测算法),通过检测背景区域,对其加以抑制,来减少粗显著图中的背景噪声,以降低噪声样本影响。
4)通过正反馈迭代循环来强化目标,生成细化的新显著图;
①阈值化优化后的粗显著图,得到新的二值化注视区域(bw_i);
②如果前一个注视区域bw_i-1已经存在,则判断bw_i-1是否足够接近bw_i。若为真,则表明视觉感知连续相同(已达到感知饱和),迭代中断;否则,bw_i-1=bw_i,继续下一步;
③通过集成pelm神经网络学习,进行显著性检测(与步骤2)类同)。每个pelm的二值分类结果进行叠加形成新的显著性图;
④返回步骤①,构成正反馈循环。
5)迭代结束。得到新显著图和二值分割结果bw_i。
本发明是一种仿真人眼微跳视机制的显著性检测方法,具有以下特点:首先,原图像的居中区域和边框区域被直接地、粗略划分为注视区和非注视区;通过对注视区高梯度像素的随机抽样,来模拟人眼微跳视对注视区的重复扫描。多个样本集经学习构建出多pelm模型,多个分类模型的二值分类结果叠加构成了粗显著图,用来模拟人脑并行处理视觉数据和产生初步感知。为了进一步降低背景噪声影响,粗显著图通过rbd算法抑制背景像素。针对注视区重复学习的正反馈循环过程,是借助人眼对重复的类同刺激很快形成感知衰退的机制构造的一种感知生成方法。综上,本发明中显著目标的检测是由粗到细、逐步求精的过程。与现有的算法相比,该算法完全是数据驱动的,不需要任何先验知识和事先标记的样本。
附图说明
图1为本发明基于机器学习、背景抑制与感知正反馈的显著性检测方法系统框图。
具体实施方式
下面就具体实施例对本发明作进一步说明,但本发明并不仅仅限于这些实施例。
本发明涵盖任何在本发明的精髓和范围上做的替代、修改、等效方法以及方案。为了使公众对本发明有彻底的了解,在以下本发明优选实施例中详细说明了具体的细节,而对本领域技术人员来说没有这些细节的描述也可以完全理解本发明。此外,本发明之附图中为了示意的需要,并没有完全精确地按照实际比例绘制,在此予以说明。
人类视觉系统可以检测到显著物体,并将注意力集中在当前视觉任务相关的区域。神经心理学实验显示,这些能力都归功于视觉注意机制,而视觉注意是通过眼动来实现的。人类眼动可分为两种:跳视和微跳视。(1)跳视阶段,人眼寻找场景中特征突出的候选目标,并使得视网膜中央凹朝向目标,从而形成注视。(2)当注视目标时,人眼会不自主颤动,称为微跳视。微跳视会维持视觉感知、导致感知衰退、使得注视切换到跳视阶段,寻找新目标。人眼跳视和微跳视有助于人类视觉感知的快速、高效。
为了模拟上述人类视觉,本发明构建了一个系统框架,使用调和极限学习机(pelm)算法构建的分类模型仿真人脑神经网络,利用其二值分类结果模拟人脑神经发放。通过学习算法先提取粗略注视区,随后用rbd算法抑制注视区噪声,再进行视觉感知正反馈过程,最终得到更精确显著图。如图1所示。本发明的机器学习、背景抑制与感知正反馈的显著性检测方法,包括以下各步骤:
1)将输入图像的边框区域一定宽度范围作为非注视区(负样本候选区),而余下的矩形区域为注视区(正样本候选区)。
2)利用集成的pelm(调和极限学习机)模拟人脑神经网络,“采样-学习”得到粗显著度图。
①对正样本候选区域内的高梯度值像素(大于该区域平均梯度的像素)随机抽样n个像素;对负样本区域内所有像素,进行等量的随机抽样。采样过程可重复3-5次,模拟人眼微跳视对注视区的重复微扫描。
②利用样本像素和其8邻域像素的rgb特征,构成正负样本集。重复采样可形成多个样本集。分别利用这些样本集,进行pelm(调和极限学习机)学习建模。
③通过pelm模型对所有像素进行二值分类。每个pelm的二值图被视为一种视觉刺激,多个视觉刺激图进行叠加,归一化后可以形成粗显著图。
3)用rbd算法(鲁棒的背景检测算法),先检测图像背景;然后对粗显著图中相应背景区域像素进行抑制,以降低噪声样本干扰。
4)通过正反馈迭代循环来强化感兴趣目标;
①阈值化rbd后的粗显著性图,得到新的二值化注视区域(bw_i);
②如果旧注视区域bw_i-1已经存在,判断bw_i-1是否足够接近bw_i。若为真,则表明视觉感知连续相同(表明已达到感知饱和),迭代中断;否则,bw_i-1=bw_i,继续下一步;
③通过集成pelm神经网络学习,进行显著性检测。pelm的每个二值分类结果叠加形成新的显著性图;
④返回步骤①,构成正反馈循环。
5)迭代结束。得到叠加形成的新显著图。
rbd(出现于cvpr’2014)是一种显著目标检测算法。其通过对背景的检测和抑制,来突出图像中的显著目标。本发明先将图像中心区域作为初始正样本候选区,而将图像边框区域作为负样本候选区,与人类观察一幅图像的习惯类似。然而,由于初始注视区域定位过于随意粗糙,像素抽样后,不可避免地在正负样本中存在很多噪声样本,因此学习得到的pelm模型也不精确。虽然采用集成策略,综合多个pelm模型能够减少分类误差,但为了进一步降低噪声样本影响,学习得到的粗显著图仍有必要通过抑制背景像素,来得到进一步优化。因此,本发明借助rbd算法来降低背景噪声对显著图的影响。具体做法是:
1)将原图像中的像素利用快速聚类策略超像素化;
2)利用rbd算法检测原图像的超像素背景区域;
3)将粗显著图中对应于超像素背景区域的所有像素位置,赋予很小的权值,实现粗显著图中背景像素的抑制处理。
图1中的分类器建模采用调和极限学习机(polyharmonicextremelearningmachine,pelm)。这是一种单隐层前馈网络,在人脸识别等领域应用中效果良好。pelm的调和机制是一种有效的方式,适合用来拟合快速变化和缓慢变化两类数据。不同于传统基于梯度下降法的学习算法,pelm的内权随机赋值,无需迭代训练,小样本集时可实时在线训练,几乎不需要调整参数。
对于一个给定的训练样本集
其中ai和bi是输入节点对隐藏节点的权值,βi是隐节点输出节点的权值。在这个模型中的内部权值随机分配。g(ai,bi,x)是i的隐层节点输出。p(x)是一个低阶多项式,称为调和项,用于应对具有缓慢变化的数据类型。输出权值β可以通过以下公式计算:
其中h+是隐层输出矩阵的moorepenrose伪逆。t=[t1,t2,...tn]t。
为了克服pelm的随机性,可用集成方式提高其性能,见公式(3),称为epelm(ensembleofpoiyharmonicextremeleamingmachine,epelm)。参数p表示其中pelm个数。(图1中p=3)
本发明中所述的视觉感知正反馈过程,是通过重复的机器学习构建针对注视区域的感知正反馈;借此叠加二值分类结果生成新的视觉感知图。循环迭代中的视觉刺激不断叠加,使得图中显著目标区域的显著度能够迅速提升并达到饱和。对新显著图二值化即可得到与人类感知类似的图像分割结果。
以上仅就本发明较佳的实施例作了说明,但不能理解为是对权利要求的限制。本发明不仅局限于以上实施例,其具体结构允许有变化。总之,凡在本发明独立权利要求的保护范围内所作的各种变化均在本发明的保护范围内。