融合多粒度上下文信息的图像像素语义标注方法
【技术领域】
[0001] 本发明涉及图像智能识别领域,具体涉及到融合多粒度上下文信息对图像进行像 素语义标注的方法。
【背景技术】
[0002] 随着图像处理与分析技术的日益进步,计算机性能的逐步提高以及图像数量的不 断增长,如何使计算机能像人一样看见和理解世界成为计算机视觉的一个重要研究目标。 通过计算机编程让计算机自动解释图片的内容以实现图像理解是人工智能和计算机视觉 领域的挑战之一。
[0003] 图像理解的研究内容和技术路线目前主要分为三种方式,一类是对图像整体进行 语义标注,使用一定量的标签提供图像的高层语义分类,对图像标出"城市"、"落日"等关键 词作为图像的语义标签,但是不明确地识别图像中目标的具体位置。
[0004] 另一类是采用目标检测识别出图像中的离散目标,例如"汽车"、"牛",在目标周围 形成一个边界框来进行目标定位,但是这种方法没有给出目标的详细轮廓,也无法推断出 图像的整体内容。
[0005] 第三类是为整幅图像生成像素级的标注,假设每个像素属于单一的感兴趣类别, 而且该类别可以被无歧义地识别出来,将图像按照目标和背景的类别分别为每一像素设置 一个语义标签,这一类最接近图像理解这一长期目标,成为图像理解最热门的研究内容。
[0006] 在图像像素级标注过程中,单独处理每个像素会产生标注结果不一致的现象,像 素视觉特征之间的关系以及语义标注之间的关系是图像理解不可忽视的关键内容。如何将 图像中的上下文信息充分地融入图像标注模型以提高标注效果,是图像理解领域一直以来 重点研究的核心问题。
【发明内容】
[0007] 本发明的目的在于提供一种利用多粒度上下文信息的图像标注方法,解决图像标 注模型在满足局部标注连续性的基础上,同时具有辨识易混淆特征能力的问题。
[0008] 本发明是采用如下技术方案实现的:
[0009] -种融合多粒度上下文信息的图像像素语义标注方法,包括如下步骤:
[0010] (1)将图像划分为网格图像,针对任意网格位置i,构造一个颜色、纹理、形状特征 组成的特征向量Y i,得到特征向量集合Y = {Yi I i e N},N为位置的数量,¥;表示位置i的 特征向量;
[0011] (2)设Θ为特征权重参数,设与特征向量集合对应的标注集合为L = IL11 i e N}, 其中1^表示位置i的语义标签,采用逻辑回归分类器构造 softmax函数,利用所有的特征 向量和权值参数统计每个位置所属语义类别的代价,建立图像语义的单位置标注模型;
[0012] (3)确定细粒度上下文信息在图像标注中的作用,具体如下:
[0013] a)以任意网格位置i为中心,设置其细粒度上下文窗口 τ?Λ将中心位置i与其在 细粒度窗口中相邻的其他位置两两组合,用j表示i的相邻位置,利用所有位置对(i,j)的 合并特征构成细粒度上下文描述符f1];
[0014] b)用LjP L ,分别表示位置i和j的语义标注结果,在细粒度窗口中考虑相邻位 置的语义标注类别的连续性,为细粒度上下文描述符设置标注平滑参数α,当L 1S语义标 注中的第m类,而L,为语义标注中的第η类,即L L ,时,设其标注平滑参数a m为0,因 此,细粒度上下文窗口中的标注平滑参数仅与相同语义类别的位置对相关;
[0015] c)针对具有相同语义类别的位置对,利用平滑参数和细粒度上下文描述符对η / 中的位置对建立标注模型,得到基于细粒度的双位置标注模型;
[0016] (4)确定粗粒度上下文信息在图像标注中的作用,具体如下:
[0017] a)将每个以网格位置i为中心,面积为16X16grids~20X20grids(包括 16X16grids、17X17grids、18X18grids、19X19grids、20X20grids)的区域划分为 8 个 子区域,这8个子区域构成粗粒度上下文窗口 <,其中每个子区域被视作一个整体,作为i 的相邻粗粒度位置《> = 1,2, 一 J);
[0018] b)利用粗粒度上下文描述符,统计所有粗粒度位置中语义类别的共生关系;
[0019] c)设置语义共生参数β,结合粗粒度上下文描述符对;中的位置对的标注结果 进行建模,得到基于粗粒度的双位置标注模型;
[0020] (5)将单位置标注模型和基于粗细粒度两种双位置标注模型结合,建立融合多粒 度上下文信息的二阶条件随机场模型;
[0021] (6)将已知的标注集合L和特征向量集合Y作为训练集,采用piecewise训练方法 对二阶条件随机场模型进行训练,得到合适的模型参数4 = (?,?./〗),具体如下:
[0022] a)利用随机赋值对二阶条件随机场模型参数进行初始化,得到模型初始化参数 λιηι?13ι= ( θ , α , β);
[0023] b)根据λ initial= ( θ,α,β ),利用所有的特征向量集合Y和已知的标注集合L, 采用极大似然估计迭代计算P(L|Υ,λ)的对数损失函数,利用piecewise训练方式对二阶 条件随机场模型进行分段并行训练,直到F(IIli)收敛,此时,i =(式么力为所求的模型 参数;
[0024] (7)在确定融合多粒度上下文信息的二阶条件随机场模型参数的基础上,对未标 注图像进行网格划分,根据提取的特征向量,利用边缘最大后验概率求得与未标注图像对 应的最优标注集合,将最优标注集合结合相应的图像位置,在图像上输出最终的标注结果。
[0025] 本发明以自动标注图像中每个像素所属语义类别为目的,首先根据人工标注的图 像数据集为基础,构成训练集,包括标注集合、特征向量集合和粗细两种粒度上下文描述 符,分别构建单位置和粗细两种粒度的双位置标注模型,并将其融入二阶条件随机场模型, 建立融合多粒度上下文信息的条件随机场模型;接着采用piecewise训练方法对条件随机 模型进行训练,得到合适的模型参数;然后在所获得的模型基础上,对未标注图像进行像素 级语义标注。
[0026] 有益效果:本发明对图像标注结果与视觉特征之间的关系进行分析和统计,通过 细粒度上下文描述和标注平滑参数构成细粒度位置对标注模型,用以表征语义标签在局部 区域内的传递特点,同时,利用粗粒度上下文描述符和语义共生参数,构成粗粒度位置对标 注模型,用以描述图像中蕴含的语义类别共生关系,采用二阶条件随机场模型将单位置标 注模型和两种位置对标注模型结合,使得标注模型融合了丰富的图像信息,具有较高的图 像标注精确度,然后采用piecewise方法结合训练数据对模型参数进行分段并行训练,提 高了训练效率。
[0027] 本发明设计合理,用于自动标注图像各像素所属语义类别,有助于实现图像理解 的智能化,是一种有效的图像语义标注方法。
【附图说明】
[0028] 图1是图像网格划分示意图。
[0029] 图2是细粒度上下文窗口 ^和粗粒度上下文窗口 <示意图。
[0030] 图3是融合多粒度上下文信息的条件随机场模型的因子图。
[0031] 图4是条件随机场模型参数分段训练示意图。
【具体实施方式】
[0032] 下面结合附图对本发明的具体实施例进行详细说明。
[0033] 在图像理解过程中,上下文信息对于不同类别的目标识别有着重要的作用,传统 的二阶条件随机场模型仅描述了局部上下文信息,为了获取全局上下文信息,本发明将双 位置标注的邻域基团扩展为粗细两种粒度的上下文窗口,在细粒度上下文窗口中考虑相邻 位置的语义标注类别的连续性,利用标签平滑参数和细粒度上下文描述符计算语义标签的 同质传递概率,在粗粒度上下文窗口中利用稀疏表达方式实现对不同类型语义标签的共生 性的描述,通过语义共生参数和粗粒度上下文描述符体现语义类别的空间共生关系,增强 易混淆特征的辨识能力。
[0034] 下面对一种融合多粒度上下文信息的图像像素语义标注方法进行详细描述,包括 如下步骤:
[0035] (1)将图像划分为网格图像,如图1所示,每个网格的尺度为lpixel。针对任意网 格位置i,构造一个颜色、纹理、形状特征组成的d维特征向量Y i= (Yil, Yi2,…,Yid},得到特 征向量集合Y = {Yi I i e N},其中N为位置的数量,¥;表示位置i的特征向量;
[0036] (2)设置特征权重参数Θ = {01; θ2,…,Θμ},Μ为语义类别的数量,其中第1个 元素为S1= {Θ u,θ12,···,0l d}表示与第1类语义标签对应的特征权值,设与特征向量 集合对应的标注集合为L = IL1Ii e N},其中1^表示位置i的语义标签,采用逻辑回归分 类器构造 softmax函数,则为位置i分配语义标签m的代价表示特征向量Y1对应语义标签 Xi= m的概率,其计算公式为
[0037]
[0038] 利用特征向量集合Y和权值参数Θ统计每个位置所属语义类别的代价,建立图像 语义的单位置标注模§
[0039] (3)确定细粒度上下文信息在图像标注中的作用,具体如下:
[0040] a)以任意网格位置i为中心,设置其细粒度上下文窗口 g是以i为中心的8 邻域窗口,如图2所示。将中心位置i与其在细粒度窗口中相邻的其他位置两两组合, 用j表示i在^中的任意相邻位置,细粒度位置对(i,j)的上下文描述符t由位置i 的特征向量Y,.,位置.i的特征向量Yj,以及Yi和Y _j的相关系数g(Y i, Y_j)级联组成,其中
[0041] b)用LjP L汾别表示位置i和j的语义标签,在细粒度窗口中考虑相邻位置的 语义标注类别的连续性,为细粒度上下文描述符设置标注平滑参数α,当L 1为语义标注中 的第m类,而L,为语义标注中的第η类,即L1^L,时,设其标注平滑参数a m为0,因此,细 粒度上下文窗口中的标注平滑参数仅与相同语义类别的位置对相关,可以描述局部语义标 签的连续性;
[