一种基于纹理特征的高分辨率影像地物识别与分割方法与流程

文档序号:21183865发布日期:2020-06-20 17:58阅读:286来源:国知局
一种基于纹理特征的高分辨率影像地物识别与分割方法与流程

本发明公开的技术涉及超高分辨率影像信息提取,具体地说,是一种根据地物的纹理特征,从无人机或者卫星获取的超高分辨率影像上识别与分割地物的方法。



背景技术:

轻小型无人机技术的快速发展,使得无人机遥感得到普遍采用。相对于卫星遥感,无人机低空飞行,不受云及其云阴影等噪声因素影响;相对于传统的航空遥感,数据获取成本极大降低。无人机机动灵活的数据获取方式及其能够获取超高分辨率影像的优点,使得无人机在农业损失调查、面积统计、样本采集等小区域应用中得到广泛应用,成为卫星和传统航空遥感的重要补充。

与中低分辨率影像相比,无人机影像的波段较少,往往采用非量测相机,缺乏精细的辐射校正。然而,无人机影像具有超高的空间分辨率,能够准确表现地表内部像素空间分布,即不同颜色像素的排列、组合与对比,形成独特纹理特征。因而,研究基于纹理特征的地物识别与分割对于无人机影像的利用具有重要意义,对此,国内外研究者发展了多种方法,主要分为统计法、模型法和深度学习法三种类型。

(1)基于统计的纹理特征表示方法:该方法通过定义局部区域内的统计指标,实现对纹理的表示。其中,灰度共生矩阵是一种具有代表性的方法,该方法首先通过计算图像中像素的灰度值与邻近区域的共生关系而构建共生矩阵,在此基础上定义了一系列的派生指标,如熵、矩等,从而描述区域的纹理特性。然而,灰度共生矩阵的各种指标仅对某些特殊纹理敏感,而对其他类型纹理可能缺乏区分性;同时,如何定义邻近区域及其灰度共生关系也影响了算法性能。

(2)基于模型的纹理特征表示方法:该方法首先对像素的分布按照一定方式进行建模,将纹理特征提取转化为模型参数估计问题,典型方法如随机场模型和视觉词包模型。

随机场模型以概率模型来描述图像中像素与相邻像素统计依赖关系,如马尔可夫随机场模型假设任意像素只与相邻像素相关,从而描述纹理(kenduiywobk,bargield,soergelu,.higherorderdynamicconditionalrandomfieldsensembleforcroptypeclassificationinradarimages[j].ieeetransactionsongeoscienceandremotesensing,2017,55(8):4638–4654.)。该类方法存在不同模型对不同的纹理特征的性能不同的问题,且模型参数复杂,需要使用多种优化算法,从而给方法带来不确定性。

视觉词包模型的纹理特征表达方法包含特征提取、特征聚类、特征编码三个主要步骤。其中,特征提取是从图像中提取一系列特征点,再计算各个特征点的高维特征,常用局部特征描述子如sift或surf等;特征聚类是对特征点进行非监督聚类,并以聚类中心作为特征的编码,从而构建视觉词典;特征编码是计算当前特征在各个视觉单词上的响应,得到局部区域的特征向量表示,由于该特征向量表示了特征点对各个视觉单词的响应,从而描述了纹理特征。

基于统计和模型的方法虽然在应用中取得了良好结果,但是也存在特征提取方法都是预置的问题,无法根据影像上的纹理内容进行调整,而且都是基于窗口的描述符,主要应用于影像分类,无法实现像素级的地物分割精度。

(3)基于深度学习的纹理表示方法:以卷积神经网络为基础的深度学习方法在计算视觉等领域取得了巨大成功,该方法首先使用深度卷积网络对图像进行特征提取,通过卷积层的叠加,从而捕获影像中的颜色、结构、局部相关性等信息,再通过级联的方式进行池化,然而由于卷积得到的特征保留了卷积窗口内像素之间的空间排列关系,对空间布局等特征比较有效。但由于纹理反映的是局部灰度或者颜色在一定区域内的排列和组合及其在空间上的重复性,而不是局部特征的排列,使得传统的卷积特征提取不适应于纹理表达。

因此,针对上述卷积方式对纹理特征表达不足的问题。通过vlad等方法对cnn提取的特征进行量化,实现局部特征分布的统计描述,从而表示纹理。但是,上述方法中特征提取与特征量化是分开进行的两个步骤,无法同步优化。对此,deepten引入编码层,通过样本学习视觉单词,并获得各个特征在视觉单词的分布,再通过累加代替级联,实现对纹理特征的高效描述,在基于纹理影像的分类上取得良好的效果(zhangh,xuej,danak,.deepten:textureencodingnetwork[c]//proceedings-30thieeeconferenceoncomputervisionandpatternrecognition,cvpr2017.2017:2896–2905.)。然而,该方法主要实现的是对纹理丰富目标的分类,无法获得逐像素的纹理表达,并根据各个地物不同的纹理特征,实现目标对象的分割。针对此问题,encnet提出了一种新的网络结构,在传统cnn提取特征的基础上,增加编码层以实现有序特征的无序化,从而实现对局部环境的理解,实现像素级的分割,在多个分割任务中取得了最优的分割结果(zhangh,danak,shijetal,.contextencodingforsemanticsegmentation[c]//proceedingsoftheieeecomputersocietyconferenceoncomputervisionandpatternrecognition.2018:7151–7160.)。

基于深度学习的算法通过端到端的方式,不断迭代学习影像数据中的纹理信息,调整模型参数,具有较强的适应能力。在图像分类、图像分割、目标跟踪等领域取得了较大的突破。因而,利用基于深度学习的纹理表示方法进行超高分辨率影像的地物识别与分割具有重要的应用潜力,然而当前的深度学习网络也存在如下问题:

为了掌握全图信息,进行了多次的图像下采样操作,面积较小的对象在多次下采样后在特征图中可能只占一个像素,这样的信息损失对分类任务的影响较小,但是对小目标的分割往往是不可忽略的;

由于超高分辨率影像上的同一个地物内部存在多种特征迥异的像素,在深度网络中下采样之后的局部卷积计算中,存在邻近目标的纹理信息干扰当前点的问题,从而给计算结果带来额外的噪声。

针对上述问题,本发明提出一种深度学习框架,利用地物在无人机等超高分辨率影像上的纹理特征实现其识别与分割。



技术实现要素:

为克服现有技术的上述缺点,本发明提供一种基于纹理特征的无人机影像地物识别与分割方法。该方法基于深度卷积网络模型,通过改进图像中像素对全局信息的感知模式,有效地提高了对影像中目标纹理信息的捕获能力;通过减少网络中下采样的倍数,提高对小目标检测的敏感程度;通过添加特征矩阵去噪结构,对下采样之后卷积计算的噪声进行去噪,得到平滑的分割结果。

获取研究区影像之后,根据实验设备能力和实验效率要求,将数据分割为分辨率h×w大小的影像块。为了减少影像分割造成边缘区域信息损失,影像分块时具备一定像素大小的重叠,重叠像素个数o根据实验精度和效率的要求确定,然后据此对影像进行分块。

本发明的一种基于纹理特征的高分辨率影像地物识别与分割方法,包括以下步骤:

步骤1,根据类别体系制作样本集;

根据研究目标,确定研究区的地物分类体系,假设研究区n个不同的类别cl:

cl={cl1,cl2,...,cln}(1)

根据上述类别体系制作样本集,样本包含所有类别的正样本。

样本以多边形方式表示该类型地物所在区域,并使用cli∈cl标识其类别。

样本数目需要满足训练要求,如果样本数目不足,则进行样本增强,以提高样本数量。

步骤2,构造深度学习网络模型;

网络模型分为四个部分:第一部分为骨干网络,用于提取图像的基础特征;第二部分为纹理特征提取结构;第三部分为特征矩阵去噪结构;第四部分为上采样结构,将去噪后的特征矩阵上采样到原图像大小并获得图像类别及其分割结果。

步骤2.1,构造骨干网络;

该部分网络提取图像的基础特征,基于resnet构造骨干网络。

resnet由五个卷积模块组成,第一个模块中使用了一次步长为2的卷积核,输出的特征图尺寸为原图像的1/2;第二个模块中使用了一次步长为2的池化层,输出的特征图尺寸为原图像的1/4;第三模块到第五个模块中都使用了一次步长为2的卷积核,最终输出的特征图尺寸为原图像的1/32。

可以看出:由于resnet输出特征图的尺寸为原图像的1/32,导致小地物的纹理信息损失严重。对此,本发明取消了resnet最后一个卷积模块,并在第三和第四卷积模块中使用膨胀卷积,可以在保证卷积核感受野的情况下,减少下采样倍数,极大化地保留小目标的纹理特征。

使用改进的resnet骨干网络获取图像的基础特征矩阵f:

f={f1,f2,...,fc}(2)

其中,c表示特征的维数,特征的大小记为h′×w′。

步骤2.2,构造纹理特征提取结构;

该部分网络提取纹理特征结构。

在步骤2.1获得的特征矩阵f中,任意位置有c维特征值,该特征值由不同卷积核卷积该位置局部区域的像素得到,可以视为该点的特征向量,由此将特征矩阵f映射为t个c维的特征向量:

x={x1,x2,...,xt}(3)

通过泛化词包模型思想,来表示纹理。

假设有一个含k个码字纹理特征词典d:

d={d1,d2,...,dk}(4)

其中,码字dk与特征向量xi具有相同维度。该特征词典用于从xi中学习出典型纹理中心特征。

传统方法中的字典是构建之后就保持不变,不能从数据中学习并调整。与传统方法不同的是,该字典d嵌入到深度学习模型之中,通过监督学习方式对不同纹理特征进行学习并调整,从而优化字典对纹理特征的表达能力。

字典d的初始化使用均匀分布随机初始化,分布区间为

接下来构建码字dk与特征向量xi之间的关系模型eik,使得字典d可以在反向传播时通过梯度传播,迭代调整对纹理特征的表达能力。

由于各个码字之间可能存在歧义,不能使用硬分配方式来构建特征和码字之间的关系模型。软分配中通过对每个码字dk设定权重系数以解决此问题。由于涉及多类别分割,特征数据x中含有多个类别的特征信息,因此根据高斯混合模型的思路为每个码字dk∈d设定一个平滑因子:

s={s1,s2,...,sk}(5)

si表示特征向量xi的类别归属为码字dk的概率,s的初始化使用均匀分布随机初始化,分布区间为受益于反向传播不断迭代,以获得最佳参数。

在此基础上,计算出不同特征与不同码字之间的权重系数αik:

其中,rik为输入的特征表达xi与字典码字dk之间的残差距离:

rik=xi-dk(7)

纹理特征捕获结构通过权重软分配,获得关系模型的结果eik:

eik=aik*rik(8)

此时eik视为一个码字dk对一个特征xi的描述,通过聚合该码字dk对输入特征x的全部描述eik获得该个码字对整个特征矩阵的描述:

针对纹理特征中纹理基元在图像上无序重复的存在,通过聚合的方式忽略特征的空间排列信息,提升对纹理特征分布信息的捕获能力。

依次计算各个码字对输入特征x的描述,进而获得纹理特征字典d对输入特征x的全部无序描述e:

e={e1,e2,...,ek}(10)

其中,e的维度为k×c。

此时将获取到纹理字典的描述信息e添加到基础特征矩阵中。具体方法为:根据se-net中对通道信息的研究,通过学习的方式自动获取每个特征通道的调整系数z,通过对e进行第一个维度的全局池化,获取到不同通道特征图fi对纹理特征字典的响应值,将此值作为特征矩阵重标定的调整系数z:

z=(z1,z2,...,zc)(11)

计算根据纹理信息重标定的特征矩阵f1

f1=f*z(12)

其中,*表示矩阵通道相乘。

该步骤获得根据提取到的纹理特征信息重新标定的特征矩阵f1,该特征不仅包含卷积核内的信息,也包含了纹理信息,从而描述纹理。

步骤2.3,构造特征矩阵去噪结构;

该部分网络为特征矩阵去噪结构。

在深度卷积网络模型之中,多次下采样之后特征值表示了在原影像中的范围较大,可能由此带来区域内不同纹理特征信息干扰,形成噪声。此时对获得特征矩阵f1进行去噪,以获得地物分割更精确的结果。

在蕴含较多重复纹理基元的图像去噪过程中,非局部均值去噪方法效果较好。相对与平滑滤波器去噪方法,非局部均值去噪通过计算两点间局部特征相似性来重建像素点,可以更好的保留图像的纹理细节,避免了通过局部平滑带来的纹理特征模糊。

由此思想,设计深度学习中特征矩阵重建式去噪结构。

步骤2.2获得含有纹理信息的特征矩阵f1和纹理特征字典d。利用监督学习的方式,字典d有效的学习到相应类别的纹理特征。使用字典d来重建特征矩阵,突出算法所需的纹理特征信息。

首先,计算特征矩阵f1中各个特征向量和各个码字之间的相似性。向量之间的相似性可由余弦相似度计算获得,在深度学习中,在保证计算效率的情况下使用点积相似度来近似余弦相似度。为了保证相似性之间的度量的准确性,要在计算点积相似度之前对向量进行归一化。根据矩阵计算规则,将f1进行矩阵转置得到然后与d进行矩阵乘法计算,在通过softmax函数得出相似度矩阵w:

上式中的softmax函数将相似度映射到(0,1)区间,并使得k个码字对一个特征xi相似度求和为1。之后以相似度作为权重,进行矩阵相乘得到重建特征矩阵f2

f2=dwt(14)

步骤2.4,构造上采样结构;

第四部分为上采样结构。

首先使用权重参数将步骤2.2和步骤2.3计算出的特征矩阵f1和f2进行连接得到最终的特征矩阵g:

g=wf1*f1+wf2*f2(15)

其中,wf1和wf2是可学习参数,利用深度学习网络模型的反向传播调整参数的特性,让网络自动的调整特征信息的组合,以获得参数的准确估计。

然后,根据类别个数n对g进行通道压缩,显式地表示c个通道针对n个类别进行预测的结构;然后,双线性插值上采样到原图像大小尺寸。

该步骤得到与原始影像大小相同的特征矩阵,不仅包含卷积核的纹理特征,也进行特征去噪,更好的突出纹理特征信息,去除了下采样后卷积计算可能带来的噪声干扰。

步骤3,深度学习网络模型训练;

使用步骤1中制作的样本集和标签集作为步骤2构建好的网络模型的输入,设定网络模型超参,通过梯度下降算法,训练模型并获得稳定结果。

步骤4,图像预测;

对数据集进行预测,获得像素点j预测出的类别i的概率pij,并将概率最大的值作为该像素的类型tj:

由于重叠区域内的像素存在多个不同的分割结果,可以按照最大投票方法进行合成。

通过对全部影像进行处理,获得每个像素的类型,从而实现地物类别的识别与分割,并将联通的地物构成最小的纹理基元。

步骤5,分割结果后处理

统计相同类型像素构成的联通区域,对预测结果中连通区尺寸小于阈值econ的区域进行一定的膨胀,如果膨胀时接触到其它区域,则认为网络预测该连通区的类别出错,将该连通区类别改为最先接触到的其他连通区的类别。如果膨胀时未接触到其他区域,则将该连通区视为孤立的噪声点进行去除。

本发明采用上述方案的优点是:

(1)本发明使用深度学习网络框架,通过重新设定网络框架下采样倍数,并显式设定纹理信息提取结构,不仅减少了小目标的信息损失,也提高了纹理信息的表达能力。

(2)深度网络模型中添加特征矩阵去噪模块,减少方法在计算中带来的额外噪声,实现逐像素的纹理表达,进一步提高网络模型精度。

附图说明

图1为本发明的流程图。

图2为本发明的实施案例中无人机影像获取时拍摄点分布图。

图3为本发明的实施案例中类别体系图。

图4为深度学习网络第一部分:骨干网络resnet示意图。

图5为深度学习网络第二部分:纹理特征捕获结构示意图。

图6为深度学习网络第三部分:特征矩阵去噪结构示意图。

图7为本发明的影像案例及其样本标签。图7(a)为本发明的实施案例中样本集影像示例图;图7(b)为本发明的实施案例中样本集影像标签示例图;图7(c)为本文方法的分割结果;图7(d)为本文方法的后处理结果。

具体实施方式

为了进一步明确本发明内容,以下结合图1的发明流程和本发明的实施例进一步介绍关于本发明的详细说明。应当理解并非所有实际实施方式的所有特征都和本实施例一样,在实际工程项目中根据具体条件和目标可能会改变本发明的实施细节。此外,虽然本例所说明的是关于纹理特征的无人机遥感影像地物分割,但应当理解本方法也可以应用于其他影像地物理解与分割。

本实施案例的研究区为浙江省衢州市龙游县(如图2所示),获取影像的无人机型号为djiphantom4pro,传感器为1英寸cmos,获取影像的空间分辨率约6.25cm,影像大小为5472×3682。此次飞行共获取影像86景,覆盖研究区面积约1.38km2

根据研究目标确定分类的类别,由于同种地物在不同生长周期,其纹理特征存在较大差异,本实施案例将其作为不同类型进行试验,确定研究类别体系划分为6种大类,24种小类:各个类别的典型纹理如图7所示,不同类别之间纹理特征差异较大,能够准确地区分。

在设备计算能力有限的情况下需要对图像进行裁剪,将图像裁剪为480×480像素大小的影像块。为了减少分割后的图像预测结果合并时产生的缝隙现象,保持横向和纵向具有50个像素的重叠。

根据上述方法,获得8256个分辨率为480×480(像素)的影像块,作为实验的数据集。

一种基于纹理特征的高分辨率影像地物识别与分割方法,包括如下步骤:

步骤1,根据类别体系制作样本集;

根据确定的研究区类别体系,如图3所示,使用labelme软件制作样本集的标签图像。

为了保证样本集对类别纹理特征信息的覆盖程度,首先人工选取包含所有研究的类别的正样本和其他类别的负样本作为样本集的基础,再对剩下的数据集进行随机抽取,得到共2500张样本集。

步骤2,构造深度学习网络模型;

网络模型分为四个部分。第一部分为骨干网络,用于提取图像的基础特征;第二部分为纹理特征提取结构,用于提取特征矩阵中存在的纹理特征;第三部分为特征矩阵去噪结构,用于对特征矩阵进行噪声去除;第四部分为上采样结构,将去噪后组合的特征矩阵上采样到原图像大小并获得图像预测分割结果。

步骤2.1,构造骨干网络;

该结构如图4所示。基于resnet构建骨干网络,根据计算设备性能和效率需求,本实施案例额选取resnet101作为骨干网络用于图像的基础特征提取。

该结构中去除了resnet最后一个卷积模块,并在第三和第四卷积模块中使用膨胀卷积,在保证卷积核感受野的情况下,减少了下采样倍数。设定第三卷积模块的膨胀卷积参数为2,步长为2,第四卷积模块膨胀卷积参数为4,步长为1。最后获得的基础特征矩阵f,为原图像下采样8倍大小,通道数c为1024,形状为1024×60×60。

步骤2.2,构造纹理特征捕获结构;

第二部分为纹理特征提取结构,如图5所示。将1步骤2.1中提取的基础特征矩阵f,如附图5中511部分,映射为360个长度为1024的特征向量。

设定的纹理特征字典d,如附图5中512部分,字典包含32个码字di和32个码字的平滑因子si。

使用公式9计算出ek,纹理特征提取结构通过权重软分配聚合字典中每个码字对c维的输入特征的描述e,如附图4中513部分。

利用纹理特征提取结构获得的纹理信息在第一个维度进行全局池化,获得的缩放因子z,如附图4中514部分。

使用公式12显示的根据纹理特征对基础特征矩阵进行调整获得新的特征矩阵f1,如附图4中515部分。

步骤2.3,构造特征矩阵去噪结构;

第三部分为特征矩阵去噪结构,如附图5所示。

对步骤2.2生成的f1如附图6中611部分,和步骤2.2生成的纹理字典d,如附图6中612部分,使用公式13计算出各个码字和各个特征向量之间的相似度。然后使用公式14得到去噪之后的特征矩阵f2,如附图6中613部分。

步骤2.4,构造上采样结构;

第四部分为上采样结构,首先我们使用权重参数将步骤2.2和步骤2.3计算出的特征矩阵进行连接,使用公式15获得最终特征矩阵g。

利用深度学习网络模型的反向传播调整参数的特性,让网络自动的调整特征信息的组合,以获得更高精度的结果。

然后把g压缩到24(类别总数)通道。显示的设定每个通道针对每个类别进行预测的结构。之后再进行双线性插值上采样到原图像尺寸480×480。

步骤3,深度学习网络模型训练;

使用步骤1制作的样本集和标签集作为步骤2构建好的网络模型的输入,设定超参:学习率为0.001、总批次为100、每个批次大小为16、动量为0.9、权重衰减为0.0001。

通过设定好的模型框架预测出结果,之后根据损失函数计算实际标签和预测结果的损失值,再之后使用反向梯度传播算法,并根据学习率调整模型参数。如此不断迭代训练深度网络模型,直到损失函数得到的结果趋于稳定,此时网络已经收敛,计算模型在样本集中的精度。根据不同精度需求使用通用方法调整超参,获得当前最优模型。

步骤4,图像预测;

对制作出的全部数据集进行预测,并保留每个像素点j预测出的类别i的概率pij。

根据重叠切割,最多可能重复预测一个点四次,将出现次数最多的结果作为最终的分割结果。

图7(a)为本实施案例的一个输入影像;图7(b)为本发明的实施案例中一个输入影像的标签;图7(c)为本实施案例的分割结果。

步骤5,结果后处理;

根据类别体系计算得出最小的纹理基元尺寸为5×5(像素)。

对连通区小于该尺寸的区域进行1.5倍的膨胀,膨胀过程中如果未遇到其他连通区,则将该点确定为孤立的噪声点进行抹除,如附图7(c)中710和图7(d)711所示;如果接触到其他连通区则将该点改为最先接触到的连通区的类别,如附图7(c)中712和图7(d)713所示。

本说明书实施例所述内容仅仅是对发明构思的实现形式列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能想到的等同技术手段。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1