一种基于增强学习的多源图像融合方法与流程

文档序号:15258768发布日期:2018-08-24 21:08阅读:184来源:国知局

本发明涉及图像处理领域,具体涉及一种基于增强学习的多源图像融合方法。



背景技术:

近年来,军用无人机以其独特优势在作战侦察、精确打击领域产生了广泛的应用。随着军事高技术的发展,无人机战场的范围扩大到陆、海、空和电磁等多维空间,战场环境日益复杂,军事目标机动性和伪装能力都在不断提高,仅靠单一图像传感器获取的图像数据已无法满足无人机侦察打击的任务需求,综合多个图像传感器的信息来获取对同一目标或场景全面而详尽表述的多源图像融合技术越来越受到关注。

多源图像融合技术是无人机情报处理技术的重要内容,其核心思想是将多传感器在不同条件下获得的多源图像,整合为一幅具有更多信息量、更高可信度、更适合人类视觉感知和计算机后续处理的图像。现有技术的图像融合的处理通常为像素级、特征级、决策级。像素级融合以原始图像数据为主,以图像增强、图像分割和图像分类为目的,能够为人工判读图像或进一步的融合提供更好的输入,但依赖于传感器的灵敏性,对远距离图像的融合需要更高分辨率的传感器;特征级图像融合是指先对原始图像数据进行局部特征提取,然后通过对局部特征进行融合处理获得复合特征,其特征包括边缘、形状、纹理和轮廓等,但特征级的融合只重视图像信息的局部,往往忽略了图像的全局信息,导致融合不充分;决策级融合需要先对原始图像数据进行预处理、特征提取、识别或判决。在每个传感器完成目标提取与分类之后,最优决策通过综合各个传感器的决策可信度来确定,但建立决策函数需要的样本进行长时间推理运算,需要耗费大量时间和占用大量内存。

以上算法在多源图像融合方面取得了很好的融合效果,但是在无人机侦查处理系统中,由于航拍时种种条件的限制无法获得较好的推广和应用。

在无人机侦查处理系统中多源图像融合技术主要面临以下问题:

1)无人机航拍侦察中,多图像传感器所获取的图像易受大气、光照和抖动等外界干扰,造成获取的图像质量下降;

2)不同融合方法对图像数据的侧重不同,融合的精度也不相同,融合结果可能得不到理想的效果;

3)图像在分解过程中,容易产生信息丢失或产生冗余信息,融合过程中的信号重构稳定性较差;

图像在融合重构过程中,对融合系数的加权权重估计的可靠性和准确性有待提高。



技术实现要素:

针对上述问题,本发明提供一种基于增强学习的多源图像融合方法。方法采用增强学习中的q学习算法对高频系数信号和低频系数信号的权重进行训练,将训练后的权重与高频系数信号和低频系数进行加权重构得到融合图像,如此提高了权重估计的可靠性和准确性。

本发明是通过以下技术方案实现的:

一种基于增强学习的多源图像融合方法,所述方法对多源图像进行分解得到高频系数信号和低频系数信号,对所述高频系数信号和所述低频系数信号进行加权重构得到融合图像;其特征在于:所述方法采用增强学习中的q学习算法对高频系数信号和低频系数信号的权重进行训练,取使融合评价准则最优时的权重进行加权融合得到融合系数信号,针对所述融合系数信号重构得到融合图像。

进一步地,采用q学习算法对高频系数信号和低频系数信号的权重进行训练具体为,以高频系数信号和低频系数信号的权重作为q学习算法的状态集s,以q学习单元agent的行动方向作为q学习算法的动作集a,q学习单元agent以立即回报r(s,a)为训练集,训练得到一个定义在状态和动作上的数值评估函数q(s,a),找到使所述数值评估函数q(s,a)最大的一组状态-动作对;

其中,q(s,a)为从状态s开始使用a作为第一个动作时的最大折算积累回报;

q(s,a)=r(s,a)+γv*(δ(s,a))

r(s,a)为以融合评价准则为基础,在状态s下的执行最优动作a时的立即回报值,γ为折扣因子,v*(δ(s,a)为从状态s开始选择a行为的选择策略评估函数,δ(s,a)代表应用动作a到状态s的结果状态;

所述方法以融合评价准则作为状态-动作对的立即回报,使得q值最大的状态-动作对的融合评价准则最优作为回报值,以此得到融合评价准则最优时的权重。

进一步地,状态集s取值为:以各源图像分解后得到的高频系数信号或低频系数信号的权重z={z1,z2,…,zn}为一个状态空间,则状态集s可以表示为s={si|si∈r},si为状态空间中第i个状态,r为聚类算法得出的一组聚类中心,且r∈z。

进一步地,动作集a取值为:设r={r1,r2,…rn}为k均值算法得出的一组高低频系数加权权重聚类中心;针对每一个聚类中心,利用k均值算法得出一组最优权重w={a1,a2,…an},其中,an为各源图像小波分解后得到的高低频系数加权权重);针对r={r1,r2,…rn},可以得出一个高低频系数加权权重的空间w={w1,w2,…wn},n为该空间中特征权重组合的个数,则动作集a就是对于最优加权权重的选择,a={ai|ai∈w,1≤i≤n}。

进一步地,回报值的设定以学习单元agent对外界环境的期望值的形式给出,其中是在动作s的情况下选择动作,状态从动作s迁移到s'的期望回报,eπ在策略π下的期望。

进一步地,所述方法中采用小波变换对多源图像进行分解和加权重构;

所述小波变换的分解具体为:

在所述多源图像的行方向和列方向上分别进行低通滤波和高通滤波,得到多源图像的低频信息和高频信息,然后对所述低频信息和高频信息分别进行间隔采样,只保留其偶数序的部分,采样比为2:1,得到采样后的低频系数信号和垂直、水平、对角方向的高频系数信号;所述小波变换重构是所述分解的逆过程。

进一步地,所述融合的评价准则为融合图像的信息熵。

进一步地,所述方法在所述分解前对所述多源图像进行图像增强处理,所述图像增强处理包括图像去雾处理和高斯滤波处理。

进一步地,所述方法应用于无人机侦察处理系统,所述多源图像包含无人机获取的可见光图像、红外图像、sar图像和多光谱图像。

本发明的有益技术效果:

1)本发明采用小波变换对多源图像进行分解,利用q学习算法对高低频系数的加权权重进行训练,以回报最大化作为权重训练的准则,提高了权重估计的可靠性和准确性。

2)本发明在图像的分解和融合过程中图像信息不丢失且不会产生冗余信息,融合重构过程稳定。

3)本发明通过小波变换的融合方法可以聚焦到图像的任意细节,带来更加丰富的细节信息,融合精度较高,可以得到良好的融合效果。

4)本发明通过图像增强处理很好地解决了无人机多图像传感器获取的图像所受外界干扰造成图像质量下降问题。

附图说明

图1、本发明实施例1基于q学习算法的多源图像融合技术流程图;

图2、本发明实施例1基于q学习算法的权重学习流程图;

图3、本发明实施例1小波分解过程示意图;

图4、本发明实施例1小波重构过程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。

相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

实施例1

本发明采用增强学习与小波变换相结合的方式来完成无人机多源图像的融合,其图像包含无人机获取的可见光图像、红外图像、sar图像和多光谱图像等。其中,首先采用图像增强技术来对多源图像进行增强处理,然后采用小波变换技术对多源图像进行分解,以增强学习中的q学习算法对分解的高低频系数权重进行学习,最后对高低频系数进行加权重构得到融合图像,算法总体流程如图1所示。

算法可归纳为以下步骤:

1)对多源图像进行增强处理,处理过程包含去雾处理和高斯滤波去噪处理;

2)对各图像在行方向和列方向上分别进行低通滤波和高通滤波,对得到的低频和高频部分;

3)低频和高频部分分别进行2:1采样,如此输出一路低频子带信号和垂直、水平、对角三路高频子带信号;

4)确定q学习算法的状态集s为高低频系数的权重以及q学习的动作集a为agent的行动方向;

5)初始化q学习算法的参数,具体包括学习速率折扣因子γ以及q值。

6)以融合评价准则的最优化为立即回报值为r,学习单元agent进行动作选择,有较高q值的动作被赋予较高的概率,所有动作的概率都为非0值,以保证所有状态-动作对都能被遍历到。

7)学习agent通过上述方法执行动作at后,得到下一状态st+1,同时从外界环境得到立即回报值r。

8)根据q学习中的q值公式进行q值的计算与更新,直到融合评价准则达到最优,学习结束。

9)将学习得到的权重与高低频系数进行组合,小波重构得到融合图像。

下面结合流程图对算法实施过程中涉及的关键技术进行详细说明。

小波变换

小波变换是一种新的变换分析方法,继承和发展了短时傅里叶变换局部化的思想,同时又克服了窗口大小不随频率变化的缺点,能够提供一个虽频率改变的时频窗口。小波变换的形式有连续小波、小波级数展开及离散小波变换,其中离散小波变换最常用来进行图像融合。小波分解的过程如图3所示,mallat算法是实现离散小波变换普遍采用的算法,它借助双带子带编码建立小波变换的每一层子频带,对于一幅二维图像,算法首先在图像的行和列方向上进行低通滤波和高通滤波,得到图像的低频信息和高频信息,然后对低频信息和高频信息分别进行间隔采样,只保留其偶数序的部分,采样比为2:1,如此得到采样后的低频子带信号和垂直、水平、对角方向的高频子带信号,而小波重构的过程则是此过程的逆过程,如图4所示。图3和图4中g和h分别为高通和低通滤波器,2↓1为间隔降采样,1↑2间隔增采样。

在使用mallat算法进行图像小波分解和融合过程中,对无人机获取的各源图像执行小波分解后,对分解得到的低频子带系数和各层高频子带系数分别进行加权融合,其加权权重可通过一定的方法计算获得,本发明以q学习算法学习而得,最后对融合后的小波系数执行小波重构即可得到融合后的图像。

q学习算法

q学习算法是一种模型无关的增强学习算法,由watkins提出。q学习算法以增强学习模型为基础,其思想是不去估计环境模型,而是直接优化一个可迭代计算的状态——动作对的奖赏和q(s,a)。q学习提供在环境中利用经历的动作序列执行最优动作的学习能力,它的任务是在初始条件未知的情况下来制定一个策略,使得到的评价总和大。

(1)q函数

q学习单元agent以立即回报序列r(s,a)为训练集,学习到一个定义在状态和动作上的数值评估函数,然后以此评估函数的形式实现最优策略π*。在agent学习数值评估函数的过程中,以行为选择策略的值函数v*为选择,只要当v*(s1)>v*(s2)时,就认为动作s1优于动作s2,因为可以从s1得到更加大的立即回报。在状态s下的最优动作是使得立即回报r(s,a)加上立即后继状态的v*最大的动作a,

π*(s)=argmax[r(s,a),γv*(δ(s,a))](1)

δ(s,a)代表应用动作a到状态s的结果状态,因此,agent可通过学习v*获得最有策略的条件是:它具有立即回报函数r和状态转换函数δ的先验知识。当agent得知到外界环境用来响应动作的函数r和δ的先验知识,就可以用公式(1)来计算任意状态下的最优动作。评估函数q(s,a)定义为:它的值是从状态s开始并使用a作为第一个动作时的最大折算积累回报。换言之,q值为从状态s执行动作a的立即回报加上以后遵循最优策略的值:

q(s,a)=r(s,a)+γv*(δ(s,a))(2)

q(s,a)正是公式(1)中为为选择状态s上的最优动作a应最大化的量,因此公式(2)可改写为

π*(s)=argmax[q(s,a)](3)

(2)状态设定

状态的描述是增强学习模型中的重要因素,状态主要用来表示当前agent对环境感知的一种表示,是agent在后期进行策略选择的基础。本发明以无人机获取的各源图像小波分解后得到的高低频系数加权权重z={z1,z2,…,zn}为一个状态空间,则状态可以表示为s={si|si∈r},si为状态空间中第i个状态,r为聚类算法得出的一组聚类中心,且r∈z。

(3)动作设定

q学习算法最终的目标是要能得到一组最优策略,使得累积回报达到最大而策略是由一组状态-动作对(state-actionpair)组成,因此动作的设定也是要考虑的问题。

设r={r1,r2,…rn}为k均值算法得出的一组高低频系数加权权重聚类中心;针对每一个聚类中心,利用k均值算法得出一组最优权重w={a1,a2,…an}(an各源图像小波分解后得到的高低频系数加权权重)。针对r={r1,r2,…rn},可以得出一个高低频系数加权权重的空间w={w1,w2,…wn},n为该空间中特征权重组合的个数,则动作就是对于最优加权权重的选择,a={ai|ai∈w,1≤i≤n}。

(4)回报值设定

奖赏值是学习单元agent在状态s下与外界环境交互后,环境对agent的一个反馈,一般以agent对外界环境的期望值的形式给出,如下式所示,

其中,是在动作s的情况下选择动作,状态从动作s迁移到s'的期望回报,eπ在策略π下的期望。回报值由奖赏值构成,本发明结合图像融合过程中用于评价融合图像的质量评价准则——图像的信息熵(信息熵是图像含有信息丰富程度的衡量指标)。熵值越大表明图像含有的平均信息量越大的值为作为立即奖赏值,如下式所示,

其中n为融合过程中所实际需要的反馈次数,rt+k是在状态s下的立即奖赏值。

q学习算法的流程图如图2所示,具体描述如下:

1)初始化各源图像小波分解后得到的高低频系数加权权重,对于所有的状态——动作对,令它们的初始q值均为0;

2)动作选取。令s为当前状态,根据行为评估函数π*(s)=argmax[q(s,a)]选择动作a,a表示在状态s下的任意可能的动作集合;

3)设定学习单元agent的属性,具体包括学习速率折扣因子γ以及q值;

4)以融合评价准则的最优化为立即回报值为r,学习单元agent进行动作选择。执行动作at后,得到下一状态st+1,同时从外界环境得到立即回报值r;

5)刷新q值。根据q学习中的q值公式进行q值的计算与更新,直到融合评价准则达到最优,学习结束。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1