一种航拍视频运动目标检测方法及系统与流程

文档序号:31366031发布日期:2022-08-31 15:45阅读:194来源:国知局
一种航拍视频运动目标检测方法及系统与流程

1.本发明涉及视频监控数据处理技术领域,具体是一种航拍视频运动目标检测方法及系统。


背景技术:

2.视频运动目标检测是计算机视觉领域的重要研究内容,其解决的核心问题是将视频连续帧中出现的运动目标(作为前景)从视频静态场景(作为背景)中分割出来,即把视频前景与背景分离,处理结果是一个二值化图,通常灰度值为0的像素区域代表背景,灰度值为1的像素区域代表前景,即运动目标。在机载视频智能处理应用中,运动目标检测是实现目标跟踪、目标定位、目标分类、目标识别、目标行为分析等功能的基础,目标检测结果通常会作为上述功能的输入。因此,在一个视频智能处理系统中,检测结果的准确性将直接影响后续跟踪、定位、识别、行为分析等功能的精度。
3.航拍视频是移动飞行监测平台下一种典型的应用方式,针对航拍视频的运动目标检测已成为包含计算机视觉、模式识别、图像处理和自动控制等多个交叉领域的前沿研究问题。航拍视频的飞行平台一般包括无人机、侦察机等,通常这些平台具备造价低廉、体积小、操作方便、人员风险低、环境适应能力强等特点,可高效替代人类去执行许多高风险的工作任务,已达到节省人力、财力和物力的目的。在军事应用领域,航拍视频的运动目标检测已经广泛应用于战场情报侦察、对空/地作战攻击、无人机遥感、高智能武器等应用中。在民用领域,该技术在灾后救援、交通监测、电力线巡检、边境线巡逻等应用中也具有极大的研究和使用价值。
4.航拍视频监控是智能化视觉监控技术的重要组成部分,在当今的军事应用研究和民用科技中都有着无可替代的重要地位,国内国外的研究机构和工业机构均十分看重该项技术的研究。当前,航拍视频智能处理领域存在海量数据过度依赖人工分析,耗时长,自动化智能化程度低,极度浪费人力物力资源等问题,因此迫切需要研究航拍数据自动化、智能化处理技术,实现对视频中目标(包括运动目标)的自动检测、跟踪和定位,进而为后续行为理解、场景分析、态势分析等高层任务提供必需的决策基础。当前常见的运动目标检测方法可大致划分为3类:(1)基于光流场的运动目标检测:该类方法的关键是根据运动目标的运动矢量特征,利用视频中局部区域的一致性以及背景和运动目标之间的差异性完成对运动目标的分割,此类方法的缺点计算量大、抗噪能力弱;(2)基于统计模型的运动目标检测:该类方法首先通过视频相邻帧运动估算获得运动矢量场,然后基于马尔可夫随机场(mrf)建立运动矢量场的间断点分布模型,最后,利用建立的分布模型进行运动矢量场的间断点检测,从而提取出运动目标。此类方法的优点是计算量较小,可达到实时处理,但是在复杂运动背景下检测率下降严重;(3)基于背景补偿的运动目标检测:作为目前最常用的一种方法,该类方法一般处理流程是首先对视频相邻帧进行图像匹配,然后基于匹配结果估算出全局运动模型,并依据运动模型完成运动背景补偿,通过这样的操作将动态背景转化为静态背景处理,本发明属于该类方法的扩展和深入。
5.相比固定场景中的运动目标检测,航拍视频的运动目标检测面临更多挑战,主要包括飞行平台运动造成的场景复杂多变、背景运动、视频帧分辨率低、目标尺度变化大、关注目标尺寸过小(如航拍视频图像中运动的行人像素大小一般只有十几个像素)。此外,由于应用需求,通常对处理资源有着极强的限制,这些将对算法的准确性、鲁棒性和实时性提出更高的要求。已有航拍视频运动目标检测技术,不管是从方法理论的系统性,还是从研究成果的实用性,都亟需进一步的深入研究。


技术实现要素:

6.为克服现有技术的不足,本发明提供了一种航拍视频运动目标检测方法及系统,解决现有技术存在的检测准确率低、环境适应力差等问题。
7.本发明解决上述问题所采用的技术方案是:
8.一种航拍视频运动目标检测方法,
9.一种航拍视频运动目标检测方法,包括以下步骤:
10.s1,运动背景补偿:对相邻视频帧进行全局运动背景补偿,消除背景的运动;
11.s2,变化区域检测:采用基于多尺度特征融合的深度变化检测网络,进行相邻视频帧间变化区域检测;
12.s3,运动目标提取:采用连续三帧间的变化信息来确认最终的运动目标区域。
13.作为一种优选的技术方案,步骤s1中,利用空间约束方法对orb特征点的分布进行筛选,具体实施步骤如下:
14.s11,对视频帧进行相同大小的区域划分,并按顺序对区域进行编号;
15.s12,基于区域划分方式和orb特征点的具体位置,对每个特征点进行编号,使得每个特征点的编号对与该特征点在视频帧中位置区域的序号对应;
16.s13,采用如下特征点筛选方式:为每个相同序号区域的orb特征点中只保留强度值最大的点作为该区域的特征点,过滤掉其它的特征点,orb特征点的强度值通过以下方式定义:
17.r=det m-α(tracem)2;
18.m表示梯度矩阵的协方差矩阵,det m为m的行列式,tracem为m的迹,α为常数,α取值范围为0.04-0.06。
19.作为一种优选的技术方案,步骤s1中,采用8自由度的单应性变换来拟合航拍视频的运动模型,单应性变换模型对应的变换矩阵定义如下:
[0020][0021]
其中,t
11
、t
12
、t
13
、t
21
、t
22
、t
23
、t
31
、t
32
、t
33
表示模型参数,通过将矩阵t中每个元素除以t
33
的方式对单应性矩阵进行归一化,则将单应性矩阵t中的未知元素就由9个降为8个。
[0022]
作为一种优选的技术方案,步骤s2中,对经全局运动背景补偿后的前后两帧图像,
使用孪生架构的卷积网络分别提取它们的多尺度特征;其中,孪生架构的卷积网络上下2个分支结构相同,权重共享,每个分支包含5个卷积模块,5个卷积模块分别对应着5种不同尺度特征的计算;在第3,4,5个卷积模块之后,分别将2幅输入视频帧对应特征拼接后送到解码模块,得到每个尺度下初步的变化特征后与上一层变化特征逐步融合,最终得到多特征融合的变化检测图。
[0023]
作为一种优选的技术方案,步骤s2中,解码模块以多层深度特征作为输入,通过上采样和卷积操作,将输入特征映射为所需的变化特征图,该解码模块包括上采样层、卷积层、批处理层和非线性激活层,上采样层用以进行对应倍数的上采样,卷积层用以减少模型输出的通道数,已达到对图像特征降维的目的,卷积层输出通道数设置为64,解码模块计算过程公式化描述为:
[0024][0025]
其中,i为正整数且i≥3;cat(.)表示特征拼接操作,其功能是在通道方向上实现图像特征的拼接;fi表示当前帧和参考帧的第i层特征图与解码后的第i+1层特征图拼接后,并进行下层特征图生成;和分别表示当前帧和参考帧在网络第i层计算的深度特征;卷积模块5的卷积层是特征提取的最后一层,应该独立计算,其解码后特征为:
[0026][0027]
作为一种优选的技术方案,步骤s2中,利用解码模块计算得到的特征fi后,变化检测网络利用一个卷积层计算得到相应尺度的变化检测结果图pi,计算公式表达为:
[0028]
pi=conv(fi),i=3,4,5;
[0029]
将多个尺度计算得到变化检测结果拼接,并利用卷积层对拼接结果进行融合,得到最终的变化检测结果,计算公式表达为:
[0030]
pf=conv(cat(p3,p4,p5));
[0031]
其中,p3,p4,p5分别表示网络第3、4、5层得到的预测结果,pf为第3、4、5层特征经拼接并进入卷积层进行融合后得到的预测结果。
[0032]
作为一种优选的技术方案,步骤s2中,深度变化检测选用对比度损失函数,对比度损失函数具体计算公式为:
[0033][0034][0035]
其中,fi和fj表示两张图中相同位置提取的特征,d(fi,fj)描述特征间的距离,该度量方式基于余弦距离定义,尺度因子w和平移量b通过全局训练学习得到;m为划分边缘阈值,y
i,j
为1表示该位置发生变化,y
i,j
为0表示该位置没有发生变化。
[0036]
作为一种优选的技术方案,步骤s3包括以下步骤:
[0037]
s31,假定视频帧按时序编号为1,2,3,

,n,在接收到视频数据后,首先将第1帧作
为参考帧,将第2帧作为当前帧,按照提出的运动补偿方法进行运动背景补偿,并利用变化检测网络计算第2帧和第1帧之间的变化检测结果;
[0038]
s32,接收到第3帧视频后,再将第3帧视频设定为当前帧,并将第2帧视频设定为参考帧,依据计算的第3帧和第2帧之间的变化检测结果;
[0039]
s33,将第2帧和第1帧之间的变化检测结果,以及,第3帧和第2帧之间的变化检测结果进行三帧差法计算,公式如下:
[0040]
d2(x,y)=d(i2,i1)+d(i3,i2)
[0041]
其中,d2(x,y)为第2帧运动目标检测结果,d(i2,i1)表示第1帧之间的变化检测结果,d(i3,i2)表示第3帧和第2帧之间的变化检测结果,+表示变化区域逻辑与运算;
[0042]
s34,接收到第4帧视频后,将第4帧视频设定为当前帧,并将第3帧视频设定为参考帧,计算第4帧和第2帧之间的变化检测结果,并结合之前计算的d(i3,i2),利用三帧差法计算第3帧的运动目标检测结果;依次流程计算后续第4,5,

,n-1帧的运动目标检测结果。
[0043]
作为一种优选的技术方案,步骤s3还包括以下步骤:
[0044]
s34,对验证每帧图像运动目标检测结果进行后处理:首先,利用形态学开运算去除孤立运动目标位置,并将验证后运动目标检测结果图中对应区域设置为非运动目标区域;然后,计算每个运动目标区域的像素面积,根据图像分辨率和最小关注目标大小,确定最小运动目标像素面积δa,并将验证后运动目标检测结果图中面积小于δa的区域设置为非运动目标区域。
[0045]
一种航拍视频运动目标检测系统,基于所述的一种航拍视频运动目标检测方法,包括依次电相连的以下模块:
[0046]
运动背景补偿模块:用以,对相邻视频帧进行全局运动背景补偿,消除背景的运动;
[0047]
变化区域检测模块:用以,采用基于多尺度特征融合的深度变化检测网络,进行相邻视频帧间变化区域检测;
[0048]
运动目标提取模块:用以,采用连续三帧间的变化信息来确认最终的运动目标区域。
[0049]
本发明相比于现有技术,具有以下有益效果:
[0050]
(1)本发明检测精度高。本发明在全局运动背景补偿基础上,先利用背景区域特征点匹配实现前后两帧的像素级配准,然后将帧间运动目标检测问题转化为变化区域检测,并利用一种多特征层融合的深度变化检测网络实现对变化区域的提取,最后改进传统帧间差法,提出基于变化检测的三帧差法实现运动目标区域的检测。相比传统运动目标检测方法,网络计算的深度特征比灰度特征有更强的区分能力,能正确完成运动目标与背景的分离,同时,三帧差检测方法有效解决了由于目标运动速度过快或过慢造成检测结果中出现的拖影和空洞,提高了运动区域检测的准确度。
[0051]
(2)环境适应能力强。本发明针对无人机低空航拍视频数据的特性,如无人机运动旋翼震动或外界风力等客观因素使视频图像出现较为明显的背景、光照等变化,提出全局运动背景补偿方法,选用性能优良的orb特征点作为运动补偿的特征点,并利用空间约束对orb特征点进行筛选,使其均匀分布在图像帧中,这些操作保证所提方法在固定平台和移动平台上均可得到稳定性能。此外,基于多特征层融合的深度变化检测网络利用孪生网络提
取图像特征,并将多层图像深度特征进行多尺度融合,使得高层语义特征和底层纹理特征得到充分结合,实现对运动目标区域的精确提取,同时有效降低了背景、光照、阴影变化和相机成像姿态差异带来的影响。
附图说明
[0052]
图1为本发明所述一种航拍视频运动目标检测方法的步骤示意图;
[0053]
图2是本发明航拍视频运动目标检测方法流程图;
[0054]
图3是orb特征点检测过程;
[0055]
图4是运动背景补偿流程图;
[0056]
图5是变化区域检测模型网络结构图(图中c表示拼接);
[0057]
图6是图5的局部放大图之一;
[0058]
图7是图5的局部放大图之二。
具体实施方式
[0059]
下面结合实施例及附图,对本发明作进一步的详细说明,但本发明的实施方式不限于此。
[0060]
实施例1
[0061]
如图1至图7所示,本发明的目的是针对现有视频运动目标检测方法在航拍视频监控中存在的准确率低和适应性差的问题,提供一种检测精度高,能适应场景复杂多变、图像分辨率低、尺度变化、目标尺寸小等挑战的航拍视频运动目标检测方法,尤其是针对中低空无人机航拍视频中的运动目标检测问题。
[0062]
为实现上述目的,本发明采用以下技术方案,一种航拍视频运动目标检测方法,包括如下步骤:(1)基于特征点匹配的运动背景补偿:机载平台视频拍摄过程中,背景和前景目标同时在运动,为了从背景中提取出运动目标,首先需要消除背景的运动,即对相邻视频帧进行全局运动背景补偿,主要包括特征点提取、特征点选择、特征点匹配和运动模型估计。
[0063]
(2)基于多层特征融合的变化检测网络:视频帧经全局运动背景补偿后,运动目标检测问题转化为相邻帧间变化区域检测问题,为了充分利用图像的底层特征和高层语义,本发明采用一种基于多尺度特征融合的深度变化检测网络,主要包括网络结构、损失函数定义、网络训练等部分。
[0064]
(3)运动目标提取:为了解决目标运动速度过快或过慢造成的漏检和误检,抑制相邻帧直接计算产生的重影、目标内部及边缘缺失等现象,本发明采用连续三帧间的变化信息来确认最终的运动目标区域,主要包括三帧差法和检测结果后处理。
[0065]
优选的,航拍视频通常的背景通常包括平坦单一的区域,这些区域纹理信息弱,特征不明显,这会造成在背景区域特征点很少,检测到的特征点集中出现在局部目标区域的现象。由于目标区域是变化的,运动背景补偿需要尽可能多的特征点均匀分布在不变的背景区域,为了提高运动补偿的准确性,需要利用空间约束方法对orb特征点的分布进行筛选,具体实施步骤如下:

对视频帧进行相同大小的区域划分,并按顺序对区域进行编号。由于航拍视频中通常包含尺寸较小的运动目标(如只有十多个像素大小的行人),因此区域
划分的尺寸不能太大,否则不能达到有效筛选目标上特征点的目标,一般设置划分区域大小为10*10像素;

基于区域划分方式和orb特征点的具体位置,可对每个特征点进行编号,使得每个特征点的编号对与该特征点在视频帧中位置区域的序号对应;

特征点筛选方式为每个相同序号区域的orb特征点中只保留强度值最大的点作为该区域的特征点,过滤掉其它的特征点,即每个划分的区域内最多存在一个特征点。其中,orb特征点的强度值通过以下方式定义:
[0066]
r=det m-α(tracem)2[0067]
式中m表示梯度矩阵的协方差矩阵,det m为m的行列式,tracem为m的迹,α为常数,取值范围为0.04-0.06。通过特征点空间分布约束,使得它们在整个视频帧中呈现均匀分布,并且目标上不会出现大量集中的特征点,背景区域也留存了数量足够多的特征点。
[0068]
优选的,由于飞行平台在飞行的过程中飞行高度、滚动角、俯仰角、偏航角等都会不断变化,这些参数的变化会造成对应航拍视频中的图像出现平移、旋转、缩放等变换,因此在对航怕视频进行全局运动背景补偿时,需要运动模型能拟合旋转、缩放和平移等因子。传统方法大多采用6自由度的仿射变换模型来描述航拍视频的运动模型,但该模型只完成对平面图像中的线性变换进行平行映射,具有极大的局限性。由于航拍视频的背景运动变化多端,为了准确计算航拍视频的背景运动模型,本发明采用8自由度的单应性变换来拟合航拍视频的运动模型,相比于仿射模型,单应性变换通用性更强。单应性变换模型对应的变换矩阵定义如下:
[0069][0070]
由于使用的是齐次坐标,可以通过将矩阵t中每个元素除以t
33
的方式对单应性矩阵进行归一化,因此单应性矩阵t中的未知元素就由9个降为8个,即8个自由度,8自由度的单应性矩阵只需要由(c)中得到的4对匹配点即可计算得出。
[0071]
优选的,深度变化检测网络结构参阅图5,经全局运动背景补偿后的前后两帧图像,使用孪生架构的卷积网络分别提取它们的多尺度特征。孪生网络上下2个分支结构相同,权重共享,每个分支包含5个卷积模块,它们分别对应着5种不同尺度特征的计算。为了充分利用图像的高层语义和底层纹理特征,在第3,4,5个卷积模块之后,分别将2幅输入视频帧对应特征拼接后送到解码模块,得到每个尺度下初步的变化特征后与上一层变化特征逐步融合,最终得到多特征融合的变化检测图。
[0072]
优选的,解码模块以多层深度特征作为输入,通过上采样和卷积操作,将输入特征映射为所需的变化特征图,该模块通常由上采样层、卷积层、批处理层和非线性激活层组成。为了保证不同层深度特征的拼接,并生成同尺寸变化特征图,需使用上采样层进行对应倍数的上采样。此外,由于深度特征维数较高,直接拼接两张图的对应特征进行处理会造成计算量大的问题,影响模型训练速度,因此使用卷积层减少模型输出的通道数,已达到对图像特征降维的目的,这样在保持丰富图像特征的同时还可减少整体计算量,提高模型运行效率。通常,卷积层输出通道数设置为64,解码模块计算过程公式化描述为:
[0073][0074]
其中,cat(.)表示特征拼接操作,其功能是在通道方向上实现图像特征的拼接。fi表示当前帧和参考帧的第i层特征图与解码后的第i+1层特征图拼接后,并进行下层特征图生成。和分别表示当前帧和参考帧在网络第i层计算的深度特征。需要指出的是,卷积模块5的卷积层是特征提取的最后一层,应该独立计算,其解码后特征为:
[0075][0076]
优选的,利用解码模块计算得到的特征fi后,变化检测网络可利用一个卷积层计算得到相应尺度的变化检测结果图pi,计算公式表达为:
[0077]
pi=conv(fi),i=3,4,5
[0078]
将多个尺度计算得到变化检测结果拼接,并利用卷积层对拼接结果进行融合,得到最终的变化检测结果,计算公式表达为:
[0079]
pf=conv(cat(p3,p4,p5))
[0080]
其中,p3,p4,p5分别表示网络第3,4,5层得到的预测结果,pf为3,4,5层特征经拼接并进入卷积层进行融合后得到的预测结果,即为深度变化检测模型最终输出的预测结果。
[0081]
优选的,深度变化检测模型选用对比度损失函数,其具体计算公式为:
[0082][0083][0084]
其中,fi和fj表示两张图中相同位置提取的特征,d(fi,fj)描述特征间的距离,该度量方式基于余弦距离定义,尺度因子w和平移量b通过全局训练学习得到;m为划分边缘阈值,y
i,j
为1表示该位置发生变化,y
i,j
为0表示该位置没有发生变化。对比损失函数的目标是无论该点是否发生变化,使得损失最小。
[0085]
优选的,为了保证视频持续处理,并且解决运动目标速度过快和过慢造成检测区域出现空洞和拖影的现象,本发明提出基于变化检测结果的三帧差法运动目标检测框架,具体操作步骤是:

假定视频帧按时序编号为1,2,3,

,n,在接收到视频数据后,首先将第1帧作为参考帧,将第2帧作为当前帧,按照提出的运动补偿方法进行运动背景补偿,并利用变化检测网络计算第2帧和第1帧之间的变化检测结果;

接收到第3帧视频后,再将第3帧视频设定为当前帧,并将第2帧视频设定为参考帧,依据

中步骤计算第3帧和第2帧之间的变化检测结果;

将第2帧和第1帧之间的变化检测结果,第3帧和第2帧之间的变化检测结果进行三帧差法计算,公式如下:
[0086]
d2(x,y)=d(i2,i1)+d(i3,i2)
[0087]
其中,d2(x,y)为第2帧运动目标检测结果,d(i2,i1)表示第1帧之间的变化检测结果,d(i3,i2)表示第3帧和第2帧之间的变化检测结果,+表示变化区域逻辑与运算(变化检测结果中变化区域标记为1,未变化区域标记为0);

接收到第4帧视频后,将第4帧视频设定为当前帧,并将第3帧视频设定为参考帧,计算第4帧和第2帧之间的变化检测结果,并结合之前计算的d(i3,i2),利用三帧差法计算第3帧的运动目标检测结果。依次流程计算后续第
4,5,

,n-1帧的运动目标检测结果。
[0088]
优选的,为了有效剔除误报,需对验证每帧图像运动目标检测结果进行后处理,操作流程如下:首先,利用形态学开运算去除孤立运动目标位置,并将验证后运动目标检测结果图中对应区域设置为非运动目标区域;然后,计算每个运动目标区域的像素面积,根据图像分辨率和最小关注目标大小,确定最小运动目标像素面积δa,并将验证后运动目标检测结果图中面积小于δa的区域设置为非运动目标区域。
[0089]
本发明相比于现有技术具有如下有益效果:
[0090]
(1)检测精度高。本发明在全局运动背景补偿基础上,先利用背景区域特征点匹配实现前后两帧的像素级配准,然后将帧间运动目标检测问题转化为变化区域检测,并利用一种多特征层融合的深度变化检测网络实现对变化区域的提取,最后改进传统帧间差法,提出基于变化检测的三帧差法实现运动目标区域的检测。相比传统运动目标检测方法,网络计算的深度特征比灰度特征有更强的区分能力,能正确完成运动目标与背景的分离,同时,三帧差检测方法有效解决了由于目标运动速度过快或过慢造成检测结果中出现的拖影和空洞,提高了运动区域检测的准确度。
[0091]
(2)环境适应能力强。本发明针对无人机低空航拍视频数据的特性,如无人机运动旋翼震动或外界风力等客观因素使视频图像出现较为明显的背景、光照等变化,提出全局运动背景补偿方法,选用性能优良的orb特征点作为运动补偿的特征点,并利用空间约束对orb特征点进行筛选,使其均匀分布在图像帧中,这些操作保证所提方法在固定平台和移动平台上均可得到稳定性能。此外,基于多特征层融合的深度变化检测网络利用孪生网络提取图像特征,并将多层图像深度特征进行多尺度融合,使得高层语义特征和底层纹理特征得到充分结合,实现对运动目标区域的精确提取,同时有效降低了背景、光照、阴影变化和相机成像姿态差异带来的影响。
[0092]
本发明克服了现有运动目标检测技术在航拍数据上应用存在的准确率和鲁棒性问题,尤其适用于航拍视频大幅面图像中未知类型、小尺寸运动目标的快速发现,在场景监控、智能交通、军事情报侦察等领域有着广泛的应用前景。
[0093]
本发明针对航拍视频的特点,研究高效实用的运动目标检测算法,解决已有方法存在准确率低、环境适应力差等问题,这对国防事业的发展和国民经济的建设都有着重大的意义和深远的影响,对智能化视频处理技术的发展也将产生极大的促进作用。
[0094]
本发明涉及一种广泛应用于城市交通监测管理、特定区域安全防范、军事敌情侦察等视频监控领域的航拍视频智能处理方法,尤其是应用于中低空小型无人机智能视频监控领域的视频运动目标检测方法。
[0095]
实施例2
[0096]
如图1至图7所示,作为实施例1的进一步优化,本实施例还包括以下技术特征:
[0097]
参阅图2。根据本发明,(1)基于特征点匹配的运动背景补偿:机载平台视频拍摄过程中,背景和前景目标同时在运动,为了从背景中提取出运动目标,首先需要消除背景的运动,即对相邻视频帧进行全局运动背景补偿,主要包括特征点提取、特征点选择、特征点匹配和运动模型估计。
[0098]
(2)基于多层特征融合的变化检测网络:视频帧经全局运动背景补偿后,将运动目标检测问题转化为相邻帧间变化区域检测问题,为了充分利用图像的底层特征和高层语
义,本发明采用一种基于多尺度特征融合的深度变化检测网络,主要包括网络结构和网络训练两部分。
[0099]
(3)运动目标提取:为了解决目标运动速度过快或过慢造成的漏检和误检,抑制相邻帧直接计算产生的重影、目标内部及边缘缺失等现象,本发明采用连续三帧间的变化信息来确认最终运动信息,主要包含三帧差法和检测结果后处理。
[0100]
为实时、准确对航拍视频图像进行运动目标检测,采用航拍视频相邻帧运动背景补偿、基于多层特征融合的变化检测、三帧差法和后处理四大步骤。在进行航拍视频运动背景补偿、相邻帧变化检测、三帧差法运动目标提取和结果后处理,参阅图1,具体实施方式如下:
[0101]
(1)航拍视频运动背景补偿,主要包括orb特征点提取、空间分布约束、特征点匹配、全局运动参数估计和全局背景运动补偿;
[0102]
(2)相邻视频帧变化检测,主要包括网络总体结构设计、卷积模块设计、解码模块设计、多尺度变化估计、损失函数定义、模型训练;
[0103]
(3)运动目标提取,主要包括三帧差法运动目标提取框架设计和检测结果后处理。
[0104]
参阅图4。相邻视频帧运动背景补偿包括orb特征点提取、空间分布约束、特征点匹配、全局运动参数估计和全局背景运动补偿,具体实施过程如下:
[0105]
(a)orb特征点提取。航拍视频通常会出现多种复杂的场景,既包括纹理色彩丰富的城市和森林地区,也有纹理色彩相对单一的沙漠和平原地区,所以选择用于航拍视频全局运动补偿的特征点时要同时考虑上述背景单一和复杂的场景,综合评估各特征点的时间效率和准确性,本发明选择orb特征点进行全局运动估计。特征点提取通常包含特征点检测和特征点描述两部分,

orb特征点检测:orb特征点检测方法参阅图2,通过计算候选特征点f周边一圈的像素来确定f是不是一个特征点,如果周边与中心像素点f相差较大的像素构成的连续弧长大于3/4圆周长,则可以将f点标记为一个orb特征点;

orb特征点描述:orb特征描述采用二进制串的方式,具体实施方式是在检测到的特征点邻域选取256对随机点,将其进行旋转,并基于灰度值做判决编码为二进制串。
[0106]
(b)空间分布约束。航拍视频通常的背景通常包括平坦单一的区域,这些区域纹理信息弱,特征不明显,这会造成在背景区域特征点很少,检测到的特征点集中出现在局部目标区域的现象。由于目标区域是变化的,运动背景补偿需要尽可能多的特征点均匀分布在不变的背景区域,为了提高运动补偿的准确性,需要利用空间约束方法对orb特征点的分布进行筛选,具体实施步骤如下:

对视频帧进行相同大小的区域划分,并按顺序对区域进行编号。由于航拍视频中通常包含尺寸较小的运动目标(如只有十多个像素大小的行人),因此区域划分的尺寸不能太大,否则不能达到有效筛选目标上特征点的目标,一般设置划分区域大小为10*10像素;

基于区域划分方式和orb特征点的具体位置,可对每个特征点进行编号,使得每个特征点的编号对与该特征点在视频帧中位置区域的序号对应;

特征点筛选方式为每个相同序号区域的orb特征点中只保留强度值最大的点作为该区域的特征点,过滤掉其它的特征点,即每个划分的区域内最多存在一个特征点。其中,orb特征点的强度值通过以下方式定义:
[0107]
r=det m-α(tracem)2[0108]
式中m表示梯度矩阵的协方差矩阵,det m为m的行列式,tracem为m的迹,α为常数,
取值范围为0.04-0.06。通过特征点空间分布约束,使得它们在整个视频帧中呈现均匀分布,并且目标上不会出现大量集中的特征点,背景区域也留存了数量足够多的特征点。
[0109]
(c)特征点匹配。orb特征描述符采用二进制方式,因此一般通过计算汉明距离来度量两个特征间的相似性,即对于两个等长二进制串,它们之间的汉明距离定义为两个二进制串对应位置的不同字符的个数。通过orb特征定义可知,orb特征描述子的字符长度均为256,因此利用汉明距离定义的二进制特征描述子的匹配速度极快,可以有效提高整个算法的运行速度。
[0110]
orb特征匹配分为粗匹配和精匹配两步:

粗匹配,首先计算当前帧中的每个orb特征点在参考帧中对应的最佳匹配点,并建立粗匹配关系;然后通过定义的匹配阈值,为每对建立粗匹配关系的特征点进行筛选,过滤掉一些匹配错误的点;

精匹配,当前帧和参考帧中特征点经粗匹配和初步筛选后能得到一个特征点对的集合,该集合中除了正确匹配的特征点,还存在少量可能是目标上的匹配点,也可能包含有噪声。全局运动补偿针对的是背景的运动,运动目标上的匹配点和噪声会对运动模型参数求解产生极大影响,通常可使用随机抽样一致性算法ransac来剔除这些干扰点,以求得当前帧和参考帧中最佳的匹配点,该算法基本原理是首先从特征点对集合中随机选取4对特征点,并利用这4对点计算运动模型,然后利用之前计算的运动模型对特征点集合进行分类,满足精度范围的点标记为内点,不满足的点标记为外点,再然后判断内点数目是否足够多,若足够多,则根据得到的内点集合重新估计新的运动模型,并保存最好的模型,最后,重复上述操作,直至新得到的模型有更高精度或者达到最大循环次数。通常,循环次数并不是一个固定的值,而是在不断更新的,计算公式定义如下:
[0111][0112]
其中p为置信度,一般取0.995;w为内点占数据集的比例;m为计算模型所需要的最少样本数,本发明选取单应性变换模型,所以m的值取4。
[0113]
(d)全局运动参数估计。由于飞行平台在飞行的过程中飞行高度、滚动角、俯仰角、偏航角等都会不断变化,这些参数的变化会造成对应航拍视频中的图像出现平移、旋转、缩放等变换,因此在对航怕视频进行全局运动背景补偿时,需要运动模型能拟合旋转、缩放和平移等因子。传统方法大多采用6自由度的仿射变换模型来描述航拍视频的运动模型,但该模型只完成对平面图像中的线性变换进行平行映射,具有极大的局限性。由于航拍视频的背景运动变化多端,为了准确计算航拍视频的背景运动模型,本发明采用8自由度的单应性变换来拟合航拍视频的运动模型,相比于仿射模型,单应性变换通用性更强。单应性变换模型对应的变换矩阵定义如下:
[0114][0115]
由于使用的是齐次坐标,可以通过将矩阵t中每个元素除以t
33
的方式对单应性矩阵进行归一化,因此单应性矩阵t中的未知元素就由9个降为8个,即8个自由度,8自由度的单应性矩阵只需要由(c)中得到的4对匹配点即可计算得出。
[0116]
(e)全局背景运动补偿。全局运动补偿的核心就是利用单应性变换矩阵,将当前帧坐标空间中的点投影到参考帧坐标空间中,具体计算公式为:
[0117][0118]
其中,[u v 1]'表示当前帧坐标空间的像素位置,[x y 1]'表示参考帧坐标空间的像素位置。由于在图像坐标变换过程中会出现非整数值,因此需要对变换图像对应位置的灰度值进行插值处理,通常选用双线性插值方法实现。
[0119]
视频相邻帧(分别命名为当前帧和参考帧)进行全局运动背景补偿后,便可利用变化检测模型提取当前帧和参考帧中的变化区域,网络模型参阅图5,具体实施过程如下:
[0120]
(a)网络总体结构。深度变化检测网络结构参阅图5,经全局运动背景补偿后的前后两帧图像,使用孪生架构的卷积网络分别提取它们的多尺度特征。孪生网络上下2个分支结构相同,权重共享,每个分支包含5个卷积模块,它们分别对应着5种不同尺度特征的计算。为了充分利用图像的高层语义和底层纹理特征,在第3,4,5个卷积模块之后,分别将2幅输入视频帧对应特征拼接后送到解码模块,得到每个尺度下初步的变化特征后与上一层变化特征逐步融合,并最终得到多特征融合的变化检测图。
[0121]
(b)卷积模块。在深度变化检测网络中,卷积模块负责提取不同层的多尺度深度特征,主要由卷积层、批处理层、非线性激活层和池化层组成。卷积层利用多种不同权重的卷积操作来计算图像特;批处理层实现对深度网络不同层输入进行归一化,保证其均值为0方差为1的标准正态分布,加快模型训练收敛速度;非线性激活层作为激活函数,使得网络增加非线性因素,增强模型的表达能力;最后池化层对计算得到图像特征进行下采样(长宽变为原来的一半),池化操作不仅保留住图像的主特征,还能极大减少下层网络的计算量。
[0122]
(c)解码模块。解码模块以多层深度特征作为输入,通过上采样和卷积操作,将输入特征映射为所需的变化特征图,该模块通常由上采样层、卷积层、批处理层和非线性激活层组成。为了保证不同层深度特征的拼接,并生成同尺寸变化特征图,需使用上采样层进行对应倍数的上采样。此外,由于深度特征维数较高,直接拼接两张图的对应特征进行处理会造成计算量大的问题,影响模型训练速度,因此使用卷积层减少模型输出的通道数,已达到对图像特征降维的目的,这样在保持丰富图像特征的同时还可减少整体计算量,提高模型运行效率。通常,卷积层输出通道数设置为64,解码模块计算过程公式化描述为:
[0123][0124]
其中,cat(.)表示特征拼接操作,其功能是在通道方向上实现图像特征的拼接。fi表示当前帧和参考帧的第i层特征图与解码后的第i+1层特征图拼接后,并进行下层特征图生成。和分别表示当前帧和参考帧在网络第i层计算的深度特征。需要指出的是,卷积模块5的卷积层是特征提取的最后一层,应该独立计算,其解码后特征为:
[0125][0126]
(d)多尺度变化估计。利用解码模块计算得到特征fi后,变化检测网络可利用一个卷积层计算得到相应尺度的变化检测结果图pi,计算公式表达为:
[0127]
pi=conv(fi),i=3,4,5
[0128]
将多个尺度计算得到变化检测结果拼接,并利用卷积层对拼接结果进行融合,得到最终的变化检测结果,计算公式表达为:
[0129]
pf=conv(cat(p3,p4,p5))
[0130]
其中,p3,p4,p5分别表示网络第3,4,5层的输出结果,pf为3,4,5层特征经拼接并进入卷积层进行融合后得到的预测结果,即为深度变化检测模型最终输出的预测结果。
[0131]
(e)损失函数定义。深度变化检测模型选用对比度损失函数,其具体计算公式为:
[0132][0133][0134]
其中,fi和fj表示两张图中相同位置提取的特征,d(fi,fj)描述特征间的距离,该度量方式基于余弦距离定义,尺度因子w和平移量b通过全局训练学习得到;m为划分边缘阈值,y
i,j
为1表示该位置发生变化,y
i,j
为0表示该位置没有发生变化。对比损失函数的目标是无论该点是否发生变化,使得损失最小。
[0135]
(f)模型训练。深度变化检测模型选用vgg16的网络参数对其孪生网络的5个卷积模块进行初始化。对于模型中新添加的一些网络,如解码模块中的卷积层的参数,利用均值为0,标准差为0.05的正态分布采用生成,对于网络最后一层用于参数预测结果的卷积层参数,利用均值为0,标准差为0.25的正态分布采用生成。在模型训练过程中,网络初始的学习率设置为0.001,随着迭代次数增加,学习率每一轮降为原来的0.1倍,moment系数设置为0.9,批处理数量设定为16,整个训练过程利用adam优化器进行模型的参数更新。
[0136]
视频相邻帧(分别命名为当前帧和参考帧)进行变化区域检测后,便可基于变化检测结果,利用三帧差法提取视频帧中的运动目标区域,主要包括三帧差法和检测结果后处理,具体实施过程如下:
[0137]
(a)三帧差法。为了保证视频持续处理,并且解决运动目标速度过快和过慢造成检测区域出现空洞和拖影的现象,本发明提出基于变化检测结果的三帧差法运动目标检测框架,具体操作步骤是:

假定视频帧按时序编号为1,2,3,

,n,在接收到视频数据后,首先将第1帧作为参考帧,将第2帧作为当前帧,按照提出的运动补偿方法进行运动背景补偿,并利用变化检测网络计算第2帧和第1帧之间的变化检测结果;

接收到第3帧视频后,再将第3帧视频设定为当前帧,并将第2帧视频设定为参考帧,依据

中步骤计算第3帧和第2帧之间的变化检测结果;

将第2帧和第1帧之间的变化检测结果,第3帧和第2帧之间的变化检测结果进行三帧差法计算,公式如下:
[0138]
d2(x,y)=d(i2,i1)+d(i3,i2)
[0139]
其中,d2(x,y)为第2帧运动目标检测结果,d(i2,i1)表示第1帧之间的变化检测结果,d(i3,i2)表示第3帧和第2帧之间的变化检测结果,+表示变化区域逻辑与运算(变化检测结果中变化区域标记为1,未变化区域标记为0);

接收到第4帧视频后,将第4帧视频设定为当前帧,并将第3帧视频设定为参考帧,计算第4帧和第2帧之间的变化检测结果,并结合之前计算的d(i3,i2),利用三帧差法计算第3帧的运动目标检测结果。依次流程计算后续第
4,5,

,n-1帧的运动目标检测结果。
[0140]
(b)结果后处理。为了有效剔除误报,需对验证每帧图像运动目标检测结果进行后处理,操作流程如下:首先,利用形态学开运算去除孤立运动目标位置,并将验证后运动目标检测结果图中对应区域设置为非运动目标区域;然后,计算每个运动目标区域的像素面积,根据图像分辨率和最小关注目标大小,确定最小运动目标像素面积δa,并将验证后运动目标检测结果图中面积小于δa的区域设置为非运动目标区域。
[0141]
如上所述,可较好地实现本发明。
[0142]
本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
[0143]
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,依据本发明的技术实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1