一种利用先验知识的大场景内运动目标检测方法与流程

文档序号:20922454发布日期:2020-05-29 14:19阅读:491来源:国知局
一种利用先验知识的大场景内运动目标检测方法与流程

本发明涉及一种结合定位信息的大场景内运动目标检测识别方法,属计算机视觉技术领域。



背景技术:

近年来,在诸如大型广场安防、机场场面活动引导与控制、港口生产作业区运行状态监控、工业园区管控等大型场景管控中,增强现实(augmentedreality,ar)技术得到了越来越多的应用。比如,在机场飞行区的航空器、车辆、人员管控中,为了便于管理人员理解和指挥,往往需要对这些运动目标进行增强显示,即在视频画面中运动目标的对应位置显示目标的相关信息,如飞机航班号、车辆类型、作业人员个人信息等。为了保证信息增强显示的准确性,需要对运动目标进行高精度的定位。

目前,实现信息增强显示的通常的方法是利用通过gps、北斗等卫星定位系统获得运动目标的空间坐标,把空间坐标映射到视频画面上的像素点坐标。但是由于gps、北斗等系统获取的数据一般都有较大误差,再加上数据获取频率低(如每秒发送一次),并且与视频之间不同步,导致通过坐标映射得到的像素点坐标和运动目标的实际坐标之间有较大的差异,不但影响使用体验,而且会出现较多的错误显示。

针对上述问题,一种可能的技术架构是采用先在视频画面中检测出运动目标,之后再与gps等定位数据融合的方法。在大场景视频中,为了保证目标检测达到可实用的准确度,要求运动目标具有一定的像素分辨率,也就是要求整个大场景画面具有超高的分辨率,比如为了在机场飞行区画面中检测到远处的车辆,整个飞行区画面的像素数会达到一个或多个4k超高清(分辨率为3840×2160)。目前目标检测性能最好的是基于深度学习的检测方法。基于区域的卷积神经网络(regionbasedconvolutionalneuralnetwork,rcnn)成功连接目标检测与深度卷积网络,将目标检测的准确率提升到一个新的层次。rcnn由3个独立的步骤组成:产生候选窗口、特征提取、svm分类及窗口回归。由于rcnn分为3个独立的过程,所以检测效率很低,无法用在大场景视频中。

为了提高目标检测的实时性,一种可能的技术架构是单阶段的目标检测算法,这种方法的特点是端到端(endtoend),从输入图像到检测结果一步到位,中间的过程全部由神经网络学习得到。典型的方法是yolo(youonlylookonce)与ssd(singleshotmultiboxdetector)。这类方法用轻量级的网络实现输入端到输出端的直接相连,极大提高了图像检测的速度。当输入图像的尺寸是416×416时,处理速度可达50fps(framepersecond),能够实现实时检测,但对于大场景视频,分辨率通常可达一个或多个4k,其像素点数是上述图像尺寸的数十倍甚至数百倍,采用上述方法远远达不到实时。

大场景中运动目标检测的另一个困难是,根据运动目标距离摄像机的位置不同,运动目标在画面上的尺度大小差异极大。如在近处时可能占有半个画面,而在远处是可能只有几个像素。这会导致深度学习算法中模型训练难度增加和最终检测精度的下降。

基于上述原因,申请人又提出了一种新的技术架构,结合经纬度定位信息进行大场景内的运动目标检测,事先建立大场景图像中的坐标点和对应的经纬度坐标之间的对应关系,检测时根据目标的类型及其带有误差的经纬度数据(可从gps、北斗系统等获得),对运动目标所在区域进行预测,将该区域映射到大场景视频的画面内,得到画面内包含运动目标的图像块,将图像块缩放成事先设定的大小,送入目标检测处理模块进行目标检测,得到目标在该图像块中的坐标位置,将目标的坐标位置还原为大场景图像上的坐标位置,完成该目标的检测。采用这种技术路线能够针对每一个带有经纬度定位信息的运动目标进行,能够得到大场景图像中所有运动目标的精确位置,不仅大大提高了处理速度,而且提高了检测准确率,由此解决了单纯卫星定位数据-图像映射固有的无法获得目标大小范围、以及因卫星定位数据误差导致的映射位置偏离等问题。

然而,要实现上述方法,还需要考虑实践中可能遇到的障碍,对相关技术进行改进。现有依据经纬度信息的图像标定,默认待检测的运动目标存在于一个平面(如地平面)内,基于这种假设,运动目标的高度被忽略,这种假设在一定的情形下是适宜的,例如,如果摄像机设置在高处(如机场的空管塔台),即使是具有一定高度的运动目标,摄像机对待检测目标依然能够形成较大的俯视角,忽略目标的高度对检测结果没有实质性影响,但在另外一些情形下,例如,如果摄像机的安装位置不够高,接近平视,特别是待检测目标距离摄像机距离较近时,忽略目标高度将会造成较大的误差,对检测结果产生实质性影响。



技术实现要素:

本发明的目的是弥补现有技术的上述不足,提供一种利用先验知识的大场景内运动目标检测方法,以提高检测速度,提高准确性,并适应于不能忽略运动目标高度的场合。

本发明的技术方案是:一种利用先验知识的大场景内运动目标检测方法,依据运动目标的定位信息和先验的目标外形信息,确定运动目标在真实场景(真实世界)下的立体检测区域,所述真实场景下的立体检测区域采用长方体形,将真实场景下的立体检测区域的8个顶点的世界坐标系坐标映射到大场景图像的图像坐标系中,即转换为大场景图像的图像坐标系坐标,由此形成这8个顶点在大场景图像上的8个映射点,在大场景图像中取包含这8个映射点、且长和宽分别平行于图像长和宽的矩形图像区域作为在大场景图像中的检测区域,将大场景图像中的检测区域缩放到规定的图像尺寸,形成符合检测尺寸要求的检测图像块,在检测图像块中进行相应的目标检测,获得检测目标,在检测图像块中设定包含目标所在区域的矩形外接框作为目标检测框,将检测图像块中的目标检测框还原或映射到大场景图像中,以此作为大场景图像中相应运动目标的目标跟踪框。

通常应在收到运动目标的定位信息时启动对相应运动目标的检测。

所述大场景图像通常为包含整个检测范围的场景图像,可以由单一的场景摄像机拍摄获得,或者由多个摄像机拍摄的图像拼接而成。

所述立体检测区域优选包含依据目标定位信息误差和目标外形推算的运动目标可能存在的全部区域。

所述大场景图像中的检测区域的各边分别平行于图像坐标系的各坐标轴,以方便运算和显示。

通常可以在启动目标检测前确定世界坐标系坐标与图像坐标系坐标的映射关系,依据世界坐标系坐标与图像坐标系坐标的映射关系将真实场景下的立体检测区域的8个顶点的世界坐标系坐标映射到大场景图像的图像坐标系中。

所述定位信息源自定位系统(而不是摄像机拍摄的视频图像),例如gps,北斗卫星系统等,所包含的运动目标位置信息通常为运动目标的经纬度坐标(卫星定位系统),将运动目标的经纬度坐标折算为世界坐标系下的地面坐标,以此作为所述真实场景下的立体检测区域的底面中心在世界坐标系下的坐标。

可以对各种类型的运动目标预设外形尺寸。

所述真实场景下的立体检测区域在世界坐标系下的任意坐标轴方向上的跨度应不小于运动目标在该方向上的预设外形尺寸加上定位信息在该坐标轴方向上的正负距离误差。

本发明的有益效果是:由于依据运动目标的定位信息以及运动目标外形等因素,仅在运动目标可能存在的区域进行检测,而不是在整个大场景图像中检测,由此大幅度减小了检测的数据处理量,明显缩短了检测时间,进而也为实时运动目标的检测和跟踪提供了条件;由于在确定检测区域时考虑了运动目标的高度,由此减小或避免了因忽略运动目标高度而导致的结果失真。

附图说明

图1是本发明的流程图。

具体实施方式

1.基本流程

本发明的基本流程(整体流程)如图1所示。

首先,大场景视频采集摄像机固定安装之后,对场景空间中的点与其在视频画面中的图像坐标进行标定,建立大场景图像中的图像坐标系(通常可以采用像素坐标系)中的点(u,v)和世界坐标系的点(xw,yw,zw)之间的对应关系,也就是完成摄像机内外参数的确定。其次,运动目标检测启动后,将运动目标所在的立体区域视为一个长方体,针对其8个顶点,根据定位数据和目标本身的类型进行预测,并且将该区域根据之前的摄像机标定结果映射到图像像素坐标系中,得到图像内的搜索区域。然后,对图像内的搜索区域进行尺度变换,缩放成事先设定的大小。接下来,把尺度变换后的图像块送入目标检测处理模块,即可得到目标在该搜索区域中的位置和大小。最后,将该坐标位置和大小还原为大场景图像上的坐标位置,完成该目标的检测。上述目标检测处理针对每一个带有定位信息的运动目标进行,得到大场景图像中所有运动目标的精确位置。由于目标检测只在可能的运动目标周围一个限定的区域内进行,大大提高了处理速度。

2.摄像机标定

对于大场景摄像机,可以采用传统的摄像机标定方法中的透视变换矩阵标定方法。其中涉及到的坐标系为世界坐标系、摄像机坐标系和图像坐标系,通过建立两两坐标系之间的转换关系,即可得到世界坐标系与图像坐标系的转换。

1)世界坐标系与摄像机坐标系的转换

给定世界坐标系中的点(xw,yw,zw),可以通过一个平移变换矩阵k和正交旋转矩阵r得到在摄像机坐标系下的坐标(x,y,z):

其中,k=[xk,yk,zk]t是世界坐标系原点在摄像机坐标系中的坐标,矩阵r中元素满足下列方程:

在矩阵r中有3个独立变量,与k矩阵中的3个独立变量一共有6个参数,共同决定了摄像机光轴在世界坐标系中的空间位置,这6个参数称为摄像机外部参数。

2)摄像机坐标系与图像坐标系的转换

图像坐标系分为图像物理坐标系和图像像素坐标系,前者的坐标原点是透镜光轴与成像平面的交点,它的x轴和y轴与摄像机坐标系的x轴和y轴分别平行;后者是固定在图像上的以像素为单位的平面直角坐标系,其原点位于图像左上角,它的u轴和v轴分别平行于前者的x轴和y轴,对于数字图像而言,分别是行和列。此时给定摄像机坐标系的点p坐标为(x,y,z),那么在图像物理坐标为(x,y):

其中f为摄像机镜头的焦距,矩阵表示为:

将图像物理坐标系转换为图像像素坐标系(u,v):

其中(u0,v0)是图像物理坐标系原点在图像像素坐标系中的坐标,sx和sy分别是x轴和y轴的采样频率,即单位长度的像素个数。由此可得摄像机坐标系与图像像素坐标系转换关系:

其中fx和fy分别为x方向和y方向的等效焦距,因为fx,fy,u0和v0只与摄像机内部结构有关,所以它们为内部参数。

3)世界坐标系与图像像素坐标系的转换

根据之前的两两坐标系转换关系,最终得到的世界坐标系转换为图像像素坐标系的矩阵表达式为:

4)计算摄像机内部参数和外部参数

根据之前的坐标系转换公式,将式写成如下形式:

其中,(xw,yw,zw,1)是空间中三维点的世界坐标,(u,v,1)是图像像素坐标。

经整理可以得到如下线性方程:

将线性方程中的mij看成未知数,则一共有12个需要求解,所以在得到的视频画面中选取6个以上关键点既可求解上述线性方程。

3.目标位置区域预测和图像搜索区域确定

对于本发明的应用场景,基于运动目标的位置信息(gps数据)和尺寸,对运动目标所在的空间范围进行限定,得到包含运动目标的长方体(立方体)区域。

1)立方体的中心在世界坐标系中的坐标(xw,yw,zw)。可直接通过gps数据计算得到(世界坐标系原点任意设定)。

2)定位数据误差。包括gps、北斗等系统获取位置数据的空间误差,或采集频率低以及传输带来的误差。比如,现在gps系统定位的误差在数10米左右。

3)待检测目标尺寸。在本发明使用的应用场景中,待检测目标的类型(如飞机、车辆、人员等)是已知的,所以我们可以对其大小尺寸进行合理限定。如,飞机、车辆、行人的大小分别大致为100米,10米,2米。

把上述2)和3)综合为δxw和δyw,δzw,可以将目标区域限定如下长方体区域。

根据前面计算得到的坐标系映射方程计算其8个顶点对应的图像像素坐标。

将立方体区域的8个顶点全部转换为像素坐标后,需要将这8个像素所构成的不规则区域转变为相邻两边分别平行于图像相邻两边的矩形区域,为此在图像中构建一个将这个不规则区域全部包含在内s的最小矩形,这个矩形即为待检测目标的预测区域。记这个矩形的左上角位置记为(up,vp),宽高为wp×hp。

4.尺度变换

由于主流的目标检测算法要求输入图像具有固定大小,所以这里对上述待检测目标的预测区域进行尺度变换,缩放固定的大小,如512×512像素。

5.目标检测

采用已有的目标检测算法(如参考文献[1]、[2])进行目标检测,得到目标在缩放后图像中的位置。目标以外接矩形表示,左上角记为(ur,vr),宽高为wr×hr。

6.坐标还原

将上述目标检测得到的目标位置映射至原始图像,可得到该目标在大场景图像中的位置,即左上角(uq,vq)和宽高为wq×hq如下。

本发明公开的各优选和可选的技术手段,除特别说明外及一个优选或可选技术手段为另一技术手段的进一步限定外,均可以任意组合,形成若干不同的技术方案。

参考文献

[1]redmonj,divvalas,girshickr,etal.youonlylookonce:unified,real-timeobjectdetection[j].2015.

[2]liuw,anguelovd,erhand,etal.ssd:singleshotmultiboxdetector[j].2015.

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1