基于深度神经网络的目标检测方法、系统及装置与流程

文档序号:18011205发布日期:2019-06-26 00:06阅读:202来源:国知局
基于深度神经网络的目标检测方法、系统及装置与流程

本发明涉及计算机视觉技术领域,具体涉及一种基于深度神经网络的目标检测方法、系统及装置。



背景技术:

近几年,目标检测技术引起人们的极大关注,并在众多领域取得广泛的应用,但是基于航拍影像的目标检测任务仍然面临很多挑战。首先,大多数航空影像都是垂直或倾斜地在高空拍摄获取,所以图像背景从地面拍摄的自然景观图像更混乱。例如,在航拍影像中检测车辆时,一些类似的物体,如屋顶设备和变电站箱可能导致误报检测。其次,在广阔的视野拍摄影像时,航拍影像中的物体非常小、且密度高于自然场景影像。最后,缺乏大规模和良好的注释数据集,这限制了训练网络的检测性能。

目前,对航拍影像的目标检测方法大多基于滑动窗口搜索和浅层学习的特征,但是由于该方法不能从航拍影像中获取检测对象全面的信息,所以其应用十分有限,并导致其在不同任务的监测结果的不一致性。例如,基于r-cnn的目标检测方法,虽然卷积神经网络具有可以学习强大的层次结构功能,但是它们用于在航拍影像中对象检测任务时,由于该网络执行多个最大化和下采样操作,会导致信号下采样问题和相对较弱的空间描述。另一方面,由于航拍设备的高度多变和多角度旋转,航拍影像中的物体通常具有小尺寸和多尺度和形状的变形,这本质上限制了卷积神经网络的空间描述能力。



技术实现要素:

本发明的目的是提供一种基于深度神经网络的目标检测方法、系统及装置,能够检测视频中背景复杂、密度高、目标小的目标,提高目标检测的精度。

为达成上述目的,本发明的第一方面,提供了一种基于深度神经网络的目标检测方法,所述方法包括:

基于预设的特征学习网络提取待测视频中视频帧的不同尺度的深层特征;

对所述视频帧进行超像素分割获取所述视频帧对应的超像素结构图;

对所述深层特征和超像素结构图进行特征融合获取融合特征;

基于预设的条件随机场网络并且根据所述融合特征进行目标语义分类得到目标语义标签;

根据所述目标语义标签进行边框回归得到目标检测结果。

进一步地,“对所述视频帧进行超像素分割获取所述视频帧对应的超像素模型图”的步骤包括:

基于简单线性迭代聚类算法对所述视频帧进行超像素分割;

计算超像素分割后得到的每个超像素块的像素平均值;

根据每个超像素块与其它各超像素块之间基于像素平均值表示的概率依赖关系获取超像素结构图。

进一步地,在“基于预设的条件随机场网络并且根据所述融合特征进行目标语义分类得到目标语义标签”的步骤之前,所述方法还包括:

基于预设的融合特征并且采用最大条件似然法对所述条件随机场网络进行网络训练。

进一步地,“基于预设的融合特征并且采用最大条件似然法对所述条件随机场网络进行网络训练”的步骤包括:

按照下式所示的方法优化所述条件随机场网络的网络权重:

其中,v表示超像素结构图中超像素块集合,e表示相邻超像素块的连接关系集合,eij表示第i个超像素块与第j个超像素块之间的连接关系,x(n)表示第n个融合特征,表示所述第n个融合特征中第i个超像素块对应的权重,表示所述第n个融合特征中第j个超像素块对应的权重,n=1,2,3…,m,m表示融合特征的数量,表示预设的所述x(n)对应的单元项函数,表示预设的所述x(n)对应的二元项函数,z(x(n),w)表示预设的基于所述x(n)、w的条件推论函数,ci,cj分别表示第i个超像素块、第j个超像素块对应的初始分类概率值,li,lj分别表示第i个超像素块、第j个超像素块对应的分类类别,w表示所述条件随机场网络的权重并且w=[wn,we],w*表示所述w优化后的值,wn表示预设的所述单元项函数的权重,we表示预设的所述二元项函数的权重,t表示向量或矩阵的转置,pk(yk,a)表示第k个超像素块属于第a个预设类别的概率分布函数,yk,a表示第k个超像素块属于第a个预设类别的概率,γk表示所述第k个超像素块的颜色信息对应的权重,λ表示预设的非负l2正则化参数,表示2范数的平方。

本发明的第二方面,还提供了一种基于深度神经网络的目标检测系统,所述系统包括:

特征提取模块,配置为基于预设的特征学习网络提取待测视频中视频帧的不同尺度的深层特征;

超像素分割模块,配置为对所述视频帧进行超像素分割获取所述视频帧对应的超像素结构图;

特征融合模块,配置为对所述深层特征和超像素结构图进行特征融合获取融合特征;

语义分类模块,配置为基于预设的条件随机场网络并且根据所述融合特征进行目标语义分类得到目标语义标签;

目标检测模块,配置为根据所述目标语义标签进行边框回归得到目标检测结果。

进一步地,所述超像素分割模块进一步配置为执行如下操作:

基于简单线性迭代聚类算法对所述视频帧进行超像素分割;

计算超像素分割后得到的每个超像素块的像素平均值;

根据每个超像素块与其它各超像素块之间基于像素平均值表示的概率依赖关系获取超像素结构图。

进一步地,所述系统还包括网络训练模块,所述网络训练模块配置为执行如下操作:

基于预设的第一融合特征并且采用最大条件似然法对所述条件随机场网络进行网络训练。

进一步地,所述网络训练模块进一步配置为按照下式所示的方法优化所述条件随机场网络的网络权重:

其中,v表示超像素结构图中超像素块集合,e表示相邻超像素块的连接关系集合,eij表示第i个超像素块与第j个超像素块之间的连接关系,x(n)表示第n个融合特征,表示所述第n个融合特征中第i个超像素块对应的权重,表示所述第n个融合特征中第j个超像素块对应的权重,n=1,2,3…,m,m表示融合特征的数量,表示预设的所述x(n)对应的单元项函数,表示预设的所述x(n)对应的二元项函数,z(x(n),w)表示预设的基于所述x(n)、w的条件推论函数,ci,cj分别表示第i个超像素块、第j个超像素块对应的初始分类概率值,li,lj分别表示第i个超像素块、第j个超像素块对应的分类类别,w表示所述条件随机场网络的权重并且w=[wn,we],w*表示所述w优化后的值,wn表示预设的所述单元项函数的权重,we表示预设的所述二元项函数的权重,t表示向量或矩阵的转置,pk(yk,a)表示第k个超像素块属于第a个预设类别的概率分布函数,yk,a表示第k个超像素块属于第a个预设类别的概率,γk表示所述第k个超像素块的颜色信息对应的权重,λ表示预设的非负l2正则化参数,表示2范数的平方。

本发明的第三方面,还提供了一种存储装置,其中存储多条程序,所述程序适于由处理器加载并执行以实现上述的基于深度神经网络的目标检测方法。

本发明的第四方面,还提供了一种处理装置,包括处理器,适于执行各条程序;以及存储设备,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于深度神经网络的目标检测方法。

本发明的优点是:

本发明提供的基于深度神经网络的目标检测方法,可以检测视频中背景复杂、密度高、目标小的目标,提高目标检测的精度。

附图说明

图1是本发明实施例中的一种基于深度神经网络的目标检测方法的主要步骤示意图。

图2是本发明实施例中的一种基于深度神经网络的目标检测方法的主要流程示意图。

图3是本发明实施例中的一种在uav23数据集上的目标检测结果示意图。

图4是本发明实施例中的一种基于深度神经网络的目标检测系统的主要结构示意图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。

参阅附图1,图1示例性示出了一种基于深度神经网络的目标检测方法的主要步骤,如图1所示,本发明的基于深度神经网络的目标检测方法可以包括如下步骤:

步骤s1:基于预设的特征学习网络提取待测视频中视频帧的不同尺度的深层特征。

具体地,待测视频为欲进行目标检测任务的视频序列,其包含多个视频帧。特征学习网络可以是利用机器学习算法构建的深度卷积网络。由于检测目标在各视频帧中的位置、旋转、尺度等具有多变性,而利用卷积操作提取的特征表达对倾斜、平移、缩放等是具有不变性,因此,深层特征可以在航拍视频中分层表达小目标和背景信息,提高目标检测精度,并且利用不同尺度的深层特征实现目标检测比基于人工提取浅层特征的方法更准确方便。

本实施例中,特征学习网络在网络训练阶段,从matconvnet预训练的神经网络中vlfeat49工具箱提取深层特征,所选的特征学习网络为21层的“imagenet-vgg-f”,利用其第5,13,16层来训练特征学习网络。

步骤s2:对视频帧进行超像素分割获取视频帧对应的超像素结构图。

具体地,基于简单线性迭代聚类算法对视频帧进行超像素分割;计算超像素分割后得到的每个超像素块的像素平均值;根据每个超像素块的像素平均值和其它超像素块的像素平均值之间的概率依赖关系获取超像素结构图。该超像素结构图是一种描述多元随机变量之间条件独立关系的概率模型,其由一组节点和节点之间的边组成,每个节点表示一个随机变量(或一组随机变量),边表示这些随机变量之间的概率依赖关系。基于上述方法还可以消除视频帧中少量零散的异常像素点,以进一步提高目标检测的精度。另外,视频帧中的超像素的数量远小于像素的数量,因此可以显著提高网络的运算速度。超像素结构图中可以明确保留超像素块之间的边界,可以更加精确的区分相邻物体,进一步地提高对小目标的监测精度。本实施中,超像素分割过程中,超像素邻域大小设置为15,归一化因子设置为0.1。

步骤s3:对深层特征和超像素结构图进行特征融合获取融合特征。具体地,以超像素结构图作为视频帧的一特征表示,将深层特征和超像素结构图进行特征融合,获取融合特征。该融合特征为一深度多尺度特征。

步骤s4:基于预设的条件随机场网络并且根据所述融合特征进行目标语义分类得到目标语义标签。

具体地,条件随机场网络为基于条件随机场构建的神经网络,条件随机场具有很强的显示空间关系学习能力,本实施例中,基于预设的条件随机场网络并且根据所述融合特征进行目标语义分类得到目标语义标签,该目标语义标签可以为视频帧中每个像素点的属于某一类别的概率标签(如0.99的概率为行人的类别)。

本实施中,还包括对条件随机场网络进行网络训练的步骤。具体地,基于预设的融合特征并且采用最大条件似然法对条件随机场网络进行网络训练,并且按照公式(1)所示的方法优化条件随机场网络的网络权重:

其中,v表示超像素结构图中超像素块集合,e表示相邻超像素块的连接关系集合,eij表示第i个超像素块与第j个超像素块之间的连接关系,x(n)表示第n个融合特征,表示第n个融合特征中第i个超像素块对应的权重,表示第n个融合特征中第j个超像素块对应的权重,n=1,2,3…,m,m表示融合特征的数量,融合特征的数量可以等于待测视频中视频帧的数量,表示预设的x(n)对应的单元项函数,表示预设的x(n)对应的二元项函数,z(x(n),w)表示预设的基于x(n)、w的条件推论函数,ci,cj分别表示第i个超像素块、第j个超像素块对应的初始分类概率值,li,lj分别表示第i个超像素块、第j个超像素块对应的分类类别,w表示条件随机场网络的权重并且w=[wn,we],w*表示w优化后的值,wn表示预设的单元项函数的权重,we表示预设的二元项函数的权重,t表示向量或矩阵的转置,pk(yk,a)表示第k个超像素块属于第a个预设类别的概率分布函数,yk,a表示第k个超像素块属于第a个预设类别的概率,γk表示所述第k个超像素块的颜色信息对应的权重,λ表示预设的非负l2正则化参数,表示2范数的平方。

步骤s4:根据目标语义标签进行边框回归得到目标检测结果。具体地,根据目标语义标签获取识别的目标,对识别的目标进行边框回归,得到视频帧中每个目标位置信息和大小信息。

参阅附图2,图2示例性示出了基于深度神经网络的目标检测方法的主要流程,如图2所示基于深度神经网络的目标检测方法可以包括:基于特征学习网络提取待测视频中视频帧的不同尺度的深层特征;对视频帧进行超像素分割获取视频帧对应的超像素结构图;对深层特征和超像素结构图进行特征融合获取融合特征;基于条件随机场网络并且根据融合特征进行目标语义分类得到目标语义标签;根据目标语义标签进行边框回归得到目标检测结果。

上述实施例中虽然将各个步骤按照上述先后次序的方式进行描述,但是本领域技术人员可以理解,为了实现本实施例的效果,不同步骤之间不必按照这样的次序执行,其可以同时(并行)执行或以颠倒的次序执行,这些简单的变化都在本发明的保护范围之内。

为了说明本发明方法的有效性,采用uav123数据库对本发明方法的有效性进行评估。该数据库是2016年新创建的用于无人机航拍影像目标跟踪和检测的数据库,共包含123个视频,选择其中33个视频生成48770个图片,这些图片包含了所有数据库中的场景,在其中13871个图片中人工标注检测框真值。训练集和测试集随机分为1∶1的比例。目标检测对象主要集中于自行车,船,建筑物、人、轿车等等。采用国际上认可的3个指标:precision,recall,f1-score,与目前目标检测的最新方法进行对比,结果如表1所示。其中,“acf2015”表示文献“k.liuandg.mattyus,″fastmulticlassvehicledetectiononaerialimages,″ieeegeoscienceandremotesensingletters,vol.12,no.9,pp.1938-1942,2015”中提出的方法,“avpn”表示文献“z.deng,h.sun,s.zhou,j.zhao,andh.zou,″towardfastandaccuratevehicledetectioninaerialimagesusingcoupledregion-basedconvolutionalneuralnetworks,″ieeejournalofselectedtopicsinappliedearthobservationsandremotesensing,vol.10,no.8,pp.3652-3664,2017”中提出的方法,“hrpn+cc”表示文献“t.tang,s.zhou,z.deng,h.zou,andl.lei,″vehicledetectioninaerialimagesbasedonregionconvolutionalneuralnetworksandhardnegativeexamplemining,″sensors(basel,switzerland),vol.17,no.2,p.336,2017”中提出的方法。

表1性能对比结果

从表1可以看出,本发明方法可以很好的获取目标的分层结构特征和空间关系特征,本发明方法获得了较高的precision,recall,f1-score三个指标。

参阅附图3,图3示例性示出了本发明方法在uav23数据集上的目标检测结果,如图3所示,每一行均为4个连续视频帧组成的视频序列,第一行为检测船只的目标检测任务,第二行为检测小轿车的目标检测任务,第三行为行人检测任务小轿车的目标检测任务,从图中可以看出针对不同视角以及类别的物体,尤其涉及背景复杂、密度高、目标小的目标,本发明方法均可以精确的完成检测任务,可以较好的应用于复杂的无人机航空影像目标检测。

基于与上述方法实施例相同的发明构思,本发明实施例还提供了一种基于深度神经网络的目标检测系统。下面结合附图对本发明提供的基于深度神经网络的目标检测系统进行说明。

参阅附图4,图4示例性示出了基于深度神经网络的目标检测系统的主要结构,如图4所示,基于深度神经网络的目标检测系统可以包括特征提取模块1,配置为基于预设的特征学习网络提取待测视频中视频帧的不同尺度的深层特征;超像素分割模块2,配置为对视频帧进行超像素分割获取视频帧对应的超像素结构图;特征融合模块3,配置为对深层特征和超像素结构图进行特征融合获取融合特征;语义分类模块4,配置为基于预设的条件随机场网络并且根据融合特征进行目标语义分类得到目标语义标签;目标检测模块5,配置为根据目标语义标签进行边框回归得到目标检测结果。

进一步地,超像素分割模块2进一步配置为执行如下操作:基于简单线性迭代聚类算法对视频帧进行超像素分割;计算超像素分割后得到的每个超像素块的像素平均值;根据每个超像素块与其它各超像素块之间基于像素平均值表示的概率依赖关系获取超像素结构图。

进一步地,系统还包括网络训练模块,网络训练模块配置为执行如下操作:基于预设的第一融合特征并且采用最大条件似然法对条件随机场网络进行网络训练。

进一步地,网络训练模块进一步配置为按照公式(1)所示的方法优化条件随机场网络的网络权重。

进一步地,基于上述方法实施例,本发明实施例还提供了一种存储装置,该存储多条程序,这些程序适于由处理器加载并执行以实现上述的基于深度神经网络的目标检测方法。

进一步地,基于上述方法实施例,本发明实施例还提供了一种处理装置,包括该处理装置包括处理器和存储设备。其中,处理器可以适于执行各条程序,存储设备可以适于存储多条程序,这些程序适于由处理器加载并执行以实现上述的基于深度神经网络的目标检测方法。

所属技术领域的技术人员可以清楚地了解到,为了描述的方便和简洁,本发明实施例的装置的具体工作过程以及相关说明,可以参考前述实施例方法中的对应的过程,且与上述方法具有相同的有益效果,在此不再赘述。

本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的方法步骤及系统,能够结合本文中所公开的实施例描述的各示例的方法步骤及装置,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

以上所述是本发明的较佳实施例及其所运用的技术原理,对于本领域的技术人员来说,在不背离本发明的精神和范围的情况下,任何基于本发明技术方案基础上的等效变换、简单替换等显而易见的改变,均属于本发明保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1