本发明属于计算机视觉、模式识别与机器学习领域,具体涉及一种跨模态目标检测中的差异自动校准方法、系统、装置。
背景技术:
行人检测是计算机视觉领域的一个重要研究课题,有着视频监控、自动驾驶、机器人等多种应用。近年来,机器人视觉、行人检测和3d目标检测等领域的许多工作表明,引入新的输入模态可以提高检测器的性能,并提供比单一传感器系统更有竞争力的优势。此外,随着新型传感器(如红外和深度摄像机)变得更便宜、更容易获得,更多的应用可以使用多模态输入源,包括自动驾驶、安全监控、军事行动等。受此推动,多光谱行人检测引起了广泛关注,其为解决不利的照明条件和遮挡等具有挑战性的问题提供了新的机会。
在现有的多光谱行人数据集中,彩色-热度图像都在最大程度上进行了几何对齐,并且数据集提供了建模共享注释,大多数最先进的多光谱行人探测器都是在此基础上构建其框架。然而,在实际场景中,由于多种因素,这种模式对齐假设很难成立,例如传感器的物理特性差异(如视差、分辨率不匹配和视场不完善)、对齐算法的不完善、外部干扰和硬件老化。此外,即使自动对齐的多光谱数据集中,许多的彩色-热度图像对中仍然可以观察到非刚性变换。由于位置移动问题的存在,这使得行人定位变得更加困难。本专利将其定义为跨模态差异问题,即两种或两种以上模式之间图像的空间差异,具体体现为多光谱行人检测中的彩色-热度差异。
一般来说,彩色-热度差异问题主要在两个方面降低了行人探测器的性能。首先,要融合的特征是不一致的,因为不同的光谱输入图像在相应位置不匹配,这可能导致不稳定的推断,包括分类和定位。另外,对于一个真实的行人实例,没有明确指出哪个模态的图像作为参考图像,会使得检测器难以确定可靠的位置。其次,由于彩色-热度差异问题,模态共享的标签会引入严重的标签偏差。具体来说,由于标签同时分配给彩色和热度图像,所以标签的边界框需要变得更宽以同时框住两种模态的目标。这自然地为每种模态单独引入了偏差,并导致定位过程中的回归目标发生偏差。除此之外,对于基于深度卷积神经网络(cnn)的探测器,偏置标签会影响小批量采样过程,因为在这个过程中,交叉联合(iou)重叠用于前景/背景分类的计算。
此外,彩色热像仪的校准和对准过程是非常复杂的,并且通常需要特定的硬件以及特殊的校准板。一旦设备开始运行,一些不可避免的外力,诸如机械振动和温度变化等,很有可能降低校准质量。因此,在实际应用中,如何在不匹配的模态情况下稳定地定位行人仍然是多光谱行人探测器面对的最为关键的问题之一。
技术实现要素:
为了解决现有技术中的上述问题,即为了解决彩色-热度图像差异问题导致检测不准确的问题,本发明第一方面,提出了一种跨模态目标检测中的差异自动校准方法,该方法包括:
步骤s10,获取待检测的彩色-热度多模态图像,构建输入图像集合;
步骤s20,获取所述输入图像集合中各模态图像的特征图,并基于各模态图像的特征图提取共享候选区域;
步骤s30,将得到的各共享候选区域对齐,通过池化得到各共享候选区域的特征表示;
步骤s40,基于预设双层全连接分类器获取共享候选区域的特征表示的类别,通过偏差回归获取共享候选区域的位置;
步骤s50,根据共享候选区域的特征表示的类别,采用非极大值抑制,获取概率最大的共享候选区域,并根据共享候选区域的位置返回到待检测图像中进行标记。
在一些优选的实施方式中,“基于各模态图像的特征图提取共享候选区域”,其方法为,先对各模态图像的特征图进行1×1卷积操作进行点对点融合,并使用rpn网络提取共享候选区域。
在一些优选的实施方式中,所述各共享候选区域对齐,其方法为;
使用roialign方法将共享候选区域进行区域特征聚集,采用减法计算得到区域特征残差;
基于所述的区域特征残差,获取偏移目标,通过smoothl1损失进行偏移目标的变换对齐。
在一些优选的实施方式中,所述偏移目标包括共享候选区域的中心坐标x,y对应的偏移目标tx,ty,其获取方法为:
tx=(xs-xr)/wr
ty=(ys-yr)/hr
其中,xs,xr分别表示感测模态和参考模态的标定的x轴坐标值,ys,yr分别表示感测模态和参考模态的标定的y轴坐标值,wr表示参考模态的包围框的宽度,hr表示为表示参考模态的包围框的高度。
在一些优选的实施方式中,所述偏移目标在训练过程中进行随机抖动,获取模态之间新的偏移变换关系,其计算方法如下:
其中,
在一些优选的实施方式中,所述rpn网络在训练过程中,除预训练初始化涉及的层外,其他新层使用的均值为0,标准差为0.01的高斯分布进行初始化。
在一些优选的实施方式中,步骤s50“非极大值抑制”,阈值设置为0.5,通过对类内的所有输出框进行降序排列,逐步删除与最高得分框重叠度高于阈值的冗余框。
本发明的第二方面,提出了一种跨模态目标检测中的差异自动校准系统,该系统包括获取模块、提取模块、对齐模块、分类模块、输出模块;
所述的获取模块,配置为获取待检测的彩色-热度多模态图像,构建输入图像集合;
所述的提取模块,配置为获取所述输入图像集合中各模态图像的特征图,并基于各模态图像的特征图提取共享候选区域;
所述的对齐模块,配置为将得到的各共享候选区域对齐,通过池化得到各共享候选区域的特征表示;
所述的分类模块,配置为基于预设双层全连接分类器获取共享候选区域的特征表示的类别,通过偏差回归获取共享候选区域的位置;
所述的输出模块,配置为根据共享候选区域的特征表示的类别,采用非极大值抑制,获取概率最大的共享候选区域,并根据共享候选区域的位置返回到待检测图像中进行标记。
本发明的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序应用由处理器加载并执行上述的跨模态目标检测中的差异自动校准方法。
本发明的第四方面,提出了一种处理设置,包括处理器、存储装置;处理器,适用于执行各条程序;存储装置,适用于存储多条程序;所述程序适用于由处理器加载并执行上述的跨模态目标检测中的差异自动校准方法。
本发明的有益效果:
本发明显著提高了行人探测器的鲁棒性和跨模态检测的准确性。本发明以端到端的方式进行训练,基于跨模态差异的影响,提供了密集的彩色-热度注释对,分别表示出了每种模态的信息。基于标记对,提出了一种新的检测框架,包括区域特征对齐(rfa)模块和roi(感兴趣/候选区域)抖动训练策略两部分,使得模型能够在模态之间对齐区域性特征,并防止模型从原始数据集学习具有偏置的变换模式,最终使检测器在面对跨模态差异问题时更加稳定。
附图说明
通过阅读参照以下附图所做的对非限制性实施例所做的详细描述,本申请的其他特征、目的和优点将会变得更明显。
图1是本发明一种实施例的跨模态目标检测中的差异自动校准方法的流程示意图;
图2本发明一种实施例的跨模态目标检测中的差异自动校准系统的框架示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明的跨模态目标检测中的差异自动校准方法,如图1所示,包括以下步骤:
步骤s10,获取待检测的彩色-热度多模态图像,构建输入图像集合;
步骤s20,获取所述输入图像集合中各模态图像的特征图,并基于各模态图像的特征图提取共享候选区域;
步骤s30,将得到的各共享候选区域对齐,通过池化得到各共享候选区域的特征表示;
步骤s40,基于预设双层全连接分类器获取共享候选区域的特征表示的类别,通过偏差回归获取共享候选区域的位置;
步骤s50,根据共享候选区域的特征表示的类别,采用非极大值抑制,获取概率最大的共享候选区域,并根据共享候选区域的位置返回到待检测图像中进行标记。
为了更清晰地对本发明跨模态目标检测中的差异自动校准方法进行说明,下面结合附图1对本发明方法一种实施例中各步骤进行展开详述。
下文优选实施例中,先对卷积神经网络进行训练,然后再采用卷积神经网络检测彩色-热度多模态图像中的行人目标的跨模态目标检测中的差异自动校准方法进行详述。
1、卷积神经网络的训练
(1)获取样本
本发明旨在研究跨模态目标检测中的差异问题,具体以行人为例。实验的样本基于kaist多光谱基准数据集,为了研究跨模态差异,对基准数据集进行了模态独立的重新标记。由于目标在不同模态的图像上的定位出现偏差,本发明提供了密集的彩色-热度标记对,在kaist数据集中形成更清晰的单个行人的多模态信息,实验基于重新标注后的数据集进行训练。
(2)图像预处理
为了防止输入网络的数据表现出较大差异的分布,使得图像处理的效果更好。在开始图像处理前,对所有的图像数据进行归一化操作,使得归一化后的数据均值为0,方差为1。训练图片和测试图片在送入网络前,都需进行该操作。为保持一致,彩色和热度图像均使用相同的预处理方式。使用像素值归一化简化并规整像素的分布,增强数据可靠性,提高后续处理的效果。
(3)特征提取
本发明采用卷积神经网络分别对不同模态的图像进行特征提取,由于不同的模态具有不同的图像表观,因此两种模态对应的卷积神经网络参数也相互独立。使用在imagenet数据集上预训练的vgg16模型的前几层的参数对基础的卷积神经网络模型参数进行初始化,并在反向传播的过程中进行更新。通过卷积,vgg16模型可以分别得到彩色和热度模态的特征图。
(4)提取候选区域
经过上述特征提取后,为了得到尽量覆盖两个模态的候选区域。本发明将特征图通过1×1卷积操作进行点对点融合,并使用rpn网络提取候选区域。具体地,将得到融合特征图进行一次卷积,在卷积得到的新特征图上进行滑窗卷积。
特征图上每一个卷积位置表示一组锚点,每组锚点有9个,包括了3种不同的尺度和长宽比。每个锚点的卷积结果为一组256维的向量表示,通过两个全连接层同时预测出包围框的回归值和是否为目标的得分值。在这一步中,除了预训练初始化涉及的层外,其他新层均使用均值为0、标准差为0.01的高斯分布进行初始化,通过反向传播训练,可以得到所需的rpn网络。
(5)预测参考模态和感测模态之间的变换关系
为了消除不同模态之间检测得到的区域的位移并汇集特征,本发明提出了一种区域特征对齐模块,用以预测参考模态和感测模态之间的偏移变换关系。区域对齐模块首先给出若干感兴趣区域后,将roi适度扩大以包含区域的足够上下文信息。对于每种模态,我们使用roialign层将区域特征汇集到具有h×w的固定空间范围(例如7×7)的小特征映射中。其中,h,w为数值参数,没有实际意义。然后通过减法计算得到残差的区域特征并将其送入到全连接层中以预测该区域在两个模态之间的位置偏移。由于提出了彩色-热度标注对,彩色为参考模态,热度为感测模态,我们可以访问两种模态的标定区域,因此可以按公式(1)(2)计算偏移目标:
tx=(xs-xr)/wr(1)
ty=(ys-yr)/hr(2)
其中,偏移目标包括共享候选区域的中心坐标x,y对应的偏移目标tx,ty,xs,xr分别表示感测模态和参考模态的标定的x轴坐标值,ys,yr分别表示感测模态和参考模态的标定的y轴坐标值,wr表示参考模态的包围框的宽度,hr表示为表示参考模态的包围框的高度。
我们用smoothl1损失作为评估预测偏移变换的精准性的回归损失,计算如公式(3)所示:
其中,i是小批量训练集中roi的索引,ti是通过偏移变换之后预测的坐标,
对于每一个训练样本,我们使的目标函数最小化,计算如式(4)所示:
其中,pi和gi是行人的预测置信度和坐标,
(6)roi抖动策略
为了减少训练偏差的影响和进一步增强rfa模块的稳定性,本发明提出了一种roi抖动训练策略。通过对roi进行一定范围内的随机抖动,我们可以得到模态之间新的偏移变换关系,如式(5)所示:
其中,
使用式(5)的边界框偏移变换的逆过程将roi抖动到新的感兴趣区域roij,并对这个新的roi进行相应的偏移目标计算以及模型预测。这一步骤可以增强训练数据的多样性,提高模型对偏移的泛化能力,具体的抖动方式以及范围可自行设定,以适应不同的场景和任务。
(7)区域特征池化
综合对齐后各个模态的区域特征,得到每个感兴趣区域的特征表示。此时,将rpn网络的输出结果进行融合,应用到区域全连接卷积神经网络上,并通过roialign方法进行池化得到感兴趣区域的特征表示,这一步不需要额外学习参数。其中,roialign方法通过插值得到目标值,可以减轻池化时对特征图的粗糙量化。
(8)包围框的分类以及位置偏差回归
对上一步得到的特征表示,使用双层全连接分类器进行分类处理,所述的双层全连接分类器,其中第一层全连接层由预训练权重进行初始化,第二层全连接层使用正态分布初始化,预测偏差回归,以精细化包围框的位置。
(9)稀疏化处理
由以上步骤构建好神经网络结构,进行后向传播的训练。训练结束后,使用剪枝方法对网络进行稀疏化处理。
2、跨模态目标检测中的差异自动校准方法
步骤s10,获取待检测的彩色-热度多模态图像,构建输入图像集合。
本实施例中,首先获取彩色-热度多模态图像,即可见光和红外图像信息。可见光图像的信噪比较高,而且具有颜色、边缘、纹理等比较丰富的细节信息,能更多的反应背景中的边缘和纹理信息。但受照明情况的影响比较大,容易导致图像不清晰。红外图像主要是利用红外摄像机采集目标与背景的不同热幅度强度形成图像,利用行人目标和背景之间的温度差来突出目标,不受阴影或光线状况影响。因此,可见光和红外图像成为基于视觉进行全时段行人检测的重要手段。基于获取到的可见光和红外图像进行像素值归一化,简化并规整像素的分布。
步骤s20,获取所述输入图像集合中各模态图像的特征图,并基于各模态图像的特征图提取共享候选区域。
本实施例中,基于归一化得到的彩色-热度多模态图像,从图像中取多个区域,针对每个区域求取目标所属类别(行人/背景)的分数,通过1×1卷积操作进行点对点融合,并使用多模态融合的rpn网络生成一系列候选区域。
vgg16在加深网络层数的同时,为了避免参数过多,在所有层都采用3×3的小卷积核,卷积层步长设置为1。基于输入的图片,从图片中取多个区域,对每个区域求各类的分数,最后取平均值,得到特征图。
将特征图通过1×1卷积操作进行点对点融合,并使用rpn网络卷积融合特征图得到候选区域。
步骤s30,将得到的各共享候选区域对齐,通过池化得到各共享候选区域的特征表示。
本实施例中,使用roialign方法将共享候选区域进行区域特征聚集,采用减法计算得到区域特征残差。基于所述的区域特征残差,计算偏移目标,通过smoothl1损失进行偏移目标的变换。基于对齐的共享候选区域,基于训练的区域特征池化得到共享候选区域的特征表示。
步骤s40,基于预设双层全连接分类器获取共享候选区域的特征表示的类别,通过偏差回归获取共享候选区域的位置。
本实例中,基于双层全连接分类器对共享候选区域的特征表示进行识别,并基于s30得到的区域特征的残差进行回归分析,获取共享区域的位置。
所述的双层全连接分类器,其中第一层全连接层由预训练权重进行初始化,第二层全连接层使用正态分布初始化,预测偏差回归,以精细化包围框的位置。
步骤s50,根据共享候选区域的特征表示的类别,采用非极大值抑制,获取概率最大的共享候选区域,并根据共享候选区域的位置返回到待检测图像中进行标记。
本实施例中,根据已分类的共享候选区域,通过传统非极大值算法,非极大值的阈值设置为0.5,通过对类内的所有输出框进行降序排列,逐步删除与最高得分框重叠度高于阈值的冗余框,找到概率最大的共享候选区域,即行人目标位置所在区域。
本发明第二实施例的一种跨模态目标检测中的差异自动校准系统,如图2所示,包括:获取模块100、提取模块200、对齐模块300、分类模块400、输出模块500;
获取模块100,配置为获取待检测的彩色-热度多模态图像,构建输入图像集合;
提取模块200,配置为获取所述输入图像集合中各模态图像的特征图,并基于各模态图像的特征图提取共享候选区域;
对齐模块300,配置为将得到的各共享候选区域对齐,通过池化得到各共享候选区域的特征表示;
分类模块400,所述的分类模块,配置为基于预设双层全连接分类器获取共享候选区域的特征表示的类别,通过偏差回归获取共享候选区域的位置;
输出模块500,配置为根据共享候选区域的特征表示的类别,采用非极大值抑制,获取概率最大的共享候选区域,并根据共享候选区域的位置返回到待检测图像中进行标记。
所述技术领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的系统的具体的工作过程及有关说明,可以参考签署方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的跨模态目标检测中的差异自动校准系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适用于由处理器加载并实现上述的跨模态目标检测中的差异自动校准方法。
本发明第四实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的跨模态目标检测中的差异自动校准方法。
所述技术领域的技术人员可以清楚的了解到,未描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考签署方法实例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。