
1.本发明涉及人工智能技术领域,尤其涉及一种多模态和多尺度融合的候选区域生成方法及相关装置。
背景技术:2.候选区域生成算法旨在从图像中尽可能找到有可能存在所需物体的区域。候选区域生成算法中涉及到了图像处理、机器学习、模式识别等多个领域的技术,主要广泛应用于人脸识别、违禁品检测、犯人追踪、车牌识别等领域。现有的候选区域生成算法根据使用特征的生成方式的不同可以分为基于滑动窗口法、基于超像素分组法和基于深度特征的方法。
3.基于滑动窗口法预先设定固定大小的窗口,使用这个窗口在图像中滑动,每滑动到的位置就是一个候选区域。基于超像素分组的方法先将图像划分为不同区域来识别潜在的物体,然后根据颜色、纹理等信息通过不断迭代将相似度高的区域合并成最终的候选区域。这类方法都是基于手工特征来实现的,有着计算量大、鲁棒性差、准确率低的缺点。随着深度学习的发展,如今也有许多结合深度学习来实现的候选区域生成算法。通过卷积神经网络学习图像的深度特征,利用深度特征来生成的候选区域更加准确、鲁棒性也更强。
4.然而,目前的候选区域生成算法大多都是基于彩色图像来进行计算的,而彩色图像对光照很敏感,在复杂或弱光环境检测精度会有所下降。如今也有一些多模态融合的方法被提出,但是当前的多模态融合方法默认输入的图像是完善的,很少考虑到所输入图像中的噪声和质量问题。同时,在基于深度学习的候选区域生成算法中常用来解决尺度不变性问题的特征金字塔网络中,利用最近邻插值的上采样方法只根据空间位置信息来构建上采样特征图,这种方式是不准确的。而且直接叠加特征图的方式没有考虑特征图不同通道间重要程度的差异性,这些问题都影响候选区域生成算法的最终精度。
技术实现要素:5.本发明实施例的主要目的在于提供一种多模态和多尺度融合的候选区域生成方法及相关装置,至少能够解决相关技术中提供的候选区域生成算法的鲁棒性差、精度低等问题。
6.为实现上述目的,本发明实施例第一方面提供了一种多模态和多尺度融合的候选区域生成方法,应用于包括特征提取主干网络、多模态融合网络、多尺度聚合网络以及候选区域生成网络的整体神经网络,该方法包括:
7.通过两个平行的所述特征提取主干网络对彩色图以及相应深度图分别进行特征提取处理,得到彩色图特征以及深度图特征;其中,所述特征提取主干网络包括多个特征提取层;
8.通过所述多模态融合网络分别获取每一尺度所述彩色图特征以及所述深度图特征的模态互补特征,并基于所述模态互补特征生成中间特征图,然后分别获取评价所述彩
色图特征不同空间位置重要程度以及评价所述深度图特征不同空间位置重要程度的概率特征图,并基于所述概率特征图对所述中间特征图进行聚合,得到多模态融合特征;
9.通过所述多尺度聚合网络逐层建立所输入的相邻两个所述多模态融合特征中高分辨率特征图和分辨率特征图之间的对应关系,生成流偏移特征图,然后基于所述流偏移特征图所指示的相邻特征图之间每一像素位置在两个方向上的偏移量,获取上采样特征图,并基于所述上采样特征图生成多尺度融合特征图;
10.通过所述候选区域生成网络分别对每一尺度的所述多尺度融合特征图进行预测头部操作,然后将每一尺度的预测目标共同经过非极大值抑制操作,生成候选区域结果。
11.为实现上述目的,本发明实施例第二方面提供了一种多模态和多尺度融合的候选区域生成装置,应用于包括特征提取主干网络、多模态融合网络、多尺度聚合网络以及候选区域生成网络的整体神经网络,该装置包括:
12.提取模块,用于通过两个平行的所述特征提取主干网络对彩色图以及相应深度图分别进行特征提取处理,得到彩色图特征以及深度图特征;其中,所述特征提取主干网络包括多个特征提取层;
13.第一融合模块,用于通过所述多模态融合网络分别获取每一尺度所述彩色图特征以及所述深度图特征的模态互补特征,并基于所述模态互补特征生成中间特征图,然后分别获取评价所述彩色图特征不同空间位置重要程度以及评价所述深度图特征不同空间位置重要程度的概率特征图,并基于所述概率特征图对所述中间特征图进行聚合,得到多模态融合特征;
14.第二融合模块,用于通过所述多尺度聚合网络逐层建立所输入的相邻两个所述多模态融合特征中高分辨率特征图和分辨率特征图之间的对应关系,生成流偏移特征图,然后基于所述流偏移特征图所指示的相邻特征图之间每一像素位置在两个方向上的偏移量,获取上采样特征图,并基于所述上采样特征图生成多尺度融合特征图;
15.生成模块,用于通过所述候选区域生成网络分别对每一尺度的所述多尺度融合特征图进行预测头部操作,然后将每一尺度的预测目标共同经过非极大值抑制操作,生成候选区域结果。
16.本技术实施例第三方面提供了一种电子装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时,实现上述本技术实施例第一方面提供的方法中的各步骤。
17.本技术实施例第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时,实现上述本技术实施例第一方面提供的方法中的各步骤。
18.根据本发明实施例提供的多模态和多尺度融合的候选区域生成方法及相关装置,引入深度图信息为网络带来丰富的三维几何结构信息,以此来改善单模态候选区域生成算法的局限性。同时,所提出的门机制引导的多模态融合模块考虑了输入图像的噪声和图像质量问题,能够利用模态间的互补特征去弥补另一模态特征中的噪声,提高各模态特征的质量,并且该模块能够在充分聚合有用的多模态信息同时减少冗余特征的引入。此外,为了获取更高质量的多尺度特征,利用流引导的多尺度聚合模块来提高高级语义信息在网络间传递的效率,让每个多尺度特征都能够获取到有用的全局信息,从而生成更准确的候选区域框。
19.本发明其他特征和相应的效果在说明书的后面部分进行阐述说明,且应当理解,至少部分效果从本发明说明书中的记载变的显而易见。
附图说明
20.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
21.图1为本发明第一实施例提供的候选区域生成方法的基本流程示意图;
22.图2为本发明第一实施例提供的门机制引导的多模态融合网络的结构示意图;
23.图3为本发明第一实施例提供的流引导的上采样网络的结构示意图;
24.图4为本发明第一实施例提供的通道注意力叠加网络的结构示意图;
25.图5为本发明第二实施例提供的候选区域生成装置的程序模块示意图;
26.图6为本发明第三实施例提供的电子装置的结构示意图。
具体实施方式
27.为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
28.第一实施例:
29.为了解决相关技术中提供的候选区域生成算法的鲁棒性差、精度低等技术问题,本实施例提出了一种候选区域生成方法,应用于包括特征提取主干网络、多模态融合网络、多尺度聚合网络以及候选区域生成网络的整体神经网络,如图1所示为本实施例提供的候选区域生成方法的基本流程示意图,本实施例提出的候选区域生成方法包括以下的步骤:
30.步骤101、通过两个平行的特征提取主干网络对彩色图以及相应深度图分别进行特征提取处理,得到彩色图特征以及深度图特征。
31.具体的,以kinect相机为例,其配置有一个彩色相机以及一个红外相机,彩色相机用于拍摄彩色图,而红外相机则用于同时拍摄深度图,深度图可以提供更多的几何信息和空间信息,应当说明的是,本实施例的特征提取主干网络包括多个特征提取层,分别用于提取多个不同尺度的图像特征。
32.步骤102、通过多模态融合网络分别获取每一尺度彩色图特征以及深度图特征的模态互补特征,并基于模态互补特征生成中间特征图,然后分别获取评价彩色图特征不同空间位置重要程度以及评价深度图特征不同空间位置重要程度的概率特征图,并基于概率特征图对中间特征图进行聚合,得到多模态融合特征。
33.具体的,图像采集过程中不可避免地存在噪声信息,以往的融合方法未能考虑输入图像特征中存在的噪声,本实施例提出多模态融合网络来让两个模态的信息互补并进行融合,可有效消除噪声特征,减少冗余特征的引入,提升各模态特征的质量。
34.在本实施例一种可选实施方式中,上述通过多模态融合网络分别获取每一尺度彩
色图特征以及深度图特征的模态互补特征,并基于模态互补特征生成中间特征图的步骤,具体包括:通过多模态融合网络分别将每一尺度彩色图特征以及深度图特征进行卷积操作,得到模态互补特征;对模态互补特征进行全局平均池化操作以及多层感知计算,得到两个方向的特征向量;采用非线性激活函数对特征向量进行压缩,生成中间特征图。
35.如图2所示为本实施例提供的一种门机制引导的多模态融合网络的结构示意图,在本实施例中,多模态融合网络输入主干网络中每一层两个分支的特征图,输入特征分别经过卷积操作获得初步的模态互补特征,同时结合经过全局平均池化、多层感知机网络计算出来的注意力向量,获得优化后的互补特征,互补特征通过叠加操作去弥补另一模态特征来生成高质量特征图。
36.然而,不同模态间同样存在共有特征,如直接融合两个模态会引入额外的冗余信息,因此本实施例利用空间维度上的门机制来限制两个模态特征图之间的冗余信息,有选择地聚合多模态特征。具体的,将输入特征图经过级联操作后通过卷积和softmax操作计算得到两个衡量不同模态在不同空间位置上重要程度的概率特征图,在这两个概率特征图的基础上将前面生成的高质量特征图进行聚合得到最终的多模态融合特征。
37.步骤103、通过多尺度聚合网络逐层建立所输入的相邻两个多模态融合特征中高分辨率特征图和分辨率特征图之间的对应关系,生成流偏移特征图,然后基于流偏移特征图所指示的相邻特征图之间每一像素位置在两个方向上的偏移量,获取上采样特征图,并基于上采样特征图生成多尺度融合特征图。
38.在本实施例中,多尺度聚合网络包括流引导的上采样网络,该上采样网络采用自顶而下的路径实现。经典特征金字塔中采用最近邻插值的方法进行上采样,而实际上经过网络多层的卷积操作后相邻特征层之间的映射关系不能够简单地用空间位置信息来建模,因此,本实施例提出了流引导的上采样网络来生成更准确的上采样特征图。如图3所示为本实施例提供的一种流引导的上采样网络的结构示意图,模块分别输入高分辨率特征图(浅层特征图)和低分辨率特征图(深层特征图),通过网络学习来建模相邻特征图之间的对应关系生成流偏移特征图,流偏移特征图表示相邻特征图之间每一像素位置在两个方向上的偏移量,基于该偏移量,利用双线性采样机制来获得上采样输出。
39.在本实施例一种可选实施方式中,上述基于流偏移特征图所指示的相邻特征图之间每一像素位置在两个方向上的偏移量,获取上采样特征图的步骤,包括:基于流偏移特征图所指示的相邻特征图之间每一像素位置在两个方向上的偏移量,利用双线性采样机制获取初步上采样特征图;分别计算高分辨率特征图以及初步上采样特征图对应的空间权重特征图;基于空间权重特征图对高分辨率特征图以及初步上采样特征图进行叠加处理,得到最终输出的上采样特征图。
40.具体的,考虑到不同空间位置有着不同的重要性,本实施例还将进一步利用全局的空间信息来优化上采样网络最终输出的每一像素值。具体操作是分别计算出输入至上采样网络的高分辨率特征图和上采样输出特征图的空间权重特征图,将两个经过空间位置加权的特征图相加后获得流引导的上采样网络的最终输出,获得更准确的上采样特征图。
41.进一步地,在本实施例一种可选实施方式中,上述基于上采样特征图生成多尺度融合特征图的步骤,包括:分别计算低分辨率特征图以及上采样特征图对应的权重向量;采用相应权重向量分别对低分辨率特征图以及卷积处理后的上采样特征图进行加权融合,生
成多尺度融合特征图。
42.具体的,本实施例的多尺度聚合网络还包括一自底而上的通道注意力叠加网络。以往的相邻特征图的叠加操作忽略了不同通道的作用和重要程度是存在差异的,本实施例引入通道注意力机制来优化这一叠加操作,提出了一种通道注意力叠加网络,网络细节如4所示。该网络在叠加两个相邻特征图之前先分别计算出各自的权重向量。随后利用权重向量在特征图叠加时进行加权优化,此过程可总结如下:
43.n
i+1
=p
i+1
*ω
i+1
+conv
down
(ni)*ωi44.p
i+1
和ni分别表示网络输入的低分辨率特征图和上采样特征图,ω
i+1
和ωi分别表示所得到的权重向量,conv
down
表示用于将两输入特征图调整为相同尺寸的步长卷积层。
45.步骤104、通过候选区域生成网络分别对每一尺度的多尺度融合特征图进行预测头部操作,然后将每一尺度的预测目标共同经过非极大值抑制操作,生成候选区域结果。
46.具体的,多尺度聚合网络输出多个不同尺度的融合特征图,每一个特征图都经过一个预测头部来预测不同尺寸的目标,每一尺度的预测目标共同经过非极大值抑制操作来生成最终的候选区域框。
47.根据本发明实施例提供的多模态和多尺度融合的候选区域生成方法,引入深度图信息为网络带来丰富的三维几何结构信息,以此来改善单模态候选区域生成算法的局限性。同时,所提出的门机制引导的多模态融合模块考虑了输入图像的噪声和图像质量问题,能够利用模态间的互补特征去弥补另一模态特征中的噪声,提高各模态特征的质量,并且该模块能够在充分聚合有用的多模态信息同时减少冗余特征的引入。此外,为了获取更高质量的多尺度特征,利用流引导的多尺度聚合模块来提高高级语义信息在网络间传递的效率,让每个多尺度特征都能够获取到有用的全局信息,从而生成更准确的候选区域框。
48.第二实施例:
49.为了解决相关技术中提供的候选区域生成算法的鲁棒性差、精度低等技术问题,本实施例示出了一种候选区域生成装置,应用于包括特征提取主干网络、多模态融合网络、多尺度聚合网络以及候选区域生成网络的整体神经网络,具体请参见图5,本实施例的候选区域生成装置包括:
50.提取模块501,用于通过两个平行的特征提取主干网络对彩色图以及相应深度图分别进行特征提取处理,得到彩色图特征以及深度图特征;其中,特征提取主干网络包括多个特征提取层;
51.第一融合模块502,用于通过多模态融合网络分别获取每一尺度彩色图特征以及深度图特征的模态互补特征,并基于模态互补特征生成中间特征图,然后分别获取评价彩色图特征不同空间位置重要程度以及评价深度图特征不同空间位置重要程度的概率特征图,并基于概率特征图对中间特征图进行聚合,得到多模态融合特征;
52.第二融合模块503,用于通过多尺度聚合网络逐层建立所输入的相邻两个多模态融合特征中高分辨率特征图和分辨率特征图之间的对应关系,生成流偏移特征图,然后基于流偏移特征图所指示的相邻特征图之间每一像素位置在两个方向上的偏移量,获取上采样特征图,并基于上采样特征图生成多尺度融合特征图;
53.生成模块504,用于通过候选区域生成网络分别对每一尺度的多尺度融合特征图进行预测头部操作,然后将每一尺度的预测目标共同经过非极大值抑制操作,生成候选区
域结果。
54.在本实施例一种可选的实施方式中,第一融合模块在执行通过多模态融合网络分别获取每一尺度彩色图特征以及深度图特征的模态互补特征,并基于模态互补特征生成中间特征图的功能时,具体用于:通过多模态融合网络分别将每一尺度彩色图特征以及深度图特征进行卷积操作,得到模态互补特征;对模态互补特征进行全局平均池化操作以及多层感知计算,得到两个方向的特征向量;采用非线性激活函数对特征向量进行压缩,生成中间特征图。
55.在本实施例一种可选的实施方式中,第二融合模块在执行基于流偏移特征图所指示的相邻特征图之间每一像素位置在两个方向上的偏移量,获取上采样特征图的功能时,具体用于:基于流偏移特征图所指示的相邻特征图之间每一像素位置在两个方向上的偏移量,利用双线性采样机制获取初步上采样特征图;分别计算高分辨率特征图以及初步上采样特征图对应的空间权重特征图;基于空间权重特征图对高分辨率特征图以及初步上采样特征图进行叠加处理,得到最终输出的上采样特征图。
56.进一步地,在本实施例一种可选的实施方式中,第二融合模块在执行基于上采样特征图生成多尺度融合特征图的功能时,具体用于:分别计算低分辨率特征图以及上采样特征图对应的权重向量;采用相应权重向量分别对低分辨率特征图以及卷积处理后的上采样特征图进行加权融合,生成多尺度融合特征图。
57.应当说明的是,前述实施例中的候选区域生成方法均可基于本实施例提供的候选区域生成装置实现,所属领域的普通技术人员可以清楚的了解到,为描述的方便和简洁,本实施例中所描述的候选区域生成装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
58.采用本实施例提供的多模态和多尺度融合的候选区域生成装置,引入深度图信息为网络带来丰富的三维几何结构信息,以此来改善单模态候选区域生成算法的局限性。同时,所提出的门机制引导的多模态融合模块考虑了输入图像的噪声和图像质量问题,能够利用模态间的互补特征去弥补另一模态特征中的噪声,提高各模态特征的质量,并且该模块能够在充分聚合有用的多模态信息同时减少冗余特征的引入。此外,为了获取更高质量的多尺度特征,利用流引导的多尺度聚合模块来提高高级语义信息在网络间传递的效率,让每个多尺度特征都能够获取到有用的全局信息,从而生成更准确的候选区域框。
59.第三实施例:
60.本实施例提供了一种电子装置,参见图6所示,其包括处理器601、存储器602及通信总线603,其中:通信总线603用于实现处理器601和存储器602之间的连接通信;处理器601用于执行存储器602中存储的一个或者多个计算机程序,以实现上述实施例一中的候选区域生成方法中的至少一个步骤。
61.本实施例还提供了一种计算机可读存储介质,该计算机可读存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、计算机程序模块或其他数据)的任何方法或技术中实施的易失性或非易失性、可移除或不可移除的介质。计算机可读存储介质包括但不限于ram(random access memory,随机存取存储器),rom(read-only memory,只读存储器),eeprom(electrically erasable programmable read only memory,带电可擦可编程只读存储器)、闪存或其他存储器技术、cd-rom(compact disc read-only memory,光盘只
读存储器),数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。
62.本实施例中的计算机可读存储介质可用于存储一个或者多个计算机程序,其存储的一个或者多个计算机程序可被处理器执行,以实现上述实施例一中的方法的至少一个步骤。
63.本实施例还提供了一种计算机程序,该计算机程序可以分布在计算机可读介质上,由可计算装置来执行,以实现上述实施例一中的方法的至少一个步骤;并且在某些情况下,可以采用不同于上述实施例所描述的顺序执行所示出或描述的至少一个步骤。
64.本实施例还提供了一种计算机程序产品,包括计算机可读装置,该计算机可读装置上存储有如上所示的计算机程序。本实施例中该计算机可读装置可包括如上所示的计算机可读存储介质。
65.可见,本领域的技术人员应该明白,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件(可以用计算装置可执行的计算机程序代码来实现)、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。
66.此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、计算机程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。所以,本发明不限制于任何特定的硬件和软件结合。
67.以上内容是结合具体的实施方式对本发明实施例所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。