可供性检测方法及相关装置

文档序号:31033197发布日期:2022-08-06 02:29阅读:102来源:国知局
可供性检测方法及相关装置

1.本技术涉及图像分割领域,具体而言,涉及一种可供性检测方法及相关装置。


背景技术:

2.可供性体现的是目标物体在环境中展现的功能可能性,具体表现为不仅需要从待识别图像中识别出目标物体,还需要确定出目标物体每个部分的功能;因此,可供性检测需要对目标物体的不同功能区域做像素级别分割识别。
3.相关技术中,采用将待识别图像的高分辨率特征图下采样至低分辨率,再从低分辨率特征图恢复至高分辨率的发明构思;然后,该构思是以一种串联方式连接不同分辨率的特征,会导致深层的特征图的分辨率较小,从而容易丢失精细结构的信息和小物体的信息。
4.因此,其他相关技术中,提出了将待识别图像浅层的高分辨率特征图像与深层的低分辨率特征图相互融合后,再基于融合后的特征图进行图像分割。研究发现,该方式未对可供性检测的无关信息进行区分,导致有时对待识别图像的识别结果不够理想。


技术实现要素:

5.为了克服现有技术中的至少一个不足,本申提供一种可供性检测方法,用于在对图像进行可供性检测时,能够取的更好的可供性检测结果,包括:
6.第一方面,本技术实施例提供一种可供性检测方法,应用于可供性检测设备,所述可供性检测设备配置有预先训练的可供性检测模型,所述可供性检测模型包括多条特征提取分支以及语义编码层,所述方法包括:
7.通过所述多条特征提取分支获得待识别图像的多组特征图,其中,所述多组特征图携带有所述待识别图像从浅层到深层的特征信息;
8.将所述多组特征图中的深层特征图输入到所述语义编码层,获得所述多组特征图各自的权重;
9.根据所述多组特征图各自的权重,将所述多组特征图与所述待识别图像的参考特征图融合成增强特征图;其中,所述参考特征图携带有所述待识别图像的空间结构信息;
10.将所述增强特征图进行解码,获得所述待识别图像的可供性检测结果。
11.第二方面,本技术实施例提供一种可供性检测装置,应用于可供性检测设备,所述可供性检测设备配置有预先训练的可供性检测模型,所述可供性检测模型包括多条特征提取分支以及语义编码层,所述可供性检测装置包括:
12.图像编码模块,用于通过所述多条特征提取分支获得待识别图像的多组特征图,其中,所述多组特征图携带有所述待识别图像从浅层到深层的特征信息;
13.所述图像编码模块,还用于将所述多组特征图中的深层特征图输入到所述语义编码层,获得所述多组特征图各自的权重;
14.所述图像解码模块,用于根据所述多组特征图各自的权重,将所述多组特征图与
所述待识别图像的参考特征图融合成增强特征图;其中,所述参考特征图携带有所述待识别图像的空间结构信息;
15.所述图像解码模块,还用于将所述增强特征图进行解码,获得所述待识别图像的可供性检测结果。
16.第三方面,本技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现所述的可供性检测方法。
17.第四方面,本技术实施例提供一种可供性检测设备,所述可供性检测设备包括处理器以及存储器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,实现所述的可供性检测方法。
18.相对于现有技术而言,本技术具有以下有益效果:
19.本实施例提供的可供性检测方法及相关装置中,该可供性检测设备获取携带有待识别图像从浅层到深层的特征信息的多组特征图;然后,利用其中携带有深层的特征信息的目标特征图确定多组特征图各自的权重,并根据多组特征图各自的权重将多组特征图与参考特征图融合成增强特征图;最后,将增强特征图进行解码,获得待识别图像的可供性检测结果。由于深层的特征信息具有更为丰富的语义信息,适合对其进行全局语义的编码,因此,通过携带有深层的特征信息的目标特征图所确定出的权重,能够对有利于进行图像分割的信息进行增强,并抑制与图像分割无关的信息,从达到提升了对待识别图像的分割效果的目的。
附图说明
20.为了更清楚地说明本技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
21.图1为本技术实施例提供的待识别图像的示例图;
22.图2为本技术实施例提供的传统图像分割效果示意图;
23.图3为本技术实施例提供的可供性检测的图像分割效果示意图;
24.图4为本技术实施例提供的可供性检测设备的结构示意图;
25.图5为本技术实施例提供的可供性检测方法的流程示意图;
26.图6为本技术实施例提供的可供性检测模型的结构示意图之一;
27.图7为本技术实施例提供的可供性检测模型的结构示意图之二;
28.图8为本技术实施例提供的可供性检测装置的结构示意图。
29.图标:10-手锤;101-锤头;102-锤把;120-存储器;130-处理器;140-通信单元;201-图像编码模块;202-图像解码模块。
具体实施方式
30.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本技术实施
例的组件可以以各种不同的配置来布置和设计。
31.因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
32.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
33.在本技术的描述中,需要说明的是,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。此外,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
34.本实施例涉及到可供性检测,为使本技术实施例的目的、技术方案和优点更加清楚,先结合图1对可供性检测的含义进行说明。
35.如图1所示的待识别图像中,包括的目标物体为一手锤10;传统的目标检测方法中,只需要对待识别图像中的目标物体从整体上进行语义分割,其分割结果可以如图2所示。
36.而在一些应用场景中,不仅需要待识别图像中分割出目标物体,还需要对目标物体做进一步的分割,以确定出目标物体的各部分。如图3所示的示例中,当需要控制机械臂的末端握持该手锤10来操作一些任务时,则需要对手锤10进行可供性检测,从待识别图像中区分出手锤10的锤头101和锤把102,其分割结果可以如图3所示。
37.因此,为了对待识别图像进行可供性检测,相关技术中采用将待识别图像的高分辨率特征图下采样至低分辨率,再从低分辨率特征图恢复至高分辨率方式,对待识别图像进行可供性检测,容易丢失精细结构的信息和小物体的信息。因此,在一些其他相关技术中,则提出了将待识别图像浅层的高分辨率特征图像与深层的低分辨率特征图相互融合后,再基于融合后的特征图进行图像分割,以确定出待识别图像中的目标物体各部分的目的。
38.然而该方式虽然克服了将待识别图像的高分辨率特征图下采样至低分辨率,再从低分辨率特征图恢复至高分辨率时,容易丢失精细结构的信息和小物体的信息问题;但是,该方式未对可供性检测的无关信息进行区分,导致有时对待识别图像的识别结果不够理想。
39.需要说明的是,基于上述技术问题的发现,发明人经过创造性劳动提出下述技术方案以解决或者改善上述问题。需要注意的是,以上现有技术中的方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本技术实施例针对上述问题所提出的解决方案,都应该是发明人在发明创造过程中对本技术做出的贡献,而不应当理解为本领域技术人员所公知的技术内容。
40.鉴于上述技术问题,本实施例提供一种应用于可供性检测设备的可供性检测方法。该方法中,可供性检测设备获取携带有待识别图像从浅层到深层的特征信息的多组特
征图;然后,利用其中携带有深层的特征信息的目标特征图确定多组特征图各自的权重,并根据多组特征图各自的权重将多组特征图与参考特征图融合成增强特征图;最后,将增强特征图进行解码,获得待识别图像的可供性检测结果。由于多组特征图各自的权重能够对有利于进行图像分割的信息进行增强,并抑制与图像分割无关的信息;因此,提升了对待识别图像的分割效果。
41.在一些实施方式中,该于可供性检测设备可以是服务器。其中,该服务器可以是单个服务器,也可以是服务器组。服务器组可以是集中式的,也可以是分布式的(例如,服务器可以是分布式系统)。在一些实施例中,服务器相对于用户终端,可以是本地的、也可以是远程的。在一些实施例中,服务器可以在云平台上实现;仅作为示例,云平台可以包括私有云、公有云、混合云、社区云(community cloud)、分布式云、跨云(inter-cloud)、多云(multi-cloud)等,或者它们的任意组合。在一些实施例中,服务器可以在具有一个或多个组件的电子设备上实现。
42.当然,该可供性检测设备还可以是用户终端。其中,该用户终端可以包括移动终端、平板计算机、膝上型计算机、或机动车辆中的内置设备等,或其任意组合。在一些实施例中,移动终端可以包括智能家居设备、可穿戴设备、智能移动设备、虚拟现实设备、或增强现实设备等,或其任意组合。在一些实施例中,智能家居设备可以包括智能照明设备、智能电器设备的控制设备、智能监控设备、智能电视、智能摄像机、或对讲机等,或其任意组合。在一些实施例中,可穿戴设备可包括智能手环、智能鞋带、智能玻璃、智能头盔、智能手表、智能服装、智能背包、智能配件等、或其任何组合。在一些实施例中,智能移动设备可以包括智能手机、个人数字助理(personal digital assistant,pda)、游戏设备、导航设备、或销售点(point of sale,pos)设备等,或其任意组合。
43.为使本技术实施例的目的、技术方案和优点更加清楚,本实施例还提供该可供性检测设备的一结构示意图。如图4所示,该可供性检测设备可以包括存储器120、处理器130、通信单元140。该存储器120、处理器130以及通信单元140各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
44.其中,该存储器120可以是基于任何电子、磁性、光学或其它物理原理的信息记录装置,用于记录执行指令、数据等。在一些实施方式中,该存储器120可以是,但不限于,易失存储器、非易失性存储器、存储驱动器等。
45.其中,仅作为示例,该易失存储器可以是随机存取存储器(random access memory,ram)。该非易失性存储器可以是只读存储器(read only memory,rom)、可编程只读存储器(programmable read-only memory,prom)、可擦除只读存储器(erasable programmable read-only memory,eprom)、电可擦除只读存储器(electric erasable programmable read-only memory,eeprom)、闪存等;该存储驱动器可以是磁盘驱动器、固态硬盘、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合等。
46.该通信单元140用于通过网络收发数据。在一些实施方式中,该网络可以包括有线网络、无线网络、光纤网络、远程通信网络、内联网、因特网、局域网(local area network,lan)、广域网(wide area network,wan)、无线局域网(wireless local area networks,wlan)、城域网(metropolitan area network,man)、广域网(wide area network,wan)、公
共电话交换网(public switched telephone network,pstn)、蓝牙网络、zigbee网络、或近场通信(near field communication,nfc)网络等,或其任意组合。在一些实施例中,网络可以包括一个或多个网络接入点。例如,网络可以包括有线或无线网络接入点,例如基站和/或网络交换节点,服务请求处理系统的一个或多个组件可以通过该接入点连接到网络以交换数据和/或信息。
47.该处理器130可能是一种集成电路芯片,具有信号的处理能力,并且,该处理器可以包括一个或多个处理核(例如,单核处理器或多核处理器)。仅作为举例,上述处理器可以包括中央处理单元(central processing unit,cpu)、专用集成电路(application specific integrated circuit,asic)、专用指令集处理器(application specific instruction-set processor,asip)、图形处理单元(graphics processing unit,gpu)、物理处理单元(physics processing unit,ppu)、数字信号处理器(digital signal processor,dsp)、现场可编程门阵列(field programmable gate array,fpga)、可编程逻辑器件(programmable logic device,pld)、控制器、微控制器单元、简化指令集计算机(reduced instruction set computing,risc)、或微处理器等,或其任意组合。
48.基于上述实施例中的相关介绍,下面结合图5所示的流程图对本实施例提供的可供性检测方法进行详细阐述。但应该理解的是,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本技术内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
49.其中,本实施例中的可供性检测设备配置有预先训练的可供性检测模型,可供性检测模型包括多条特征提取分支以及语义编码层。基于该可供性检测模型,如图5所示,该方法包括:
50.s101,通过多条特征提取分支获得获取待识别图像的多组特征图。
51.其中,多组特征图携带有待识别图像从浅层到深层的特征信息。应理解的是,对于同一卷积神经网络而言,本实施例中的浅层特征信表示靠近输入层的网络层输出的特征信息;深层特征信息则表示远离输入层的网络层输出的特征信息。
52.还应理解的是,现有端到端的可供性检测模型通常包括编码器与解码器,其中,编码器包括依次连接的多个卷积层,用于从待识别图像中提取特征信息,将其转换为特征图;而解码器则包括依次连接的多个反卷积层,用于根据特征图中的特征信息,对待识别图像中的目标物体进行分割。
53.与现有端到端的可供性检测模型类似,本实施例同样包括编码器,但与现有可供性检测模型不同的是,本实施例中的可供性检测模型中,编码器由多条并列的特征提取分支构成,每条特征提取分支包括依次连接的多个卷积层。
54.另外,本实施例考虑到残差网络在进行图像识别处理时,具有诸多优良的特性,因此,本实施例将残差网络引入到传统端到端的可供性检测模型中;用于提升传统可供性检测模型性能。因此,本实施例中的可供性检测模型还包括残差网络层,残差网络层包括与多个特征提取分支一一对应的多个残差单元。基于该可供性检测模型中的多条特征提取分支以及残差网络层,步骤s101可以通过以下实施方式获得待识别图像的多组特征图:
55.s101-1,获取待识别图像。
56.s101-2,将待识别图像输入残差网络层,获得由多个残差单元输出的多组初始特
征图。
57.示例性的,如图6所示的可供性检测模型从功能上划分为编码器和解码器,该模型中的编码器包括4条分支,分别表示为b1,b2,b3,b4,其中,分支b1表示用于传输参考特征图的直连分支,b2,b3,b4则表示多条特征提取分支;用于将输入的初始特征图经过特征提取之后,输出待识别图像的3组特征图。其中,该可供性检测模型经训练后,使得3条特征提取分支能够分别提取侧重不同的特征信息。
58.正如以上实施例所介绍的,该残差网络层包括与多个特征提取分支一一对应的多个残差单元,因此,如图7所示,图中每条特征提起分支的输入端与对应残差单元的输出端连接。可供性检测设备将待识别图像输入到残差网络层,第一个残差单元的输出结果作为直连通道b1的参考特征图,第二个残差单元的输出结果作为特征提取分支b2的初始特征图;第三个残差单元的输出结果作为特征提取分支b3的初始特征图;第四个残差单元的输出结果作为特征提取分支b4的初始特征图。
59.为了使得本领域技术人员能够使用本技术内容,下面给出该残差网络层一种可能的实施方式。对于本领域技术人员来说,在不脱离本技术的精神和范围的情况下,本领域技术人员可以在根本实施例的基础上,为适应其他实施例和应用场景对残差网络层的结构参数进行适应性调整。
60.本实施例中的残差网络层可以直接基于resnet101网络进行修改获得,具体是三层间的残差学习,三层卷积核分别是1
×
1、3
×
3和1
×
1;以及一共有4个残差单元,对应1条直连通道以及3个特征提取分支。其中,第一个残差单元包含3个残差块,有3个3
×
3的卷积层;第二个残差单元包含4个残差块,有4个3
×
3的卷积层;第三个残差单元包含6个残差块,有6个3
×
3的卷积层;第四个残差单元包含3个残差块,有3个3
×
3的卷积层。
61.继续参见图7,基于该残差网络,可供性检测设备首先用一个3
×
3卷积对待识别图像进行特征提取,获得包括64个通道的参考特征图,该参考特征图相较于待识别图像,其特征图的尺寸减半。
62.每一条特征提取分支用于将对应残差单元输出的初始特征图进行特征提取,使得3条特征提取分支分别输出不同维度的特征图。其中,值得注意的是,本实施例中同一特征提取分支中每个网络层输出的特征图保持有相同的特征尺寸。
63.继续参见图7,该可供性检测模型中,从上一特征提取分支到下一特征提取分支,采用步长为2的下采样实现过渡连接,其中,下采样用于减小下一特征提取分支初始特征图的空间尺寸,提高网络的计算效率。具体表现为,b3与b2相比,初始特征图的尺寸减半,通道数为b2初始特征图的2倍;b4与b3相比,初始特征图的尺寸减半,通道数为b3初始特征图的2倍。
64.如此,本实施例将残差网络层引入到可供性检测模型,借助残差网络的特性,提升整个可供性检测模型的分割性能。
65.s101-3,将多组初始特征图按照对应关系输入到多条特征提取分支,获得待识别图像的多组特征图。
66.进一步的,本实施例为了进一步加深特征提取分支之间的特征融合的深度,在每条特征提取分支特征提取过程中,将分支之间的特征进行了融合。
67.继续参见图6,可供性检测设备将3组初始特征图分别输入特征提取分支b2,b3,b4;
针对每条特征提取分支,通过以下方式与剩余的特征提取分支进行特征融合,获得对应的特征图:
[0068][0069][0070]
式中,yi表示特征提取分支bi输出的一组特征图,f
ij
(xj)表示将特征提取分支bj输出的一组待融合特征图xj与特征提取分支bi输出的一组待融合特征图进行融合之前需要进行的采样处理,2
×
(i-j)times

表示需要对xj进行下采样倍数;2
×
(j-i)times

表示需要对xj进行上采样倍数。也即是说,符号

表示下采样操作,符号

表示上采样操作。
[0071]
继续参见图6,针对特征提取分支b2,可供性检测设备将特征提取分支b3与将特征提取分支b4输出的待融合特征图进行上采样之后,与特征提取分支b2输出的待融合特征图进行逐像素相加,获得提取分支b2对应的一组特征图;
[0072]
针对特征提取分支b3,可供性检测设备将特征提取分支b2输出的待融合特征图进行下采样以及将特征提取分支b4输出的待融合特征图进行上采样之后,与征提取分支b3输出的待融合特征图进行逐像素相加,获得提取分支b3对应的一组特征图;
[0073]
针对特征提取分支b4,可供性检测设备将特征提取分支b2以及将特征提取分支b3输出的待融合特征图进行下采样之后,与征提取分支b4输出的待融合特征图进行逐像素相加,获得提取分支b4对应的一组特征图。
[0074]
示例性的,假定待识别图像的尺寸为[w,h,3],其中,b2,b3,b4三条特征提取分支对应待融合特征图的尺寸为分别为应待融合特征图的尺寸为分别为因此,在将3条特征提取分支之间进行特征融合时,可以采用3
×
3卷积对高分辨率特征下采样,采用最邻近法对低分辨率特征进行上采样,将不同分支特征变换为相同的分辨率和通道数后,采用逐像素相加的方式进行融合,这样使得每一分支的特征都融合了其他分支的特征。
[0075]
再次参见图5,在步骤s101之后,该可供性检测方法还包括:
[0076]
s102,将多组特征图中的深层特征图输入到语义编码层,获得多组特征图各自的权重。
[0077]
应理解的是,深层的特征信息具有更为丰富的语义信息,适合对其进行全局语义的编码,实现从全局层面探索待识别图像中各类别特征之间关系,因此,本实施例选择基于携带有深层的特征信息的深层特征图,用于确定多组特征图各自的权重。
[0078]
示例性的,继续参见图6所示的3条特征提取分支,按照所提取特征从浅层到深层顺序,依次为b2,b3,b4;因此,b4所提取的特征最具有深度,携带最多的语义信息,则可以将
分支b4输出的特征图作为深层特征图,输入到语义编码层,获得3组特征图各自权重。
[0079]
可选地实施方式中,本实施例中的语义编码层可以基于netvlad实现。因此步骤s102可以包括以下实施方式:
[0080]
s102-1,通过语义编码层采用netvlad的方式对深层特征图进行编码,获得全局特征。
[0081]
s102-2,将全局特征按照以下方式,转换为多组特征图各自的权重系数:
[0082][0083]
式中,e包括多组特征图各自的权重系数,表示v的归一化结果,v表示全局特征,表示通过全连接层将转换为c
×1×
1的向量,c与多组特征图的数量相对应,σ表示sigmoid函数。
[0084]
值得注意的是,netvlad在图像检索中可以有效的捕获图片的整体特征,因此,通常被用在图像检索领域。发明人研究发现,本实施中多条特征提取分支中输出的深层特征信息与图像检索时所捕获图片的整体特征类似,同样具有丰富的语义信息,因此,将其作为本实施例中的语义编码层,从全局层面探索待识别图像中各类别特征之间关系,从而确定多组特征图各自的权重。
[0085]
netvlad的原理在于,假定将一个图像的字典表示为d={d1,d2…
,dn},共包含n个编码词,代表n个聚类中心。字典的学习过程可以在网络中通过训练得到,其中编码词的个数n是可以人为设定,根据设定的n,通过反向传播端到端的方式在训练中学习到对应个数的编码词。因此,可以在不同的数据集中调整n的值。
[0086]
具体实施方式中,假定将输入的特征表示为c
×h×
w的三维矩阵,其中,c表示通道数量,h和w分别表示特征图的高和宽;然后,将其视为m个维度为c的局部描述子xi,将xi和编码词进行残差计算,将残差结果表示为:
[0087]ri,j
=x
i-dj[0088]
基于该残差表达式,可以使用软分配的方式来确定深层特征中每个通道权值,相应的计算公式为:
[0089][0090]
如此,根据每个局部特征到聚类中心的距离来获取权重,具体表现为,xi与dj之间越接近,则权重越接近1,反之越接近0。与局部特征相对应的全局特征则表示为:
[0091][0092]
其中,v(i,j)是一个n
×
c的向量,反映的是局部特征在n个编码分类的残差分布。
[0093]
将获得的v(i,j)进行归一化处理后,输入到全连接层处理,使之转换为c
×1×
1的向量;并经sigmoid函数映射为0到1之间的权重系数值e,作为深层特征每个通道的权重。例如,对于图6中的3条特征提取分支输出的3组特征图,则需要c
×1×
1中c的值为3。
[0094]
继续参见图5,在步骤s102之后,该可供性检测方法还包括:
[0095]
s103,根据多组特征图各自的权重,将多组特征图与待识别图像的参考特征图融合成增强特征图。
[0096]
其中,参考特征图携带有待识别图像的空间结构信息。另外,经研究发现,通过卷积神经网络对待识别图像进行特征提取时,浅层的特征图携带有待识别图像丰富的空间结构信息(例如,目标物体在待识别图像中边缘轮廓以及待识别图像的尺寸信息等);因此,为了进一步提升对待识别图像的分割效果,本实施例将待识别图像经过一次特征提取的特征图作为参考特征图,对融合特征图中的边缘轮廓信息进行修正。因此,步骤s103可以包括以下实施方式:
[0097]
s103-1,根据多组特征图各自的权重,将多组特征图按照以下方式融合成融合特征图:
[0098][0099]
式中,表示融合特征图,f包括多组特征图,表示将多组特征图与多组特征图各自的权重系数进行加权求和;
[0100]
假定将f中的多组特征图分别表示为f1,f2,f3…
,fn,则融合特征图与多组特征图之间的关系可以表示为:
[0101][0102]
其中,a
nfn
中的an表示第n组特征图fn的权重。在一些实施方式中,一组特征图可以包括多个通道,因此,当其中特征图包括多个通道时,可以将多个通道的特征图融合成一张特征图之后,再进行加权求和。
[0103]
另外,由于浅层特征与深层特征的特征维度不同,因此,在将多组特征图进行融合之前,需要将多组特征图调整到相同的尺度。而考虑到具有深层特征信息的特征图丢失很多的空间结构信息,因此,本实施例选择具有浅层特征信息的特征图作为尺寸标准,对其他特征图进行上采样。如此,使得融合后的融合特征图不仅携带有浅层的空间结构信息,还携带有深层的语义信息。
[0104]
例如,可以将图6中的特征提取分支b2输出的特征图作为尺寸标准,对b3、b4输出的特征图进行上采样,使得b3、b4输出的特征图与b2输出的特征图具有相同的尺寸之后,再进行融合。
[0105]
s103-2,将融合特征与参考特征图进行融合,获得增强特征图。
[0106]
关于该参考特征图,可以继续参见图6,在图6所示3条特征提取分支之外,该可供性检测模型还包括一条直连通道。基于该直连通道,在解码器中将待识别图像经一次特征提取出的参考特征图与编码器中3条特征提取分支的特征图进行融合;获得经过参考特征图修正后的增强特征图;最后,由解码器对增强特征图进行解码操作,转换为待识别图像的分割结果。
[0107]
其中,参考特征图与融合特征图之间可以通过多种方式进行融合,本领域技术人员可以根据实施场景的需要进行适应性选择。一些实施方式中,可以将两者在特征层面进行相加。其他实施方式中,则可以将两者在通道层面进行相加。
[0108]
以在通道层面进行相加为例,假定融合特征图具有3个通道,参考特征图具有1个
通道,若以通道层面进行相加,则获得的增强特征图具有4个通道。
[0109]
再次参见图5,在步骤s103之后,该可供性检测方法还包括:
[0110]
s104,将增强特征图进行解码,获得待识别图像的可供性检测结果。
[0111]
如此,基于以上实施方式,该可供性检测设备获取携带有待识别图像从浅层到深层的特征信息的多组特征图;然后,利用其中携带有深层的特征信息的目标特征图确定多组特征图各自的权重,并根据多组特征图各自的权重将多组特征图与参考特征图融合成增强特征图;最后,将增强特征图进行解码,获得待识别图像的可供性检测结果。由于深层的特征信息具有更为丰富的语义信息,适合对其进行全局语义的编码,因此,通过携带有深层的特征信息的目标特征图所确定出的权重,能够对有利于进行图像分割的信息进行增强,并抑制与图像分割无关的信息,从达到提升了对待识别图像的分割效果的目的。
[0112]
另外,由于本实施例中的可供性检测模型基于人工神经网络的原理实现,因此,需要将具有相同结构的可供性检测模型训经样本图像练成可供性检测模型。因此,在一些实施方式中,可以采集rgb格式的图像,使用标注工具对其每个像素的所属的可供性类别进行标注,从而获得样本图像;然后,将样本图像划分为训练集和测试集,用于对可供性检测模型进行训练以及验证。其他实施方式中,还可以从现成的公开数据集获取样本图像用于进行训练,例如,该公开数据集可以是iit-aff。不管采用何种手段,还可以对样本图像进行一些图片的预处理,比如缩放、旋转、翻转、缩放和随机中心裁剪,以及均值归一化处理。
[0113]
基于与本实施例所提供可供性检测方法相同的发明构思,本实施例还提供一种可供性检测装置,可供性检测装置包括至少一个可以软件形式存储于存储器120或固化在可供性检测设备的操作系统(operating system,简称os)中的软件功能模块。其中,可供性检测设备配置有预先训练的可供性检测模型,可供性检测模型包括多条特征提取分支以及语义编码层。基于该可供性检测模型,请参照图8,从功能上划分,可供性检测装置可以包括:
[0114]
图像编码模块201,用于通过多条特征提取分支获得待识别图像的多组特征图,其中,多组特征图携带有待识别图像从浅层到深层的特征信息。
[0115]
图像编码模块201,还用于将多组特征图中的深层特征图输入到语义编码层,获得多组特征图各自的权重。
[0116]
本实施例中,该图像编码模块201用于实现图5中的步骤s101-s102,关于图像编码模块201的详细描述可以参见步骤s101-s102的详细描述。
[0117]
图像解码模块202,用于根据多组特征图各自的权重,将多组特征图与待识别图像的参考特征图融合成增强特征图;其中,参考特征图携带有待识别图像的空间结构信息。
[0118]
图像解码模块202,还用于将增强特征图进行解码,获得待识别图像的可供性检测结果。
[0119]
本实施例中,该图像解码模块202用于实现图5中的步骤s103-s104,关于图像解码模块202的详细描述可以参见步骤s103-s104的详细描述。
[0120]
另外,在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。并且,在一些实施方式中,该可供性检测装置还可以包括其他软件功能模块,用于实现本实施所提供可供性检测方法的其他步骤或者子步骤。
[0121]
还应理解的是,以上实施方式如果以软件功能模块的形式实现并作为独立的产品
销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。
[0122]
因此,本实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时,实现本实施例提供的可供性检测方法。其中,该计算机可读存储介质可以是u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0123]
本实施例提供的一种可供性检测设备。该可供性检测设备可包括处理器130及存储器120。处理器130与存储器120可经由系统总线通信。并且,存储器120存储有计算机程序,处理器通过读取并执行存储器120中与以上实施方式对应的计算机程序,实现本实施例所提供的可供性检测方法。
[0124]
应该理解到的是,在上述实施方式中所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本技术的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0125]
以上所述,仅为本技术的各种实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应所述以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1