本文所述的本主题总体上披露了一种用于检测图像中存在的对象的装置和方法。换句话说,本技术披露了用于对象检测的基于软注意力的显著性图生成技术。
背景技术:
1、有许多用于图像中的对象检测的算法,比如基于区域的卷积神经网络(r-cnn)、fast r-cnn、faster r-cnn、yolov2、单次检测器(ssd)等。这些最先进的算法在整个图像中搜索目标对象。这些算法在计算上效率低下,在生物学上也不可信。这会导致评估指标性能较低,训练持续时间也较长。
2、在现实生活中,当人类在图像中搜索特定对象时,眼睛会在注视点之间快速移动(称为扫视),然后才落到目标对象上。眼睛移动的轨迹根据人类观察者感兴趣的对象而不同。每个注视点都表示图像中人类所“关注”的区域。人类的视觉注意力被认为是随着眼睛移动而移动。然而,现有的技术倾向于处理整个输入帧,而不是聚焦/搜索输入帧中的判别特征。
3、因此,需要一种基于注意力的模型来定位图像中的对象。
技术实现思路
1、本披露内容克服了现有技术的一个或多个缺点并且提供了本披露内容中讨论的额外优点。通过本披露内容的技术实现了附加的特征和优点。本文详细描述了本披露内容的其他实施例和方面,并且这些实施例和方面被视为所要求保护的本披露内容的一部分。
2、在本披露内容的一个非限制性实施例中,披露了一种用于检测图像中存在的对象的方法。该方法包括接收包括至少一个待检测对象的输入图像,并通过使用软注意力技术修改所接收的图像的亮度来生成软注意力图像。该方法进一步叙述了使用第一cnn模型处理所接收的输入图像以提取第一特征图,并使用第二cnn模型处理软注意力图像以提取第二特征图。该方法进一步叙述了整合第一特征图和第二特征图以生成堆叠特征图、处理堆叠特征图以生成显著性图以及基于显著性图检测至少一个对象。
3、在另一个非限制性实施例中,本披露内容叙述了生成软注意力图像包括将所接收的输入图像的亮度通道乘以多元高斯函数,使得所接收的输入图像的亮度被修改为在该多元高斯函数的中心处较高,并且随着与该多元高斯函数中心的距离增加而降低。
4、在另一个非限制性实施例中,本披露内容叙述了软注意力图像是通过以下方式生成的:将所接收的输入图像转换为包括亮度通道的hsv图像;将该hsv图像的亮度通道乘以多元高斯函数,使得该hsv图像的亮度被修改为在该多元高斯函数的中心处较高,并且随着与该多元高斯函数中心的距离增加而降低;在修改该hsv图像的亮度之后,将修改后的hsv图像转换为rgb图像,以生成该软注意力图像。
5、在另一个非限制性实施例中,本披露内容叙述了基于显著性图检测至少一个对象包括检测该显著性图中的最高活动度,其中,该最高活动度对应于该对象的位置。
6、在又一个非限制性实施例中,本披露内容叙述了检测显著性图中的最高活动度包括在该显著性图上创建多个轮廓;通过计算每个轮廓内的平均像素值来计算每个轮廓的密度,其中,选择密度最高的轮廓作为该对象的位置。
7、在又一个非限制性实施例中,本披露内容叙述了该第一特征图和该第二特征图分别是使用一个或多个特征检测器对所接收的图像和该软注意力图像进行卷积运算来生成的,并且该第一特征图和该第二特征图是矩阵的集合,其中,该矩阵集合包括表示所接收的输入图像和该软注意力图像的颜色、纹理、形状和亮度中的至少一者的像素值。
8、在又一个非限制性实施例中,本披露内容叙述了该堆叠特征图包括从该第一特征图和该第二特征图的矩阵集合中获得的合并矩阵,其中,合并矩阵包括表示所接收的输入图像和该软注意力图像的颜色、纹理、形状和亮度中的至少一者的合并像素值。该显著性图包括从这些合并矩阵获得的显著性矩阵,其中,这些显著性矩阵的显著性像素值是所接收的输入图像内的指示所接收的输入图像中的至少一个待检测对象的区域。
9、在又一个非限制性实施例中,本披露内容披露了一种检测图像中存在的对象的装置。该装置包括输入/输出(i/o)接口,其被配置为接收包括至少一个待检测对象的输入图像。该装置进一步包括与该i/o接口操作性地耦合的软注意力图像生成单元。该软注意力生成单元被配置为通过使用软注意力技术修改所接收的图像的亮度来生成软注意力图像。该装置进一步包括与该i/o接口和该软注意力图像生成单元操作性地耦合的注意力搜索单元。该注意力搜索单元被配置为使用第一cnn模型处理所接收的图像以提取第一特征图,使用第二cnn模型处理该软注意力图像以提取第二特征图,使用整合模型整合该第一特征图和该第二特征图以生成堆叠特征图,以及使用图生成模型处理该堆叠特征图以生成该显著性图。该装置进一步包括与该i/o接口、该软注意力图像生成单元和该注意力搜索单元操作性地耦合的处理单元。该处理单元被配置为基于该显著性图检测该至少一个对象。
10、在又一个非限制性实施例中,本披露内容叙述了生成软注意力图像,该软注意力图像生成单元被配置为将所接收的输入图像的亮度通道乘以多元高斯函数,使得所接收的输入图像的亮度被修改为在该多元高斯函数的中心处较高,并且随着与该多元高斯函数中心的距离增加而降低。
11、在又一非限制性实施例中,本披露内容叙述了为了生成软注意力图像,该软注意力图像生成单元被配置为将所接收的输入图像转换为包括亮度通道的hsv图像;将该hsv图像的亮度通道乘以多元高斯函数,使得该hsv图像的亮度被修改为在该多元高斯函数的中心处较高,并且随着与该多元高斯函数中心的距离增加而降低;以及在修改该hsv图像的亮度之后,将修改后的hsv图像转换为rgb图像,以生成该软注意力图像。
12、在本披露内容的又一个非限制性实施例中,为了基于该显著性图检测该至少一个对象,该处理单元被配置为检测该显著性图中的最高活动度,其中,该最高活动度对应于该对象的位置。
13、在本披露内容的又一个非限制性实施例中,为了检测显著性图中的最高活动度,该处理单元被配置为在该显著性图上创建多个轮廓,并且通过计算每个轮廓内的平均像素值来计算每个轮廓的密度。选择密度最高的轮廓作为该对象的位置。
14、在本披露内容的又一个非限制性实施例中,本技术披露了该第一特征图和该第二特征图分别是使用一个或多个特征检测器对所接收的输入图像和软注意力图像进行卷积运算来生成的。该第一特征图和该第二特征图是矩阵的集合,其中,该矩阵集合包括表示所接收的输入图像和该软注意力图像的颜色、纹理、形状和亮度中的至少一者的像素值。
15、
16、在又一非限制性实施例中,本披露内容叙述了该堆叠特征图包括从该第一特征图和该第二特征图的矩阵集合中获得的合并矩阵,其中,合并矩阵包括表示所接收的输入图像和该软注意力图像两者的颜色、纹理、形状和亮度中的至少一者的合并像素值,并且该显著性图包括从这些合并矩阵获得的显著性矩阵,其中,这些显著性矩阵的显著性像素值是所接收的输入图像内的指示所接收的输入图像中的至少一个待检测对象的区域。
17、前面的
技术实现要素:
仅是说明性的而不旨在以任何方式进行限制。除了以上描述的说明性方面、实施例和特征之外,通过参考附图和以下详细描述,进一步的方面、实施例和特征将变得显而易见。