用于评估显著性图确定器的设备和方法与流程

文档序号:23691492发布日期:2021-01-23 10:12阅读:144来源:国知局
用于评估显著性图确定器的设备和方法与流程

[0001]
本公开涉及用于评估显著性图确定器的设备和方法。


背景技术:

[0002]
神经网络正变得越来越广泛地用于将图像分类成预定义数量的类。理解神经网络是如何达到其结果的,可以极大地帮助确定分类有多么可信,但是众所周知的困难。
[0003]
在2013年学习表征国际会议(international conference on learning representations,iclr)中由karen simonyan、andrea vedaldi和andrew zisserman的出版物“deep inside convolutional networks: visualising image classification models and saliency maps”描述了通过生成低级视觉解释来解读网络决策过程。这样和类似的方案主要地聚焦于图像分类的任务,并且可以被划分成两个类别:基于梯度的方法和基于扰动的方法。
[0004]
基于梯度的方法计算可视化每个图像像素对特定类预测的敏感度的显著性图,该显著性图通过相对于图像反向传播该预测的梯度并且估计沿着梯度移动如何影响类输出而被获得。基于梯度的方法主要依赖于用于反向传播的启发法,并且可以提供不忠实于模型或数据的解释。基于扰动的方法相对于受扰动的图像来评估类预测改变,例如,针对受扰动的图像,图像的特定区域利用均值图像值来被替换或通过应用模糊或高斯噪声来被移除。
[0005]
由于不是所有用于显著性确定的方案都表现得同等好,例如基于梯度的方法典型地容易受噪声影响,因此允许评估显著性确定方法的方案是合期望的。


技术实现要素:

[0006]
具有独立权利要求1(第一示例)和20(第二十示例)的特征的方法和设备允许显著性确定方案的评估,即显著性确定是否确实能够标识显著性(例如用于分类任务的神经网络所考虑在内的上下文)的核实。
[0007]
在下文中描述了另外的示例。
[0008]
一种由一个或多个处理器执行的评估显著性图确定器的方法,所述方法可以包括:向多个训练数据集单元添加预定义模式以训练数据类的识别,其中每个训练数据集单元包括待识别的数据类的表示;利用包括预定义模式的多个训练数据集单元训练神经网络,显著性图确定器确定用于数据类的显著性图,以及基于所确定的显著性图是否包括通过添加预定义模式引入的数据类的上下文来评估显著性图确定器。该段落中提及的方法提供了第一示例。
[0009]
向所述多个训练数据集单元添加预定义模式可以包括向与数据类相互关联的训练数据添加预定义模式。该段落中提及的特征与第一示例相组合提供了第二示例。
[0010]
所述方法可以包括基于如下二者的比较来评估显著性图确定器:在不添加与数据类相互关联的预定义模式的情况下在训练数据上被训练的神经网络的数据类的上下文、与
在添加与数据类相互关联的预定义模式的情况下在训练数据上被训练的神经网络的数据类的上下文。该段落中提及的特征与第一示例至第二示例中的任何一个相组合提供了第三示例。
[0011]
所述方法可以包括基于如下二者的重叠来评估显著性图确定器:表示数据类实例的传感器数据集单元的区域、与用于传感器数据集单元的所述数据类实例的显著性图的区域。该段落中提及的特征与第一示例至第三示例中的任何一个相组合提供了第四示例。
[0012]
所述方法可以包括基于由请求区域外部的显著性图指定的上下文来评估显著性图确定器。该段落中提及的特征与第一示例至第四示例中的任何一个相组合提供了第五示例。
[0013]
基于所确定的显著性图是否包括通过添加预定义模式引入的数据类的上下文来评估显著性图确定器可以包括:确定显著性图是否包括预定义模式的表示,以及基于所确定的显著性图是否包括预定义模式的表示来评估显著性图确定器。该段落中提及的特征与第一示例至第五示例中的任何一个相组合提供了第六示例。
[0014]
多个训练数据集单元可以是包括多重另外的训练数据集单元的训练数据集的部分,并且利用训练数据集来训练神经网络。该段落中提及的特征与第一示例至第六示例中的任何一个相组合提供了第七示例。
[0015]
可能的是,所述另外的训练数据集单元中的至少一些不包含数据类。该段落中提及的特征与第七示例相组合提供了第八示例。
[0016]
所述另外的训练数据集单元中的至少一些可以包含另外的数据类。该段落中提及的特征与第七示例至第八示例中的任何一个相组合提供了第九示例。
[0017]
所述方法可以包括,在训练神经网络之后,将神经网络应用于包括数据类实例和模式的传感器数据集单元上,以及基于神经网络的输出来确定显著性图。该段落中提及的特征与第一示例至第九示例中的任何一个相组合提供了第十示例。该段落中提及的特征与第一示例至第九示例中的任何一个相组合提供了第十示例。
[0018]
所述方法可以包括检查神经网络是否已经学习了模式与数据类之间的相互关联性,并且如果神经网络已经学习了模式与数据类之间的相互关联性,则评估显著性图确定器。该段落中提及的特征与第一示例至第十示例中的任何一个相组合提供了第十一示例。
[0019]
对于多重数据点中的每一个,每个传感器训练数据集单元可以包括一个或多个传感器数据值。该段落中提及的特征与第一至第十一示例中的任何一个的特征相组合提供了第十二示例。
[0020]
预定义模式可以是传感器数据值的预定义组合。该段落中提及的特征与第十二示例相组合提供了第十三示例。
[0021]
多个训练数据集单元中的每一个可以包括数据类实例,并且向训练数据集单元添加预定义模式可以包括除了数据类实例的传感器数据值之外,还将训练数据集单元的传感器数据值改变为传感器值的预定义组合。该段落中提及的特征与第十三示例相组合提供了第十四示例。
[0022]
数据类可以是对象。该段落中提及的特征与第一示例至第十四示例中的任何一个相组合提供了第十五示例。
[0023]
所述方法可以包括训练神经网络来标识数据类。该段落中提及的特征与第一示例
至第十五示例中的任何一个相组合提供了第十六示例。
[0024]
所述方法可以包括训练用于语义分割或对象分类的神经网络。该段落中提及的特征与第一示例至第十六示例中的任何一个相组合提供了第十七示例。
[0025]
训练数据集单元可以是图像。该段落中提及的特征与第一示例至第十七示例中的任何一个相组合提供了第十八示例。
[0026]
模式可以包括纹理。该段落中提及的特征与第一示例至第十八示例中的任何一个相组合提供了第十九示例。
[0027]
一种设备可以被配置为执行第一示例至第十九示例中的任何一个的方法。该段落中提及的特征提供了第二十示例。
[0028]
一种计算机程序可以具有程序指令,所述程序指令被配置为当由一个或多个处理器执行时,使所述一个或多个处理器执行根据第一示例至第十九示例中的一个或多个的方法。
[0029]
所述计算机程序可以存储在机器可读存储介质中。
附图说明
[0030]
在附图中,同样的参考字符贯穿不同的视图一般指代相同的部分。附图不一定按比例,而是一般将重点放在说明本发明的原理上。在以下描述中,参考以下附图描述了各个方面,在附图中:图1示出了自主驾驶场景中的对象检测的示例。
[0031]
图2示出了可以用来将图像分类成预定义数量的类的神经网络的示例。
[0032]
图3图示了显著性确定。
[0033]
图4示出了用于评估显著性确定的布置。
[0034]
图5图示了基于mnist数据集的生成输入数据的示例。
[0035]
图6a给出了神经网络拾取被引入训练数据的偏差的示例。
[0036]
图6b示出了显著性确定器的评估结果。
[0037]
图7示出了图示根据实施例的用于评估显著性图确定器的方法的流程图。
具体实施方式
[0038]
以下详细描述参考了附图,附图通过图示的方式示出了其中可以实践本发明的本公开的具体细节和方面。在不脱离本发明的范围的情况下,可以利用其他方面,并且可以进行结构、逻辑和电气改变。本公开的各个方面不一定相互排斥,因为本公开的一些方面可以与本公开的一个或多个其他方面组合以形成新的方面。
[0039]
在下文中,将更详细地描述各种示例。
[0040]
图1示出了自主驾驶场景中对象检测的示例100。
[0041]
在图1的示例中,车辆101(例如汽车、货车或摩托车)被提供有车辆控制器102。
[0042]
车辆控制器102包括数据处理部件,例如处理器(例如cpu(中央处理单元))103和用于存储车辆控制器102根据其操作的控制软件和处理器103对其进行操作的数据的存储器104。
[0043]
例如,存储的控制软件包括当由处理器103执行时使处理器实现神经网络107的指
令。
[0044]
存储在存储器104中的数据可以包括来自一个或多个图像源105(例如由一个或多个相机获取)的图像数据。图像可以包括表示一个或多个对象或模式的数据集合。一个或多个图像源105可以例如输出车辆环境的灰度或彩色图片。一个或多个图像源105可以响应于可见光或不可见光,诸如例如红外光或紫外光、超声波或雷达波或者其他电磁或音波信号。
[0045]
车辆控制器102可以基于图像数据确定对象的存在,例如,诸如交通标志或道路标记之类的固定对象和/或诸如行人、动物和其他车辆之类的移动对象。
[0046]
然后可以由车辆控制器102根据对象确定的结果来控制车辆101。例如,车辆控制器102可以控制致动器106来控制车辆的速度,例如来致动车辆的制动器。
[0047]
可以在由神经网络107执行的对象分类的基础上来执行控制。
[0048]
图2示出了神经网络200的示例,该神经网络200可以用于将图像分类成预定义数量的类。
[0049]
在该示例中,神经网络200包括一个输入层201、两个层202a和202b以及一个输出层203。
[0050]
应当注意到,神经网络200是用于分类目的的实际深度神经网络(例如深度前馈神经网络)的简化示例,其可以包括多很多的处理节点和层。
[0051]
输入数据对应于输入层201,并且一般可以被看作多维值阵列,例如,输入图像可以被看作与图像的像素值相对应的2维值阵列。
[0052]
来自输入层201的输入然后被连接到处理节点204。典型的节点204将每个输入与权重相乘,并且将加权值相加起来。附加地,节点204可以向总和添加偏差。
[0053]
节点204典型地各自跟随有非线性激活函数205,例如整流线性单元relu()或sigmoid函数()。所得值然后被输出到下一层。
[0054]
层202a和202b可以是隐藏层,例如完全连接层,如在图2中所示,其中一层的每个节点连接到另一层的每个节点。
[0055]
层也可以是非完全连接层(或由非完全连接层补充),例如,在卷积神经网络cnn的情况下的卷积层或汇集(pooling)层(典型地跟随有一个或多个隐藏层)。
[0056]
在卷积层中,输入由卷积滤波器修改。这些滤波器对输入数据的子集进行操作,并且可以帮助提取输入数据的特征,例如特定的形状或模式。由卷积层实现的滤波器引起卷积层的若干个对应节点204仅从先前层的一部分接收输入。
[0057]
汇集层可以被看作一种形式的非线性下采样,其通过将若干个节点的输出组合成下一层中的单个节点(例如通过取得输出的最大值)来降低数据的维度。
[0058]
在设计用于分类的神经网络(诸如神经网络200)中,输出层203从至少一个在前层、例如从隐藏层202b接收值。然后,这些值可以由输出层例如通过在其上应用softmax函数(,其中v
i
(i = 1,
……
,k)是输出层接收的值)或sigmoid函数,而转变成概率。包含在输出向量中的最高概率值对应于类预测。
[0059]
在下文中,类预测也可以被称为预测、预测类标注或预测分类标注。
[0060]
因此,输出层203的输出向量是概率向量,对于每个预定义的类,该概率向量指示
图像对应于预定义的类——例如图像示出了预定义的对象——的概率。例如,假设对于数字的输入图像存在10个预定义的类(0,1,
……
,9),输出向量是由10个元素组成的向量,其中每个元素对应于数字的概率。类预测将是对应于输出向量中最高概率的数字。输出层203可以输出由概率值组成的整个向量,或者仅输出类预测。
[0061]
为了能够对图像进行分类,首先相应地训练神经网络200。在汽车驾驶的情况下,这可以基于诸如城市景观的交通场景的集合来完成。
[0062]
在以上示例中应当注意,一个图像被分类,例如,图像被分类为示出行人。然而,例如在汽车驾驶场景中,(例如由相机105拍摄的)图像典型地包括多个对象。因此,在这样的应用中,可以使用密集预测(或语义分割),这可以被视为对图像的每个像素进行分类。例如,某些像素可以被分类以示出行人,而其他像素被分类以示出另一车辆。这样的密集预测可以类似地使用如以上解释的用于图像分类的神经网络来被执行,不同之处在于输出包括图像的每个像素的类预测,而不是每个图像的类预测。图像x的输出因此可以是指示每个像素的类预测的另一图像(例如,通过颜色被编码,例如行人绿色、车辆红色、背景灰色等),即本身是具有与可能的类预测相对应的多个通道的图像。对于语义分割,可以使用cnn。
[0063]
在许多现实世界场景中,对象的存在、其位置和外观与该对象周围的上下文信息高度相互关联,该对象周围的上下文信息诸如其他附近对象的存在或更多全局场景语义。例如,在城市街道场景的情况下,骑车人更有可能与自行车共现,并且汽车更有可能出现在天空和建筑物下方的道路上。这些语义相互关联性固有地存在于现实世界的数据中。诸如深度神经网络200之类的数据驱动模型倾向于利用这些统计偏差以便改进其预测性能。针对现实世界的应用(例如自主驾驶)对深度学习模型有效且安全的利用要求良好理解数据中固有的这些上下文偏差,以及经学习的模型将它们并入其决策过程的程度。否则,存在对象被错误分类的风险,例如因为它出现在不寻常的位置中。
[0064]
可解释性是模型核实(我们正确地构建了模型吗)和验证(我们构建了正确的模型吗)二者的核心要素。网络模型典型地可以容易被欺骗而提供假的、高置信度的预测,并且因此它们的真实推广性能已经常受到质疑。与意图在本领域中进行部署的任何其他软件部件一样,合期望的是,定量地建立模型可以从该角度被核实和验证的程度,即模型已经学习了所期望的输入-输出关系的程度。
[0065]
与可用的数据量相比,与有限(并且因此固有地有偏差)的数据集一起工作的模型可能清楚地被过度参数化。这经常在模型已经实际学习到的内容与实现者认为模型已经学习到的内容之间产生宽的差距。
[0066]
作为解释用于分类网络的深度网络的努力,可以构造显著性图、即输入图像之上的热图,其突出图像的哪些部分对于分类该图像是相关的或有用的。除了分类模型,语义分割是在该方面值得关注的另一个用例。语义分割模型尤其倾向于学习在其训练数据集中的先前提及的固有偏差。例如,当学习识别常见的街道场景时(例如,如在城市景观数据集中),存在网络将学习的清楚偏差,例如,汽车总是在道路上行驶。然而,其他偏差可能是缺失或过度表示数据的效果,并且可能表示可能损害模型的推广性能的关系。因此,合期望的是帮助解释这些模型预测或分割。
[0067]
显著性方法可以通过突出在输入中可假定对模型的预测具有高相关性的部分,即通过标识对网络预测贡献最多的图像像素,来解释经训练的模型(例如经训练的神经网络)
的预测。
[0068]
在下文中,作为示例,描述了一种用于显著性确定的方案,即显著性方法,其可以被看作用于朝向(像素级)密集预测任务的图像分类的显著性方法的扩展,并且其允许通过利用密集预测中的空间信息来生成空间相干解释(并且在预测解释之间进行空间上的区分)。
[0069]
在以下示例中,该方案被称为网格显著性,其是一种基于扰动的显著性方法,该方法基于一个公式,该公式作为标识在目标对象区域内部保留网络预测所需要的图像的最小未扰动区的优化问题。由于网格显著性允许在显著性图中在对象和其相关联的上下文区之间进行区分,因此它允许针对语义分割网络产生上下文解释,从而发现哪个上下文信息对目标对象区内部的类预测影响最多。
[0070]
让标示例如由深度神经网络200实现的预测函数,其将网格输入空间(例如输入图像空间的输入图像)映射到网格输出空间(例如输出图像空间的输出图像),其中w和h是输入(图像)和输出(图像)的相应宽度和高度,并且和是输入通道的数量(例如对于图像为3或1)和输出预测通道的数量(例如对于语义分割的类数量)。
[0071]
在下文中,为了易于解释,仅将图像视为输入,并且将网络的每像素密集预测视为输出,即输入是图像,,并且输出是每像素密集预测。此外,为了简单起见,假设输入和输出空间维度相同。
[0072]
根据实施例,针对输入图像x的网格显著性确定可以被视为基于找到必须保留在图像x中的最小显著性(图),以便针对类(例如通道)保持请求掩码区中的网络预测,其中显著性的大小基于m的像素值。例如,如果m的像素值的范数小于m

的像素值的范数,则m小于m


[0073]
根据各种实施例,网格显著性基于扰动显著性方案。这意味着(在请求区中)主要负责分类器决策的显著图像区域是通过如下方式来被确定的:利用非信息性像素值替换图像的部分(即扰动图像),并且评估对应的类预测改变。
[0074]
让p标示从图像x中移除显著性m外部的信息的扰动函数(其中外部意指对于其而言m不是1的像素)。例如,这样的扰动函数可以是x与之间的插值,其中a可以是恒定颜色图像、高斯模糊或随机噪声。在这种情况下,高斯模糊或随机噪声。在这种情况下,,其中
“”
标示哈达玛乘积。
[0075]
应当注意到,在实践中,显著性m可以被定义在比输入图像低的分辨率上,以避免对抗性伪影,并且可以稍后被上采样到输入图像分辨率。此外,受扰动的图像的像素值可以被限幅(clip)以保持原始图像像素值空间的范围。
[0076]
基于以上符号,找到用于类c预测的显著性图m的任务可以被公式化为如下优化(1)其中标示范数,并且是类c的网络预测,即对于类(通道)c的输出图像的像素值。
[0077]
在等式(1)右手侧的第一项可以被视为使显著图像区最小化使得原始图像被尽可
能多地扰动的掩码损失。第二项充当保持损失,其确保在受扰动图像上类c的网络预测至少达到在原始未扰动输入图像上的网络预测的置信度。因此,第二损失项可以被视为对不满足约束的惩罚,因此在等式(1)中使用。参数控制m的稀疏性,即控制显著性的大小有多强烈地受到惩罚。的示例性值是0.05,但是其他值可能地生成更小或更大的显著性。
[0078]
进一步可能的是,通过根据下式在等式(1)中将保持损失限制到请求掩码r,将在显著性图m中给出的对于所请求的感兴趣区r中的网络预测的解释与对于其他预测的解释在空间上分开(2)在下文中,等式(2)的结果被称为网格显著性图。
[0079]
来自等式(2)的网格显著性公式可以适应于具体提供针对所请求的感兴趣区r的上下文解释。对于语义分割,上下文解释是特别感兴趣的,因为上下文典型地通常充当用于语义分割网络的主要线索之一。
[0080]
因此,根据各种实施例,存在对于语义标注预测的上下文解释的关注,并且假设r是覆盖输入图像x中的感兴趣对象的区。为了优化对象上下文的显著部分,对象请求掩码r被集成到扰动函数中。对于请求掩码r,受扰动的图像仅包含r内部的对象信息,并且(例如,在恒定颜色的图像a的情况下)移除r外部的所有上下文信息。
[0081]
为了优化(即显著性的确定),使用该新的受扰动图像而不是受最大扰动图像,并且上下文扰动函数是。换言之,当输入图像受扰动时,r内的图像信息是相关的(因此,显著性不“需要”包括请求区r)。
[0082]
类c和请求对象r的上下文显著性图由下式给出(3)这可以被看作对显著性图的优化,以选择至少产生请求掩码r内部针对类c的原始预测所必需的最小上下文。
[0083]
应当注意到,上下文显著性图可以被看作网格显著性图的特殊情况,因为扰动采取特殊的形式。
[0084]
图3图示了显著性确定。
[0085]
在301中,神经网络被训练用于密集预测,其由函数f标示。
[0086]
在302中,给定被训练用于f(密集预测任务)的网络、输入图像x以及针对该输入图像和类c(例如输出图像通道c)的网络的预测(图),选择预测图中针对其要求视觉解释的目标区r。
[0087]
在303中,这些组成部分用于根据等式(3)定义优化问题,求解该优化问题以得到显著性图作为目标区r中预测的事后(post-hoc) 解释。
[0088]
优化问题可以使用各种优化技术来被求解(即,显著性图可以被优化),所述优化技术诸如具有动量或亚当(adam)的随机梯度下降(sgd)。例如,对于sgd,针对100个步骤,可
以使用0.5的动量和0.2的学习速率,并且对于每个像素,可以利用0.5来初始化显著性图。另一示例是使用sgd对粗略的16乘32像素掩码的优化,sgd具有针对80个步骤的为1的学习速率。
[0089]
在304中,所得显著性图用于各种目的,例如作为针对网络预测的视觉解释,以及用于调试经训练的网络中的错误和分类可靠性的确定。
[0090]
网格显著性可以例如用于通过经由获得的网格显著性图检测由经训练的网络拾取的偏差来增强经训练的模型(例如任何密集预测网络)。通过检查跨对于相同语义对象类的显著性解释的不一致性并且通过获得的显著性图标识异常的原因,获得的网格显著性图可以用于异常检测。更一般地,它可以用于解释任何未预期的模型行为,例如,在针对临界情况(corner case)的错误预测的情况下,网格显著性可以用于理解图像(任何数据样本)的哪个部分是“离群部”(异常)并且导致故障。
[0091]
网格显著性可以特别地用于在线诊断工具中,例如用于诸如车辆控制器102的控制器中。
[0092]
应当注意到,虽然在以上示例中,网格显著性是经由扰动来确定的,但是它也可以基于其他方案(诸如以如在下文中解释的基于梯度的方式)来被确定。
[0093]
让标示相对于输入图像针对类c的预测fc的梯度。对于vg(普通梯度)、ig(积分梯度)和sg(平滑梯度)显著性,显著性图分别被计算为(4)其中n是用于ig的近似步骤数量或用于sg的样本数量,并且表示具有标准差的高斯噪声。
[0094]
类似于基于扰动的方案,显著性m中对于请求区r中的网络预测给出的解释与其他预测在空间上分开。对于给定的输入x和二进制请求掩码r,请求区r中针对类c的归一化网络预测分数被标示为。
[0095]
类似于,对于网格显著性,定义,其通过利用替换等式(4)中的而直接产生网格显著性。对于基于梯度的上下文显著性,类似于基于扰动的方案,仅考虑对象区(即感兴趣区域)外部的显著像素,即(5)应当注意到,基于梯度的显著性图倾向于是有噪声的。因此,为了规避这点,可以在显著性图的顶部上使用具有内核和步幅的空间均值滤波器,其中是基于扰动的显著性图的分辨率。
[0096]
尽管如此,与基于梯度的方案相比,基于扰动的显著性确定可以表现得更好,即以更高的准确性确定上下文。然而,从所使用的显著性方案来看,这不是立即显而易见的。
[0097]
鉴于此,根据各种实施例,提供了用于评估(或基准化)显著性确定器的方案,例如用于显著性确定方法的定量品质度量。这样的度量可以特别地用于示出来自上述网格显著性方法的结果是有意义的和非随机的。
[0098]
因此,根据各种实施例,提供了用于确定诸如以上网格显著性确定的上下文显著性确定(或检测)方法的可信度和品质的方案。这样的方案允许定量地示出显著性确定方法识别上下文偏差到什么程度。原则上,这样的方案可以用于评估(或基准化)意图检测数据中的上下文偏差的任何方法。
[0099]
图4示出了用于评估显著性确定的布置400。
[0100]
该布置包括上下文偏差检测器401,其可以被看作对于由布置400实现的评估方法的输入。上下文偏差检测器401被标示为d,并且可以例如实现以上解释的网格显著性方法。例如但并非限制,该检测器被配置为确定神经网络的显著性,该神经网络被训练以在像素级上识别和定位图像中特定对象结构的存在。例如,在来自城市景观数据集的道路场景的情况下,这可能是汽车、行人、骑手等。
[0101]
根据各种实施例,提供了数据生成过程p的族(集合),其用于在适当的输入空间(例如图像、音频、视频等)中创建给定的数据分布。可以例如通过任何数据生成方法——诸如使用生成型对抗性网络、手动过程或其他替代方案——来对该数据生成过程进行建模。
[0102]
为了简单起见,以下解释聚焦于作为主要输入模态的图像域,尽管如以上指出的,其他替代方案也是可能的。这意味着在下文中,神经网络被提供有输入图像,执行例如输入图像的分类或语义分割,并且上下文偏差检测器d确定神经网络的决策的上下文(例如,显著性图或网格显著性图),并且使用评估方法来评估上下文偏差检测器的性能。作为具体的示例,为了简单起见,给出了如mnist数据集中存在的数字的分类。
[0103]
让是p中的元素,p即生成用于神经网络的输入数据集(在本示例中是具有数字的输入图像)的过程,该过程在以下意义上是无偏差的。被配置为生成在以下项上受约束的数据分布:1.在给定的样本中应当仅存在由输入数据模态所定义的一个对象(例如,输入数据模态指明对象是数字)(即,每个输入图像有一个数字)。对象被视为“前景”,样本(即输入图像)中的其他一切被视为“背景”。2.背景被均匀地划分成各部分。过程被配置为生成其输入数据集,使得利用从纹理模式集合中随机汲取的不同纹理模式来“修复(inpaint)”每个单独的背景部分。3.可选地,过程被配置为生成其输入数据集,使得也利用随机选择的纹理来修复前景。4.可选地,配置过程,使得通过确保所有纹理作为背景/前景元素同等地出现,或者与其他纹理等相组合同等地出现,来平衡(在生成输入数据集中)生成的样本的统计量。
[0104]
由生成的输入数据集被称为数据集。在数据集中,所有前景和背景纹理针对所有对象(数字)以(基本上)同等的概率出现。
[0105]
让是p中的另一个元素,p是被配置为生成用于神经网络的输入数据集(在本
示例中是具有数字的输入图像)的过程,该过程是有偏差的(与由生成的数据集相比)。
[0106]
被配置得非常像,除了它被配置为生成输入数据集(其被称为数据集)之外,其中某些纹理比背景中的其他纹理出现得更频繁,这由作为样本中的对象的函数的概率给出,即特定纹理与特定对象(在本示例中是数字)耦合。在极端情况下(当共现概率为100%时),当且仅当特定对象实例出现在样本(图像)中时,背景纹理才出现在该样本中。
[0107]
图5图示了基于mnist数据集的生成输入数据的示例。
[0108]
mnist数据集可以用作和的基础。在该示例中,前景按照定义对应于图像中存在的数字,并且背景对应于其他一切。背景被均匀地分割成两部分,每一部分利用随机纹理进行修复。这里,前景数字也被修复。和的区别在于给定对象(数字)将与特定纹理一起出现在相同图像中的概率。应当注意到,纹理是这里的一示例,并且可以使用其他图像特征(例如,某些颜色范围等)。一般地,对象可以(在有偏差的数据集中)与某些模式相互关联,所述模式可以是图像的纹理,但也可以是其他种类的输入数据的其他结构(或数据点值组合)。
[0109]
布置400包括被配置为例如从参考数据集404(诸如mnist数据集)生成有偏差的输入数据集的过程的实现402。布置400进一步包括被配置为从参考数据集404生成无偏差的输入数据集的的实现403。
[0110]
应当注意到,为了易于解释,mnist仅是一示例,并且也可以使用其他数据集,特别是具有交通场景(诸如用于汽车驾驶上下文中的应用的城市景观)的数据集。
[0111]
使用有偏差的数据集以及独立地使用无偏差的数据集来训练神经网络,以执行输入图像的分类或语义分割,从而产生两个经训练的神经网络405、406。
[0112]
经训练的神经网络405、406被应用于无偏差的数据集,以对无偏差的数据集的输入图像执行分类或语义分割。显著性(或上下文)检测器401并且检测由神经网络405、406提供的结果的显著性。
[0113]
评估器407接收由检测器401确定的显著性,并且依据其显著性确定能力来评估检测器401的性能。
[0114]
评估器407可以使用度量作为评估检测器性能的基础。在下文中,给出了度量的三个示例,其可以用来测量d识别上下文偏差的能力。所有度量都可以作为对象集合(一般是数据类)o之上的均值来计算。
[0115]
1.第一测量是应用于在数据集上训练并且在数据集上评估的神经网络的d与应用于均在上训练并且评估的神经网络的d之间的均值iou(交并比)差。直觉上,因为明确地将对象与纹理相关联,所以与对象o相关联的背景纹理t也应当构成对象o的另一个实例的分类的肯定性证据,即使在其中t和o未曾相关联的设置中(这里:)。
[0116]
另一方面,应用于在数据集上训练并且在数据集上评估的神经网络的d不应当确定任何显著性(在数字本身外部)。
[0117]
因此,例如,在原始对象掩码(在图像中,o出现在哪里)与由针对在上训练并且在上评估的神经网络的d返回的显著性(其中这里假设显著性检测器d被设置
为将对象本身包括在显著性中)之间测量iou。较低的iou值对应于较强的上下文偏差检测,因为这意味着d检测到对象(数字)本身外部的大的上下文区。
[0118]
第一测量可以特别地用于评估神经网络能够拾取训练数据中存在的上下文偏差到什么程度。
[0119]
2.第二测量是均值cbd(上下文偏差检测度量),通过包括任意大小的请求掩码,可以将其看作上述第一(iou)测量的推广。如以上在网格显著性的上下文中所解释的,请求掩码是图像中被选择用于优化的感兴趣区域。对于第一测量,可以将其视为等同于整个对象(数字)。对于第二测量,它被推广到例如不同的对象子部分或组成部分。
[0120]
让,即,让c为输入图像x中不是请求掩码r(其例如是图像x中对象的地面真实掩码)的部分。让c为被分配给在请求掩码r处的对象(即被分配给r的像素)的类。使用来自以上等式(3)中的的定义(其中为了简单起见,这里省略了星号和自变量),cbd度量被正式定义为(7)直观地,计算由d标记为显著的背景像素的百分比。
[0121]
第二测量可以特别地用于对不同的显著性方法(例如基于扰动或基于梯度的)可以多好地检测语义分割神经网络的上下文偏差进行基准化。
[0122]
3.第三测量是均值cbl度量(上下文偏差定位度量),其可以被看作更具体的度量,该度量在等式(7)的度量中包括对由d确定的显著性位于何处的约束。这意味着仅将如下显著区域考虑在内:该显著区域对应于已经与输入图像中的当前对象正相关联的纹理。
[0123]
让是输入图像x的掩码,该掩码标记针对对象o的纹理t出现在何处,其中t、o已经经由数据生成过程相关联。cbl度量然后被定义如下:(8)也就是说,当d提供完全聚焦于背景、并且具体地聚焦于对应于与输入图像x中的当前对象相关联的纹理t的背景部分的显著性时,该度量实现其最大值。r是o的子集,但是为了简单起见,可以被认为跨越整个对象o。直观上,这量化了如何具体地将注意力在背景中从o转移到t。较高的百分比指示输入方法d高度地能够识别中存在的上下文偏差。
[0124]
第三测量可以特别地用于对不同显著性方法定位上下文偏差的能力进行基准化。
[0125]
可以(例如在多个输入图像和/或对象类之上,一般而言在多个输入数据集和数据类之上)对三个度量中的每一个取平均以提供均值度量。这在下文中利用小“m”标示,即miou、mcbd和mcbl。
[0126]
可以选择和来表示简单的数据集,在所述简单的数据集中,上下文偏差诸如在基于mnist的图4的示例中是可清楚标识的,mnist也形成了以下示例的基础。
[0127]
对于以下示例,过程被配置为(从数字的无偏差的数据集)生成有偏差的数据集的两个变体——弱偏差版本和强偏差版本。对于具有强诱导偏差的数据集,当且仅当某个数字类存在时,特定纹理才出现。对于弱诱导偏差,特定纹理总是连同偏差的数字一起出现,但也与其他数字一致地出现。例如,从25个纹理的池中随机选择5个纹理,以诱导10个数字之一的上下文偏差。对于所有50个纹理/数字组合,它生成具有训练/测试分裂的弱偏差和强偏差数据集变量,并且为二
者(独立地)训练神经网络。
[0128]
关于经训练的网络中的偏差,评估器407可以首先调查在上训练的网络和在上训练的网络是否已经拾取了在训练数据中的诱导的弱和强上下文偏差。出于该目的,可以依据无偏差的数据集上的miou来评估它们的性能。
[0129]
图6a可视化了相对于弱偏差(顶部热图601)和强偏差(底部热图602)的有偏差数字的逐数字的miou。热图601、602的第一行(标注为n)示出了在上训练的网络的性能。与第一行相比,可以看到有偏差的数字(对角线元素)在性能方面的清楚下降。如所预期的,针对越强的偏差,性能下降就越高。此外,无偏差的数字(非对角线元素)的miou也受引入偏差所影响。例如,引入针对数字九的偏差导致数字四的减小的性能(参见热图601、602的第二行)。该效应主要针对类似的外观数字发生,并且可假定是由以下事实引起:在无偏差的数据集上,偏差纹理也发生在无偏差的数字的情况下,从而导致网络的类似外观数字的混淆。从观察到的有偏差数字的miou下降,评估器407可以断定网络405已经拾取了引入的偏差。然而,在实际应用中,收集完全无偏差的数据可能是不可能的。因此,评估器407可以评估检测器401仅使用有偏差的数据来检测上下文偏差的能力(例如网格显著性)。
[0130]
图6b示出了热图603至610,其图示了(从左到右)分别具有vg、sg、ig和网格显著性以及弱偏差(顶部热图603至606)和强偏差(底部热图607至610)的显著性检测的性能,其通过使用cbd度量来被确定。
[0131]
热图给出了相对于在偏向不同数字(y轴)的数据上训练的网络并且针对有偏差测试集中不同数字类(x轴)的mcbd值。
[0132]
仅有的例外是第一行(标注为n),其中为了比较示出了在上训练的网络的无偏差的结果。可以看到,网格显著性示出了具有引入偏差(强和弱二者)的数字(对角线元素)的上下文偏差的大量证据。即使对于弱偏差,网格显著性仍然清楚地在有偏差与无偏差的数字(对角线元素相对于非对角线元素)之间进行区分。
[0133]
基于梯度的方法的上下文显著性扩展,即,vg、sg和ig不能可靠地检测上下文偏差,而ig实现了与网格显著性可比较的性能。然而,与扰动显著性形成对比,ig对于无偏差的数字也具有高的mcbd值,从而使其在实践中的使用复杂,因为人们将需要调谐可靠检测阈值,这对于弱偏差数据特别具有挑战性。
[0134]
除了检测性能之外,评估器407还可以评估显著性检测器401能够多好地使用mcbl测量来定位上下文偏差。评估示出了,vg、ig和sg具有与随机猜测可比较的低定位性能,而网格显著性能够准确地定位强偏差和弱偏差数据二者上的上下文偏差。
[0135]
总之,根据各种实施例,提供了如在图7中所图示的方法。
[0136]
图7示出了流程图700,其图示了根据实施例的用于评估显著性图确定器的方法。
[0137]
在701中,向多个训练数据集单元添加预定义模式,以训练数据类的识别,其中每个训练数据集单元包括待识别的数据类的表示。
[0138]
在702中,利用包括预定义模式的多个训练数据集单元来训练神经网络。
[0139]
在703中,显著性图确定器确定用于数据类的显著性图。
[0140]
在704中,基于所确定的显著性图是否包括通过添加预定义模式引入的数据类的上下文来评估显著性图确定器。
[0141]
根据各种实施例,换言之,训练数据被修改,使得某些数据类与训练数据中的某些
模式相互关联。因此,在训练数据中引入了某种偏差。由于可以假设神经网络当识别数据类时将该偏差考虑在内,因此显著性图确定器应该至少部分地将该模式包括在显著性图中。
[0142]
例如,对于被训练来标识数据特征(例如,图像中的对象)的神经网络,提供包括图像的原始训练数据集,该图像包括对象(或者一般是图像特征,诸如某个深度或运动的区域),并且对于至少一个对象,包括其内容与对象不相互关联的区域(例如在内容恒定的情况下)。与对象不相互关联的区域可以理解为训练数据集中对象的分布(基本上)独立于该区域的内容。这样的区域的示例是mnist图像中的背景:背景(黑色)的内容与对象(数字)不相互关联。
[0143]
对于具有这样的对象和这样不相互关联的区域的图像,图像被修改,使得该区域包括与该区域相互关联的内容。
[0144]
这意味着对于至少一个对象的一个或多个图像,不相互关联区域的内容被改变,使得不相互关联区域的内容(在原始训练集中)变得与在经修改的训练集合中的图像中的对象的外观相互关联。在mnist示例中,如上所述,某个纹理可以例如被引入某个数字的背景中,使得图像区域(在该示例中是背景)的内容变得与对象(数字)相互关联。
[0145]
针对训练数据单元(例如图像)和可能的多个数据类(例如对象图像)的训练数据集的修改结果导致经修改的训练数据集(在以上示例中称为有偏差的训练数据集)。
[0146]
现在基于经修改的训练数据集训练神经网络,并且借助于指示网络决策的上下文的神经网络分析工具(即显著性确定器)来分析神经网络行为。然后,可以基于网络分析工具是否标识相互关联区域中的上下文(例如,将相互关联区域指示为显著的)来评估该网络分析工具。
[0147]
换言之,将偏差引入训练数据,并且评估显著性确定器是否能够检测到神经网络使用所引入的偏差。
[0148]
虽然在以上示例中,神经网络用于具有图像作为输入数据的对象分类或语义分割,但是图7的方案可以用于接收从任何传感器接收的传感器信号的神经网络,即,对任何种类的输入传感器数据(诸如视频、雷达、激光雷达、超声和运动)进行操作。模式因此可以是传感器数据类型的模式,即传感器数据类型的值的某种值组合,例如纹理、运动值(或某个视频区域中的运动)、特定范围中的激光雷达值等。
[0149]
应当特别注意到,神经网络输入数据(以及相应的训练数据,具体地是训练数据单元)不限于图像,而是也可以应用于任何类似图像的数据(例如,以一个或多个二维或还更高维阵列的形式结构化的数据),诸如声音频谱图、雷达频谱、超声图像等。此外,原始1d(例如音频)或3d数据(视频,或rgbd(红绿蓝深度)数据)也可以用作输入。
[0150]
生成的显著性确定结果(例如网格显著性图)可以用作计算控制信号的基础,所述控制信号用于控制物理系统(像例如是计算机控制的机器、像机器人、车辆、家用器具、电动工具、制造机器、个人助理或访问控制系统)、或者用于传送信息的系统(像监督系统或医学(成像)系统)以便解释和理解在以上物理系统中使用的神经网络的决策过程。它通过生成低级视觉解释(例如网格显著性图)来这样做。特别地,结果图像允许通过分析由结果图像给出的解释来标识异常的原因。控制器可以将所确定的显著性用作基于神经网络输出形成决策的基础。
[0151]
根据各种实施例提供的评估显著性图确定器的方法可以由一个或多个处理器执
行。术语“处理器”可以理解为允许处理数据或信号的任何类型的实体。例如,可以根据由处理器执行的至少一个(即,一个或多于一个)特定功能来处置数据或信号。处理器可以包括模拟电路、数字电路、复合信号电路、逻辑电路、微处理器、中央处理单元(cpu)、图形处理单元(gpu)、数字信号处理器(dsp)、可编程门阵列(fpga)集成电路或其任何组合,或者由其形成。实现相应功能的任何其他方式(将在下面更详细地描述)也可以理解为处理器或逻辑电路。将理解到,本文中详细描述的一个或多个方法步骤可以由处理器通过处理器执行的一个或多个特定功能来执行(例如,实现)。
[0152]
尽管已经在本文中说明和描述了特定的实施例,但是本领域的普通技术人员将领会到,在不脱离本发明的范围的情况下,多种替代和/或等同的实现可以代替于所示出和描述的特定实施例。本申请意图覆盖本文中讨论的特定实施例的任何改编或变型。因此,意图的是本发明仅由权利要求及其等同物来限制。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1