经由二元和多类马尔可夫随机场的基于高效半定规划的推理的图像分割的制作方法

文档序号:30299586发布日期:2022-06-04 21:37阅读:156来源:国知局
经由二元和多类马尔可夫随机场的基于高效半定规划的推理的图像分割的制作方法

1.本发明总地涉及图像分类和基于所得分类的操作的系统和方法。


背景技术:

2.无向图形模型或马尔可夫随机场(mrf)因其简明地表示感兴趣变量之间的关联的能力而被用在各种真实世界的应用(如计算机视觉、计算生物学等)中。


技术实现要素:

3.一种图像分割方法,包括:接收n个像素的图像和图像的注释;基于图像和注释形成耦合矩阵、每个长度为n的k个类向量和偏置系数;基于耦合矩阵、类向量和偏置系数生成每个长度为n的n个像素向量;从像素向量创建长度为n的单个分割向量,其中分割向量中的每个条目标识k个类向量中的一个;以及输出单个分割向量。
4.一种用于经由图像分割来控制物理系统的系统包括控制器。控制器可以被配置为:从第一传感器接收n个像素的图像,并且从第二传感器接收图像的注释;基于图像和注释形成耦合矩阵、每个长度为n的k个类向量和偏置系数;基于耦合矩阵、类向量和偏置系数生成每个长度为n的n个像素向量;从像素向量创建长度为n的单个分割向量,其中分割向量中的每个条目标识k个类向量中的一个;输出单个分割向量;以及基于单个分割向量来操作物理系统。
5.一种用于分割用于载具控制的图像的系统包括第一和第二传感器以及控制器。第一传感器可以被配置为生成n个像素的图像。第二传感器可以被配置为生成图像的注释。控制器可以被配置为:接收n个像素的图像和图像的注释;基于图像和注释形成耦合矩阵、每个长度为n的k个类向量和偏置系数;基于耦合矩阵、类向量和偏置系数生成每个长度为n的n个像素向量;从像素向量创建长度为n的单个分割向量,其中分割向量中的每个条目标识k个类向量中的一个;输出单个分割向量;以及基于单个分割向量来操作载具。
附图说明
6.图1a图示了当k为2且n为20时次优性与流逝时间的关系的图形表示。
7.图1b图示了当k为2且n为20时次优性与流逝时间的关系的图形表示。
8.图1c图示了当k为3且n为10时次优性与流逝时间的关系的图形表示。
9.图2a图示了当k为2且n为20时误差与耦合强度的关系的图形表示。
10.图2b图示了当k为2且n为20时误差与耦合强度的关系的图形表示。
11.图2c图示了当k为2且n为20时误差与耦合强度的关系的图形表示。
12.图3a图示了当k为2且n为20时误差与耦合强度的关系的图形表示。
13.图3b图示了当k为3且n为10时误差与耦合强度的关系的图形表示。
14.图3c图示了当k为4且n为8时误差与耦合强度的关系的图形表示。
15.图3d图示了当k为5且n为7时误差与耦合强度的关系的图形表示。
16.图4a图示了图像的图形表示。
17.图4b图示了在注释之后的图4a的图像的图形表示。
18.图4c图示了在分割之后的图4a的图像的图形表示。
19.图5a图示了图像的图形表示。
20.图5b图示了在注释之后的图5a的图像的图形表示。
21.图5c图示了在分割之后的图5a的图像的图形表示。
22.图6a图示了图像的图形表示。
23.图6b图示了在注释之后的图6a的图像的图形表示。
24.图6c图示了在分割之后的图6a的图像的图形表示。
25.图7是用于经由混合方法生成像素向量的流程图。
26.图8是用于生成指示分割图像的长度为n的单个向量的流程图。
27.图9是用于生成配分函数(partition function)z的估计的流程图。
28.图10是用于生成指示分割图像的长度为n的单个向量的流程图。
29.图11是被配置为控制载具的控制系统的示意图。
30.图12是被配置为控制制造机器的控制系统的示意图。
31.图13是被配置为控制电动工具的控制系统的示意图。
32.图14是被配置为控制自动化个人助理的控制系统的示意图。
33.图15是被配置为控制监视系统的控制系统的示意图。
34.图16是被配置为控制医学成像系统的控制系统的示意图。
具体实施方式
35.根据需要,本文中公开了本发明的详细实施例;然而,应理解,所公开的实施例仅仅是本发明的例示,其可以以各种和替代形式体现。各图不一定是按比例的;一些特征可能被放大或缩小以示出特定组件的细节。因此,本文中公开的具体结构和功能细节不应被解释为限制性的,而仅仅是作为教导本领域技术人员以各种方式采用本发明的代表性基础。
36.术语“基本上”在本文中可以用来描述公开或要求保护的实施例。术语“基本上”可以修饰本公开中公开或要求保护的值或相对特性。在这样的实例中,“基本上”可以指定它修饰的值或相对特性在值或相对特性的0%、0.1%、0.5%、1%、2%、3%、4%、5%或10%之内。
37.术语传感器是指检测或测量物理属性并记录、指示或以其他方式对其做出响应的设备。术语传感器包括光学、光、成像或光子传感器(例如电荷耦合器件(ccd)、cmos有源像素传感器(aps)、红外传感器(ir)、cmos传感器)、声学、声音或振动传感器(例如麦克风、地震检波器、水听器)、汽车传感器(例如轮速、停车、雷达、氧气、盲点、扭矩)、化学传感器(例如离子敏感场效应晶体管(isfet)、氧气、二氧化碳、化学电阻器、全息传感器)、电流、电势、磁性或者射频传感器(例如霍尔效应、磁力计、磁阻、法拉第杯、电流计)、环境、天气、湿度或湿度传感器(例如天气雷达、辐射计)、流量或流体速度传感器(例如空气质量流量传感器、风速计)、电离辐射或亚原子粒子传感器(例如电离室、盖革计数器、中子检测器)、导航传感器(例如全球定位系统(gps)传感器、磁流体力学(mhd)传感器)、位置、角度、位移、距离、速度或加速度传感器(例如lidar、加速度计、超宽带雷达、压电传感器)、力、密度或液位传感
器(例如应变仪、核密度计)、热、热量或温度传感器(例如红外温度计、高温计、热电偶、热敏电阻、微波辐射计)或者其目的是检测或测量物理属性并记录、指示或以其他方式响应它的其他设备、模块、机器或子系统。
38.术语图像是指描绘感知(例如,从视点的视觉感知)的表示或人工产物(诸如照片或其他二维图片),其类似于主体(例如,物理对象、场景或属性)并因此提供对它的描绘。图像可以是多维的,因为其中可以包括时间、空间、强度、浓度或其他特性的分量。例如,图像可以包括时间序列图像。
39.成对马尔可夫随机场(mrf)中的概率推理——即计算配分函数或计算变量的map估计——是概率图形模型中的基本问题。半定规划松弛(semidefinite programming relaxation)长期以来一直是用于分析概率推理属性的理论上的有力工具,但由于用于求解所得sdp的典型求解器的高计算成本而尚不实用。本公开提出了一种用于计算成对mrf中的配分函数或map估计的高效方法,其通过取而代之地利用与重要性采样相组合的最近提出的基于坐标下降的快速半定求解器。本公开还将半定松弛从典型的二元mrf拓展到完全多类设置,并且开发致密的半定松弛,其可以再次使用求解器高效地求解。本公开示出了,在从先前工作中得出的基准问题上,该方法在近似推理方面显著优于(在解质量和速度两方面)现有技术。本公开还示出了,该方法可以扩展到大的mrf域,诸如计算机视觉中使用的完全连接的成对crf模型。
40.无向图形模型或马尔可夫随机场(mrf)因其简明地表示感兴趣变量之间的关联的能力而被用在各种真实世界的应用(如计算机视觉、计算生物学等)中。二元随机变量上的一般成对mrf可以由以下联合分布来表征,
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中标示“耦合矩阵”并且对对称的成对关联进行编码,而由变量的偏差组成。在该模型中,存在三个感兴趣的根本问题:(a)估计分布的模式,另外称为最大后验(map)推理,(b)估计配置x的p(x)或从分布中生成样本,以及(c)从联合分布中学习给定样本的参数(a,h)。由于在支持mrf方面存在指数级大量的配置,因此找到分布的真实模式的问题一般而言是困难的。类似地,为了计算任何特定配置的概率p(x),必须计算(1)中的比例常数,其确保分布总和为1。该常数(标示为z)称为配分函数,其中
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)。
41.由于计算z还涉及对指数级大量的项求和,因此精确计算针对mrf的真实z一般也是困难的。当超越二元随机变量并且考虑一般的多类mrf(也称为波兹模型)的情况时,该问题变得更加困难,其中每个变量可以从有限集合中取值。由于推理中的中心任务(例如,估计配置x的p(x)或从分布中生成样本)需要准确而高效地计算z,因此提出了几种近似。在如下问题实例的情况下,这些近似方法通常在其近似质量方面受到影响:在所述问题实例中条目a具有大的幅度,这被称为低温设置。
42.考虑到提出的一种新颖的谱算法,其可证明地计算在n维中的时间多项式中的配分函数的近似估计和a的谱属性。该算法是快速的,并且特别是在低温设置下显著优于在近
似推理中使用的常用技术。然而,实验结果表明,该设置中仍有改进的空间。此外,还不清楚可以如何将该方法方便地推广到更丰富的多类mrf领域。
43.另一种经过充分研究的计算模式的方法——即(方程1)中rhs的最大化器——是使离散最优化问题松弛到半定规划(sdp)并且取而代之求解sdp。然后使用如随机化舍入之类的舍入技术将sdp解舍入到原始离散空间。特别地,在二元rbm的情况下采用该方法展现出令人印象深刻的结果。接下来是将一般k类potts模型中的模式估计与m
ax
k-cut问题之间进行比拟,并建议对其进行sdp松弛。然而,该松弛在mrf变量的数量方面有二次数量的约束。因此,使用采用了原始对偶内点法的传统凸规划求解器来求解sdp对于大mrf而言将是计算上非常昂贵的。
44.本公开提出了求解用于在一般k类potts模型中执行推理的根本上不同的sdp松弛,其可以经由低秩sdp求解器高效地求解,并且说明该方法在实践中准确且高效地执行,从而成功地扩展到大的mrf。该sdp松弛在mrf的变量数量方面只有线性数量的约束。这允许利用基于坐标下降的低秩求解器——称为“混合方法”,其以高概率极快地收敛到所提出松弛的全局最优。另外的提议是一种简单的基于重要性采样的方法来估计配分函数。也就是说,一旦实现了对sdp的解,就公开了对该解的舍入过程以获得离散空间中的样本。然而,由于混合方法几乎肯定会收敛到全局最优,因此舍入返回的样本紧密聚集在真实模式周围。因此,为了确保在样本空间中的附加探索,从离散超立方体上的均匀分布中获得样本的一小部分。该组合结果得到对配分函数的准确估计。
45.实验结果说明,当与最先进技术的方法(如谱近似推理)以及专门的马尔可夫链蒙特卡罗(mcmc)技术(如退火重要性采样(ais))相比时,该技术在模式和配分函数估计两方面均出色、尤其是在低温设置下。该方法不仅在准确性方面优于这些方法,而且它运行得显著更快,特别是与ais相比。针对合成二元mrf设置以及合成多类mrf显示了结果。最后,将展现出的是,由于快速sdp求解器的效率,该方法能够扩展到用于图像分割任务中的大的真实世界的mrf。
46.变分方法和连续松弛:近似推理中一类常用的方法由构造相关的最优化问题组成,该最优化问题的解可以被视为对真实模式/配分函数的合理近似。这包括采用gibbs变分原理的技术,其求解随机变量上所有可能分布的最优化问题(一般是棘手的)。这些当中,平均场近似——其进行变量间乘积分布的简化(并且可能不准确)假设——极其常用。信念传播是用于推理的另一常用算法,它与变分推理有联系,但仅当底层mrf是无环的时才具有强的理论保证。此外,提出了对离散最优化问题的几种基于lp和基于sdp的连续松弛。特别地,考虑首先将估计多类mrf中的模式的问题建模为m
ax
k-c
ut 问题的实例,并且然后为其提出sdp松弛以及舍入机制。一般地,这样的基于sdp的方法在理论上分析起来有吸引力,但由于其计算成本高而对于具有许多约束的大mrf而言实际上是不可行的。
47.马尔可夫链蒙特卡罗(mcmc)和基于采样的方法:另一类方法涉及运行mcmc链,其平稳分布是由(方程1)指定的。这些方法运行特定数量的mcmc步骤,并且然后对链末端的样本进行某种平均。常用的方法包括gibbs采样和metropolis-hastings。这些方法中的显著发展是在一系列温度内引入了退火,它计算真实配分函数的无偏估计。此后,在这一行中出现了采用某种形式的退火和重要性采样的几种其他方法。然而,通常难以确定mcmc链收敛到平稳分布所需的步数(标示为混合时间)。此外,如上面提到的,已知变分方法(由于它们
倾向于收敛到次优解)和mcmc方法(由于大的混合时间)在低温设置下表现不佳。
48.其他方法:用于推理的一些其他常用技术包括变量消除方法(如桶消除),其通常使用一种动态规划的形式来逐个近似边缘化模型中的变量。近似推理中也基于动态规划的最近的显著发展是谱方法。通过查看函数空间中随机变量的所有可能配置的枚举,可以构建自下而上的近似动态规划树,该树产生用于估计配分函数的全多项式时间近似方案,并且明显优于其他标准技术。然而,如上面提到的,由于它们自下而上的动态规划链依赖于二元取值的变量,因此其方法可以如何拓展到多类potts模型是先验不清楚的。这里,不纯粹属于上述前两个类别中的任何一个的方法——因为它涉及到sdp松弛和重要性采样两者——可以成功地推广到多类mrf。
49.在这一节中,提出了用以求解k类potts模型中的模式估计的sdp松弛公式。首先,可以将二元mrf中模式估计的最优化问题声明为方程2中所示的那样:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)。
50.上面的问题可以等价声明为下面方程3:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)其中
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)然而,查看最优化问题因此有助于自然地将二元mrf中的模式估计问题拓展到一般的k类mrf,其中随机变量xi可以在离散域{1,...,k}(标示为[k])中取值。对于一般情况,利用与上面相同的算子的定义,可以构造离散最优化问题,如下面方程5中:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)其中现在为k个类中的每一个提供偏置向量。对于(方程5)的情况(没有偏置项),可以首先声明在r
k-1
中的单形上定义的等价最优化问题,并且然后继续导出针对其理论保证成立的以下松弛,见下面方程6:服从于
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)。
[0051]
上面的问题(方程6)可以等价地提出为半正定矩阵y上的凸问题,尽管其中条目方面的约束对应于vi和vj中的每个成对约束。因此,对于大的n,经由传统的凸规划求解器求解(方程6)将非常昂贵。进一步注意,与二元情况(其中成对的约束无关
紧要)不同,由于二次数量的约束,利用低秩方法求解该问题也将是有挑战性的。
[0052]
为此,呈现对(方程5)的替代松弛,其将约束的数量减少为以n的线性。观察到(方程6)中的成对约束在某种意义上是控制向量对之间的间隔并试图使它们与单形的顶点保持粗略对齐。利用该见解,通过将这些约束作为偏置项的一部分插入来执行将它们的功能性并入准则内。具体地,将固定为位于单形的顶点上,使得。
[0053]
然后,可以示出以下方程7成立:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)使得,求解以下离散最优化问题等同于求解(方程5):
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)这里的动机是试图经由内积模仿(方程5)中的算子,但是以使得偏置系数确定vi与特定r
l
对齐的程度的方式。因此,这将(方程6)中的成对约束并入准则内。下一步骤是将(方程8)中的优化域从离散集简单地松弛到rn中的单位向量,从而导出以下松弛方程9:(9)现在,令,使得。定义块矩阵,使得:。
[0054]
然后,以下凸规划等价于(方程9):服从于 (10)。
[0055]
注意到(方程10)中的约束数量现在仅为,即以n是线性的,这与(方程6)中的二次数量的约束相对。然后可以使用结果,其声明确实存在对(等式10)的具有最多为的秩d的低秩解。因此,可以取而代之在空间rd中工作,从而导致以下最优化问题:
ꢀꢀꢀꢀ
(11)然后,通过使用称为“混合方法”的用于求解受约束sdp的方法,可以直接以其现有的非凸形式求解该低秩松弛。混合方法利用方程(11)的可行集上的范数约束,来为最大化
导出封闭形式的坐标下降更新,并且已经被示出能够在仅仅几次迭代中达到准确的解。在算法1的块中给出了用于经由混合方法求解(方程11)的伪代码。
[0056]
算法1 经由混合方法求解(方程11)输入: a,1: 过程 混合方法:2: 初始化 num_iters3: for i = 1,2...,num_iters do4:5:6:end for7:return v1,...,vn8: end 过程
[0057]
算法2:多类情况下的舍入输入: 1: 过程 舍入:2:对 unif(sd)进行采样3:for i = 1,2...,n do4:xi←ꢀ
argmaxl∈[k] vitml5:end for6:for i = 1,2...,n do7:xi←ꢀ
argmax8:end for9:return x10: end 过程
[0058]
一旦实现对(方程11)的解v1,...,vn,接下来是用以将这些向量舍入回到离散空间中的配置的技术,以产生长度为n的单个分割向量,或者等价地,维度为n的单个分割向量(例如,n维的单个分割向量),其中每个条目表示针对输入图像的特定像素的类预测。为此目的,随机化舍入技术的自然拓展,其涉及将vis舍入到k个随机抽取的单位向量。出于舍入sdp松弛(方程11)的目的,可以进一步拓展如算法2中描述的该方法。算法2中的第一步骤是在单位球面sd上对k个单位向量进行均匀地采样并且执行舍入。然而,必须执行该舍入与单形上的真值向量的协调。因此,在第二步骤中,执行每个舍入值到真值向量的重新分配:如果vi在第一步骤中被映射到m
l
,则它现在将其映射到,使得m
l
最接近。以此方式,可以获得一组舍入配置,并将(方程5)中具有最大准则值的舍入配置作为模式输出。
[0059]
在这一节中,本公开处理推理中的另一个根本问题:估计配分函数。跟随上面第3节,k类mrf中的联合分布可以表达为:
ꢀꢀ
(12)如先前声明的,在该模型中计算配置x的概率的中心方面是能够计算配分函数z。(方程12)中的配分函数的表达式为:
ꢀꢀ
(13)
[0060]
算法3:z的估计输入: 1: 过程 配分函数:2:初始化 r ∈ z,u ∈ [0,1], x
pv = [ ], x
ωꢀ
= [ ]3:for i = 1,2...,r do4:以概率u 使用算法2对x
∼ꢀ
p
v 采样并将x添加到x
pv
5:else 对x
∼ꢀω
采样并将x添加到 x
ω
6:end for7:从关于x
pv
的直方图计算经验估计p
ˆv8:9:10: return 11: end 过程
[0061]
以对(方程5)的解可以在计算配分函数中有用的直觉开始。如果求和中的项由几个具有大值的条目(模式周围的配置)支配,则该直觉确实成立。当考虑带有具有大幅度(低温设置)的条目的耦合矩阵a时,就发生这种情况。
[0062]
利用该动机,呈现了利用对松弛问题(方程11)的解来估计z的简单算法。算法2中描述的舍入过程在原始空间中的x上引发分布(然而注意到,对于小的d值,该分布不完全支持)。让我们将该分布标示为pv。对于当d = 2时的情况,用于精确计算pv的几何技术,并基于经验期望导出z的标准重要性采样估计。然而,该方法不扩展到更高的维度,并且也使z的估计朝向模式大幅偏置。因此,为了鼓励所跨越的整个空间中的探索,以及减少偏差,本公开提出使用来自上的均匀分布的样本的一小部分,并且在来自和pv的样本的组合上采用重要性采样。也就是说,样本以某个概率u来自pv并且以概率1-u来自。在从这两个分布中获得混合样本之后,计算z的重要性采样估计。算法3中详细描述了总体过程:定理1 算法3给出的估计是渐近无偏的,即。
[0063]
在本节中,呈现了在各种mrf设置下(合成的和真实世界两者)对公式的验证。跟随它的用法,确定问题实例温度的矩阵的“耦合强度”的概念可以表达为下面的方程
14:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(14)耦合矩阵如下生成:对于耦合强度c,从中对a中边上的条目均匀采样,其中c0被适当缩放,使得。从[1,1]中对偏差均匀采样。然后生成随机完全图形和erdos-renyi(er)图形。在生成er图形时,以概率0.5对a中的边进行采样。执行关于估计模式(第3节)以及z(第4节)的实验。主要用于比较的算法是ais、谱近似推理(谱ai)、以及称为松弛和舍入的方法,其通过经由在超立方体的角处采样而求解低秩规划松弛和舍入来执行推理。注意到,对于在配分函数任务中考虑的二元mrf,示出了它们显著优于如信念传播、平均场近似和小桶变量消除之类的常用算法。因此,执行与谱ai的简单比较。对于ais,存在3个主要参数:(k,周期数,样本数)。任何合成环境中的所有结果都是在100个随机问题实例之上平均的。
[0064]
为了估计模式,考虑具有耦合强度2.5的矩阵a。实验的目的是比较该算法和ais随着进展的模式估计质量。图1a图示了当k为2且n为20时次优性102与流逝时间104的关系的图形表示100。图1b图示了当k为2且n为20时次优性102与流逝时间104的关系的图形表示120。图1c图示了当k为3且n为10时次优性102与流逝时间104的关系的图形表示140。图2a图示了当k为2且n为20时误差202与耦合强度204的关系的图形表示200。图2b图示了当k为2且n为20时误差202与耦合强度204的关系的图形表示220。图2c图示了当k为2且n为20时误差202与耦合强度204的关系的图形表示240。图3a图示了当k为2且n为20时误差302与耦合强度304的关系的图形表示300。图3b图示了当k为3且n为10时误差302与耦合强度304的关系的图形表示320。图3c图示了当k为4且n为8时误差302与耦合强度304的关系的图形表示340。图3d图示了当k为5且n为7时误差302与耦合强度304的关系的图形表示360。流逝时间104以对数标度绘制,并且次优性104,其是比率,其中是模式估计处(方程5)中的准则值并且f为真实模式。图1a和1b分别图示了二元完全图形和er图形的比较,而图1c图示了3类完全mrf的比较。在图例中,该算法后面括号中的数字是算法3中的参数r,并且ais后面括号中的数字分别是(k,循环数,样本数)。从绘图中可以观察到,该方法能够比ais更快得多地实现接近最优的模式,这强调了该方法的有效性。
[0065]
接下来是评估该算法给出的配分函数估计的准确性。考虑一系列耦合强度内的耦合矩阵,并绘制比对耦合强度204、304的误差202、302 。注意到,对于k 》 2,没有直接的方式将谱ai中的公式拓展到多个类;因此,呈现了在这种情况下与ais的比较。在二元情况下,注意到;因此使用标准的舍入程序的使用。(见图2a、2b),可以观察到,这些估计比谱ai和松弛和舍入方法几乎在所有地方都更准确。重要的是,在其中谱ai的性能变得非常不准确的高耦合强度设置下,该系统和方法仍然能够维持高准确性。注意到,在仅500次舍入迭代的情况下,该算法的运行时间比谱ai更快。还考虑在一系列k和周期数的参数设置内与图2c、3a、3b、3c中的ais的综合比较。绘图中示出,随着温度数(k)的增加,ais估计变得更加准确,但相对于时间受到很大影响。
[0066]
这一节展现了该推理方法能够扩展到图像分割任务中使用的大的完全连接的crf。这里,考虑一种设置,其中任务是为图像中的像素计算标签的配置,其最大化:第一项提供了成对势,其中被建模为高斯内核,其测量像素特征向量fi、fj之间的相似性,并且是标签兼容性函数。第二项对应于个体像素的一元势。与上述sdp松弛一样,将每个像素松弛到rd中的单位向量。然后经由内积对进行建模,并且使一元势φu基于用图像提供的粗略注释以导出以下目标:(15)在上面的第二项中,在本公开中插入了基于被分配了第l个标签的第i个像素的注释的先验信念。系数θ有助于控制成对和一元势上的相对权重。这里注意到,在具有与标准图像中像素一样多的节点的mrf上运行基于mcmc的方法一般是不可行的。但是本公开经由混合方法高效地求解(方程15)。在收敛时,使用第0050节中描述的舍入方案(见图8),本公开说明了与densecrf中呈现的质量相竞争的获得图像的准确分割的能力(图4c、5c、6c)。
[0067]
该工作呈现了一种新颖的松弛,其估计可以写成低秩sdp的一般k类potts模型中的模式并且由最近提出的基于坐标下降的低秩求解器高效地求解。还提出了一种简单且直观的基于重要性采样的算法,该算法保证配分函数的无偏估计。它设立实验以经验方式研究了该方法与近似推理中相关的最先进技术的方法相比的性能,并验证了该松弛提供了模式的准确估计,而用于计算配分函数的该算法也给出了快速且准确的估计。还展现出的是,该方法能够以高效的方式扩展到非常大的mrf。
[0068]
概率推理已经在许多领域中使用,包括例如在本公开的最终实验结果节中突出显示的图像分割领域。然而,这些方法也被广泛应用于生物学应用,诸如蛋白质侧链预测或蛋白质设计。这样的应用都具有能力直接受到近似推理方法的上游算法改进的影响。然而,这也适用于潜在的有问题的机器学习应用,诸如自动化监控系统使用的那些。虽然可能难以评测该工作在这样的领域中的确切影响(尤其是由于在这点上绝大多数部署的系统都是基于深度学习方法,而不是基于概率推理),但这些是在概率方法的进一步发展中应当考虑的应用。
[0069]
从更加算法性的角度来看,近年来近似推理的许多应用已经变得被端到端的深度学习方法所主导,完全放弃了概率推理的应用。该方法的一个潜在优势是,因为它基于连续松弛,所以这里呈现的概率推理方法本身可以是可微的,并且在端到端管道内使用。这具有潜在的正面影响(例如,它可能有助于深层网络的可解释性),但也有负面影响,诸如,如果推理过程仅仅以端到端的方式进行训练则其本身实际上变得不那么直观地可理解的可能性。
[0070]
图4a图示了图像400的图形表示。图4b图示了图4a的图像400的带注释的图形表示420。带注释的图形图像420包括4个分类:第一分类422、第二分类424、第三分类426和背景
分类428。图4c图示了图4a的图像400的分割图形表示440。分割图形表示440包括2个分割:目标分割442、前景分割444和背景446。
[0071]
图5a图示了图像500的图形表示。图5b图示了图5a的图像500的带注释的图形表示520。带注释的图形图像520包括4个分类:第一分类522、第二分类524、第三分类526和背景分类528。图5c图示了图5a的图像500的分割图形表示540。分割图形表示540包括4个分割:目标分割542、前景分割544、背景分割548和背景546。
[0072]
图6a图示了图像600的图形表示。图6b图示了图6a的图像600的带注释的图形表示620。带注释的图形图像620包括3个分类:第一分类622、第二分类624和背景分类626。图6c图示了图6a的图像600的分割图形表示640。分割图形表示640包括2个分割:目标分割642和前景分割644。
[0073]
图7是用于经由混合方法生成像素向量的流程图。在步骤702中,控制器(例如,控制器1102、1202、1302、1402、1502、1602)接收模型参数、类向量和最大迭代次数。在步骤704中,在单位球面上随机初始化像素向量(每个待分类像素一个像素向量)。在步骤706中,执行坐标下降的一个步骤(如在算法1中看到的),其更新像素向量,并且迭代计数器递增;步骤708确保所执行的坐标下降的总迭代次数等于最大迭代次数。控制器在步骤710中返回优化的像素向量。
[0074]
图8是用于生成指示分割图像的长度为n的单个向量的流程图。在步骤802中,控制器(例如,控制器1102、1202、1302、1402、1502、1602)接收像素向量和类向量。在步骤804中,生成舍入向量的集合,并且在步骤806中,对于每个像素向量vi,选择具有与vi的最大内积的舍入向量的索引xi。在步骤808中,对于在步骤806中选择的每个索引xi,具有与m
xi
的最大内积的类向量的索引被选择并重新分配给xi。在步骤810中,控制器返回最终向量x,该向量x包含待分类的n个像素中每一个的类预测。
[0075]
图9是用于生成配分函数z的估计的流程图。在步骤902中,控制器(例如,控制器1102、1202、1302、1402、1502、1602)接收像素向量、类向量、样本数量r和样本概率u。在步骤904、906、908、910和912中,控制器产生r个样本,这些样本被收集在两个集合中:对于每个样本,在0和1之间均匀地采样数字u'(步骤904)。将u'的值与u进行比较(步骤906),并且基于该比较,x或是从使用图8的分布模式中被采样(步骤908)并添加到集合,或是从中均匀采样(步骤910)并添加到。在步骤904中,对收集的样本数量进行计数;步骤912将该值与要收集的总样本数量进行比较。一旦r个样本被收集,控制器就基于模式样本计算经验分布(步骤914)。利用,步骤916定义真实分布的估计,并且在步骤918中计算该估计分布的配分函数;这是模型的配分函数的估计,该估计在步骤920中由控制器返回。
[0076]
图10是用于生成指示分割图像的长度为n的单个向量的流程图。在步骤1002中,控制器(例如,控制器1102、1202、1302、1402、1502、1602)接收图像、包含关于输入图像的每个像素的分类的先验知识或估计的图像注释集合以及相似性度量。在步骤1004中,控制器
使用这些输入来生成马尔可夫随机场参数和类向量。在步骤1006中,控制器使用模型参数和类向量来使用图7中描述的方法生成像素向量。使用在步骤1006中找到的像素向量以及在步骤1004中生成的类向量,步骤1008为图像中的每个像素生成类预测,即,长度为n的单个分割向量,或者等价地,维度为n的单个分割向量(例如,n维的单个分割向量),其中分割向量的每个条目对应于图像中特定像素的类预测。在步骤1010中,控制器返回这些像素分类。
[0077]
图11是被配置为控制载具的控制系统1102的示意图,该载具可以是至少部分自主的载具或至少部分自主的机器人。载具包括传感器1104和致动器1106。传感器1104可以包括一个或多个基于可见光的传感器(例如电荷耦合器件ccd或视频)、雷达、lidar、超声波、红外、热成像或其他技术(例如定位传感器,诸如gps)。一个或多个特定传感器中的一个或多个可以集成到载具中。替代地或附加于上面标识的一个或多个特定传感器,控制模块1102可以包括软件模块,该软件模块被配置为在执行时确定致动器1104的状态。软件模块的一个非限制性示例包括天气信息软件模块,其被配置为确定载具或其他位置附近的天气的当前或未来状态。
[0078]
在其中载具是至少部分自主载具的实施例中,致动器1106可以体现在载具的制动系统、推进系统、发动机、传动系或转向系统中。可以确定致动器控制命令,从而控制致动器1106,使得载具避免与检测到的对象碰撞。检测到的对象也可以根据分类器认为它们最有可能是什么来分类,诸如行人或树木。致动器控制命令可以取决于分类来确定。例如,控制系统1102可以将来自传感器1104的图像或其他输入分割成一个或多个背景类和一个或多个对象类(例如,行人、自行车、载具、树木、交通标记、交通灯、道路碎片或建筑桶/圆锥等),并且向致动器1106发送控制命令以避免与对象碰撞,在这种情况下,致动器1106体现在制动系统或推进系统中。在另一示例中,控制系统1102可以将图像分割成一个或多个背景类和一个或多个标记类(例如,车道标记、护栏、道路边缘、载具轨道等),并且向致动器1106发送控制命令以使得载具避开交叉标记并保持在车道中,这里致动器1106体现在转向系统中。在其中可能发生敌对攻击的场景中,可以进一步训练上述系统,以更好地检测对象或标识载具上传感器或相机的照明条件或角度的改变。
[0079]
在其中载具1100是至少部分自主的机器人的其他实施例中,载具1100可以是移动机器人,其被配置为实行一个或多个功能,诸如飞行、游泳、潜水和步行。移动机器人可以是至少部分自主的割草机或至少部分自主的清洁机器人。在这样的实施例中,可以确定致动器控制命令1106,使得可以控制移动机器人的推进单元、转向单元和/或制动单元,使得移动机器人可以避免与标识的对象碰撞。
[0080]
在另一个实施例中,载具1100是以园艺机器人形式的至少部分自主的机器人。在这样的实施例中,载具1100可以使用光学传感器作为传感器1104来确定载具1100附近环境中植物的状态。致动器1106可以是被配置为喷洒化学物质的喷嘴。取决于植物的标识的种类和/或标识的状态,可以确定致动器控制命令1102以使得致动器1106向植物喷洒合适量的合适的化学物质。
[0081]
载具1100可以是以家用电器形式的至少部分自主的机器人。家用电器的非限制性示例包括洗衣机、炉子、烤箱、微波炉或洗碗机。在这样的载具1100中,传感器1104可以是光学传感器,其被配置为检测将经历由家用电器的处理的对象的状态。例如,在家用电器是洗
衣机的情况下,传感器1104可以检测洗衣机内衣物的状态。可以基于检测到的衣物状态来确定致动器控制命令。
[0082]
在该实施例中,控制系统1102将从传感器1104接收图像和注释信息。使用这些以及存储在系统中的规定的类数量k和相似性度量,控制系统1102可以使用图10中描述的方法来对从传感器1104接收的图像的每个像素进行分类。基于该分类,信号可以被发送到致动器1106,例如,制动或转弯以避免与行人或树木碰撞,转向以保持在检测到的车道标记之间,或者由致动器1106执行的任何动作,如上面第0067-0071节中所描述的。还可以基于该分类向传感器1104发送信号,例如以聚焦或移动相机镜头。
[0083]
图12描绘了控制系统1202的示意图,控制系统1202被配置为控制制造系统102(诸如生产线的一部分)的系统1200(例如,制造机器),诸如冲压刀具、刀具或枪钻。控制系统1202可以被配置为控制致动器14,致动器14被配置为控制系统(例如,制造机器)。
[0084]
系统1200(例如,制造机器)的传感器1204可以是被配置为捕获制造产品的一个或多个属性的光学传感器。控制系统1202可以被配置为根据一个或多个捕获的属性来确定制造产品的状态。致动器1206可以被配置为取决于制造产品104的所确定状态来控制系统1202(例如,制造机器),以用于制造产品的后续制造步骤。致动器1206可以被配置为取决于先前制造产品的所确定状态来控制系统的后续制造产品上的图11(例如,制造机器)的功能。
[0085]
在该实施例中,控制系统1202将从传感器1204接收图像和注释信息。使用这些以及存储在系统中的规定的类数量k和相似性度量,控制系统1202可以使用图10中描述的方法来对从传感器1204接收的图像的每个像素进行分类,例如,将制造对象的图像分割成两个或更多个类,检测制造产品中的异常,以确保制造产品上存在诸如条形码的对象。基于该分类,信号可以被发送到致动器1206。例如,如果控制系统1202检测到产品中的异常,则致动器1206可以从生产线标记或移除异常或有缺陷的产品。在另一个示例中,如果控制系统1202检测到要放置在产品上的条形码或其他对象的存在,则致动器1106可以应用这些对象或移除它们。还可以基于该分类向传感器1204发送信号,例如以聚焦或移动相机镜头。
[0086]
图13描绘了控制系统1302的示意图,控制系统1302被配置为控制具有至少部分自主模式的电动工具1300,诸如电动钻或驱动器。控制系统1302可以被配置为控制致动器1306,致动器1306被配置为控制电动工具1300。
[0087]
电动工具1300的传感器1304可以是光学传感器,该光学传感器被配置为捕获被驱动到工作表面中的工作表面和/或紧固件的一个或多个属性。控制系统1302可以被配置为根据一个或多个捕获的属性来确定工作表面和/或紧固件相对于工作表面的状态。
[0088]
在该实施例中,控制系统1302将从传感器1304接收图像和注释信息。使用这些以及存储在系统中的规定的类数量k和相似性度量,控制系统1302可以使用图10中描述的方法来对从传感器1304接收的图像的每个像素进行分类,以便将工作表面或紧固件的图像分割成两个或更多个类,或者检测工作表面或紧固件中的异常。基于该分类,信号可以被发送到致动器1306,信号例如是工具的压力或速度或者如上面各节中所描述的由致动器1306执行的任何动作。还可以基于该分类向传感器1304发送信号,例如以聚焦或移动相机镜头。在另一示例中,图像可以是来自电动工具1300的诸如压力、扭矩、每分钟转数、温度、电流等信号的时间序列图像,其中电动工具是锤钻、钻、锤(旋转或拆卸)、冲击驱动器、往复锯、摆
动多工具,并且电动工具是无线的或有线的。
[0089]
图14描绘了被配置为控制自动化个人助理1401的控制系统1402的示意图。控制系统1402可以被配置为控制致动器1406,致动器1406被配置为控制自动化个人助理1401。自动化个人助理1401可以被配置为控制家用电器,诸如洗衣机、炉子、烤箱、微波炉或洗碗机。
[0090]
在该实施例中,控制系统1402将从传感器1404接收图像和注释信息。使用这些以及存储在系统中的规定的类数量k和相似性度量,控制系统1402可以使用图10中描述的方法来对从传感器1404接收的图像的每个像素进行分类,例如,分割要操纵或操作的电器或其他对象的图像。基于该分类,信号可以被发送到致动器1406,该信号例如是以控制自动化个人助理1401的移动部件与家用电器交互或者如上面各节中所描述的由致动器1406执行的任何动作。还可以基于该分类向传感器1404发送信号,例如以聚焦或移动相机镜头。
[0091]
图15描绘了被配置为控制监视系统1500的控制系统1502的示意图。监视系统1500可以被配置为物理地控制通过门252的进入。传感器1504可以被配置为检测与决定是否准许进入相关的场景。传感器1504可以是被配置为生成和传输图像和/或视频数据的光学传感器。控制系统1502可以使用这样的数据来检测人的面部。
[0092]
监视系统1500也可以是监控系统。在这样的实施例中,传感器1504可以是被配置为检测处于监控下的场景的光学传感器,并且控制系统1502被配置为控制显示器1508。控制系统1502被配置为确定场景的分类,例如由传感器1504检测到的场景是否可疑。扰动对象可以用于检测某些类型的对象,以允许系统在非最佳条件下(例如,夜晚、雾天、雨天等)标识这样的对象。控制系统1502被配置为响应于分类向显示器1508传输致动器控制命令。显示器1508可以被配置为响应于致动器控制命令来调整显示的内容。例如,显示器1508可以突出显示控制器1502认为可疑的对象。
[0093]
在该实施例中,控制系统1502将从传感器1504接收图像和注释信息。使用这些以及存储在系统中的规定的类数量k和相似性度量,控制系统1502可以使用图10中描述的方法来对从传感器1504接收的图像的每个像素进行分类,以便例如检测场景中可疑或不合期望的对象的存在,检测照明或查看条件的类型,或者检测移动。基于该分类,信号可以被发送到致动器1506,例如以锁定或解锁门或其他入口通道,激活警报或其他信号,或者如上面各节中所描述的由致动器1506执行的任何动作。还可以基于该分类向传感器1504发送信号,例如以聚焦或移动相机镜头。
[0094]
图16描绘了控制系统1602的示意图,控制系统1602被配置为控制成像系统1600,例如mrf设备、x射线成像装置或超声装置。传感器1604例如可以是成像传感器。控制系统1602可以被配置为确定感测图像的全部或部分的分类。控制系统1602可以被配置为响应于由经训练的神经网络获得的分类来确定或选择致动器控制命令。例如,控制系统1602可以将感测图像的区域解释为潜在异常。在这种情况下,可以确定或选择致动器控制命令,以使得显示器1606显示成像并突出显示潜在异常区域。
[0095]
在该实施例中,控制系统1602将从传感器1604接收图像和注释信息。使用这些以及存储在系统中的规定的类数量k和相似性度量,控制系统1602可以使用图10中描述的方法来对从传感器1604接收的图像的每个像素进行分类。基于该分类,信号可以被发送到致动器1606,例如以检测图像的异常区域或者如上面各节中所描述的由致动器1606执行的任何动作。
[0096]
体现本文描述的算法和/或方法技术的程序代码能够以各种不同的形式作为程序产品单独或共同分发。程序代码可以使用其上具有计算机可读程序指令的计算机可读存储介质来分发,用于引起处理器实行一个或多个实施例的方面。固有地非暂时性的计算机可读存储介质可以包括以用于存储信息的任何方法或技术实现的易失性和非易失性以及可移动和不可移动的有形介质,诸如计算机可读指令、数据结构、程序模块或其他数据。计算机可读存储介质可以进一步包括ram、rom、可擦除可编程只读存储器(eprom)、电可擦除可编程只读存储器(eeprom)、闪速存储器或其他固态存储器技术、便携式致密盘只读存储器(cd-rom)或其他光学存储装置、盒式磁带、磁带、磁盘存储装置或其他磁性存储设备,或者可以用于存储所期望信息并且可以由计算机读取的任何其他介质。计算机可读程序指令可以从计算机可读存储介质下载到计算机、另一种类型的可编程数据处理装置或另一设备,或者经由网络下载到外部计算机或外部存储设备。
[0097]
存储在计算机可读介质中的计算机可读程序指令可以用于引导计算机、其他类型的可编程数据处理装置或其他设备以特定方式运作,使得存储在计算机可读介质中的指令产生包括实现流程图或图表中指定的功能、动作和/或操作的指令的制品。在某些替换实施例中,流程图和图表中指定的功能、动作和/或操作可以与一个或多个实施例相一致地被重新排序、串行处理和/或并发处理。此外,流程图和/或图表中的任何一个可以包括比与一个或多个实施例一致图示的那些节点或块更多或更少的节点或块。
[0098]
虽然已经通过各种实施例的描述说明了本发明的全部,并且已经相当详细地描述了这些实施例,但是申请人并不意图将所附权利要求的范围局限或以任何方式限制于这样的细节。本领域的技术人员将容易想到附加的优点和修改。因此,本发明在其更广泛的方面不限于具体细节、代表性的装置和方法以及所示和所述的说明性示例。因此,在不脱离总的发明构思的精神或范围的情况下,可以偏离这样的细节。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1