点标注的全景分割模型训练方法、全景分割方法和装置

文档序号：32484427发布日期：2022-12-10 00:32阅读：113来源：国知局

1.本发明涉及图像处理技术领域，尤其涉及一种点标注的全景分割模型训练方法、全景分割方法和装置。

背景技术：

2.图像全景分割是对图像中每一个像素点赋予唯一的语义类别和实例识别号，是场景理解的重要前沿问题，在机器人视觉感知、多目标检测、自动驾驶中有着广泛的应用。因此，如何训练全景分割模型，使得基于训练后的全景分割模型实现对待分割图像的准确分割具有重要意义。
3.相关技术中，全景分割模型的训练过程中，需要对图像样本中的所有像素点进行人工标注，并根据标注信息对全景分割模型进行训练，但是对图像样本中的所有像素点进行人工标注，需要耗费大量的时间成本，导致全景分割模型的训练效率较低。

技术实现要素：

4.针对现有技术中的问题，本发明实施例提供一种点标注的全景分割模型训练方法、全景分割方法和装置。
5.具体地，本发明实施例提供了以下技术方案：
6.第一方面，本发明实施例提供了一种点标注的全景分割模型训练方法，包括：
7.获取图像样本中的各个对象的至少一个目标像素点的标注信息；
8.将图像样本和所述标注信息，输入全景分割模型中的标签生成子模型，得到图像样本中的各个像素点的伪标签；
9.根据图像样本中的各个像素点的伪标签，对全景分割模型中的分割子模型进行训练，得到训练后的分割子模型；所述分割子模型用于对待分割图像进行全景分割。
10.进一步地，所述标签生成子模型为基于如下方式得到的：
11.将所述图像样本和所述标注信息输入初始标签生成子模型，得到图像样本中的目标像素点的特征信息，所述特征信息包括语义分割结果和/或特征编码；
12.根据所述特征信息对所述初始标签生成子模型进行训练，得到所述标签生成子模型。
13.进一步地，所述将图像样本和所述标注信息，输入全景分割模型中的标签生成子模型，得到图像样本中的各个像素点的伪标签，包括：
14.将图像样本和所述标注信息，输入全景分割模型中的标签生成子模型，得到目标信息，所述目标信息包括以下至少一项：各个像素点的语义分割结果、各个像素点的特征编码和所述图像样本的边缘图像；
15.根据所述目标信息生成相邻像素点之间的目标判据；所述目标判据包括以下至少一项：语义判据、实例判据、和边界判据；
16.根据所述相邻像素点之间的目标判据，确定各个像素点的伪标签。
17.进一步地，所述根据所述相邻像素点之间的目标判据，确定各个像素点的伪标签，包括：
18.根据所述相邻像素点之间的目标判据，确定各个像素点至各个目标像素点的最短距离；
19.根据各个像素点至各个目标像素点的最短距离，确定各个像素点的伪标签。
20.进一步地，所述目标像素点的标注信息，包括如下至少一项：
21.目标像素点的位置信息、目标像素点所对应的类别信息和实例信息。
22.第二方面，本发明实施例提供了一种全景分割方法，包括：
23.获取待分割图像；
24.将所述待分割图像，输入全景分割模型的分割子模型，得到所述待分割图像的全景分割结果，其中，所述全景分割模型为基于第一方面所述的点标注的全景分割模型训练方法训练得到的。
25.第三方面，本发明实施例还提供了一种全景分割模型训练装置，包括：
26.获取模块，用于获取图像样本中的各个对象的至少一个目标像素点的标注信息；
27.处理模块，用于将图像样本和所述标注信息，输入全景分割模型中的标签生成子模型，得到图像样本中的各个像素点的伪标签；
28.训练模块，用于根据图像样本中的各个像素点的伪标签，对全景分割模型中的分割子模型进行训练，得到训练后的分割子模型；所述分割子模型用于对待分割图像进行全景分割。
29.第四方面，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述点标注的全景分割模型训练方法或第二方面所述全景分割方法。
30.第五方面，本发明实施例还提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述全景分割模型训练方法或第二方面所述全景分割方法。
31.第六方面，本发明实施例还提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如第一方面所述点标注的全景分割模型训练方法或第二方面所述全景分割方法。
32.本发明实施例提供的点标注的全景分割模型训练方法、全景分割方法和装置，基于点标注实现全景分割模型的训练，在对全景分割模型的训练过程中只需要对图像样本的每一目标对象给予一个或多个点的标注即可，即在全景分割模型的训练过程中只需要获取图像样本中的目标像素点的标注信息，而不需要为图像样本中的每一目标的每一像素点都进行精细的标注，相较于现有技术中完全的、像素级的精细标注，本发明实施例的全景分割模型的训练方法可以节省大量的人工，提高了全景分割模型的训练效率。
附图说明
33.为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些
附图获得其他的附图。
34.图1是本发明实施例提供的点标注的全景分割模型训练方法的流程示意图之一；
35.图2是本发明实施例提供的点标注的全景分割模型训练方法的流程示意图之二；
36.图3是本发明实施例提供的全景分割模型结构示意图；
37.图4是本发明实施例提供的点标注的全景分割模型训练方法的流程示意图之三；
38.图5是本发明实施例提供的全景分割模型训练装置的结构示意图；
39.图6是本发明实施例提供的电子设备的结构示意图。
具体实施方式
40.为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
41.本发明实施例的方法可以应用于图像处理场景中，实现全景分割模型的训练。
42.相关技术中，全景分割模型的训练过程中，需要对图像样本中的所有像素点进行人工标注，并根据标注信息对全景分割模型进行训练，但是对图像样本中的所有像素点进行人工标注，需要耗费大量的时间成本，导致全景分割模型的训练效率较低。
43.本发明实施例的全景分割模型训练方法，基于点标注实现全景分割模型的训练，在对全景分割模型的训练过程中只需要对图像样本的每一目标对象给予一个或多个点的标注即可，即在全景分割模型的训练过程中只需要获取图像样本中的目标像素点的标注信息，而不需要为图像样本中的每一目标的每一像素点都进行精细的标注，相较于现有技术中完全的、像素级的精细标注，本发明实施例的全景分割模型的训练方法可以节省大量的人工，提高了全景分割模型的训练效率。
44.下面结合图1-图6以具体的实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。
45.图1是本发明实施例提供的点标注的全景分割模型训练方法一实施例的流程示意图。如图1所示，本实施例提供的方法，包括：
46.步骤101、获取图像样本中的各个对象的至少一个目标像素点的标注信息。
47.具体地，全景分割任务是将输入图像分割成能够区分不同语义、实例的多个区域，实现对视觉场景的完全解析和感知理解。全景分割任务综合了计算机视觉中的语义分割和实例分割任务，对于不可数的类别完成语义分割的解析，而对于可数的类别则完成更加精细的实例分割解析。现有技术中，全景分割任务依赖于大量的手工标注的像素级标签进行训练，由于全景分割任务的精细程度很高，大量的手工像素级标注带来高昂的时间、经济成本，阻碍了全景分割模型在更多视觉任务中的推广应用，因此如何快速、准确地实现对全景分割模型的训练，使得训练后的全景分割模型可以准确地实现对图像的全景分割，具有重要的意义。
48.本发明实施例基于点标注实现全景分割模型的训练，在对全景分割模型的训练过程中只需要对图像样本的每一目标对象给予一个或多个点的标注即可，即在对全景分割模
型训练过程中只需要获取图像样本中的目标像素点的标注信息，相较于现有技术中完全的、像素级的精细标注，本发明实施例的全景分割模型的训练方法可以节省大量的人工，实现高效、低成本的全景分割数据标注。
49.可选地，目标像素点的标注信息，包括如下至少一项：
50.目标像素点的位置信息、目标像素点所对应的类别信息和实例信息。
51.具体地，本发明实施例提供的全景分割模型的训练方法，仅需要对图像样本的每一目标对象给予一个或多个点的标注即可，图像样本中被标注的点即为目标像素点，可选地，目标像素点的标注信息(即标签信息)包括目标像素点的位置信息、目标像素点所对应的类别信息和实例信息，本发明实施例中对目标像素点进行了标注，进而就可以将目标像素点的标注信息作为监督信息对全景分割模型进行训练。
52.步骤102、将图像样本和标注信息，输入全景分割模型中的标签生成子模型，得到图像样本中的各个像素点的伪标签。
53.具体地，在获取图像样本中的各个对象的至少一个目标像素点的标注信息后，将图像样本和标注信息，输入全景分割模型中的标签生成子模型，得到图像样本中的各个像素点的伪标签；即全景分割模型中的标签生成子模型基于目标像素点的标注信息，可以准确地预测出图像样本中的所有像素点的伪标签。可选地，全景分割模型中的标签生成子模型是将目标像素点的标注信息作为监督信息进行训练得到的。
54.步骤103、根据图像样本中的各个像素点的伪标签，对全景分割模型中的分割子模型进行训练，得到训练后的分割子模型；分割子模型用于对待分割图像进行全景分割。
55.具体地，根据全景分割模型中的标签生成子模型，得到图像样本中的各个像素点的伪标签后，就可以将得到的图像样本中的各个像素点的伪标签作为监督信息对全景分割模型中的分割子模型进行训练，使得训练后的分割子模型可以准确地实现对图像的全景分割。
56.上述实施例的方法，基于点标注实现全景分割模型的训练，在对全景分割模型的训练过程中只需要对图像样本的每一目标对象给予一个或多个点的标注即可，即在全景分割模型的训练过程中只需要获取图像样本中的目标像素点的标注信息，而不需要为图像样本中的每一目标的每一像素点都进行精细的标注，相较于现有技术中完全的、像素级的精细标注，本发明实施例的全景分割模型的训练方法可以节省大量的人工，提高了全景分割模型的训练效率。
57.在一实施例中，标签生成子模型为基于如下方式得到的：
58.将图像样本和标注信息输入初始标签生成子模型，得到图像样本中的目标像素点的特征信息，特征信息包括语义分割结果和/或特征编码；
59.根据特征信息对初始标签生成子模型进行训练，得到标签生成子模型。
60.具体地，全景分割模型中的标签生成子模型用于生成图像样本中的各个像素点的伪标签，即在对图像样本的每一目标对象给予一个或多个点的标注的情况下，通过标签生成子模型就可以实现高效、低成本的全景分割数据标注。
61.为了使得全景分割模型中的标签生成子模型可以准确地生成图像样本中的各个像素点的伪标签，本发明实施例中通过将目标像素点的标注信息作为监督信息，对初始标签生成子模型进行训练，即将图像样本和目标像素点的标注信息输入初始标签生成子模
型，得到图像样本中的目标像素点的语义分割结果和目标像素点的特征编码，根据目标像素点的语义分割结果和目标像素点的特征编码对初始标签生成子模型进行训练。
62.可选地，以目标像素点的标注信息作为监督信息监督训练标签生成子模型，例如标签生成子模型预测的目标像素点的语义分割结果为p∈r
hw
×c，其中，h、w、c分别为标签生成子模型预测输出的图像样本的高、宽及数据集上的类别总数目，对每个目标像素点的预测结果根据目标像素点的标注信息对应的语义类别进行监督训练，损失函数如下：
[0063][0064]
其中，xi和ci分别为第i个目标像素点的坐标和类别，y为n个目标像素点的标注信息的集合，也就是根据标签生成子模型预测出的目标像素点的语义分割结果，根据上述损失函数对标签生成子模型进行训练，即对每个目标像素点的预测结果根据目标像素点的标注信息中的语义类别进行监督训练，在损失函数的结果满足条件的情况下，完成标签生成子模型的训练。
[0065]
可选地，标签生成子模型预测的目标像素点的特征编码为f∈r
hw
×d，其中，h、w分别为标签生成子模型预测输出的图像样本的高、宽，其中每个目标像素点i上的特征编码fi为一个d维的向量。为了得到能够有效编码实例区分度信息的特征编码f，需要对标签生成子模型进行有效地监督训练。例如为对应第i个目标像素点的伪标签，则目标像素i的总体特征表达由该伪标签对特征f进行平均化得到：
[0066][0067]
其中，为标准化系数。损失函数为：
[0068][0069]
其中，n是总的目标像素点的标签数量，k为图像样本中待分割的目标对象的数量，τ为预设值，也就是根据标签生成子模型预测出的目标像素点的特征编码，根据上述损失函数对标签生成子模型进行训练，即对每个目标像素点的预测结果根据目标像素点的标注信息中的实例信息进行监督训练，在损失函数的结果满足条件的情况下，完成标签生成子模型的训练。
[0070]
上述实施例的方法，通过将目标像素点的标注信息作为监督信息，对初始标签生成子模型进行训练，即通过将图像样本和目标像素点的标注信息输入初始标签生成子模型，根据初始标签生成子模型预测得到的目标像素点的语义分割结果和目标像素点的特征编码，进而对每个目标像素点的预测结果根据目标像素点的标注信息中的语义类别和实例信息进行监督训练，在损失函数的结果满足条件的情况下，训练后的标签生成子模型就可以准确地生成图像样本中的各个像素点的伪标签。
[0071]
在一实施例中，将图像样本和标注信息，输入全景分割模型中的标签生成子模型，得到图像样本中的各个像素点的伪标签，包括：
[0072]
将图像样本和标注信息，输入全景分割模型中的标签生成子模型，得到目标信息，
目标信息包括以下至少一项：各个像素点的语义分割结果、各个像素点的特征编码和图像样本的边缘图像；
[0073]
根据目标信息生成相邻像素点之间的目标判据；目标判据包括以下至少一项：语义判据、实例判据、和边界判据；
[0074]
根据相邻像素点之间的目标判据，确定各个像素点的伪标签。
[0075]
具体地，全景分割模型中的标签生成子模型用于生成图像样本中的各个像素点的伪标签，即在对图像样本的每一目标对象给予一个或多个点的标注的情况下，通过标签生成子模型就可以实现高效、低成本的全景分割数据标注。可选地，本发明实施例通过将图像样本和目标像素点的标注信息，输入全景分割模型中的标签生成子模型，得到各个像素点的语义分割结果p、各个像素点的特征编码f和图像样本的边缘图像b。
[0076]
进一步像素点的语义分割结果p可用来计算像素点之间的语义判据。例如，可根据相邻两像素点i和j之间语义概率的差异来实现语义判据：
[0077][0078]
其中，为相邻像素点i和j之间的语义判据，p
i,c
为像素点i的语义分割结果，p
j,c
为像素点j的语义分割结果。
[0079]
图像样本的边缘图像b可以用来计算像素点之间的边界判据。可选地，相邻两像素点i和j之间的边界判据可按如下公式计算得到：
[0080][0081]
其中，为相邻像素点i和j之间的边界判据，边界判据用户获取图像样本中各个对象的边缘信息，可选地，以图像底层纹理特征结合sobel滤波算子予以实现，首先对输入样本图像i通过sobel算子计算得到其边缘图象b∈r
hw
，其中，h和w分别为样本图像的高和宽。
[0082]
可选地，本发明实施例以像素点的特征编码f来计算像素点之间实例判据，其中，f∈r
hw
×d为标签生成子模型所预测的各个像素点的特征编码，其中像素点i上的特征编码fi为一个d维的向量，则实例判据可根据两像素点特征编码的相似度计算得到，如：
[0083][0084]
其中，为像素点i和j之间的实例判据，max函数返回两个变量之间较大的值，为两个向量的内积。
[0085]
标签生成子模型生成相邻像素点之间的语义判据、实例判据、和边界判据之后，就可以根据相邻像素点之间的判据，确定各个像素点的伪标签。
[0086]
可选地，根据相邻像素点之间的目标判据，确定各个像素点的伪标签，包括：
[0087]
根据相邻像素点之间的目标判据，确定各个像素点至各个目标像素点的最短距离；
[0088]
根据各个像素点至各个目标像素点的最短距离，确定各个像素点的伪标签。
[0089]
具体地，根据相邻像素点之间的目标判据，可以计算得到相邻像素点之间的总转
移代价。例如，以上述语义判据、边界判据、实例判据为例，相邻两像素点i、j之间的总转移代价可按如下公式计算得到：
[0090][0091]
其中，e
i,j
为相邻两像素点之间的转移代价，为像素点i和j之间的语义判据，为像素点i和j之间的边界判据，为像素点i和j之间的实例判据，λb和λm均为标量系数，用以控制三者之间的相对权重；根据以上所得相邻两像素点之间的总转移代价，以最短距离算法求解每个目标像素点到所有像素点之间的转移代价d
i,s
，其中i和s分别为图像样本中的像素点和目标像素点的下标，然后确定图像样本中各个像素点至各个目标像素点的最短距离(最短距离对应的各个像素点之间的转移代价最小)，并通过将图像样本中的每个像素点赋予与其转移代价最小的目标像素点的标注信息的方式，即可完成对整幅图像样本中所有像素点的解析，得到全景分割伪标签。
[0092]
上述实施例的方法，通过将图像样本和目标像素点的标注信息，输入全景分割模型中的标签生成子模型，得到相邻像素点之间的语义判据、实例判据、和边界判据，并确定图像样本中各个像素点至各个目标像素点的最短距离，进而将图像样本中的每个像素点赋予与其转移代价最小的目标像素点的标注信息，就得到了图像中的各个像素点的伪标签；进而根据得到的各个像素点的伪标签，就可以实现对图像的全景分割，相较于现有技术中完全的、像素级的精细标注，本发明实施例的方法可以节省大量的人工，实现高效、低成本的全景分割数据标注。
[0093]
在一实施例中，还提供了全景分割方法，包括：
[0094]
获取待分割图像；
[0095]
将待分割图像，输入全景分割模型的分割子模型，得到待分割图像的全景分割结果。
[0096]
具体地，在基于目标像素点的标注信息实现全景分割模型的训练后，训练后的全景分割模型就可以准确地实现对图像的全景分割。本发明实施例中通过获取待分割图像，并将待分割图像输入训练后的全景分割模型的分割子模型，就可以得到待分割图像的全景分割结果。
[0097]
上述实施例的方法，通过将待分割图像输入训练后的全景分割模型，就可以得到带分割图像的全景分割效果，快速、准确地实现了对待分割图像的全景分割。
[0098]
示例性地，本发明实施例的全景分割模型的训练方法如下：
[0099]
步骤s0，构建用于进行全景分割模型训练的点标注数据集。对于数据集中的每个图像i，其对应的n个点标注为其中xi和ci分别为第i个点标注的坐标和类别。图像i中的每个全景分割目标可以由一个或者多个点标注(目标像素点的标注信息)予以指示，其总数目为n。如图2所示为基于点标注(目标像素点的标注信息)的全景分割示意图，其从左至由分别为原始图像(图像样本)、图像样本的点标注、全景分割的示意图，即本发明实施例基于点标注实现全景分割模型的训练，在对全景分割模型的训练过程中只需要对图像样本的每一目标对象给予一个或多个点的标注即可，不需要为图像样本中的每一目标的每一像素点都进行精细的标注，相较于现有技术中完全的、像素级的精细标注，本发
明实施例的全景分割模型的训练方法可以节省大量的人工，提高了全景分割模型的训练效率。
[0100]
步骤s1，构建基于点标注的全景分割模型，其主要包括两个子模型：分割子模型和标签生成子模型。可选地，如图3所示，分割子模型和标签生成子模型共享相同的骨干模型，以节省全景分割模型整体的计算量。其中，标签生成子模型用于生成图像样本中的各个像素点的伪标签，分割子模型用于预测得到样本图像的全景分割结果，可选地，共享的骨干模型包括一个骨干网络和一个基于transformer的编码器模型，全景分割模型整体上的输入数据为原始图像(样本图像)和其对应的点标注(目标像素点的标注信息(标签信息))，并以此为信息进行监督训练。可选地，图像样本通过骨干模型，提取得到图像样本的特征网元，进而将图像样本的特征网元输入至标签生成子模型的语义解码器和流形空间映射器，并结合语义图元，预测得到图像样本的各个像素点的语义分割结果和各个像素点的特征编码，进一步根据各个像素点的语义分割结果和各个像素点的特征编码，得到相邻像素点之间的语义判据和实例判据，然后通过相邻像素点之间的语义判据和实例判据，就可以计算出像素点之间的转移距离，并通过将每个像素点赋予给与其转移代价最小的标注点(目标像素点)的方式，即可完成对整幅图像中所有像素点的解析，得到全景分割伪标签。
[0101]
步骤s2，对于步骤s1中的标签生成子模型，使用点标注信息进行监督训练，得到用于生成全景分割伪标签的多个判据。以下以语义判据、边界判据、实例判据为例，详细阐述相关的具体过程。
[0102]
步骤s2.1，以点标注(目标像素点的标注信息)为监督信息监督训练标签生成子模型的语义判据。记标签生成子模型预测的语义分割结果为p∈r
hw
×c，其中，h、w、c分别为预测输出的高、宽、数据集上的类别总数目。则其损失函数为：
[0103][0104]
根据上述公式，对每个标注点位置的预测结果根据点标注对应的语义类别进行监督训练。完成训练后，每个像素点对应位置i的语义分割预测概率值pi∈rc即可用来计算得到像素点之间关于转移距离的语义判据。例如，可根据相邻两像素i和j之间语义概率的l1差异来实现语义判据：
[0105][0106]
步骤s2.2，计算得到标签生成子模型中的边界判据，该判据帮助获取目标的边缘信息，可通过多种不同的方式实现。可选地，以图像底层纹理特征结合sobel滤波算子予以实现。首先，对输入图像i通过sobel算子计算得到其边缘图b∈r
hw
，其中，h和w分别为图像的高和宽，则相邻两像素i和j之间的边界判据可按如下公式计算得到：
[0107][0108]
步骤s2.3，计算得到标签生成子模型中的实例判据。该判据帮助区分不同实例目标，因此计算该判据所用的信息特征需能有效体现不同实例的区分度。可选地，以模型的特征编码为根据来计算该判据，记f∈r
hw
×d为标签生成子模型所预测的逐像素点特征编码，其中每个像素点i上的特征编码fi为一个d维的向量，则实例判据可根据两像素点特征编码的相似度计算得到，如：
[0109][0110]
其中，max函数返回两个变量之间较大的值，为两个向量的内积。为了得到能够有效编码实例区分度信息的特征f，需要对其进行有效地监督训练。记为对应第i个实例的伪标签，则实例i的总体特征表达由该伪标签对特征f进行平均化得到：
[0111][0112]
其中，为标准化系数。
[0113]
训练用于计算实例判据的特征编码的损失函数可定义为：
[0114][0115]
其中，n是总的点标注数量，k为图像样本中待分割的目标对象的数量。
[0116]
步骤s3，根据步骤s2中计算所得的多种判据，可得相邻两像素点之间的总转移代价。例如，以上述的语义判据、边界判据、实例判据为例，相邻两像素点i、j之间的总转移代价可按如下公式计算得到：
[0117][0118]
其中，λb和λm均为标量系数，用以控制三者之间的相对权重。
[0119]
根据以上所得相邻两像素点之间的总转移代价，以最短距离算法求解每个标注点到所有像素点之间的转移代价d
i,s
，其中i和s分别为像素点和标注点的下标，然后通过将每个像素点赋予给与其转移代价最小的标注点的方式，即可完成对整幅图像中所有像素点的解析，得到全景分割伪标签。
[0120]
步骤s4，根据上述步骤s3中生成的全景分割伪标签，对全景分割子模型进行监督训练，全景分割子模型可使用任意一种或多种用于全景分割任务训练的损失函数，这里统一记为则本发明所提出的全景分割模型的整体端到端训练损失函数为：
[0121][0122]
步骤s5，按以上步骤训练完成之后，使用模型的全景分割子模型对输入的图像进行测试分析，完成模型的部署。
[0123]
示例性地，本发明实施例的全景分割模型也可以根据如下方式进行训练：
[0124]
可选地，本发明实施例中的多个判据可以任意组合，每种判据的训练也可通过多种方式进行。例如，针对用于训练语义判据的损失函数，可以额外添加基于图像颜色先验的损失函数用以约束，进一步提升模型的语义判据训练准确度：
[0125][0126]
其中，p
it
pj衡量两个概率预测的相似度，a
i,j
为基于颜色先验的亲和度，由lab颜色空间中两像素点之间的颜色相似度计算得到，是对应像素点i的邻域像素点集合，是一个标准化项。
[0127]
此时，全景分割模型整体的训练损失函数变更为如下公式，其余方法步骤保持不变：
[0128][0129]
示例性地，本发明实施例的全景分割模型的训练方法的流程还可以如下：
[0130]
本发明实施例中从转移距离到全景分割伪标签的生成过程中，可以对转移距离基于先验知识进行额外地调制，以取得更加准确的全景分割伪标签估计结果。例如，针对转移代价d
i,s
，可按照像素点和标注点之间的语义相容度进行进一步修正，以克服最短距离算法所得转移代价仅能导出连通域的局限，如下公式所示：
[0131][0132]
其中，由d线性规范化到区间[0,1]得到，pi和ps分别为对应像素点i和标注点s的语义分割概率。最终，全景分割伪标签由更新后的转移代价计算得到。
[0133]
本发明实施例通过点标注，在基于转移距离的方法框架下，利用语义判据、边界判据、实例判据等多个判据实现点标注到稠密全景分割伪标签的生成和转换。本发明实施例最终得到的全景分割模型，可用于各种全景分割任务的测试、部署等。
[0134]
示例性地，本发明实施例的全景分割模型的训练方法如图4所示：
[0135]
1、构建点标注全景数据分割集；
[0136]
构建用于进行全景分割模型训练的点标注数据集，包括图像及其对应的点标注(目标像素点的标注信息)。其中，图像中的每个全景分割目标由一个或多个点标注进行标注，每个点标注包括其所在图像像素位置的坐标信息、所属类别和实例信息。
[0137]
2、构建全景分割模型；
[0138]
该模型包括全景分割子模型和标签生成子模型，两个子模型整体上由“图像-点标注”数据对进行训练，得到能够用于全景分割任务推理的全景分割模型。
[0139]
3、标签生成子模型判据计算训练；
[0140]
使用点标注信息进行监督训练，得到用于生成全景分割伪标签的多个判据，包括但不限于：语义判据、边界判据、实例判据等。
[0141]
4、生成基于转移距离的全景分割伪标签；
[0142]
根据语义判据、边界判据、实例判据等多个判据可计算得出任意图像像素点位置到每个点标注的转移距离，通过该转移距离计算寻求每个像素点最近的点标注，并将该像素点分配给该点标注所代表的全景分割目标，得到稠密的全景分割伪标签。
[0143]
5、分割子模型训练
[0144]
根据得到的稠密全景分割伪标签，对分割子模型进行监督训练，得到用于全景分割任务推理测试的全景分割模型。
[0145]
6、全景分割模型测试和部署
[0146]
将训练完成之后的全景分割模型用于全景分割任务的测试、部署等。
[0147]
本发明实施例的技术方案，核心在于通过点标注实现全景分割模型的训练，有效地利用点标注解析全景分割信息，对于全景分割模型整体上能够利用“图像-点标注”的数据对完成端到端的训练，通过生成关于全景分割的多个判据，利用这些判据在基于转移距离的框架下生成关于全景分割的稠密伪标签，最终利用这些稠密伪标签实现全景分割分支
的训练。本发明实施例的全景分割模型的训练方法能够有效针对点标注的特点实现信息的提取利用，在很小的标注代价下完成全景分割模型的训练，在各种不同场景数据集上取得良好的性能表现，达到了标注成本和模型性能之间的良好平衡，具有优秀的理论意义和实际价值。
[0148]
下面对本发明提供的全景分割模型训练装置进行描述，下文描述的全景分割模型训练装置与上文描述的点标注的全景分割模型训练方法可相互对应参照。
[0149]
图5是本发明提供的全景分割模型训练装置的结构示意图。本实施例提供的全景分割模型训练装置，包括：
[0150]
获取模块710，用于获取图像样本中的各个对象的至少一个目标像素点的标注信息；
[0151]
处理模块720，用于将图像样本和标注信息，输入全景分割模型中的标签生成子模型，得到图像样本中的各个像素点的伪标签；
[0152]
训练模块730，用于根据图像样本中的各个像素点的伪标签，对全景分割模型中的分割子模型进行训练，得到训练后的分割子模型；分割子模型用于对待分割图像进行全景分割。
[0153]
可选地，标签生成子模型为基于如下方式得到的：
[0154]
将图像样本和标注信息输入初始标签生成子模型，得到图像样本中的目标像素点的特征信息，特征信息包括语义分割结果和/或特征编码；
[0155]
根据特征信息对初始标签生成子模型进行训练，得到标签生成子模型。
[0156]
可选地，所述处理模块720，具体用于：将图像样本和标注信息，输入全景分割模型中的标签生成子模型，得到目标信息，目标信息包括以下至少一项：各个像素点的语义分割结果、各个像素点的特征编码和图像样本的边缘图像；
[0157]
根据目标信息生成相邻像素点之间的目标判据；目标判据包括以下至少一项：语义判据、实例判据、和边界判据；
[0158]
根据相邻像素点之间的目标判据，确定各个像素点的伪标签。
[0159]
可选地，所述处理模块720，具体用于：根据相邻像素点之间的目标判据，确定各个像素点至各个目标像素点的最短距离；
[0160]
根据各个像素点至各个目标像素点的最短距离，确定各个像素点的伪标签。
[0161]
可选地，目标像素点的标注信息，包括如下至少一项：
[0162]
目标像素点的位置信息、目标像素点所对应的类别信息和实例信息。
[0163]
可选地，全景分割方法，包括：
[0164]
获取待分割图像；将待分割图像，输入全景分割模型的分割子模型，得到待分割图像的全景分割结果。
[0165]
本发明实施例的装置，其用于执行前述任一方法实施例中的方法，其实现原理和技术效果类似，此次不再赘述。
[0166]
图6示例了一种电子设备的实体结构示意图，该电子设备可以包括：处理器(processor)810、通信接口(communications interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行点标注的全景分割模型训练方法，该
方法包括：获取图像样本中的各个对象的至少一个目标像素点的标注信息；将图像样本和标注信息，输入全景分割模型中的标签生成子模型，得到图像样本中的各个像素点的伪标签；根据图像样本中的各个像素点的伪标签，对全景分割模型中的分割子模型进行训练，得到训练后的分割子模型；分割子模型用于对待分割图像进行全景分割。
[0167]
此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0168]
另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的点标注的全景分割模型训练方法，该方法包括：获取图像样本中的各个对象的至少一个目标像素点的标注信息；将图像样本和标注信息，输入全景分割模型中的标签生成子模型，得到图像样本中的各个像素点的伪标签；根据图像样本中的各个像素点的伪标签，对全景分割模型中的分割子模型进行训练，得到训练后的分割子模型；分割子模型用于对待分割图像进行全景分割。
[0169]
又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的全景分割模型训练方法，该方法包括：获取图像样本中的各个对象的至少一个目标像素点的标注信息；将图像样本和标注信息，输入全景分割模型中的标签生成子模型，得到图像样本中的各个像素点的伪标签；根据图像样本中的各个像素点的伪标签，对全景分割模型中的分割子模型进行训练，得到训练后的分割子模型；分割子模型用于对待分割图像进行全景分割。
[0170]
以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
[0171]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0172]
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；
而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张兆翔谭铁牛樊峻菘王玉玺
技术所有人：中国科学院香港创新研究院人工智能与机器人创新中心有限公司
我是此专利的发明人

上一篇：实现数据可视化的方法和装置及存储介质与流程
上一篇：一种用于木质文物的原子转移自由基聚合加固方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。