背景技术:
1、本说明书涉及图像处理,更具体地,涉及如下图像处理:该图像处理涉及对真实二维图像上的地标(landmark)进行标注。
2、图像处理是一种类型的信号处理,其中被处理的信号是图像。输入图像可以被处理,例如,以产生输出图像或图像的表征。
3、在许多情况下,对图像的标注可以便于对图像的处理,特别是在依赖机器学习的图像处理技术中。标注可以使用结构化的信息或元数据来加标签于图像中的实体或实体的部分。该标签可以指示例如类别(例如,猫、狗、手臂、腿)、边界、角点(corner)、位置或其他信息。该标签可以被用在各种各样的场景(context)——包括依赖机器学习和/或人工智能的场景——中。例如,经标注的图像的集合可以形成训练数据集,以用于在如医学成像、自动驾驶车辆、损害评估、面部识别和农业多种多样的场景中进行姿态估计、图像分类、特征提取和模式识别。目前,机器学习和人工智能模型需要针对由模型执行的特定任务客制化(customize)的大的数据集。
技术实现思路
1、本说明书描述了涉及如下图像处理的技术:该图像处理涉及对二维图像上的地标进行标注。
2、在一个实施方式中,本说明书中所描述的主题可以体现在由数据处理装置执行的方法中。所述方法包括生成用于地标检测的对象的图像的训练集。生成所述训练集包括:接收对象的真实图像的集合,估计所述真实图像的集合的一个真子集中的每个真实图像中的所述对象的姿态,使用估计的姿态和所述对象的三维模型来创建用于所述训练集的所述对象的替代(surrogate)图像的集合。创建所述集合中的所述替代图像中的每个包括以对应于所述对象的所述估计的姿态中的相应的姿态的姿态在二维中渲染所述对象的所述三维模型,相对于据以估计所述对象的所述相应的姿态的所述真实图像中的所述对象扰动所述对象的另一个特性,其中所述扰动模拟所述对象的真实世界变化,以及基于所述三维模型在所述替代图像上对地标加标签。
3、此实施方式和其他实施方式可以包括以下特征中的一个或多个。所述方法可以包括:使用所述替代图像的集合来训练姿态估计器;使用训练的姿态估计器,估计所述真实图像的集合的第二真子集中的每个真实图像中的所述对象的所述姿态;以及使用利用所述姿态估计器估计的所述姿态和所述对象的所述三维模型来创建用于所述训练集的所述对象的替代图像的第二集合。所述方法可以包括:使用替代图像的第二集合和相继(successive)集合来迭代地训练所述姿态估计器,以及使用迭代地训练的姿态估计器来创建用于所述训练集的所述对象的替代图像的另外的集合。训练所述姿态估计器可以包括:使用所述集合的所述真子集中的所述真实图像来训练所述姿态估计器。创建所述替代图像的集合可以包括:以对应于所述对象的所述估计的姿态中的第一姿态的姿态在二维中渲染所述对象的所述三维模型;将在二维中对所述对象的渲染与据以估计所述对象的第一估计的姿态的所述真实图像中的所述对象进行比较;以及响应于比较,将所述第一估计的姿态指定为不正确的或不太可能是正确的。扰动所述另一个特性可以包括:改变所述对象或所述对象的一部分的颜色或纹理;或向所述对象添加一新的部分;或移除所述对象的一部分;或更换所述对象的一现有的部分。所述方法可以包括:基于所述三维模型,在所述真子集中的所述真实图像上对地标加标签或细化地标的位置;以及将所述真子集中的所述真实图像包括在所述训练集中。所述方法可以包括:基于反映在其中可能拍摄所述集合中的所述真实图像的真实世界状况的标准,使所述集合中的所述真实图像中的所述对象的估计的姿态无效;以及从所述真实图像的集合的所述真子集排除被无效的估计的姿态。
4、所述真实图像可以是所述对象的多个实例的图像。所述对象可以是汽车的品牌和型号年份。在估计每个真实图像中的所述对象的所述姿态之前,所述真实图像中的所述对象的所述姿态可以是未知的。
5、在另一个实施方式中,本说明书中所描述的主题可以体现在由数据处理装置执行的方法中。所述方法包括迭代地:a)使用机器学习姿态估计模型来估计对象的真实图像的集合的一个真子集中的所述对象的姿态,b)使用估计的姿态和所述对象的三维模型来生成所述对象的替代图像的集合,其中所述对象的所述替代图像中的所述对象被扰动以模拟所述对象的真实世界变化,以及c)使用所述对象的所述替代图像的集合来训练或重新训练所述机器学习姿态估计模型。对于除了所述迭代中的第一迭代外的每次迭代,所述真子集中的所述真实图像的数目相对于前一次迭代中的所述真子集中的所述真实图像的数目增加。
6、此实施方式和其他实施方式可以包括以下特征中的一个或多个。训练或重新训练所述机器学习姿态估计模型可以包括:使用所述集合的所述真子集中的所述真实图像来训练或重新训练所述机器学习姿态估计模型。所述方法可以包括:使所述集合中的所述真实图像中的所述对象的估计的姿态无效;以及从所述真实图像的集合的所述真子集排除被无效的估计的姿态。所述方法可以包括:响应于当前迭代的所述真子集中的所述真实图像的数目相对于前一次重复中的所述真子集中的所述真实图像的数目的增加下降到阈值以下而停止迭代。所述方法可以包括:基于所述三维模型在所述替代图像上对地标加标签。所述方法可以包括,对于每次迭代:基于所述三维模型在所述真子集中的所述真实图像上对地标加标签或细化地标的位置;以及使用所述真子集中的所述真实图像来训练或重新训练所述机器学习姿态估计模型。所述机器学习姿态估计模型可以识别地标以估计姿态。所述对象的所述替代图像中的所述对象可以具有:所述对象或所述对象的一部分的改变的颜色或纹理;或所述对象的一附加的新的部分;或所述对象的一移除的部分;或所述对象的一更换的部分。所述真实图像可以是所述对象的多个实例的图像。所述对象可以是汽车的品牌和型号年份。
7、以上所描述的方法的其他实施方案包括被配置为执行所述方法的动作的对应的系统和装置,以及编码有计算机程序的计算机存储介质,所述程序包括指令,当由数据处理装置执行时,所述指令使得所述数据处理装置执行所述方法的动作。
8、在附图和下文的描述中阐述了本说明书中所描述的主题的一个或多个实施方案的细节。根据该描述、附图和权利要求书,本主题的其他特征、方面和优点将变得明了。
1.一种由数据处理装置执行的方法,所述方法包括生成用于地标检测的对象的图像的训练集,其中生成所述训练集包括:
2.根据权利要求1所述的方法,还包括:
3.根据权利要求2所述的方法,还包括:使用替代图像的第二集合和相继集合来迭代地训练所述姿态估计器,以及使用迭代地训练的姿态估计器来创建用于所述训练集的所述对象的替代图像的另外的集合。
4.根据权利要求1所述的方法,其中训练所述姿态估计器还包括使用所述集合的所述真子集中的所述真实图像来训练所述姿态估计器。
5.根据权利要求1所述的方法,其中创建所述替代图像的集合还包括:
6.根据权利要求1所述的方法,其中扰动所述另一个特性包括:
7.根据权利要求1所述的方法,还包括:
8.根据权利要求1所述的方法,还包括:
9.根据权利要求1所述的方法,其中所述真实图像是所述对象的多个实例的图像。
10.根据权利要求1所述的方法,其中所述对象是汽车的品牌和型号年份。
11.根据权利要求1所述的方法,其中,在估计每个真实图像中的所述对象的所述姿态之前,所述真实图像中的所述对象的所述姿态是未知的。
12.一种由数据处理装置执行的方法,所述方法包括迭代地:
13.根据权利要求12所述的方法,其中训练或重新训练所述机器学习姿态估计模型还包括:使用所述集合的所述真子集中的所述真实图像来训练或重新训练所述机器学习姿态估计模型。
14.根据权利要求12所述的方法,还包括:
15.根据权利要求12所述的方法,还包括:
16.根据权利要求12所述的方法,还包括:
17.根据权利要求12所述的方法,还包括,对于每次迭代:
18.根据权利要求12所述的方法,其中所述机器学习姿态估计模型识别地标以估计姿态。
19.根据权利要求12所述的方法,其中所述对象的所述替代图像中的所述对象具有:
20.根据权利要求12所述的方法,其中所述真实图像是所述对象的多个实例的图像。
21.根据权利要求12所述的方法,其中所述对象是汽车的品牌和型号年份。