图像标注方法、装置及计算机存储介质与流程

文档序号:33191755发布日期:2023-02-04 08:47阅读:64来源:国知局
图像标注方法、装置及计算机存储介质与流程

1.本发明涉及图像处理技术领域,尤其涉及一种图像标注方法、装置及计算机存储介质。


背景技术:

2.随着深度学习模型在生产生活中的广泛应用,众多的应用场景对深度学习模型的性能要求越来越高。由于深度学习智能模型较为复杂,通常需要利用数量巨大且高质量的标注数据进行训练才能得到较为理想的模型参数,换言之,在某种程度上标注数据的质量决定了深度学习智能模型的质量。
3.目前,主要通过对视频进行关键帧抽取以获得图像,对部分图像手动标注,生成手动标注信息,并用于模型训练;使用训练好的模型对剩余待标图像进行自动标注,确定预标注信息;对预标注信息进行手动复检修正,生成最终标注信息。
4.但是,上述方法需要基于手动标注进行模型训练,导致图像标注的效率较低。


技术实现要素:

5.本发明实施例提供了一种图像标注方法、装置、计算机存储介质及电子设备,自动的从图像序列识别出不同对象,基于该对象的代表图像实现对该对象的所有图像的标注,无需基于手动标注进行模型训练,提高了图像标注的效率,同时考虑到代表图像的信息准确性的优势,能够确保图像标注的准确性。
6.第一方面,本发明实施例提供了一种图像标注方法,包括:获取待标注的具有时空联系的图像序列;获取图像序列中的多个图像,其中,多个图像中的每个图像均检测到对象;对多个图像中的各个图像中的对象进行目标跟踪,确定图像组,图像组中的各图像包含目标对象;从图像组中选择代表图像;基于代表图像中的目标对象的目标属性的代表属性值,对图像组中其余图像中的目标对象,进行目标属性的属性值标注,其中,目标对象拥有包括目标属性在内的一个或者多个属性,目标属性拥有一个或者多个属性值。
7.本发明实施例中,自动的从图像序列识别出不同对象,基于该对象的代表图像实现对该对象的所有图像的标注,无需基于手动标注进行模型训练,提高了图像标注的效率,同时考虑到代表图像的信息准确性的优势,能够确保图像标注的准确性。
8.在一种可能的实现方式中,获取拍摄装置采集到的图像集,从图像集中确定相同拍摄装置采集的连续的多个图像以形成图像序列。
9.在一种可能的实现方式中,获取拍摄装置采集到的视频,基于取帧频率对视频进行抽帧以得到多个视频帧,按照拍摄时间顺序对多个视频频进行排序以形成图像序列。
10.上述二种实现方式中,通过确定具有时空联系的多个图像以形成图像序列,从而确保图像序列中图像的紧密关联,使得同一对象在不同图像之间的信息的差异较小,进而确保代表图像能够代表该对象在不同图像的可能的情况,确保图像标注的准确性。
11.在一种可能的实现方式中,代表图像中目标对象的清晰度大于图像组中代表图像
之外的其余图像中的目标对象的清晰度。
12.该实现方式中,通过选择清晰度较高的图像作为代表图像,从而确保代表图像中的信息能够更为准确的体现出实际情况,确保图像标注的准确性。
13.在一种可能的实现方式中,代表图像中目标对象的完整度大于图像组中代表图像之外的其余图像中目标对象的完整度。
14.该实现方式中,通过选择完整度较高的图像作为代表图像,从而确保代表图像的信息能够更为准确的体现出实际情况,确保图像标注的准确性。
15.在一种可能的实现方式中,代表图像的数量为多个;图像组中的每个代表图像中目标对象的目标属性的代表属性值相同。
16.在一种可能的实现方式中,代表图像的数量为多个;图像组中的部分代表图像的目标对象的目标属性的代表属性值相同,目标属性的不同的代表属性值各自对应的目标对象所在的代表图像不同。
17.本实现方式中,通过考虑到了对象在不同代表图像的情况,从而获取更为准确的代表属性值,确保图像标注的准确率。
18.在一种可能的实现方式中,基于代表图像中的目标对象的目标属性的代表属性值,对图像组中其余图像中的目标对象,进行目标属性的属性值标注,包括:对于其余图像中的每个图像,判断图像中的目标对象的属性的代表属性值和代表图像中的目标对象的属性的代表属性值是否匹配,若匹配,则将代表图像中的目标对象的属性的代表属性值标注到图像中的目标对象。
19.本实现方式中,通过对代表图像中的对象的属性的属性值和图像中的该对象的属性的属性值的比对,充分考虑到了代表图像和图像之间的差异,在属性值相似或相同的情况下,基于代表图像的该对象的属性的属性值实现标注,确保图像标注的准确率。
20.在一种可能的实现方式中,其余图像中的目标对象的目标属性被标注的属性值相同。
21.在一种可能的实现方式中,其余图像中的部分图像的目标对象的该属性被标注的属性值相同,目标属性的不同的属性值各自被标注在的目标对象所在的图像不同。
22.本实现方式中,通过对象的代表图像实现对对象的其余图像的标注,充分考虑到了代表图像的信息准确性的优势,从而确保图像标注的准确率。
23.在一种可能的实现方式中,图像序列中的每个图像通过多个检测模型判断是否存在对象。
24.本实现方式中,通过多个检测模型实现检测正,从而能够较为准确的检测出图像中的对象。
25.第二方面,本发明实施例提供了一种图像标注装置,包括:序列获取模块,用于获取待标注的具有时空联系的图像序列;图像获取模块,用于获取图像序列中的多个图像,其中,多个图像中的每个图像均检测到对象;跟踪模块,用于对多个图像中的各个图像中的对象进行目标跟踪,确定图像组,图像组中的各图像均包含目标对象;选择模块,用于从图像组中选择代表图像;标注模块,用于基于代表图像中的目标对象的目标属性的代表属性值,对图像组中其余图像中的目标对象,进行目标属性的属性值标注,其中,目标对象拥有包括目标属性在内的一个或者多个属性,目标属性拥有一个或者多个属性值。
26.在一种可能的实现方式中,代表图像的数量为多个;图像组中的每个代表图像中目标对象的目标属性的代表属性值相同。
27.在一种可能的实现方式中,代表图像的数量为多个;图像组中的部分代表图像的目标对象的目标属性的代表属性值相同,目标属性的不同的代表属性值各自所属的目标对象所在的代表图像不同。
28.在一种可能的实现方式中,其余图像中的目标对象的目标属性被标注的属性值相同。
29.在一种可能的实现方式中,其余图像中的部分图像的目标对象的该属性被标注的属性值相同,目标属性的不同的属性值各自被标注在的目标对象所在的图像不同。
30.第三方面,本发明实施例提供了一种图像标注装置,包括至少一个处理器,处理器用于执行存储器中存储的指令,以使得终端执行如第一方面各个可能实现的实施例。
31.第四方面,本发明实施例提供了一种计算机存储介质,其上存储有计算机程序,当计算机程序在计算机中执行时,令计算机执行如第一方面各个可能实现的实施例。
32.第五方面,本发明实施例提供了一种电子设备,包括存储器和处理器,存储器中存储有可执行代码,处理器执行可执行代码时,实现第一方面各个可能实现的实施例。
附图说明
33.图1是本发明实施例提供的一种图像标注系统的架构图;
34.图2a是图1中的采集设备的结构示意图;
35.图2b是图1中的标注设备的结构示意图;
36.图3是本发明实施例提供的另一种图像标注系统的架构图;
37.图4是本发明实施例提供的标注模型的示意图;
38.图5是本发明实施例提供的一种图像标注方案的流程示意图;
39.图6a是图5中的目标检测的流程示意图;
40.图6b是图5中的目标标注的流程示意图;
41.图7是本发明实施例提供的另一种图像标注方案的流程示意图;
42.图8a是本发明实施例提供的基于图像集获取图像序列的流程示意图一;
43.图8b是本发明实施例提供的基于视频集获取图像序列的流程示意图二;
44.图8c是本发明实施例提供的基于视频集获取图像序列的流程示意图三;
45.图8d是本发明实施例提供的基于视频集和图像集获取图像序列的流程示意图四;
46.图9a是图7中的图像序列的示意图一;
47.图9b是图7中的图像序列的示意图二;
48.图10a是图9a的目标跟踪的示意图;
49.图10b是图9b的目标跟踪的示意图;
50.图11是图7中的目标标注的示意图;
51.图12是图11中的图像的标注信息融合的示意图;
52.图13a是图12所示的属性值融合的示意图一;
53.图13b是图12所示的属性值融合的示意图二;
54.图14是本发明实施例提供的一种图像标注方法的流程示意图。
具体实施方式
55.为了使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图,对本发明实施例中的技术方案进行描述。
56.在本发明实施例的描述中,“示例”、“例如”或者“举例来说”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例”、“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例”、“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。
57.在本发明实施例的描述中,术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,单独存在b,同时存在a和b这三种情况。另外,除非另有说明,术语“多个”的含义是指两个或两个以上。例如,多个系统是指两个或两个以上的系统,多个电子设备是指两个或两个以上的电子设备。
58.此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其余方式另外特别强调。
59.以下,对本发明实施例中的部分用语进行解释说明。需要说明的是,这些解释是为了便于本领域技术人员理解,并不是对本发明所要求的保护范围构成限定。
60.(1)图像序列
61.图像序列包括拍摄装置采集到的具有时空联系的多个图像。示例地,图像序列可以包括车载相机拍摄的连续帧图像、航拍的连续帧图像或者从视频中按照一定取帧频率提取的连续帧图像。比如,取帧频率可以是x帧/秒或x秒/帧,举例来说,帧频率可以是1秒抽20帧,或者,每隔0.5秒抽一帧。需要说明的是,视频中的原始视频帧和相邻帧之间的差异较小,无需提取视频中的每一帧,按照固定的取帧频率提取的视频中的多帧,可保留视频中的重要信息,同时能够减少图像数量,提高处理视频数据的效率。在具体实施时,在对视频进行抽帧之前,对视频中各图像按时间顺序标记帧标识fid;然后按照设置的帧频率进行抽帧;然后将抽帧后得到的图像帧根据帧标识fid排序,生成图像序列。具体地,也可以使用gpu(graphics processing unit,图形处理器)和opencv对视频进行硬解码,以加速抽帧的速率。其中,图像是指平面图像,可以是红绿蓝(redgreen blue,rgb)图像、灰度图像等。示例地,本发明实施例中的待标注的图像序列可以是没有任何标注的图像,也可以是具有部分标注的图像,比如,图像上标注有目标类型和目标框,从而了解对象所在的位置,后续,则无需进行目标检测,可直接进行图像标注。应当理解,本发明实施例无需进行关键帧的抽取,因此,图像序列可能包括关键帧图像和非关键帧图像。
62.需要说明的是,采用相同拍摄装置进行拍摄的,且相邻图像之间的时间间隔不大于预设阈值的多个图像具有时空联系。其中,预设阈值过短会增加图像数量,增加计算量,过长可能会减弱图像之间的时空联系,具体需要结合实际需求确定预设时长阈值,比如,可以是0.5s。
63.本发明实施例并不意图对视频的时长进行限定,具体需要结合实际需求设定即可,比如,可以是5分钟、10分钟等。也并不意图对图像序列中图像的数量和内容进行限定。示例的,上述视频可以为监控视频、行车记录视频、节目播放视频等。
64.本发明实施例中,可以是图像序列中的每个图像包括对象,也可以是图像序列中的部分图像包括对象。图像中的对象的数量可以是一个,比如,图5所示的图像中的一个对象x,也可以是多个,比如,图9b所示的图像中的一个对象x和一个对象y。图像中的多个对象可以是相同目标类型的对象,也可以是不同目标类型的对象。需要说明的是,上述对象的目标类型可以是人物、车辆、字符、建筑物、动物、植物等一切自然界真实存在且可在图像中识别的物体,具体可根据实际应用场景确定,在此不做限制。一个目标类型有多个对象,比如图4所示的n个对象。作为一个示例,图像包括一种目标类型的对象,举例来说,假设图像包括3个车辆,则图像包括3个对象,对应相同的目标类型:车辆。作为另一个示例,图像包括多种目标类型的对象,举例来说,假设图像包括3个车辆和3个行人,则图像中包括6个对象,对应车辆和行人两种目标类型。
65.(2)代表图像
66.本发明实施例中,代表图像可以理解为对象的清晰度和/或完整度较高的图像。
67.(3)监督学习
68.监督学习是从标记的训练数据来推断一个功能的机器学习任务。在监督学习中,每个实例都是由一个输入对象(通常为矢量)和一个期望的输出值(也称为监督信号)组成。
69.(4)图像标注
70.图像标注是一项用标签标注图像的工作。这些标签由ai工程师预设,并被选取以为计算机视觉模型提供信息,展示图像的内容。由于项目不同,每一图像上的标签数量也各不相同。一些项目仅需一个标签就可以表示整幅图像的内容(图像分类)。而另外一些项目可能需要给多个对象打标签,每一图像都需要不同的标签。本发明实施例中,用户需要指定(如通过网页界面的方式指定)目标类型对应的对象的待标注的若干个属性。
71.(5)目标检测
72.目标检测即找出图像中所有感兴趣的物体,包含物体定位和物体分类两个子任务,同时确定物体的目标类型和位置。本发明实施例中的对象是通过目标检测所检测出来的。
73.(6)目标跟踪
74.目标跟踪是指对图像序列中的运动对象进行检测、提取、识别和跟踪,获得运行对象的运动参数,进行处理与分析,实现对运动对象的行为理解,以完成更高一级的检测任务。本发明实施例中,目标跟踪能够得到图像序列中的对象的标识。相同对象在不同图像上的标识相同;不同对象的标识不同。在实际应用中,标识可以采用数字或字母的形式表示。
75.(7)融合
76.融合校正指的是将信息融为一体。而融合过程本身就是校正的过程。本发明实施例中,融合可以理解为对属于相同对象的相同属性中的相似或相同的多个属性值的融合,从而实现不同图像中的相同信息的校正。
77.接下来,介绍本方案提供的一种图像标注系统的架构。
78.图1为本发明实施例提供了一种图像标注系统100的架构图。该图像标注系统100包括采集装置101和标注装置102。
79.在一个例子中,采集装置101用于采集多个图像,进一步,还可以用于从多个图像中确定图像序列,还可以对图像序列进行目标检测、目标跟踪和/或目标标注,以得到检测
出的每个对象的检测信息、标识和/或标注信息。示例地,图9a示出了u张图像,每张图像包括对象x,假设图像中的对象均可被检测出,则被检测出的对象有u个;图9b示出了u张图像,每张图像包括对象x和对象y,假设图像中的对象均可被检测出,则被检测出的对象有2
×
u个。另外,如果经过了目标跟踪,为了便于描述,将具有相同标识的对象所在的多个图像确定为图像组,将具有相同标识的对象作为目标对象进行描述,这里,图像组中的各图像均包含目标对象。进一步地,采集装置101还可以确定图像组中的目标对象的若干个代表图像。其中,检测信息指示了检测出的一个对象的结果,可以通过对一个检测模型检测得到,也可以通过对多个检测模型的输出进行融合得到。至少包括一个目标类型和一个目标框;进一步的,还可以包括目标类型的置信度、目标框的置信度;目标框用于确定目标框在图像中的位置,可以用坐标和尺寸表示目标框,例如,坐标可以是目标框的中心坐标、左上角坐标和右下角坐标。在实际应用中,不同对象的目标框可以采用不同的标识以区分。标注信息指示了对检测出的一个对象进行标注的结果,可以通过对一个标注模型标注得到,也可以通过对多个标注模型得到。在一个例子中,可以包括该对象的待标注的每个属性各自的唯一的属性值。示例地,属性为颜色,属性值为红色。在另一个例子中,可以包括该对象的待标注的每个属性各自的多个属性值。示例地,属性为颜色,属性值为红色、红色、大红色等。其中,待标注的属性可以为对象的不变属性,例如,目标类型,也可以为可变属性,例如动物的情绪、动物的动作等。在实际应用中,通常需要预先设置好不同目标类型的对象的待标注的若干个属性,通常属于同一目标类型的对象的待标注的属性是相同;示例地,目标类型为猫,待标注的属性有两个分别为动作和表情,则不同图像中的猫的待标注的属性有两个,分别为动作和表情。应当理解,若经过目标跟踪,则相同对象在不同图像中的标识相同,不同对象的标识不同。若未经过目标跟踪,则标识仅仅是为了区别一个图像中的被检测出的不同对象。
80.在一个例子中,采集装置101包括一个或多个采集设备110,并可以通过一个或多个采集设备110实现上述描述的采集装置101所能实现的功能。
81.示例地,采集设备110可以表示任何能够实现图像采集的电子设备,例如个人计算机、智能手机、平板电脑、智能摄像头、智能汽车、媒体消费设备、可穿戴设备、游戏机等。另外,采集设备110之间也可以进行交互,比如,智能摄像头将拍摄的图像或视频发送给智能汽车。进一步地,采集装置101可以用于提供云服务,其可以包括可以与标注装置102建立通信连接、且能为标注装置102提供存储功能和运算功能的服务器。其中,本发明中涉及的服务器可以是硬件服务器,也可以植入虚拟化环境中,例如,本发明中涉及的服务器可以是在包括一个或多个其他虚拟机的硬件服务器上执行的虚拟机。
82.在相关技术中,大多数对图像进行识别的深度学习智能模型都是采用监督学习的方式训练得到的。对于监督学习的方式下,模型的训练需要用到大量的已标注图像。其中,已标注图像也即是带有标签的图像,该标签可以为:对象的类型、对象的属性信息等,具体需要结合模型要完成的任务确定,比如,分类、目标检测等任务。对于图像,通常采用两种方式实现图像标注。其中,一种方式为人工标注,在这种方式下,需要工作人员根据经验对图像进行标注。另一种方式为机器自动标注(机器自动标注的效率相对于人工标注的效率高),可以采用标注模型对图像进行标注;可选地,标注模型可以基于人工标注的图像进行训练得到。进一步地,还可以在采用标注模型对数据进行标注后,由工作人员对已标注的数
据进行复检,纠正一些错误标注。对于视频,通常需要对视频中的关键帧进行提取,从而得到若干个图像。之后,按照上述方式实现图像标注。但是,由于需要提取视频中的关键帧作为图像,可能会导致信息丢失,从而可能会导致标注不准确的问题。另外,由于需要基于人工手动标注进行模型训练,导致图像标注的效率较低。
83.需要说明的是,目标对象的待标注的属性可能有一个或多个,本实施例中以待标注的一个属性为例进行描述,为了便于区别,将待标注的一个属性称为目标属性,下文以目标属性为例进行描述。
84.在一个例子中,标注装置102用于获取待标注的具有时空联系的图像序列;获取图像序列中的多个图像,其中,多个图像中的每个图像均检测到对象;对多个图像中的各个图像中的对象进行目标跟踪,确定图像组,图像组中的各图像包含目标对象;从图像组中选择目标对象的代表图像;基于代表图像中的目标对象的目标属性的代表属性值,对图像组中其余图像中的目标对象的目标属性进行属性值标注,自动的从图像序列识别出不同对象,基于该对象的代表图像实现对该对象的所有图像的标注,无需基于手动标注进行模型训练,提高了图像标注的效率,同时考虑到代表图像的信息准确性的优势,能够确保图像标注的准确性。其中,该目标属性的代表属性值基于上述所述的标注信息得到。应当理解,该目标属性的代表属性值可较为准确的反映出代表图像中的目标对象的实际情况。示例地,若标注信息包括该目标属性的唯一的属性值,则从标注信息直接选择该目标属性对应的属性值作为代表属性值;示例地,若标注信息包括该目标属性的多个属性值,对标注信息中该目标属性的多个属性值进行融合得到该目标属性的代表属性值。另外,当代表图像有多个时,该目标属性的代表属性值基于对不同代表图像中的目标对象的该目标属性的相似或相同的属性值融合得到,融合的详细内容参见下文。其余图像指的是图像组中代表图像之外的所有图像。
85.作为一个示例,标注装置102获取采集装置101发送的图像序列以及图像序列中各图像被检测出的对象的检测信息;则标注装置102可获取图像序列中检测到对象的多个图像;对多个图像中的各个图像中的对象进行目标跟踪,确定图像组;从图像组中选择目标对象的代表图像;基于代表图像中的目标对象的目标属性的代表属性值,对图像组中其余图像中的目标对象,进行目标属性的属性值标注。
86.作为另一个示例,标注装置102获取采集装置101发送的图像序列以及图像序列中各图像被检测到对象的标识;则标注装置102将具有相同标识的各图像作为图像组,图像组中的各图像包含目标对象;从图像组中选择目标对象的代表图像;基于代表图像中的目标对象的目标属性的代表属性值,对图像组中其余图像中的目标对象进行,目标属性的属性值标注。
87.作为再一个示例,标注装置102获取采集装置101发送的图像组;则标注装置102从图像组中选择目标对象的代表图像;基于代表图像中的目标对象的目标属性的代表属性值,对图像组中其余图像中的目标对象,进行该目标属性的属性值标注。
88.另外,若采集装置101发送的不是图像序列,比如,可以是视频或多个图像,则标注装置102还用于从采集装置101发送的视频或多个图像中确定具有时空联系的图像序列。
89.在一个例子中,标注装置102包括一个或多个标注设备120,并可以通过一个或多个标注设备120实现上述描述的标注装置102所能实现的功能。
90.示例地,标注设备120可以是能够进行图像标注的电子设备,比如服务器,服务器与其它计算设备配合,例如:数据存储、路由器、负载均衡器等设备;多个标注设备120可以布置在一个物理站点上,或者分布在多个物理站点上。多个标注设备120可以调用采集装置101中的数据,也可以调用内部或外部存储系统中的程序代码以实现基于代表图像中的目标对象的目标属性的代表属性值,对图像组中其余图像中的目标对象,进行该目标属性的属性值标注,进而提升图像标注的准确性。另外,标注设备120之间可以进行交互。
91.在一个例子中,用户可以操作各自的采集设备110与标注设备120之间进行交互。比如,用户通过采集设备110提供的交互界面,选择相关数据发送到标注设备120。
92.在另一个例子中,用户可以操作各自的标注设备120与采集设备110之间进行交互。比如,用户通过标注设备120提供的交互界面,向采集设备110请求相关数据。
93.上述标注设备120之间、采集设备110之间及采集设备110和标注设备120之间可以通过任何通信机制/通信标准的通信网络与对象设备进行交互。示例地,通信网络可以包括电缆网络、有线网络、光纤网络、电信网络、内部网络、互联网、局域网络(lan)、广域网络(yan)、无线局域网络(ylan)、城域网(man)、公共交换电话网络(pstn)、蓝牙网络、紫蜂网络(zigbee)、近场通信(nf)、设备内总线、设备内线路、线缆连接等或其任意组合。
94.需要注意的,标注装置102的所有功能也可以由采集装置101实现。例如,采集装置101实现执行标注装置102的功能。
95.另外,在一些可能的情况,采集装置101和标注装置102可以一体化设置,比如,设置在一个电子设备上,对应的,图像采集系统可以设置在一个电子设备上。
96.进一步的,采集设备110可以将数据存储到外部存储设备和/或数据库,以使标注设备120通过外部存储设备和/或数据库获取到图像序列,进一步,可以获取检测出的每个对象的检测信息、标识和/或标注信息,另外,还可以获取图像组,图像组中的若干个代表图像。这里,数据库可以设置在采集设备110上,也可以设置在标注设备120上,还可以设置在采集设备110和标注设备120之外的电子设备上。其中,外部存储设备可以是软盘、移动硬盘、u盘等电子设备,此处不作限定。
97.应当理解,本发明实施例中,标注装置102获取的图像序列,可以是标注装置102所在的电子设备收集的,也可以是标注装置102所在的电子设备从其他的电子设备接收到的。
98.进一步的,图像标注系统100还可以与模型训练系统连接。模型训练系统用于基于标注装置102的输出构建训练集进行模型训练。
99.以上即是对本发明实施例中涉及的一种图像标注系统100的介绍。接下来对上述图像标注系统100中的采集设备110和标注设备120进行介绍。
100.首先,介绍采集设备110。请参阅图2a,图2a是图1所示的一种采集设备的结构示意图。如图2a所示,该采集设备110包括:拍摄装置111、处理器112,存储器113及网络接口114。其中,拍摄装置111、处理器112,存储器113及网络接口114可通过总线或其他方式连接。本发明中,处理器112是采集设备110的计算核心及控制核心。例如,处理器112可以对拍摄装置111拍摄得到的图像信号进行处理,以得到图像,从多个图像中确定具有时空联系的图像序列,也可以对图像序列进行目标检测、目标跟踪和/或目标标注。存储器113(memory)用于存放程序和数据,例如存放拍摄装置12发送的图像序列,检测出的每个对象的检测信息、标识和/或标注信息,还可以包括图像组,图像组中的若干个代表图像等。网络接口133用于收
发数据,例如,将图像序列,检测出的每个对象的检测信息、标识和/或标注信息发送至标注装置120等。采集设备110还包括usb接口115用于与外部存储设备进行交互,将图像序列,检测出的每个对象的检测信息、标识和/或标注信息,图像组,图像组中的若干个代表图像等存储到外部存储设备中。
101.接着,介绍标注设备120,请参阅图2b,图2b是图1所示的一种标注设备的结构示意图。如图2b所示,标注设备120包括:处理器121,存储器122和网络接口123。其中,处理器121,存储器122和网络接口123可通过总线或其他方式连接。本发明中,处理器121是标注设备120的计算核心及控制核心。例如,处理器121可以对图像序列进行目标检测和目标跟踪,以确定图像组,从图像组中选择出代表图像;基于代表图像中的目标对象的目标属性的属性值,对图像组中的各图像中的目标对象进行目标属性的属性值标注。存储器122(memory)用于存放程序和数据,例如,存放图像序列,检测出的每个对象的检测信息、标识和/或标注信息,进一步还可以存放图像组,图像组中的若干个代表图像等。网络接口123用于收发数据,例如,接收采集装置110发送的被检测出的每个对象的检测信息、标识和/或标注信息,还可以是图像组,图像组中的若干个代表图像。usb接口124用于与外部存储设备进行交互,例如,接受外部存储设备发送的图像序列,检测出的每个对象的检测信息、标识和/或标注信息,还可以接收图像组,图像组中的若干个代表图像。
102.需要说明的是,本发明的实施例中的网络接口均可以包括标准的有线接口和无线接口(如yi-fi,移动通信接口等),具体需要结合实际需求确定。本发明的实施例中的存储器包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器;还可以包括高速ram存储器。同时,还用于存储操作系统和可执行程序代码,操作系统包括但不限于:yindoys系统(一种操作系统),linux系统(一种操作系统),鸿蒙系统(一种操作系统)等等,在此不做限定。本发明的实施例中的处理器可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field programmable gate array,fpga)或者其他可编程逻辑器件、晶体管逻辑器件,硬件部件或者其任意组合。通用处理器可以是微处理器,也可以是任何常规的处理器。
103.接下来,介绍本方案提供的另一种图像标注系统300的架构。
104.图3为本发明实施例提供的另一种图像标注系统300的架构图。图像标注系统300包括采集装置101、标注装置102、外部存储设备310和数据库320。采集装置101和标注装置102所能实现的功能详见上文描述,此处不做过多赘述。外部存储设备310和数据库320用于存储采集装置101采集及处理的数据。为了增加系统的灵活性,数据交互采用约定格式的数据结构或文件来完成,如json、xml等。
105.在一个例子中,标注装置102可以包括数据输入模块321、检测模块322、目标跟踪模块323、第一标注模块324、选择模块325、融合校正模块326和第二标注模块327。
106.示例地,数据输入模块321能够对视频进行抽帧得到带视频帧编号的视频帧输出,另外还可以对解析后的视频帧和/或多个图像按照时空联系进行组合排序,输出图像序列。
107.示例地,检测模块322内置n个检测模型和检测结果融合算法,实现对不同目标类型的对象的目标检测。该模块322输入为一个图像,输出为图像中被检测出的每个对象各自的检测信息。检测信息参见上文描述,此处不做过多赘述。需要说明的是,检测模块324通过
n个检测模型对图像进行检测,得到n个检测模型的输出,通过检测结果融合算法对n个检测模型的输出进行融合,得到被检测出的对象的检测信息。这里,检测结果融合算法可以包括匈牙利匹配算法、非极大值抑制算法,在实际应用中,还可以采用其他的融合算法。
108.示例地,目标跟踪模块323内置目标跟踪算法,比如卡尔曼滤波算法、匈牙利匹配算法和深度学习目标重识别算法。该模块323的输入为多个图像和每个图像中被检测出的每个对象各自的检测信息,输出为每个图像中被检测出的每个对象各自的标识。经过目标跟踪模块323后,相同对象在不同图像上的标识相同;不同对象的标识不同。可选地,标识可以采用数字或字母的形式表示。
109.示例地,第一标注模块324用于实现对不同目标类型的对象或者同一目标类型的对象的不同属性的标注,可以包括z个标注模型。该模块324的输入为图像以及图像中被检测出的对象的检测信息和标识,输出为对象的标注信息。标注信息参见上文描述,此处不做过多赘述。
110.示例地,选择模块325用于实现从图像组中选择出若干个代表图像。该模块325的输入为具有相同标识的对象所在的多个图像以其各自的图像标识,输出为若干个代表图像和其各自的图像标识。
111.示例地,融合校正模块326用于实现属于相同对象的相同属性的相似的属性值的融合。在一个例子,融合校正模块326对于图像组中的各图像,对该图像中的目标对象的标注信息中相同属性的多个属性值的融合,以得到该图像的目标对象的第一属性信息。这里,第一属性信息包括目标对象的待标注的每个属性各自的唯一的属性值。对应的,当图像为代表图像时,得到代表图像的目标对象的第一属性信息。对于多个代表图像,为了便于描述,定义标注信息集合包括图像组中的每个代表图像中的目标对象的标注信息。在一个例子中,融合校正模块326对标注信息集合中属于相同属性的相似的多个属性值进行融合,以得到目标对象的第二属性信息。为了便于描述,定义属性信息集合包括多个代表图像各图像的目标对象的第一属性信息。在一个例子中,融合校正模块326对属性信息集合中属于相同属性的相似的多个属性值进行融合,得到目标对象的第二属性信息。这里,作为一种可能的情况,第二属性信息可以包括目标对象的待标注的每个属性各自的唯一的属性值。作为另一种可能的情况,第二属性信息包括目标对象的待标注的每个第一属性各自的唯一的属性值和待标注的每个第二属性各自的多个属性值。比如,第一属性可以为目标类型,目标对象在所有代表图像的目标类型是相同的。第二属性可以为猫的动作,假设猫的动作有两种,一种是睡觉,另一种是吃饭,则目标对象在部分代表图像的动作是睡觉,在另一部分代表图像中的动作是吃饭。应当理解的,第二属性信息中的属性值为上文涉及的代表属性值。
112.示例地,第二标注模块327用于基于第二属性信息对图像组中各图像中的目标对象的第一属性信息进行修正。在一个例子中,对于图像组中的各图像,对于第一属性信息和第二属性信息中属于相同属性的属性值,判断这两个属性值是否匹配,如果匹配,将属于第一属性信息的属性值替换为属于第二属性信息的属性值。其中,匹配的方法可以是判断这两个属性值之间的相似度,相似度大则匹配,反之则不匹配。在另一个例子中,如果图像组中的各图像均为代表图像,则对于图像组中的各图像,将第一属性信息替换为第二属性信息中属于该图像的信息即可。详细的修正过程参见下文描述。
113.另外,本发明实施例并不意图对标注装置102中的模型和模型之间的连接进行限
定。示例地,数据输入模块321和检测模块322连接;当只需要对一张图片进行标注时,检测模块322与第一标注模块324连接,第一标注模块324与融合校正模块326连接;当需要对图像序列或视频进行标注时,检测模块322和目标跟踪模块323连接,目标跟踪模块323分别与第一标注模块324和选择模块325连接,第一标注模块324和选择模块325分别与融合校正模块326连接,融合校正模块326和第一标注模块324分别与第二标注模块327连接。
114.在一个例子中,采集装置101可以包括拍摄装置311和处理装置312。拍摄装置311能够对对象进行拍摄得到图像信号;处理装置312对图像信号进行处理以得到图像。
115.进一步的,处理装置312可以从多个图像中确定图像序列,也可以对图像序列进行目标检测、目标跟踪和/或目标标注,得到检测出的每个对象的检测信息、标识和/或标注信息,另外,如果经过了目标跟踪,还可以从图像组中选择若干个代表图像。示例地,将被检测出的一个对象的检测信息和该对象所在图像输入到第一标注模块324进行标注,即可该对象的标注信息。将图像组输入到选择模块325,即可确定图像组中的若干个代表图像。若代表图像只有一个,将代表图像中的目标对象的标注信息和标识输入到融合校正模块325,得到目标对象的第一属性信息;若代表图像有多个,将上述标注信息集合或属性信息集合输入到融合校正模块326,得到目标对象的第二属性信息。在一个例子中,处理装置312可以包括标注装置102中的检测模块322、目标跟踪模块323和/或第一标注模块324,从而实现目标检测、目标跟踪和/或目标标注。
116.更进一步的,采集装置101可以将多个图像以图像格式和/或视频格式存储到数据库320和/或外部存储设备310中,还可以将检测出的每个对象的检测信息、标识和/或标注信息,还可以将图像组,图像组中的若干个代表图像存储到数据库320和/或外部存储设备310。
117.作为一种可能的情况,标注装置102和拍摄装置311一体化设置,从而使得标注装置102可通过其具备的拍摄装置311获取多个图像和/或视频,进一步获取图像序列。示例地,拍摄装置311可以是摄像头。
118.作为另一种可能的情况,标注装置102和拍摄装置311分开设置。示例地,拍摄装置311可以是摄像头、摄像机、相机或其他带有拍照功能的设备,例如,该设备可以是手机,平板电脑,可穿戴设备,智能电视,智能音箱,车机等。拍摄装置311和标注装置102之间通过可以通过网络进行数据交互。例如,网络可以为上述通讯网络。在该情况中,外部存储设备310和/或数据库320可以存储处理装置312处理后的任何数据。
119.应当理解,本发明实施例中,标注装置102获取的图像序列,可以是标注装置102所在的电子设备收集的,也可以是标注装置102所在的电子设备从其他的电子设备接收到的,还可以与其相连接的外部存储设备310或数据库320中获取的。在一个例子中,标注装置120获取的是视频,则需要对视频进行抽帧,以获取图像序列。
120.值得注意的,附图3仅是本发明实施例提供的一种系统架构的示意图,图中所示装置、模块等之间的位置关系不构成任何限制,例如,在附图3中,采集装置101、数据库320相对标注装置102是外部的,在其它情况下,还可以将数据库320和采集装置101设置在同一电子设备中,或者,将数据库320和标注装置102设置在同一电子设备中,在另外的情况下,也可以将采集装置101、数据库320和标注装置102设置在同一电子设备中。
121.在一个例子中,该实施例中涉及的电子设备可以为手机、平板电脑等。示例地,电
子设备可以搭载ios、android、yindoys、鸿蒙系统(harmony os)或者其他操作系统。本发明实施例对电子设备的类型不做具体限定。电子设备的结构可以参见图2a和图2b,应当理解,不同电子设备的结构可以相同,也可以不同。
122.接下来,基于上述所描述的系统架构,对本发明实施例中所使用的检测模型进行介绍。
123.检测模型可以理解为输入为图像输出为图像中的对象的检测信息的模型。本发明实施例中,并不意图对检测模型进行任何限制,可以包括已有的和未来开发,已有的检测模型可以包括r-cnn、fast r-cnn、faster r-cnn等网络进行图像特征提取。
124.本发明实施例中,检测模型至少有一个,比如,可以是一个,也可以是多个。检测模型多种多样,不同检测模型所检测的目标类型也可能不同,换言之,同一目标类型,可以通过至少一个检测模型实现该目标类型的检测。
125.比如,检测模型所检测的目标类型可以是单一目标类型,比如,车辆或猫。
126.又比如,检测模型所检测的目标类型可以是多目标类型,比如,机动车、小轿车、自行车、货车、男人、女人、老人及小孩等。
127.需要说明的是,本发明实施例仅以上述目标类型为例,目标类型还可以是其他的目标类型,比如,植物,本发明实施例对此不作限定。
128.本发明实施例中,不同检测模型要检测的信息通常是相同,都是图像中的对象的目标类型和目标框。另外,不同检测模型的内部结构可以相同,也可以不同,也可以部分相同。应当理解的,检测模型是已经训练好的模型。在一个例子中,不同检测模型在训练时的训练参数是不同的,其中,训练参数可以是学习率、迭代次数、损失函数、批次大小等。需要说明的是,不同检测模型的检测效果通常不同。
129.接下来,基于上述所描述的系统架构,对本发明实施例中所描述的对象的待标注的属性进行介绍。
130.图像和其对应的待标注的若干个属性是作为训练样本进行模型训练的,因此,待标注的若干个属性与训练的模型有关。对应的,上述标注模型的输出也是与训练的模型相关的,在实际应用中,提前设置好标注模型的输出即可,对应的,标注模型输出待标注的一个或多个属性各自的属性值。对于上述及下述标注信息和属性信息来说,均指示了待标注的每个属性各自的属性值。
131.作为一个示例,若要训练的模型为检测模型,则待标注的若干个属性为目标类型和目标框位置,进一步还可以包括目标类型的置信度和/或目标框的置信度。作为一个示例,检测模型可以作为标注模型,无需标注模型进行标注。作为另一个示例,标注模型为对检测模型的输出进行修正的模型。
132.作为另一个示例,若要训练的模型为障碍物识别模型,待标注的若干个属性为障碍物类型、障碍物位置、障碍物形状、障碍物高度、障碍物颜色、障碍物危险程度等,具体可以根据实际情况对属性进行删除和/或增加。
133.作为再一个示例,待标注的若干个属性能够全面的描述对象,比如,目标类型、形状、颜色、高度、运动与否等各种属性。之后,在将多个图像及多个图像各自对应的标注结果(对象的待标注的若干个属性各自的最终的唯一的属性值)作为训练样本进行模型训练时,电子设备基于模型训练任务从待标注的若干个属性中选择需要的标签,和/或,从多个图像
中选择需要的图像,以完成该模型训练任务。其中,模型训练任务包括待训练模型以及待训练模型所需要的若干个标签。
134.接下来,基于上述所描述的系统架构,对本发明实施例中所使用的标注模型进行介绍。
135.标注模型可以理解为输入为图像中的对象的目标框输出为图像中的对象的标注信息的模型,从而实现对输入的图像的自动标注。本领域技术人员可以理解,本发明实施例并不意图对标注模型进行任何限制,可以是可以包括已有的和未来开发,已有的标注模型可以包括r-cnn、循环神经网络、长短时记忆网络,也可以包括其他神经网络模型。
136.本发明实施例中,标注模型至少有一个,标注模型多种多样,不同标注模型的图像标注方式也可能不同,用于标注的属性也可能不同。
137.比如,标注模型的图像标注方式可以为:基于分类的标注方式。此时,标注模型用于标注的属性可以包括图像中对象的目标类型。
138.又比如,标注模型的图像标注方式可以为:基于目标检测的标注方式。此时,标注模型用于标注的属性可以为图像中对象所在的位置(可以为目标框)。示例地,对象所在的位置可以为:对象在图像中的区域。在标注模型采用基于目标检测的标注方式对图像进行标注时,标注模型可以检测图像中的对象,并在图像中标注对象所在的位置。
139.再比如,标注模型的图像标注方式可以为:基于特征的标注方式。此时,标注模型用于标注的属性可以为图像中对象的目标类型、颜色、轮廓、尺寸、纹理、关键点、位置等。举例来说,对象为猫,则标注的属性可以为目标类型、目标框、轮廓、眼睛颜色、毛的颜色、品种等。应当理解的,基于特征的标注方式能够用于进行属性选择,从而满足各种各样的模型训练需求,比如车辆识别、动物识别等。
140.需要说明的是,本发明实施例仅以基于分类、目标检测和特征的标注方式为例,标注模型还可能有其他的标注方式(如基于语义分割的标注方式等),本发明实施例对此不作限定。
141.本发明实施例中,标注模型是已经训练好的模型,能够对图像中的至少一种目标类型对应的对象进行标注。如图4所示,不同目标类型通过不同类标注模型对属于该目标类型的n个对象进行标注。示例地,对于一个目标类型,该类标注模型可以通过一个或多个标注模型实现标注。示例地,每个标注模型各自输出同一目标类型的待标注的所有属性的属性值。示例地,两个或多个标注模型输出同一目标类型的待标注的所有属性的属性值,换言之,标注模型输出同一目标类型的待标注的部分属性的属性值。在实际应用中,对象的待标注的属性通常由不同标注模型进行多次标注,以确保标注结果的准确性。不同目标类型的标注模型的数量可能是不同的。举例来说,参考图9b,对象图像包括对象x和对象y,假设对象x的目标类型为a,对象y的目标类型为b;对于目标类型a的对象x,采用z个标注模型来完成自动标注,每个标注模型输出m个属性各自对应的一个属性值,最终,对于目标类型a的对象x的标注信息包括m个属性各自对应的z个属性值。与此类似的,目标类型b的对象y,采用l个标注模型来完成自动标注,最终,对于目标类型b的对象y的标注信息包括m个属性各自对应的l个属性值。
142.在一个例子中,不同标注模型的内部结构可以相同,也可以不同,也可以部分相同。在一个例子中,不同标注模型在训练时的训练参数是不同的,比如,训练参数可以是学
习率、迭代次数、损失函数、批次大小等。
143.另外,标注模型可以为人工标注模型,比如图像标注软件,从而使得用户能够通过图像标注软件实现图像的人工标注。
144.以上即是对本发明实施例中涉及的图像标注系统,以及该图像标注系统中各个组成部分的介绍。接下来基于上述图1至图3中描述的图像标注系统、图5所示的图像标注过程、图6a所示的目标检测过程和图6b所示的目标标注过程,以电子设备作为执行主体对本发明中涉及的图像标注方案进行详细介绍。需说明的是,该图像标注方案主要是介绍得到一个图像中的一个对象的属性信息的过程。详见下文描述。
145.步骤501、获取拍摄装置拍摄的一张待标注的图像。
146.本步骤中,电子设备获取一张待标注的图像。示例地,待标注的图像可以为图6a所示的图像,也可以为图9b所示的图像序列中的一个图像。
147.步骤502、对图像进行目标检测,以确定检测出的对象的检测信息。
148.为了确保目标检测的准确性,电子设备可通过多个检测模型实现不同目标类型的对象的检测,从而确定被检测出的对象的检测信息。检测信息参见上文描述,此处不做过多赘述。同时,多个检测模型并行计算,确保计算效率。
149.首先,电子设备通过多个检测模型分别对图像进行检测,以确定多个检测模型各自的输出。在具体实施时,经上述多个检测模型处理后,至少可以获取图像的多个目标类型和多个目标框。示例地,参考图6a,n个检测模型各自输出图像中对象x的目标框。在一些可能的情况,为了降低数据处理量,可对检测模型进行筛选。比如,可通过多目标类型的检测模型对图像进行目标检测,以确定图像对应的若干个目标类型;基于图像对应的若干个目标类型,确定这些目标类型对应的一个或多个检测模型。
150.然后,电子设备对多个检测模型各自的输出进行融合,以确定检测出的每个对象的检测信息。可选地,采用匈牙利匹配算法和非极大值抑制算法进行融合。具体地,通过匈牙利匹配算法对多个目标框进行匹配,以确定匹配的多个目标框;然后,采用非极大值抑制算法将匹配的多个目标框融合为唯一的目标框。示例地,对图6a中的n检测模型给自输出的对象x的目标框进行融合,得到图像中的对象x的唯一的目标框。另外,在确定了匹配的若干个目标框时,匹配的若干个目标框各自指示的目标类型也是匹配的,换言之,可确定匹配的若干个目标类型,另外目标类型携带置信度,则可确定最大的置信度对应的目标类型作为最终的目标类型,也可以确定出现次数最多的目标类型作为最终的目标类型。进一步的,对于目标框的置信度,可以采用加权平均的方式进行融合,每个置信度的权重可以基于对应的检测模型的精度确定。另外,也可以采用现有技术中的其他融合方法,本发明实施例对此不做具体限定。应当理解的,对多个检测模型各自的输出进行融合得到的每个目标框均表示一个对象。
151.在具体实施时,可以采用现有技术中的常规技术进行目标检测。
152.步骤503、基于对象的检测信息,对图像中的对象进行标注,以获取对象的标注信息。
153.为了确保标注信息的质量,电子设备可通过多个标注模型,来实现对不同目标类型的对象的自动标注,从而得到对象的标注信息。示例地,标注信息参见上文描述,此处不做过多赘述。同时,多个标注模型并行计算,确保计算效率。
154.在一个例子中,基于对象所属的目标类型和用户指定的该目标类型的待标注的若干个属性和,确定该对象的一个或多个标注模型。示例地,当对象为车辆时,待标注的若干个属性可以包括颜色、车型、车标等。在实际应用中,该标注模型标注的目标类型的若干个属性,至少包括该目标类型的待标注的若干个属性,优选相同,若不同,则可基于目标类型的待标注的若干个属性对标注模型的输出进行筛选。
155.在一个例子中,电子设备对于每个对象,基于该对象的检测信息,从图像中截取该对象所在的目标区域图像;然后对该目标区域图像进行放大或缩小以满足标注模型的图像尺寸要求;之后,通过该对象的多个标注模型分别对目标区域图像进行标注以确定该对象的标注信息。其中,目标区域图像可以理解为图像中表征对象位置的目标框所对应的区域。标注信息包括该对象的待标注的若干个属性各自的若干个属性值。示例地,参考图6b,基于图像中对象x的目标框,对图像裁剪,得到对象x所在的目标区域图像,然后将目标区域图像分别输入到z个标注模型,得到对象x的标注信息l,l包括对象x的z个输出l1、

、lz,共z*m个属性值,第i个标注模型对对象x的标注的输出表示为li,li包括m个属性的m个属性值v1i、

、vmi。
156.还需要说明的是,考虑到标注模型能够输出属性值的置信度,对于置信度较低的属性值的参考价值不大。为了进一步提高标注质量,电子设备删除标注信息中置信度较低的属性值,从而确保图像标注的准确性。
157.步骤504、对对象的标注信息中属于相同属性的多个属性值进行融合,以确定对象的属性信息。
158.电子设备通过对对象的标注信息中属于相同属性的多个属性值进行融合,得到该对象的属性信息,确保图像标注的准确性。其中,属性信息参见上文对第一属性信息的描述,此处不做过多赘述。为了便于描述,将标注信息中属于相同属性的多个属性值作为属性值集合。示例地,参考图6b,标注信息l包括对象x的m个属性值集合v1、v2、

、vm,对第i个属性ki的属性值集合vi,对vi中的z个属性值vi1、

、viz进行融合,得到唯一的属性值vis,进而得到对象x的属性信息f,属性信息f包括对象x的m个属性的m个属性值v1s、

、vms。
159.在一个例子中,电子设备可以通过多数投票算法实现相同属性的多个属性值的融合,比如,选择出现次数最多的属性值;示例地,请继续参考图6b,针对属性ki的属性值集合vi,选择vi中的z个属性值中出现次数最多的属性值,作为属性ki的唯一属性值vs;若vi中的z个属性值均不相同,选择与vi的平均值的差值绝对值最小的属性值,作为该属性ki的唯一属性值vs,即选择距离vi的中心最近的属性值作为该属性ki的唯一属性值vs。
160.在一个例子中,电子设备可以通过加权平均的方法实现相同属性的多个属性值的融合,示例地,属性值的权重可以基于对应的标注模型输出的该属性值的置信度确定。示例地,请继续参考图6b,针对属性ki的属性值集合vi中的第j个属性值vij,假设标注模型z输出了属性值vij的置信度,则将该置信度作为该属性值vij的权重。当然,在实际应用中,通常会对属性值集合中的属性值的权重进行归一化,以确保属性值集合中的属性值的权重之和为1。
161.在一个例子中,电子设备可以通过融合校正模型实现相同属性的多个属性值的融合。其中,融合校正模型的输入为对象的标注信息输出为该对象的属性信息,本领域技术人员可以理解,本发明实施例并不意图对融合校正模型的内部结构进行任何限制,可以是可
以包括已有的和未来开发,已有的融合校正模型可以是反向传播神经网络、循环神经网络、长短时记忆网络,也可以是其他神经网络模型。需要说明的是,由于不同目标类型的属性存在差异,为了确保标注质量,每个目标类型可以分别对应一个融合校正模型。
162.以上即是对本发明中提供的一种图像标注方案的介绍。接下来基于上文所描述的部分或全部内容,图7所示的图像标注过程,图8a、图8b、图8c和图8d所示的获取图像序列的过程,图9a、图9b所示的图像序列,图10a和图10b所示的目标跟踪结果,图11所示的目标标注过程,图12所示的图像的信息,图13a和图13b所示的融合过程,对本发明中提供的另一种图像标注方案进行详细介绍。需说明的是,该图像标注方案主要是介绍对图像序列进行标注的过程。详见下文描述。
163.步骤701.获取待标注的具有时空联系的图像序列。
164.作为第一种可能的情况,电子设备获取的是图像集,从图像集中获取具有时空联系的图像序列,比如,时间间隔在合理的时长内,且这些图像来自于同一视频或同一拍摄装置。示例地,参考图8a,电子设备获取的是图像集,图像集中的u个图像存在时空联系,则按照拍摄时间顺序对u个图像进行排列以形成待标注的图像序列。
165.作为第二种可能的情况,电子设备获取的是视频集。示例地,可以从视频存储器中采集视频,也可以使用usb接口中的mspout接口连接pvg视频转发服务,拉取视频。当通过mspout接口连接pvg(poyer video gateyay,网络视频管理平台)的视频转发服务拉取视频流采集视频流时,可以输入时间戳,路径,组名获取指定时间段的监控视频。视频中的多个图像之间是具有时空联系的。作为一个示例,对于视频集中的每一个视频,基于第一取帧频率对该视频进行抽帧后得到多个视频帧;按照时间顺序对这些视频帧进行排列,以形成待标注的图像序列。示例地,参考图8b,对于视频集中的每一个视频,基于第一取帧频率对该视频进行抽帧后得到u个视频帧;按照拍摄时间顺序对u个视频帧进行排列,以形成待标注的图像序列。作为另一个示例,若视频集中的多个视频具有时空联系,比如,多个视频的开始时刻和结束时刻在合理的时长内,且多个视频来自于同一拍摄装置,则基于第二取帧频率对多个视频中的每个视频进行抽帧后得到多个视频帧;按照拍摄时间顺序对多个视频帧进行排列,以形成待标注的图像序列。示例地,参考图8c,若视频集中的p个视频具有时空联系,基于第二帧频率对p个视频中的每个视频进行抽帧后得到u个视频帧;按照拍摄时间顺序对u个视频帧进行排列,以形成待标注的图像序列。其中,第一帧频率和第二帧频率可以相同也可以不同,具体需要结合实际需求确定。
166.作为第三种可能的情况,电子设备获取的是视频集和图像集,如果图像集中的若干个图像和视频集中的若干个视频之间存在时空联系,比如,若干个图像和若干个视频的开始时刻和结束时刻在合理的时长内,且若干个图像和若干个视频来自于同一视频或同一拍摄装置,则可基于第三取帧频率对若干个视频中每个视频进行抽帧后得到多个视频帧;按照拍摄时间顺序对多个视频帧和若干个图像进行排列,以形成待标注的图像序列。示例地,参考图8d,电子设备获取的是视频集和图像组,图像组中的j个图像和q个视频之间存在时空联系,基于第三取帧频率对q个视频中每个视频进行抽帧后得到i个视频帧;按照时间顺序对i个视频帧和j个图像进行排列,以形成待标注的图像序列。
167.示例地,图像序列可以参见图9a或图9b,图9a中的图像序列中的每个图像包括一个对象x,图9b中的图像序列中的每个图像包括对象x和对象y。
168.需要说明的是,图像序列中的相邻的图像之间的时间间隔不应该过大,也不应该过小,从而兼顾计算效率和图像标注的准确性。比如,可以是小于0.5秒。
169.步骤702、获取图像序列中的多个图像,其中,多个图像中的每个图像均检测到对象。
170.电子设备对于图像序列中的每个图像分别进行目标检测,获取检测到对象的多个图像。示例地,对每张图的目标检测方法参见上述步骤502以及图5。
171.在具体实施时,图9a或图9b的u个图像作为一个整体,分别输入到n个检测模型中,n个检测模型并行计算,将n个检测模型各自的输出的相同图像的结果进行融合,确定检出的对象的检测信息。进一步的,经本步骤处理后,还可以从图像序列中删除不含对象的图像。
172.步骤703、对多个图像中的各个图像中的对象进行目标跟踪,确定图像组,图像组中的各图像均包含目标对象。
173.在一个例子中,经过目标跟踪,相同的对象在不同图像中的标识相同,示例地,图9a中的u个图像中的对象x携带相同标识a。不同对象的标识不同,示例地,图9b中的u个图像中的对象x携带相同标识a,对象y携带相同标识b,对象x和对象y携带的标识不同。参见上文描述,具有相同标识的若干个图像作为图像组。
174.作为一个示例,将图像组中各图像按照拍摄时间顺序进行排列,以得到图像序列。电子设备针对该图像序列中的第一个图像,为该图像中的不同对象设置不同的标识,基于第一个图像中每个对象各自的检测信息和预测算法,对第一个图像中的每个对象各自对应在第二个图像中的位置和形状进行预测,得到第一个图像中的每个对象各自的目标预测结果;其中,预测算法可以是实现对象在第二个图像中的位置和形状预测的算法,比如,上述目标跟踪模块323内置的卡尔曼滤波算法。之后,基于匹配算法,对第一个图像中的每个对象各自对应的目标预测结果和第二个图像中每个对象各自的检测信息进行匹配,根据匹配结果确定第二个图像中的对象的标识。匹配结果有三种,第一种,匹配结果为第二个图像中的对象和第一个图像中的所有对象均不匹配,此时第二个图像中的对象被认为是新对象,被赋值新的唯一标识;第二种,匹配结果为第二个图像中的对象和第一个图像中的对象匹配,此时认为第一个图像中的对象仍然在第二个图像中,将第一个图像中的对象的标识赋值给第二个图像中与其匹配的对象。第三种,匹配结果为第一个图像中的对象与第二个图像中的所有对象均不匹配,此时认为第一个图像中的对象从图像中消失。其中,匹配算法可以是实现不同图像之间的对象匹配的算法,比如,可以是特征相似度匹配的算法或上述目标跟踪模块323内置的匈牙利匹配算法。这里,特征相似度匹配的算法可以包括上述目标跟踪模块323内置深度学习目标重识别模型;具体地,通过深度学习目标重识别模型对对象进行特征提取,得到图像中的对象的特征,然后计算第一个图像和第二个图像中的对象的特征之间的相似度,相似度较高的对象之间是匹配的。之后,按照相似的步骤,依次对相邻的两个图像进行目标跟踪,从而得到包含对象的多个图像中的每个对象的标识。在具体实施例时,可以采用任何现有技术中的常规技术实现目标跟踪。
175.需要说明的是,目标跟踪以后,不同标识的数量和图像组的数量是匹配的。比如,图像跟踪以后确定了u个不同的标识,则有u个图像组。每个图像组的处理过程是一样的,下文仅以一个图像组为例进行描述。
176.步骤704、从图像组中选择目标对象的代表图像。
177.在一个实施例中,电子设备可通过如下方式确定代表图像:
178.电子设备对于图像组中的每个图像,确定图像包含的目标对象对应的代表分数,代表分数指示了目标对象的完整度和/或清晰度;在一种可能的情况,将不小于第一预设阈值的代表分数对应的图像作为代表图像。另外,考虑到完整度和/或清晰度较小的图像的参考价值不大,电子设备还可以删除图像组中不大于第二预设阈值的代表分数对应的图像。其中,第一预设阈值大于第二预设阈值,阈值的大小可以结合实际情况确定。在另一种可能的情况,按照代表分数由大到小的顺序,对图像组中的各图像进行排序,将排序靠前的若干个图像分别作为代表图像。另外,还可以删除排序靠后的若干个图像。这里,在某些特殊的情况下,图像组中的每个图像均为代表图像。在实际应用中,选择代表图像的目的是选出图像组中最易于做目标对象的分析的图像,首先需要指定选择规则,每类目标类别的选择规则会有不同,常规情况下,选择规则为选择目标对象的清晰度高,目标对象比较完整的图像作为代表图像。其中,对于目标的代表分数可以通过深度学习(目标分类算法)或者图像算法(比如边缘检测算法等)来得到。
179.步骤705、基于代表图像中的目标对象的目标属性的属性值,对图像组中各图像中的目标对象的目标属性进行属性值标注。
180.图像组中的各图像包含目标对象,考虑到该对象在不同图像中的完整度和/或清晰度可能不同,对于清晰度和/或完整度较低的图像进行标注,较难保证图像标注的准确性。为了确保图像标注的准确性,本发明实施例中,电子设备从图像组中选择出目标对象的若干个代表图像,基于若干个代表图像中的目标对象的目标属性的唯一的属性值,对图像组中各图像包含的目标对象的该目标属性进行属性值标注。通过代表图像对其余图像进行标注,能够在图像不够完整和/或清晰度较低的情况下,考虑代表图像的信息量,确保图像标注的准确性。
181.该实施例中,通过考虑代表图像的清晰度和/或完整度,使得代表图像能够较为准确的描述图像中的对象,确保图像标注的准确性。
182.在一些可能的情况,对于图像组中的各图像,按照步骤403所示的方法对图像进行标注,得到的图像中目标对象的标注信息。标注信息参见上文描述,此处不做过多赘述。参考图11,假设图像组s包括u个图像,u个图像均包括对象x,对象x的待标注的属性有m个分别为k1、k2、

、km;对u个图像分别进行裁剪,得到对象x所在的u个目标区域图像,然后将u个目标区域图像分别输入到z个标注模型,得到对象x的z*u个输出l11、l12、

、l1u、l21、l22、

、l2u、

、lz1、lz2、

、lzu,第i个模型对第j个代表图像进行标注的输出表示为lij,包括m个属性的属性值v1
ij
、v2
ij


、v
mij
。参考图12,对于第i个代表图像,对象x的标注信息包括li1、li2、

、liz。
183.在实际应用中,一方面,考虑到不同图像中存在相同的对象存在差异,比如,如果骑车的人正在爬坡,在远处看可能是一个行人,也可能是一个骑车的人,但是随着骑车的人越来越近,则能准确的识别出是一个骑车的人,因此,对于相同的对象在不同图像的信息的融合是有必要的。另一方面,对象的多个属性可以分为第一属性和/或第二属性,第一属性的多个属性值没有发生变化,因此,第一属性有唯一的属性值,比如,猫的动作只有睡觉,则猫的动作这一属性只有一个属性值:睡觉。第二属性的属性值发生了变化,比如,猫的动作
从睡觉变成了吃饭,则猫的动作有两个属性值:睡觉和吃饭。再一方面,不同图像中可能存在相同的信息,比如,道路上的摄像头固定对某一区域进行拍摄,该区域内的所有的车辆均未发生移动。因此,考虑到不同代表图像中可能存在相同或相似的信息,为了确保图像标注的准确性,需要对不同代表图像中的相似或相同的信息进行融合,从而综合考虑对象在不同图像中的情况,确保代表属性值的参考价值。
184.为了便于区别,对于图像组中的每个代表图像,将该代表图像中的目标对象的标注信息中属于相同属性的属性值作为第一属性值集合,将第一属性值集合中的属性值融合后的唯一的属性值作为第一属性值;对于图像组中的各图像,将该图像中的目标对象的标注信息中属于相同属性的属性值作为第二属性值集合,将第二属性值集合中的属性值融合后的唯一的属性值作为第二属性值;当代表图像有多个时,对于图像组中的所有代表图像,将属于相同属性的第一属性值集合作为第三属性值集合,将属于相同属性的第一属性值作为第四属性值集合,对第三属性值集合或第四属性值集合中的若干个属性值融合后得到的每个属性值作为第三属性值。示例地,假设图12示出了u个代表图像,对于第i个代表图像,该代表图像中的对象x的标注信息划分为m个第一属性值集合,与m个属性k1、k2、

、km一一对应,属性ki的第一属性值集合表示为[vi
1i
、vi
2i


、vi
zi
],属性ki的第一属性值表示为vi
si
;第三属性值集合有m个,分别为k1l、k2l、

、kml,属性ki的第三属性值集合kil表示为[vi
11
、vi
21


、viz1、vi
12
、vi
22


、viz2、

、vi
1u
、vi
2u


、vizu],由u张代表图像中的对象x的属性ki的第一属性值集合组成;第四属性值集合有m个,分别为k1s、k2s、

、kms,属性ki的第四属性值集合kis表示为[vi
s1
、vi
s2


、vi
su
]。另外,当图像组中的图像为代表图像时,第一属性值也是第二属性值,第一属性值集合也是第二属性值集合。
[0185]
应当理解,属性值和其所属的目标对象所在的图像是关联在一起的。参考图12,图像中的对象x的m个属性各自的属性值都携带有所属图像的图像标识、拍摄时刻以及对象x的标识,第i个图像的第四属性值集合kis中的u个属性值vi
s1
、vi
s2


、vi
su
携带有图像标识pi、拍摄时刻ti以及对象x的标识a。在实际应用中,图像标识可以为视频抽帧后得到的视频帧编号,也可以为对多个图像进行排序后得到的图像编号。示例地,图9a和图9b中的1、2、

、u为图像编号,也可以为图像标识,从而区分不同的图像。
[0186]
考虑到目标对象的待标注的每个属性的标注方法是相同,下文仅以一个属性为例进行描述。下文所描述的第一属性值集合、第一属性值、第二属性值集合、第二属性值、第三属性值集合、第四属性值集合和第三属性值均属于相同属性,为了便于描述,称之为目标属性。
[0187]
接下来对得到第三属性值的实现过程进行描述。
[0188]
作为一个示例,电子设备基于聚类算法对目标属性的第三属性值集合或第四属性值集合中的多个属性值进行聚类,从而得到若干个聚类簇;示例地,采用聚类算法进行聚类。其中,聚类算法可以是k-means聚类、均值漂移聚类等,具体需要结合实际情况确定,本发明实施例对此不做具体限定。示例地,参考图12,对于第i个属性ki的第四属性值集合kis或第三属性值集合kil进行聚类,得到若干个聚类簇。之后,电子设备针对每个聚类簇,将聚类簇中的各属性值融合为一个第三属性值,融合方法可参见上述步骤504中描述的方法。另外,在对代表图像标注时,将目标属性的第三属性值标注到对应的聚类簇中的属性值所属的代表图像即可。
[0189]
作为另一个示例,确定若干个拍摄时段,拍摄时段内的目标属性的属性值被判断为未发生变化;对于每个拍摄时段的各时段,将目标属性的第四属性值集合或第三属性值集合中属于该时段的属性值进行融合,以得到一个第三属性值。
[0190]
在一个例子中,基于目标属性的第四属性值集合中的每个属性值所属代表图像的拍摄时刻,按照拍摄时间由早到晚的顺序,对第四属性值集合中的多个属性值进行排序,形成目标属性的属性值序列。示例地,参考图13a,对于第i个属性ki的第四属性值集合kis,对kis中的u个属性值按照拍摄时刻进行排序,得到属性值序列。或者,基于图像组中各图像的拍摄时刻,对图像组中各图像的目标对象的目标属性的第二属性值进行排序,以得到目标属性的属性值序列。应当理解的是,采用属性值序列的核心思路是为了判断出属性值变化的时刻,从而实现对不同时段的属性值的融合。
[0191]
然后,对目标属性的属性值序列进行异常值检测,并删除属性值序列中的检测出的异常值。其中,异常值检测可以采用现有技术中的方法,可以是近邻比较,即比较与周围点的分布密度,比如某一属性值分布明显与周围其他地方不一样,那么就存在异常情况,具体需要结合实际需求确定。示例地,若属性值序列中的属性值和左边相邻的属性值之间的相似度较低,且和右边相邻的属性值之间的相似度也较低,则可认为该属性值是异常值。举例来说,如图13b所示,假设属性值visi和右边相邻的vis
i+2
的相似度较小,且和左边相邻的vis
i-1
的相似度较小,则将visi确定为异常值。基于删除异常值的属性值序列判断属性值是否发生了变化,并在属性值发生变化时,确定若干个改变时刻,基于改变时刻对属性值序列对应的拍摄时段进行划分,以得到若干个拍摄时段。具体地,可以判断属性值序列中相邻的两个属性值之间是否相似或一致,比如差值是否大于预设阈值,相似度是否不小于预设阈值等,若否,则将相邻的两个属性值中靠后的属性值所属的图像的拍摄时刻确定为改变时刻。示例地,如图13b所示,假设相邻的两个属性值visi和vis
i+2
的相似度较小,则将vis
i+2
所属的图像的拍摄时刻确定为改变时刻。另外,也可以直接对属性值序列中的属性值进行异常值检测,若判断该属性值不是异常值,判断该属性值和左边相邻的属性值之间的相似度,以及该属性值和右边的属性值之间的相似度,以判断属性值是否发生了变化。其中,相似度可以基于采用现有技术中的方法,比如欧几里得距离。
[0192]
这里,目标属性的属性值序列对应的拍摄时段为序列中位于首位的属性值所属图像的拍摄时刻和位于末位的属性值所属图像的拍摄时刻之间的时段,换言之,目标属性的属性值序列对应的拍摄时段为多个代表图像的拍摄时段或图像组的拍摄时段。示例地,参考图12,假设u个代表图像各自的拍摄时刻为t1、

、tu,假设t1最早,tu最晚,则u个代表图像的拍摄时段为t1-tu。
[0193]
参考图13b,假设对象x的属性ki的改变时刻有x个,属性ki的属性值序列对应的拍摄时段为t1-tu,x个第一改变时刻分别表示为x1、

xi、

xx,x1到xx在时间上依次递增,x1晚于t1相同,xx早于tu;电子设备基于x个第一改变时刻,对t1-tu进行划分,确定x+1个第一拍摄时段,分别为[t1,x1)、[x1,x2)、[x2,x3)、
……
、[xx-1,xx)、[xx,tu]。示例地,图13b示出了将属性ki的属性值序列划分成分两个部分,对每个部分分别进行融合,得到的两个第三属性值vie1、vie2。
[0194]
为了便于区分,将上述基于目标属性的第四属性值集合得到的属性值序列作为目标属性的第一属性值序列,将基于图像组中各图像的目标对象的目标属性的第二属性值得
到的属性值序列作为目标属性的第二属性值序列。
[0195]
另外,在该示例中,当遍历目标属性的第二属性值序列确定判断属性值未发生变化时,直接对目标属性的第四属性值集合或第三属性值集合的多个属性值进行融合,确定目标属性的唯一的第三属性值。示例地,图13a示出了将属性ki的属性值序列融合得到的唯一的第三属性值vie,或者,将图12示出的属性ki的第三属性值集合kil融合为一个第三属性值。否则,通过上述方式得到目标属性的多个第三属性值。
[0196]
可以理解的,对于一个属性,在对所有的代表图像的相似的属性值进行融合后,作为一个可能的情况,所有代表图像中的该属性的代表属性值相同,作为另一种可能的情况,部分代表图像中的该属性的代表属性值相同,不同代表属性值各自对应的目标对象所在的代表图像是不同的。为了便于描述,将代表属性值相同的若干个代表图像作为一个代表图像类,则对于一个属性来说,所有代表图像可以分为一个代表图像类,或者多个代表图像类。对于一个代表图像类,示例地,参考图12和13a,对于第i个属性ki,u张代表图像中的对象x的属性ki的代表属性值都是相同的,为vie。对于一个代表图像类,示例地,参考图12和13b,对于第i个属性ki,图像标识为p1、p2、

、pi的i个代表图像中的对象x的属性ki的代表属性值都是相同的,为vie1;图像标识为pi+1、pi+2、

、pu的u-i个代表图像中的对象x的属性ki的代表属性值都是相同的,为vie2。
[0197]
接下来对图像组中各图像的标注过程进行详细描述。为了便于描述,将目标对象的目标属性被标注的属性值相同的若干个图像作为一个第一图像类。
[0198]
首先说明图像组中的代表图像的标注方式。另外,在一些特殊的场景中,图像组中的每个图像均为代表图像。
[0199]
在一个实施例中,将目标属性的第三属性值标注到对应的相似或相同属性值所属的代表图像。
[0200]
示例地,当目标属性的第三属性值基于对聚类簇中各属性值融合得到,则将目标属性的第三属性值标注到对应的聚类簇中的各属性值各自所属的代表图像中的目标对象即可。
[0201]
示例地,当目标属性的第三属性值基于对拍摄时段的属性值进行融合得到,则将目标属性的第三属性值标注到对应的拍摄时段内的代表图像中的目标对象即可。示例地,参考图13a,图像组的各代表图像中的目标对象的属性ki的属性值均为vie。示例地,参考图13b,图像组中t1-ti时段的各代表图像中的目标对象的属性ki的属性值均为vie1,ti+1-tu时段的各代表图像中的目标对象的属性ki的属性值均为vie2。
[0202]
接着说明图像组中的代表图像之外的其余图像的标注方式。
[0203]
在一个实施例中,在目标对象的目标属性为目标类型等只有一个属性值的属性,或者,遍历目标属性的第二属性值序列确定判断属性值未发生变化的条件下,当代表图像只有一个时,直接将该目标属性的第一属性值标注到其余图像中各图像的目标对象。当代表图像有多个时,直接将该目标属性的第三属性值标注到其余图像的目标对象。对应的,图像组为一个图像类。示例地,以属性为目标类型,属性值为猫,图像组有u个图像为例进行描述,则对于u个图像中的每个图像中的目标对象的目标类型为猫。
[0204]
在一个实施例中,当目标对象的目标属性为动作、情绪等可能存在一个或多个属性值的属性时,通过如下方式对图像组中的各图像进行标注:
[0205]
作为一个示例,当代表图像只有一个,则对于其余图像中的各图像,若代表图像中的目标对象的目标属性的第一属性值和该图像中的目标对象的目标属性的第二属性值匹配,将第一属性值标注到该图像中的目标对象。另外,如果第一属性值和第二属性值不匹配;则不对目标属性进行属性值的标注,或者,直接不对该图像中的目标对象进行标注,实现图像筛选,这样能够进一步保证图像标注的质量。
[0206]
作为另一个示例,当代表图像有多个且为图像组中的部分图像时,若目标属性的第三属性值只有一个,对于其余图像中的各图像,若目标属性的第三属性值和该图像中的目标对象的目标属性的第二属性值匹配,将目标属性的第三属性值标注到该图像中的目标对象。若目标属性的第三属性值有多个,对于其余图像中的各图像,若目标属性的多个第三属性值中存在与该图像中的目标对象的目标属性的第二属性值匹配的属性值,将匹配的属性值标注到该图像中的目标对象。另外,如果目标属性的第三属性值和第二属性值不匹配,则不对目标属性进行属性值的标注,或者,直接不对该图像中的目标对象进行标注,实现图像筛选,这样能够进一步保证图像标注的质量。
[0207]
应当理解的,在代表图像是状态较好的图像,属性值发生变化的场景中,不同代表图像之间可能是相似的,换言之,这些代表图像可能无法体现出属性值的变化情况,此时,通过属性值之间的匹配,就可以实现图像筛选,去除一些质量不高的图像,仅仅对代表图像所能标注的图像进行图像标注,确保图像标注的准确性。
[0208]
对于上述两个示例中,在标注之前,还需要:对目标属性的第二属性值序列进行异常值检测,并将检测出的异常值替换为正常值,比如将异常值替换为序列中该值前的正常值,该值后的正常值,或者,直接删除异常值,从而确保目标属性的第二属性值的参考价值。
[0209]
对于目标属性的第三属性值有多个的场景中,按照上述标注方式,图像组分为多个第一图像类,比如,以属性为动作,属性值有两个分别为睡觉和吃饭;作为一种可能的情况,图像组划分为两个第一图像类,一个第一图像类中各图像的目标对象的动作为睡觉,另一个第一图像类中各图像的的目标对象的动作为吃饭;作为另一种可能的情况,有些图像的质量不高,此时,可以将图像组划分为三个第一图像类,第一个第一图像类中各图像的的目标对象的动作为睡觉,第二个第一图像类中各图像的的目标对象的动作为吃饭,第三个第一图像类中各图像的的目标对象的动作为空,即没有标注。其他图像与此类似,此处不做过多赘述。
[0210]
另外,上述描述的是对一个属性的标注,如果要待标注多个属性,则每个属性均按照上述方式进行标注。在一种可能的情况,由于可能存在个别属性的属性值未标注的情况,因此,为了便于描述,将对象被标注的属性的数量相同的若干个图像作为一个第二图像类。作为一种可能的情况,图像组划分为一个第二图像类,对于u个图像中的每个图像中的目标对象被标注的属性的数量都是一样的;图像组划分为多个第二图像类,不同第二图像类中的目标对象被标注的属性的数量不同,比如,图像组被划分成了两个第二图像类,一个第二图像类中的目标对象被标注的属性的数量有1个,另一个第二图像类中的目标对象被标注的属性的数量有2个。
[0211]
应当理解的,按照上述方案,完成目标对象的待标注的每个属性的标注,实现对图像序列中的包含对象的多个图像的标注,得到包含对象的多个图像各自的标注结果。
[0212]
接下来,基于上文所描述的图像标注方案,对本发明实施例提供的一种图像标注
方法进行介绍。可以理解的是,该方法是上文所描述的图像标注方案的另一种表达方式,两者是相结合的。该方法是基于上文所描述的图像标注方案提出,该方法中的部分或全部内容可以参见上文对图像标注方案的描述。
[0213]
请参阅图14,图14是本发明实施例提供的一种图像标注方法的流程示意图。可以理解,该方法可以通过任何具有计算、处理能力的装置、电子设备、平台、设备集群来执行,此处不作限定。下文以电子设备为执行主体进行描述。如图14所示,该图像处理方法包括:
[0214]
步骤1401、获取待标注的具有时空联系的图像序列。
[0215]
电子设备获取图像序列。在一个例子中,电子设备可以通过采集装置101、外部存储设备330或数据库320获取图像序列,也可以获取图像集,还可以获取视频集,当获取的是图像集和/或视频集时,电子设备通过上述步骤701描述的方法获取图像序列。
[0216]
步骤1402、获取图像序列中的多个图像,其中,多个图像中的每个图像均检测到对象。
[0217]
在一个例子中,电子设备通过上述步骤502和图6a所示的目标检测方法对图像序列中的每个图像分别进行目标检测,从而确定图像序列中的包含对象的多个图像。在另一个例子中,电子设备可以通过采集装置101、外部存储设备330或数据库320获取图像序列中包含对象的多个图像。
[0218]
步骤1403、对多个图像中的各个图像中的对象进行目标跟踪,确定图像组,图像组中的各图像均包含目标对象。
[0219]
在一个例子中,电子设备通过上述步骤703的目标跟踪方法获取图像组;在另一个例子中,电子设备可以通过采集装置101、外部存储设备330或数据库320获取图像组。
[0220]
步骤1404、从图像组中选择代表图像。
[0221]
在一个例子中,电子设备通过上述步骤704描述的确定代表图像的方法选择一个或多个代表图像。
[0222]
步骤1405、基于代表图像中的目标对象的目标属性的代表属性值,对图像组中其余图像中的目标对象,进行目标属性的属性值标注,其中,目标对象拥有包括目标属性在内的一个或者多个属性,目标属性拥有一个或者多个属性值。
[0223]
需要说明的是,当图像组中只有一个代表图像时,此时,上文所述的第一属性值为代表属性值;当图像组有多个代表图像时,上文所述的第三属性值为代表属性值。对于待标注的一个属性来说,当代表图像的数量有多个时,在确定了代表图像中的目标对象的目标属性的代表属性值之后,这些代表图像可按照代表属性值是否相同分为一个或多个代表图像类。详细内容可参见上文代表图像类的相关描述。
[0224]
另外,目标对象可以具有一个或多个属性,但是不是每个属性都可以作为目标属性,具体需要实际需求确定目标属性。目标属性应当为用户指定的需要标注的属性。
[0225]
进一步的,对于目标属性而言,目标属性拥有一个或者多个属性值。示例地,通过上文所述的一个或多个标注模型进行标注,即可得到目标属性的一个或多个属性值,换言之,目标属性的一个或多个属性值从标注信息中确定。当代表图像只有一个,且目标属性拥有一个属性值,则目标属性的一个属性值即为代表属性值;当代表图像只有一个,且目标属性拥有多个属性值,则代表属性值基于目标属性的多个属性值确定,通过上述步骤504中描述的融合方式实现多个属性值的融合。当代表图像有多个时,代表属性值为上述所述的第
三属性值,具体内容参见上述步骤705中确定第三属性值和代表图像标注的相关内容。
[0226]
在一个例子中,步骤1405,包括:对于其余图像中的每个图像,判断图像中的目标对象的目标属性的代表属性值和代表图像中的目标对象的目标属性的代表属性值是否匹配,若匹配,则将代表图像中的目标对象的目标属性的代表属性值标注到其余图像中的目标对象。
[0227]
这里,对于图像组中代表图像之外的其余图像,该图像中的目标对象的属性的第二属性值为代表属性值。基于其余图像和代表图像的属于相同属性的代表属性值进行匹配,确保图像标注的准确性。
[0228]
在一个例子中,当代表图像的数量为多个,对于目标对象的目标属性,图像组中的每个代表图像中目标对象的该目标属性的代表属性值相同。
[0229]
在一个例子中,当代表图像的数量为多个,对于目标对象的目标属性,图像组中的部分代表图像的目标对象的该目标属性的代表属性值相同,不同的代表属性值各自对应的目标对象所在的代表图像不同。
[0230]
在一个例子中,对于目标对象的目标属性,图像组中各图像中的目标对象的该目标属性被标注的属性值相同。
[0231]
在一个例子中,对于目标对象的目标属性,图像组中的部分图像的目标对象的该目标属性被标注的属性值相同,不同的属性值各自被标注在的目标对象所在的图像不同。
[0232]
基于上述实施例中的方法,本发明实施例提供了一种图像标注装置。该图像标注装置可用于实现上述方法实施例中描述的一种图像标注方法或图像标注方案。图像标注装置可以是芯片、标注设备120或上述其余电子设备等。
[0233]
本发明的实施例中的方法步骤可以通过硬件的方式来实现,也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于随机存取存储器(random access memory,ram)、闪存、只读存储器(read-only memory,rom)、可编程只读存储器(programmable rom,prom)、可擦除可编程只读存储器(erasable prom,eprom)、电可擦除可编程只读存储器(electrically eprom,eeprom)、寄存器、硬盘、移动硬盘、cd-rom或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于asic中。
[0234]
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其余可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘(solid state disk,ssd))
等。
[0235]
可以理解的是,在本发明的实施例中涉及的各种数字编号仅为描述方便进行的区分,并不用来限制本发明的实施例的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1