一种自动标注方法、装置、设备及可读存储介质与流程

文档序号：24739420发布日期：2021-04-20 21:02阅读：93来源：国知局

1.本发明涉及数据标注技术领域，特别涉及一种自动标注方法、装置、设备及可读存储介质。

背景技术：

2.在数据标注领域，目前采用的标注方式主要是人工标注，即依靠数据标注员通过肉眼识别以对待标注数据集中的目标对象进行标注，通常待标注的数据量会达到万级、十万级或者更多，所以采用人工标注的出错概率较大且效率较低，不能满足日常生产需要；此外，数据标注员还可利用开源的labelme或者modelarts工具进行数据标注，但是，labelme需要配置python环境才能使用，而modelarts是集成在云平台上的工具，需要相应权限才能使用，因此，在利用上述工具进行数据标注时较为繁琐且有较高的学习成本，不够便捷、用户体验度不佳。

技术实现要素：

3.本发明的目的在于提供一种自动标注方法、装置、设备及可读存储介质，能够同时提升数据标注的效率和准确性。
4.根据本发明的一个方面，提供了一种自动标注方法，所述方法包括：
5.响应于触发的对待处理图像进行标注的标注指令，获取与所述标注指令对应的对象识别模型；
6.利用所述对象识别模型从所述待处理图像中识别出目标对象，并在所述待处理图像中绘制出用于框选出所述目标对象的标注框；
7.响应于触发的启动语音调整标注框操作，获取用户语音指令，并根据所述用户语音指令对所述待处理图像中的目标标注框进行调整，以完成对所述待处理图像的标注。
8.可选的，所述获取与所述标注指令对应的对象识别模型，包括：
9.从预设模型数据库中获取与所述标注指令对应的对象识别模型，其中，所述模型数据库包括预先训练的用于执行识别不同对象的多个对象识别模型；或者，
10.接收从预设接口上传的预先训练的用于执行识别所述目标对象的对象识别模型。
11.可选的，所述在所述待处理图像中绘制出用于框选出所述目标对象的标注框，包括：
12.获取所述目标对象在所述待处理图像中的位置信息；
13.根据所述位置信息确定出所述标注框的起始点二维坐标和边框尺寸信息；
14.将所述起始点二维坐标转化为起始点三维坐标；
15.根据所述起始点三维坐标和所述边框尺寸信息，利用webgl在所述待处理图像中渲染出所述标注框。
16.可选的，所述根据所述用户语音指令对所述待处理图像中的目标标注框进行调整，包括：
17.利用预先训练的语音识别模型，从所述用户语音指令中识别出标识信息和调整信息；
18.根据所述调整信息对与所述标识信息对应的目标标注框的属性进行调整；其中，所述属性包括：位置和尺寸。
19.可选的，所述根据所述调整信息对与所述标识信息对应的目标标注框的属性进行调整，具体包括：
20.当所述调整信息用于调整标注框的位置时，获取所述目标标注框的初始水平宽度和初始垂直高度以及所述待处理画像的水平宽度和垂直高度；
21.根据所述目标标注框的初始水平宽度和所述待处理画像的水平宽度，计算出第一水平移动步长；
22.根据所述目标标注框的初始垂直高度和所述待处理画像的垂直高度，计算出第一垂直移动步长；
23.根据所述第一水平移动步长和第一垂直移动步长，按照所述调整信息对所述目标标注框的位置进行调整。
24.可选的，所述根据所述调整信息对与所述标识信息对应的目标标注框的属性进行调整，具体包括：
25.当所述调整信息用于调整标注框的尺寸时，获取所述待处理画像中所有标注框的面积，根据每种面积出现的概率计算出标注框面积的均值和方差，并根据所述均值和方差确定出针对标注框面积的概率密度函数；
26.获取所述目标标注框的第一面积，并根据所述概率密度函数计算出与所述第一面积对应的第一概率值；
27.将所述第一概率值与预设调整步长相加得到第二概率值，并根据所述概率密度函数计算出与所述第二概率值对应的第二面积；
28.根据所述第一面积和第二面积计算出第一调整比例；
29.根据所述第一调整比例，按照所述调整信息对所述目标标注框的尺寸进行调整。
30.可选的，所述方法还包括：
31.在所述待处理图像中绘制出用于框选出所述目标对象的标注框之后，为所述标注框生成标识信息和调整记录队列；
32.将所述标识信息添加到所述调整记录队列中；
33.将针对所述标注框的每次调整信息以及根据每次调整信息进行调整后的属性按时序记录到所述调整记录队列中。
34.可选的，所述根据所述调整信息对与所述标识信息对应的目标标注框的属性进行调整，包括：
35.获取与所述标识信息对应的调整记录队列；
36.当所述调整信息为回退时，按照所述调整记录队列中所记录的最新属性的上一时序的属性调整所述标注框。
37.可选的，所述根据所述第一水平移动步长和第一垂直移动步长，按照所述调整信息对所述目标标注框的位置进行调整，具体包括：
38.获取与所述目标标注框的标识信息对应的调整记录队列；
39.当所述调整信息用于调整标注框的水平位置时，判断在所述调整记录队列中最新的两个历史调整信息是否均用于调整标注框的水平位置，若是，则当前一时序的历史调整信息与后一时序的历史调整信息不一致且前一时序的历史调整信息与所述调整信息一致时按照预设补偿参数将所述第一水平移动步长调整至第二水平移动步长并根据所述第二水平移动步长按照所述调整信息对所述目标标注框的水平位置进行调整，若否，则根据所述第一水平移动步长按照所述调整信息对所述目标标注框的水平位置进行调整；
40.当所述调整信息用于调整标注框的垂直位置时，判断在所述调整记录队列中最新的两个历史调整信息是否均用于调整标注框的垂直位置，若是，则当前一时序的历史调整信息与后一时序的历史调整信息不一致且前一时序的历史调整信息与所述调整信息一致时按照预设补偿参数将所述第一垂直移动步长调整至第二垂直移动步长并根据所述第二垂直移动步长按照所述调整信息对所述目标标注框的垂直位置进行调整，若否，则根据所述第一垂直移动步长按照所述调整信息对所述目标标注框的垂直位置进行调整。
41.可选的，所述根据所述第一调整比例，按照所述调整信息对所述目标标注框的尺寸进行调整，具体包括：
42.获取与所述目标标注框的标识信息对应的调整记录队列；
43.当所述调整信息用于调整标注框的尺寸时，判断在所述调整记录队列中最新的两个历史调整信息是否均用于调整标注框的尺寸；
44.若是，则当前一时序的历史调整信息与后一时序的历史调整信息不一致且前一时序的历史调整信息与所述调整信息一致时，按照预设补偿参数调整所述预设调整步长，根据调整后的调整步长重新计算出第二调整比例，并根据所述第二调整比例按照所述调整信息对所述目标标注框的尺寸进行调整；
45.若否，则根据所述第一调整比例按照所述调整信息对所述目标标注框的垂直位置进行调整。
46.为了实现上述目的，本发明还提供一种自动标注装置，所述装置具体包括以下组成部分：
47.获取模块，用于响应于触发的对待处理图像进行标注的标注指令，获取与所述标注指令对应的对象识别模型；
48.绘制模块，用于利用所述对象识别模型从所述待处理图像中识别出目标对象，并在所述待处理图像中绘制出用于框选出所述目标对象的标注框；
49.调整模块，用于响应于触发的启动语音调整标注框操作，获取用户语音指令，并根据所述用户语音指令对所述待处理图像中的目标标注框进行调整，以完成对所述待处理图像的标注。
50.为了实现上述目的，本发明还提供一种计算机设备，该计算机设备具体包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述介绍的自动标注方法的步骤。
51.为了实现上述目的，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述介绍的自动标注方法的步骤。
52.本发明提供的自动标注方法、装置、设备及可读存储介质，可以根据用户上传的对象识别模型智能的从待处理图纸中识别出目标对象，并利用webgl技术根据识别出的目标
对象完成标注框的初步绘制；此外，用户还可以通过语音控制标注动作，以对标注框进行调整，而无需手动操作；与现有技术相比，能够同时提升数据标注的效率和准确性。
附图说明
53.通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：
54.图1为实施例一提供的自动标注方法的一种可选的流程示意图；
55.图2为实施例二提供的自动标注装置的一种可选的组成结构示意图；
56.图3为实施例三提供的计算机设备的一种可选的硬件架构示意图。
具体实施方式
57.为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
58.实施例一
59.本发明实施例提供了一种自动标注方法，如图1所示，该方法具体包括以下步骤：
60.步骤s101：响应于触发的对待处理图像进行标注的标注指令，获取与所述标注指令对应的对象识别模型。
61.在本实施例中，标注指令用于在待处理图像中通过标注框框选出目标对象，以实现对待处理图像的一键标注功能；例如，当目标对象为人脸时，在待处理图像中通过标注框框选出所有人脸区域。
62.具体的，所述获取与所述标注指令对应的对象识别模型，包括：
63.从预设模型数据库中获取与所述标注指令对应的对象识别模型，其中，所述模型数据库包括预先训练的用于执行识别不同对象的多个对象识别模型；或者，
64.接收从预设接口上传的预先训练的用于执行识别所述目标对象的对象识别模型。
65.在本实施例中，用户在触发标注指令后，可以根据需要标注的目标对象，从预设模型数据库中选取对应的对象识别模型，也可以通过预设接口上传自定义的对象识别模型，以通过对象识别模型对目标对象进行识别。在本实施例中会预先训练出用于识别不同对象的多个对象识别模型，当检测到用户触发的标注指令时，可以根据标注指令中包括的对象标识信息从模型数据库中选取包含所述对象标识信息的对象识别模型。
66.还需要说明的是，对象识别模型是事先训练出的用于识别目标对象的模型，训练对象识别模型的过程可采用现有的机器学习算法，故在此不再赘述。例如，可以通过机器学习算法，训练出用于识别人脸的人脸识别模型、或者训练出用于识别钢筋的钢筋识别模型。
67.步骤s102：利用所述对象识别模型从所述待处理图像中识别出目标对象，并在所述待处理图像中绘制出用于框选出所述目标对象的标注框。
68.具体的，所述在所述待处理图像中绘制出用于框选出所述目标对象的标注框，包括：
69.步骤a1：获取所述目标对象在所述待处理图像中的位置信息；
70.在本实施例中，当使用对象识别模型从待处理图像中识别出目标对象时，对象识别模型就会输出目标对象在待处理图像中的位置坐标信息。
71.步骤a2：根据所述位置信息确定出所述标注框的起始点二维坐标和边框尺寸信息；
72.其中，所述起始点二维坐标为用于绘制标注框的起始点在所述待处理图像中的二维坐标；由于标注框通常为矩形，所以所述起始点为标注框的任一顶点或者中心点，所述边框尺寸信息包括标注框的长度和宽度。
73.步骤a3：将所述起始点二维坐标转化为起始点三维坐标；
74.由于在本实施例中是使用webgl(web graphics library,web图形库)绘制标注框，而webgl是用于绘制三维图像的工具，所以需要将起始点二维坐标转换为起始点三维坐标；优选的，通过添加值为0的z轴坐标以将起始点二维坐标转换为起始点三维坐标。
75.步骤a4：根据所述起始点三维坐标和所述边框尺寸信息，利用webgl在所述待处理图像中渲染出所述标注框。
76.需要说明的是，在现有的数据标注工具中，均是采用canvas绘制出标注框，但是，当待标注数据量较大时，会导致cpu占用率较高，从而造成可视化界面的卡顿。而在本实施例中，采用webgl在可视化界面中渲染出标注框，由于webgl是基于开源框架pixijs对标注框进行渲染，且webgl依赖gpu硬件加速的原理进行渲染，极大的降低了cpu的占用率，保证了数据标注的速度。
77.通过上述步骤s101至步骤s102，可以通过不同的对象识别模型以完成对不同对象的标注工作，为用户提供了一键智能标注服务，用户可以根据需要标注的目标对象，选择对应的一键标注所需调用的对象识别模型，从而识别出目标对象，并利用webgl绘制出标注框，完成一键标注。例如，现有现有一个包括5000张的钢筋数据集，用户可以触发用于一键标注的标注指令，实现5000张钢筋图片的一键标注，试想如果人工去进行标注的话，无论是标注的准确率还是耗费的时间都会大打折扣。
78.步骤s103：响应于触发的启动语音调整标注框操作，获取用户语音指令，并根据所述用户语音指令对所述待处理图像中的目标标注框进行调整，以完成对所述待处理图像的标注。
79.在本实施例中，用户可以通过触发标注指令以在待处理图像中完成一键标注目标对象的操作，从而通过在待处理图像中绘制标注框以框选出待处理图像中的所有目标对象；但是由于对象识别模型的识别准确性以及使用webgl绘制标注框时会存在一定的偏差，用户还可以根据需要触发语音调整标注框的操作，以通过用户语音指令对已绘制的标注框进行调整，以提高数据标注的准确性；此外，由于在本实施例中提供根据用户语音指令来调整标注框的语音交互服务，从而不需要用户手动操作，更加方便、快捷。
80.具体的，所述根据所述用户语音指令对所述待处理图像中的标注框进行调整，包括：
81.步骤b1：利用预先训练的语音识别模型，从所述用户语音指令中识别出标识信息和调整信息；
82.其中，所述标识信息是用于唯一标识标注框的信息，例如：可以将预设id作为标识
信息，也可以将标注框的位置坐标作为标识信息；
83.所述调整信息是用于对标注框的属性进行调整的信息，其中，属性包括：位置和尺寸；所述调整信息具体包括：添加、删除、回退、前进、上移、下移、左移、右移、放大、缩小、加宽、加高、减宽、减高。
84.步骤b2：根据所述调整信息对与所述标识信息对应的目标标注框的属性进行调整；其中，所述属性包括：位置和尺寸。
85.需要说明的是，所述语音识别模型可以是基于开源的tensorflow.js前端框架的speech_commands训练出的模型；用户前期只需要录制语音样本数据，并设置不同场景下的训练数据调整迭代次数、重叠率和可能性阈值即可，当训练出的模型的准确度和损失率达到预设阈值时，就可以得到应用于数据标注工具中的语音识别模型，用户可以在无需手动操作只需发送语音指令的情况下完成标注工作。
86.进一步的，所述步骤b2，具体包括：
87.步骤b21：当所述调整信息用于调整标注框的位置时，获取所述目标标注框的初始水平宽度l
w
和初始垂直高度l
h
以及所述待处理画像的水平宽度r
w
和垂直高度r
h
；
88.在本实施例中，当调整信息为上移、下移、左移、右移时，获取目标标注框最初的尺寸信息和待处理画像的尺寸信息。
89.步骤b22：根据所述目标标注框的初始水平宽度l
w
和所述待处理画像的水平宽度r
w
，计算出第一水平移动步长step
x
；
90.优选的，
91.步骤b23：根据所述目标标注框的初始垂直高度l
h
和所述待处理画像的垂直高度r
w
，计算出第一垂直移动步长step
y
；
92.优选的，
93.步骤b24：根据所述第一水平移动步长step
x
和第一垂直移动步长step
y
，按照所述调整信息对所述目标标注框的位置进行调整。
94.例如，当调整信息为上移时，按照所述第一垂直移动步长step
y
向上移动所述目标标注框，当调整信息为左移时，按照所述第一水平移动步长step
x
向左移动所述目标标注框。
95.进一步的，所述步骤b2，还具体包括：
96.步骤b21’：当所述调整信息用于调整标注框的尺寸时，获取所述待处理画像中所有标注框的面积，根据每种面积出现的概率计算出标注框面积的均值和方差，并根据所述均值和方差确定出针对标注框面积的概率密度函数；
97.在本实施例中，当调整信息为放大、缩小、加宽、加高、减宽、减高时，执行所述步骤b21’。
98.优选的，所述待处理画像中所有标注框的面积符合正态分布，x～n(μ,σ2)；通过统计所有标注框的数量q
l
，和每种面积的标注框的数量i＝1,2,3
…
n，利用代表第x
i
种面积出现的概率，这样就很好的描述了标注框的概率分布，根据随机变量的特征，
可以求得针对标注框面积分布的均值μ和方差σ2，因此可以得到针对标注框面积的概率密度函数为：
99.步骤b22’：获取所述目标标注框的第一面积，并根据所述概率密度函数计算出与所述第一面积对应的第一概率值；
100.优选的，根据目标标注框的当前水平宽度l
w
和当前垂直高度l
h
计算出第一面积x＝l
w
*l
h
。
101.步骤b23’：将所述第一概率值与预设调整步长相加得到第二概率值，并根据所述概率密度函数计算出与所述第二概率值对应的第二面积；
102.针对调整步长step
p
的补充说明，由于标注框面积服从正态分布，所以该调整步长指的是每次调整的概率密度函数p(x)调整范围的概率，即0<step
p
<1。
103.步骤b24’：根据所述第一面积和第二面积计算出第一调整比例；
104.优选的，将所述第二面积与所述第一面积的比值作为所述第一调整比例。
105.步骤b25’：根据所述第一调整比例，按照所述调整信息对所述目标标注框的尺寸进行调整。
106.优选的，在所述步骤b25’中，以所述目标标注框的起始点为参照，按照所述第一调整比例分别对水平和垂直方向上的边框尺寸进行调整，以放大或缩小目标标注框。
107.还需要说明的是，当调整信息为加宽、加高、减宽、减高时，按照所述第一调整比例对相应的边框尺寸进行调整。
108.进一步的，所述方法还包括：
109.步骤c1：在所述待处理图像中绘制出用于框选出所述目标对象的标注框之后，为所述标注框生成标识信息和调整记录队列；
110.步骤c2：将所述标识信息添加到所述调整记录队列中；
111.步骤c3：将针对所述标注框的每次调整信息以及根据每次调整信息进行调整后的属性按时序记录到所述调整记录队列中。
112.在本实施例中，调整记录队列主要是记录用户从开始标注到完成标注期间的每个标注动作以及每个标注动作后标注框的属性信息。
113.进一步的，所述步骤b2，具体包括：
114.步骤b21”：获取与所述标识信息对应的调整记录队列；
115.步骤b22”：当所述调整信息为回退时，按照所述调整记录队列中所记录的最新属性的上一时序的属性调整所述标注框。
116.例如，针对标注框a，用户依次触发了以下调整信息：<i>左移标注框a，<ii>上移标注框a，<iii>缩小标注框a；当用户再次触发的调整信息为退回时，则按照状态<ii>的属性调整标注框。
117.更进一步的，所述步骤b24，具体包括：
118.获取与所述目标标注框的标识信息对应的调整记录队列；
119.当所述调整信息用于调整标注框的水平位置时，判断在所述调整记录队列中最新的两个历史调整信息是否均用于调整标注框的水平位置，若是，则当前一时序的历史调整信息与后一时序的历史调整信息不一致且前一时序的历史调整信息与所述调整信息一致
时按照预设补偿参数将所述第一水平移动步长调整至第二水平移动步长并根据所述第二水平移动步长按照所述调整信息对所述目标标注框的水平位置进行调整，若否，则根据所述第一水平移动步长按照所述调整信息对所述目标标注框的水平位置进行调整；
120.当所述调整信息用于调整标注框的垂直位置时，判断在所述调整记录队列中最新的两个历史调整信息是否均用于调整标注框的垂直位置，若是，则当前一时序的历史调整信息与后一时序的历史调整信息不一致且前一时序的历史调整信息与所述调整信息一致时按照预设补偿参数将所述第一垂直移动步长调整至第二垂直移动步长并根据所述第二垂直移动步长按照所述调整信息对所述目标标注框的垂直位置进行调整，若否，则根据所述第一垂直移动步长按照所述调整信息对所述目标标注框的垂直位置进行调整。
121.在本实施例中，按照如下方式调整水平移动步长和垂直移动步长：
[0122][0123][0124]
其中，β和γ为预设补偿参数；为连续的三个时序的水平宽度。
[0125]
在本实施例中，若连续的三个调整信息为【左移】
‑
>【左移】
‑
>【左移】则说明标注框并没有达到所需要的位置，此时调整步长不变；若连续的三个调整信息为【左移】
‑
>【右移】
‑
>【左移】，则说明第二次的【右移】移动了过多距离，此时水平移动步长需要通过补偿参数减小，从而在第三次【左移】后的位置介于第一次【左移】后的位置与第二次【右移】后的位置之间。
[0126]
更进一步的，所述步骤b25’，具体包括：
[0127]
获取与所述目标标注框的标识信息对应的调整记录队列；
[0128]
当所述调整信息用于调整标注框的尺寸时，判断在所述调整记录队列中最新的两个历史调整信息是否均用于调整标注框的尺寸；
[0129]
若是，则当前一时序的历史调整信息与后一时序的历史调整信息不一致且前一时序的历史调整信息与所述调整信息一致时，按照预设补偿参数调整所述预设调整步长，根据调整后的调整步长重新计算出第二调整比例，并根据所述第二调整比例按照所述调整信息对所述目标标注框的尺寸进行调整；
[0130]
若否，则根据所述第一调整比例按照所述调整信息对所述目标标注框的垂直位置进行调整。
[0131]
在本实施例中，按照如下方式调整调整步长：
[0132][0133]
其中，α为预设补偿参数；优选的α＝0.1；a
i
‑2、a
i
‑1、a
i
为三个连续时序的面积。
[0134]
在本实施例中，若连续的三个调整信息为【放大】
‑
>【放大】
‑
>【放大】则说明标注框并没有达到所需要的面积大小，此时调整步长不变；若连续的三个调整信息为【放大】
‑
>【缩
小】
‑
>【放大】，则说明标注框根据第二次的【缩小】超过了所需的面积大小，调整步长需要新增补偿参数α＝0.1，即α*step
p1
，从而在第三次【放大】后的面积介于第一次【放大】后的面积与第二次【缩小】后的面积之间。
[0135]
需要说明的是，现有技术中的数据标注工具，当触发退回操作时会把之前形成的标注框直接删掉，而在本实施例中，通过为每个标注框设置调整记录队列以记录针对标注框的各种调整操作，当需要执行退回操作时，可以根据调整记录队列中的记录将标注框的位置和样式调整至上一状态；这样更加符合使用者的软件开发习惯和思路。
[0136]
更进一步的，所述方法还包括：
[0137]
在步骤s101之前，获取用于训练所述对象识别模型的训练样本集，并从所述训练样本集中确定出所述待处理图像；其中，所述训练样本集包括多张待标注的图像；
[0138]
针对所述训练样本集中的每张图像均按照上述步骤s101至步骤s103的方式进行标注；
[0139]
当完成对所述训练样本集中的所有图像的标注时，根据所述训练样本集对所述对象识别模型进行模型训练，以优化所述对象识别模型。
[0140]
在本实施例中，上述介绍的自动标注方法还可以用于模型训练前期对样本数据的标注工作，从而提高使用该样本数据训练出的模型的准确度。
[0141]
此外，本实施例介绍的自动标注的方法可以通过js包的形式被继承到各种硬件设备中，可跨平台多端使用，更加通用和灵活。上述方法无需关注环境问题，其中的通过对象识别模型识别出目标对象、通过webgl绘制目标对象的标注框、以及通过用户语音指令调整标注框的服务可以像组件一样，在支持可配置可拆卸的同时每个服务对外都是透明的。
[0142]
实施例二
[0143]
本发明实施例提供了一种自动标注装置，如图2所示，该装置具体包括以下组成部分：
[0144]
获取模块201，用于响应于触发的对待处理图像进行标注的标注指令，获取与所述标注指令对应的对象识别模型；
[0145]
绘制模块202，用于利用所述对象识别模型从所述待处理图像中识别出目标对象，并在所述待处理图像中绘制出用于框选出所述目标对象的标注框；
[0146]
调整模块203，用于响应于触发的启动语音调整标注框操作，获取用户语音指令，并根据所述用户语音指令对所述待处理图像中的目标标注框进行调整，以完成对所述待处理图像的标注。
[0147]
具体的，获取模块201，用于：
[0148]
从预设模型数据库中获取与所述标注指令对应的对象识别模型，其中，所述模型数据库包括预先训练的用于执行识别不同对象的多个对象识别模型；或者，接收从预设接口上传的预先训练的用于执行识别所述目标对象的对象识别模型。
[0149]
此外，绘制模块202，具体用于：
[0150]
获取所述目标对象在所述待处理图像中的位置信息；根据所述位置信息确定出所述标注框的起始点二维坐标和边框尺寸信息；将所述起始点二维坐标转化为起始点三维坐标；根据所述起始点三维坐标和所述边框尺寸信息，利用webgl在所述待处理图像中渲染出所述标注框。
[0151]
此外，调整模块203，具体包括：
[0152]
识别单元，用于利用预先训练的语音识别模型，从所述用户语音指令中识别出标识信息和调整信息；
[0153]
调整单元，用于根据所述调整信息对与所述标识信息对应的目标标注框的属性进行调整；其中，所述属性包括：位置和尺寸。
[0154]
进一步的，所述调整单元，具体用于：
[0155]
当所述调整信息用于调整标注框的位置时，获取所述目标标注框的初始水平宽度和初始垂直高度以及所述待处理画像的水平宽度和垂直高度；根据所述目标标注框的初始水平宽度和所述待处理画像的水平宽度，计算出第一水平移动步长；根据所述目标标注框的初始垂直高度和所述待处理画像的垂直高度，计算出第一垂直移动步长；根据所述第一水平移动步长和第一垂直移动步长，按照所述调整信息对所述目标标注框的位置进行调整。
[0156]
此外，所述调整单元，还具体用于：
[0157]
当所述调整信息用于调整标注框的尺寸时，获取所述待处理画像中所有标注框的面积，根据每种面积出现的概率计算出标注框面积的均值和方差，并根据所述均值和方差确定出针对标注框面积的概率密度函数；获取所述目标标注框的第一面积，并根据所述概率密度函数计算出与所述第一面积对应的第一概率值；将所述第一概率值与预设调整步长相加得到第二概率值，并根据所述概率密度函数计算出与所述第二概率值对应的第二面积；根据所述第一面积和第二面积计算出第一调整比例；根据所述第一调整比例，按照所述调整信息对所述目标标注框的尺寸进行调整。
[0158]
进一步的，所述装置还包括：
[0159]
记录模块，用于在所述待处理图像中绘制出用于框选出所述目标对象的标注框之后，为所述标注框生成标识信息和调整记录队列；将所述标识信息添加到所述调整记录队列中；将针对所述标注框的每次调整信息以及根据每次调整信息进行调整后的属性按时序记录到所述调整记录队列中。
[0160]
此外，所述调整单元，还具体用于：
[0161]
获取与所述标识信息对应的调整记录队列；当所述调整信息为回退时，按照所述调整记录队列中所记录的最新属性的上一时序的属性调整所述标注框。
[0162]
更进一步的，所述调整单元在实现所述根据所述第一水平移动步长和第一垂直移动步长，按照所述调整信息对所述目标标注框的位置进行调整的功能时，具体包括：
[0163]
获取与所述目标标注框的标识信息对应的调整记录队列；
[0164]
当所述调整信息用于调整标注框的水平位置时，判断在所述调整记录队列中最新的两个历史调整信息是否均用于调整标注框的水平位置，若是，则当前一时序的历史调整信息与后一时序的历史调整信息不一致且前一时序的历史调整信息与所述调整信息一致时按照预设补偿参数将所述第一水平移动步长调整至第二水平移动步长并根据所述第二水平移动步长按照所述调整信息对所述目标标注框的水平位置进行调整，若否，则根据所述第一水平移动步长按照所述调整信息对所述目标标注框的水平位置进行调整；
[0165]
当所述调整信息用于调整标注框的垂直位置时，判断在所述调整记录队列中最新的两个历史调整信息是否均用于调整标注框的垂直位置，若是，则当前一时序的历史调整
信息与后一时序的历史调整信息不一致且前一时序的历史调整信息与所述调整信息一致时按照预设补偿参数将所述第一垂直移动步长调整至第二垂直移动步长并根据所述第二垂直移动步长按照所述调整信息对所述目标标注框的垂直位置进行调整，若否，则根据所述第一垂直移动步长按照所述调整信息对所述目标标注框的垂直位置进行调整。
[0166]
此外，所述调整单元在实现所述根据所述第一调整比例，按照所述调整信息对所述目标标注框的尺寸进行调整的功能时，具体包括：
[0167]
获取与所述目标标注框的标识信息对应的调整记录队列；
[0168]
当所述调整信息用于调整标注框的尺寸时，判断在所述调整记录队列中最新的两个历史调整信息是否均用于调整标注框的尺寸；
[0169]
若是，则当前一时序的历史调整信息与后一时序的历史调整信息不一致且前一时序的历史调整信息与所述调整信息一致时，按照预设补偿参数调整所述预设调整步长，根据调整后的调整步长重新计算出第二调整比例，并根据所述第二调整比例按照所述调整信息对所述目标标注框的尺寸进行调整；
[0170]
若否，则根据所述第一调整比例按照所述调整信息对所述目标标注框的垂直位置进行调整。
[0171]
实施例三
[0172]
本实施例还提供一种计算机设备，如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。如图3所示，本实施例的计算机设备30至少包括但不限于：可通过系统总线相互通信连接的存储器301、处理器302。需要指出的是，图3仅示出了具有组件301
‑
302的计算机设备30，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。
[0173]
本实施例中，存储器301(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如，sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器301可以是计算机设备30的内部存储单元，例如该计算机设备30的硬盘或内存。在另一些实施例中，存储器301也可以是计算机设备30的外部存储设备，例如该计算机设备30上配备的插接式硬盘，智能存储卡(smart media card,smc)，安全数字(secure digital,sd)卡，闪存卡(flash card)等。当然，存储器301还可以既包括计算机设备30的内部存储单元也包括其外部存储设备。在本实施例中，存储器301通常用于存储安装于计算机设备30的操作系统和各类应用软件。此外，存储器301还可以用于暂时地存储已经输出或者将要输出的各类数据。
[0174]
处理器302在一些实施例中可以是中央处理器(central processing unit，cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器302通常用于控制计算机设备30的总体操作。
[0175]
具体的，在本实施例中，处理器302用于执行存储器301中存储的自动标注方法的程序，所述自动标注方法的程序被执行时实现如下步骤：
[0176]
响应于触发的对待处理图像进行标注的标注指令，获取与所述标注指令对应的对象识别模型；
[0177]
利用所述对象识别模型从所述待处理图像中识别出目标对象，并在所述待处理图像中绘制出用于框选出所述目标对象的标注框；
[0178]
响应于触发的启动语音调整标注框操作，获取用户语音指令，并根据所述用户语音指令对所述待处理图像中的目标标注框进行调整，以完成对所述待处理图像的标注。
[0179]
上述方法步骤的具体实施例过程可参见第一实施例，本实施例在此不再重复赘述。
[0180]
实施例四
[0181]
本实施例还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘、服务器、app应用商城等等，其上存储有计算机程序，所述计算机程序被处理器执行时实现如下方法步骤：
[0182]
响应于触发的对待处理图像进行标注的标注指令，获取与所述标注指令对应的对象识别模型；
[0183]
利用所述对象识别模型从所述待处理图像中识别出目标对象，并在所述待处理图像中绘制出用于框选出所述目标对象的标注框；
[0184]
响应于触发的启动语音调整标注框操作，获取用户语音指令，并根据所述用户语音指令对所述待处理图像中的目标标注框进行调整，以完成对所述待处理图像的标注。
[0185]
上述方法步骤的具体实施例过程可参见第一实施例，本实施例在此不再重复赘述。
[0186]
需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0187]
上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
[0188]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。
[0189]
以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：冯斐帆;李波
技术所有人：广联达科技股份有限公司
我是此专利的发明人

上一篇：一种厌氧胶黏剂及其制备方法和用途与流程
上一篇：一种神经内科用患者喂食装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。