一种数据标注方法、装置、计算设备及计算机存储介质与流程

文档序号:38843290发布日期:2024-07-30 17:42阅读:28来源:国知局
一种数据标注方法、装置、计算设备及计算机存储介质与流程

本技术实施例涉及计算机数据处理,尤其涉及一种数据标注方法、装置、计算设备及计算机存储介质。


背景技术:

1、产品外观检测是确保产品质量的关键步骤之一。通过对产品外观进行缺陷检测并进行缺陷标注,可以及时把控产品的生产质量,确保过检的产品达到质量标准和客户期望。

2、近年来,随着深度学习的不断发展,越来越多的公司企业选择基于深度学习的自动检测技术来代替传统的人工检查方式。因为使用该技术不仅能够更加高效地识别产品中存在的质量问题,而且助于减少人为误检率、降低人工成本,从而提高企业生产效率和客户满意度。通常,深度学习方法需要大量的已标注数据进行相关任务的学习,尤其是图像分割任务(包括语义分割、实例分割)需要像素级的标注。然而,传统的数据标注方法主要借助labelme等标注工具进行手工标注,该方法往往比较枯燥、耗时且容易出错,尤其是对于分割任务数据集的标注更为繁琐。

3、为了进一步提升分割任务数据集的标注效率,早期的研究者们提出了一些传统的分割算法,具有代表性有分水岭算法、graphcut算法和grabcut算法等。这些方法针对不同类型的图像,通常存在算法迭代过程复杂、运行时间较长、而且参数选择困难等问题,尤其是对于复杂图像,分割效果并不是很好。近年来,随着深度学习的不断发展,尤其是像chatgpt(chat generative pre-trained transformer)等多模态大模型的相继提出,使得分割任务数据集的标注变得更加高效。其中,最具代表性的算法是分割一切模型sam(segmentation anything model),它采用交互式分割的方法,在包含有10亿个掩码的sa-1b数据集上训练而成,该模型克服了上述传统分割算法存在的问题,仅通过点、框或mask等prompt提示即可实现对目标区域的分割,分割得到的mask精度好于人工标注效果,且具有良好的鲁棒性。

4、然而,该方法在面对大批量标注数据时,若对每一张图仍然采用人工手动标注的方法,将耗费大量的标注时间,且标注效率就会难以满足需求。


技术实现思路

1、本技术实施例提供一种数据标注方法、装置、计算设备及计算机存储介质,用以解决现有技术中数据标注效率低的问题。

2、第一方面,本技术实施例中提供了一种数据标注方法,包括:

3、获取用户提供的查询对象;

4、基于所述查询对象在预先建立的待标注数据集中查询出与所述查询对象匹配的多个待标注数据,并生成多个所述待标注数据对应的初始分割结果;

5、对多个所述待标注数据对应的初始分割结果进行精细化分割,以生成多个所述待标注数据的目标分割结果;

6、使用预先创建的标注工具对选中的所述待标注数据的目标分割结果进行标注操作,并将所述标注操作批量化应用到剩余的多个所述待标注数据的目标分割结果中。

7、可选地,所述对多个所述待标注数据对应的初始分割结果进行精细化分割,以生成多个所述待标注数据的目标分割结果,包括:

8、分别根据每个所述待标注数据对应的初始分割结果,获取所述待标注数据对应的外接矩形框;

9、将多个所述待标注数据对应的初始分割结果、多个所述待标注数据对应的外接矩形框以及获取的多个所述待标注数据的图像编码作为输入信息,输入到预先训练好的分割模型的解码器中,以获得所述解码器输出的多个所述待标注数据的目标分割结果。

10、可选地,还包括:

11、获取每个所述待标注数据的初始分割结果对应的区域得分,并滤除区域得分小于预设得分的分割结果,以生成目标分割结果;和/或,

12、计算每个所述待标注数据的初始分割结果所覆盖的掩码面积,并滤除所述掩码面积小于预设面积的分割结果,以生成目标分割结果。

13、可选地,在所述将多个所述待标注数据对应的初始分割结果、多个所述待标注数据对应的外接矩形框以及获取的多个所述待标注数据的图像编码作为输入信息,输入到预先训练好的分割模型的解码器中,以获得所述解码器输出的多个所述待标注数据的目标分割结果之前,还包括:

14、将多个所述待标注数据输入预先训练好的分割模型的图形编码器,以获取所述图形编码器输出的多个所述待标注数据的图像编码,并继续执行所述将多个所述待标注数据对应的初始分割结果、多个所述待标注数据对应的外接矩形框以及获取的多个所述待标注数据的图像编码作为输入信息,输入到预先训练好的分割模型的解码器中,以获得所述解码器输出的多个所述待标注数据的目标分割结果的步骤。

15、可选地,所述基于所述查询对象在预先建立的待标注数据集中查询出与所述查询对象匹配的多个待标注数据,并生成多个所述待标注数据对应的初始分割结果,包括:

16、将所述查询对象和预先建立的待标注数据集输入至预先训练好的匹配检索模型,以通过所述匹配检索模型查询出与所述查询对象匹配的待标注数据,并生成多个所述待标注数据对应的初始分割结果。

17、可选地,所述预先创建的标注工具至少包括:ai绘制工具、三点绘制工具、矩形工具、斜矩形工具、圆形工具、椭圆形工具、区域笔工具、折线工具、多边形工具以及填充工具。

18、可选地,所述ai绘制工具、所述多边形工具、所述矩形工具、所述斜矩形工具、所述圆形工具、所述三点绘制工具以及所述椭圆形工具包括绘制模式与擦除模式,其中,所述绘制模式用于在所述目标分割结果中进行绘制化标注,所述擦除模式用于在所述目标分割结果中进行擦除化标注。

19、第二方面,本技术实施例提供了一种数据标注装置,包括:

20、获取模块,用于获取用户提供的查询对象;

21、生成模块,用于基于所述查询对象在预先建立的待标注数据集中查询出与所述查询对象匹配的多个待标注数据,并生成多个所述待标注数据对应的初始分割结果;对多个所述待标注数据对应的初始分割结果进行精细化分割,以生成多个所述待标注数据的目标分割结果;

22、标注模块,用于使用预先创建的标注工具对选中的所述待标注数据的目标分割结果进行标注操作,并将所述标注操作批量化应用到剩余的多个所述待标注数据的目标分割结果中。

23、第三方面,本技术实施例提供了一种计算设备,包括处理组件以及存储组件;所述存储组件存储一个或多个计算机指令;所述一个或多个计算机指令用以被所述处理组件调用执行,实现如上述第一方面所述的数据标注方法。

24、第四方面,本技术实施例提供了一种计算机存储介质,存储有计算机程序,所述计算程序被计算机执行时,实现如上述第一方面所述的数据标注方法。本技术实施例中,获取用户提供的查询对象;基于所述查询对象在预先建立的待标注数据集中查询出与所述查询对象匹配的多个待标注数据,并生成多个所述待标注数据对应的初始分割结果;对多个所述待标注数据对应的初始分割结果进行精细化分割,以生成多个所述待标注数据的目标分割结果;使用预先创建的标注工具对选中的所述待标注数据的目标分割结果进行标注操作,并将所述标注操作批量化应用到剩余的多个所述待标注数据的目标分割结果中。

25、本技术提出的这种数据标注方法具有以下显著的有益效果:

26、提高效率与准确性:通过自动查询并匹配待标注数据集中的相关对象,该方法显著减少了人工筛选数据所需的时间,提高了数据处理的效率。同时,利用初始分割结果进行精细化分割,能够更加精确地界定对象边界,提升标注的准确性,尤其是在处理复杂场景和细微结构时,效果更为明显。

27、标准化与一致性:该方案确保了对多个待标注数据中相同或相似查询对象执行一致的标注操作,有助于提升标注结果的一致性和可靠性,这对于机器学习和深度学习算法的训练尤为重要,可以减少因标注不一致导致的模型学习偏差。

28、降低人力成本:自动化和半自动化的标注流程减少了对大量人力资源的依赖,特别是在处理大规模数据集时,能够显著降低标注成本,使得项目更具经济可行性。

29、增强灵活性与可扩展性:该方法能够适应不同类型的查询对象和数据集,只需调整查询条件和分割算法参数,即可应用于多种标注任务,增强了系统的灵活性和可扩展性,便于应对未来数据标注需求的变化。

30、综上所述,本技术的方案不仅提升了数据标注的效率与质量,还降低了成本,增强了数据处理的灵活性与标准化水平,对于推动ai技术的实际应用具有重要意义。

31、本技术的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1