本发明涉及数据标注,尤其涉及一种数据自动标注方法及系统。
背景技术:
1、一方面,数据集的管理十分地繁琐,目前对标注完的数据都是以目录和文件形式保存在镜像服务器中,当数据集过多时,我们需要花费较长的时间才能找到需要的数据集。目前市面上的标注工具种类繁多,大部分工具的用户体验不够好,并且许多开源标注工具都是非自动化的,且标注人员的学习成本很高。另一方面,随着自动化标注地深入发展,自动标注系统需要高效的训练自动标注模型。目前,人工智能应用场景快速增长,新的应用场景带来了大量的新数据。为了训练适配新场景的人工智能模型,用户需要快速标注新数据。因此,针对新场景新数据高效的训练自动标注模型成为自动标注系统不可或缺的功能。
技术实现思路
1、本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种数据自动标注的方法及系统,旨在提供解决现有技术中许多开源标注工具都是非自动化的,标注人员的学习成本很高,以及当自动化标注模型应用在实际标注场景时,往往会造成计算资源的浪费,导致训练缓慢的问题。
2、第一方面,本发明提供一种数据自动标注的方法与系统,其中,所述方法包括:
3、获取待标注数据,基于所述待标注数据配置标注模板,并获取预训练模型;
4、对所述预训练模型进行知识蒸馏得到自动标注模型的骨干模型,并使用人工标注的数据基于所述骨干模型对自动标注模型进行训练,得到训练后的自动标注模型;
5、使用训练后的自动标注模型对数据进行自动化标注,对自动化标注结果进行人工审核,并存储人工审核结果。
6、在一种实现方式中,所述获取待标注数据,包括:
7、连接数据源,输入配置信息连接至数据仓库,并将所述数据仓库中的数据进行同步,得到所述待标注数据;
8、或者,选择本地导入,得到所述待标注数据。
9、在一种实现方式中,所述基于所述待标注数据配置标注模板,包括:
10、获取所述待标注数据的数据类型,所述数据类型包括图片、文本、语音以及视频,基于所述数据类型确定所述待标注数据的标注场景;
11、基于所述标注场景确定所述标注场景对应的所述标注模板,所述标注模板包括代码配置模板和可视化配置模板。
12、在一种实现方式中,所述使用人工标注的数据基于所述骨干模型对自动标注模型进行训练,得到训练后的自动标注模型,包括:
13、对所述预训练模型进行知识蒸馏得到自动标注模型的骨干模型;
14、使用人工标注的方式标注少量数据集;
15、基于所述骨干模型对自动标注模型进行训练,得到训练后的自动标注模型。
16、在一种实现方式中,所述方法还包括:
17、使用训练完的自动标注模型对未标注的数据进行自动标注;
18、使用人工审核对自动标注的结果进行校验矫正;
19、对所述人工审核结果进行校验矫正,以提高智能标注的准确性。
20、第二方面,本发明实施例还提供一种终端设备,其中,所述终端设备包括存储器、处理器及存储在存储器中并可在处理器上运行数据自动标注程序,处理器执行数据自动标注程序时,实现上述方案中任一项所述的数据自动标注方法的步骤。
21、第三方面,本发明实施例还提供一种计算机可读存储介质,其中,计算机可读存储介质上存储有数据自动标注程序,所述者数据自动标注程序被处理器执行时,实现上述方案中任一项所述的数据自动标注方法的步骤。
22、有益效果:与现有技术相比,本发明提供了一种数据自动标注方法与系统,本发明可提升应用自动化标注的系统准确性,便于实现数据标注全流程处理,解放了标注劳动力,大大提高标注工作人员的标注效率。并且,本发明的自动标注模型训练速度快,节省了计算资源。
23、本装置可帮助用户低成本、高效率地提供数据标注服务,能够在自动化标注系统上传下载数据集,提供数据集的统一管理页面,自动化标注系统的操作简单明了,极大地降低了标注人员的学习成本,且对人工标注、智能标注,提供实时预览标注作业进度和结果。在上传大模型后,后台自动知识蒸馏后得到骨干模型,再基于该骨干模型训练自动标注模型,实现骨干模型的自动更新迭代,使用大模型用于训练骨干模型的优势主要在于,能够通过蒸馏得到一个泛化性较优的骨干模型网络,为自动标注模型的训练提供一个较好的预训练模型,不仅提升了模型准确率,还能降低模型延迟,压缩网络参数。
1.一种数据自动标注方法,其特征在于,所述方法包括:
2.根据权利要求1所述的数据自动标注方法,其特征在于,所述获取待标注数据,包括:
3.根据权利要求1所述的数据自动标注方法,其特征在于,所述基于所述待标注数据配置标注模板,包括:
4.根据权利要求1所述的数据自动标注方法,其特征在于,所述使用人工标注的数据基于所述骨干模型对自动标注模型进行训练,得到训练后的自动标注模型,包括:
5.根据权利要求1所述的数据自动标注方法,其特征在于,所述方法还包括:
6.一种数据自动标注系统,其特征在于,所述系统包括:
7.根据权利要求6所述的数据自动标注系统,其特征在于,所述数据导入模块包括:
8.根据权利要求6所述的数据自动标注系统,其特征在于,所述模板配置模块包括:
9.一种终端设备,其特征在于,所述终端设备包括存储器、处理器及存储在存储器中并可在处理器上运行的数据自动标注程序,所述处理器执行所述数据自动标注程序时,实现如权利要求1-5任一项所述的数据自动标注方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有数据自动标注程序,所述数据自动标注程序被处理器执行时,实现如权利要求1-5任一项所述的数据自动标注方法的步骤。