本申请涉及图像处理,涉及一种用于小样本数据场景的图像数据增广方法及装置、介质。
背景技术:
1、目前,在深度学习领域,图像识别和分类任务通常需要大量的标注数据来训练模型。然而,在某些特定应用场景中,获取大量高质量的标注图像数据面临诸多挑战,尤其是在小样本数据场景下。小样本数据可能导致模型过拟合,无法很好地泛化到新的数据上。此外,一些应用领域由于隐私保护、成本限制或数据稀缺性,难以收集到充足的正样本数据。这些问题限制了深度学习技术在这些场景下的应用和发展。
2、传统的图像数据增广技术,如旋转、缩放、裁剪等,虽然能够在一定程度上扩充数据集,但对于小样本数据场景,这些方法往往无法有效提升模型的泛化能力和准确率。此外,当数据集中的正负样本极度不平衡时,现有技术很难通过简单的数据增广来实现有效的数据平衡。
3、针对小样本数据场景,一些研究尝试采用生成对抗网络(gans)或变分自编码器(vaes)等生成模型来生成合成数据,以扩充数据集。然而,这些方法可能需要大量的计算资源,且生成的数据可能与真实数据分布存在偏差,影响模型训练效果。
4、需要说明的是,在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
1、为了对披露的实施例的一些方面有基本的理解,下面给出了简单的概括。所述概括不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围,而是作为后面的详细说明的序言。
2、本公开实施例提供了一种用于小样本数据场景的图像数据增广方法及装置、介质,以解决模型训练中正样本数据集过少且难于获取技术问题。
3、在一些实施例中,所述方法包括:
4、获取基础数据集,对基础数据集增广,采用opencv实现对数据的增广;
5、将增广后的数据与基础数据集结合得到完整数据集,对完整数据集进行数据标注;
6、使用标注完成的数据集训练神经网络模型,将训练得到的模型进行编译、转换、封装,并部署到实际的平台和生产环境中。
7、优选的,获取基础数据集包括以下三种方式:从客户方收集指定的正负样本数据、从网络上爬取相关的正负样本数据、通过大模型的文生图功能生成模拟的正负样本数据。
8、优选的,采用opencv实现对数据的增广具体方法如下:
9、创建一个ai工具箱,该工具箱封装了opencv的图像处理功能;
10、根据需求定义数据增广模板,每个模板是工具箱中基本操作函数的特定组合;
11、加载需要进行增广的基础数据集,数据集应包含原始图像和对应的标签;
12、遍历数据集中的每个图像,对于每个图像,根据选择的模板应用模板中定义的操作序列到图像;如果数据集包含标签,确保标签也进行相应的变换;
13、将增广后的图像保存到新的数据集中,如果数据集包含标签,确保标签也一并保存。
14、优选的,工具箱应包含以下基本操作的函数:图像旋转、图像缩放、图像平移、仿射变换、透视变换、色彩空间转换、色调调整、饱和度调整、亮度调整、高斯滤波、阈值分割、图像融合、图像编辑。
15、优选的,数据增广模板包括:
16、调整位置角度模板:将图像缩放,再分别经过图像旋转和图像平移,将图像旋转和图像平移后的图像依次进行仿射变换和透视变换得到增广后的图像数据;
17、调整色彩模板:将图像进行色域空间转换,再分别进行色调调整、亮度调整和饱和度调整,将调整后的图像依次进行色域空间转换和高斯滤波得到增广后的图像数据;
18、调整及组合目标背景模板:将图像进行阈值分割为目标图像和背景图像,再将目标图像和背景图像分别进行膨胀或腐蚀后融合,将融合后的图像经过高斯滤波得到增广后的图像数据;
19、新特征添加模板:通过图像编辑在图像中添加新特征,再将添加新特征的图像经过高斯模糊得到增广后的图像数据。
20、一种用于小样本数据场景的图像数据增广系统,包括:
21、数据采集模块:被配置为通过以下三种方式获取基础数据集:从客户方收集指定的正负样本数据;从网络上爬取相关的正负样本数据;通过大模型的文生图功能生成模拟的正负样本数据;
22、数据增广模块:被配置为采用opencv实现对数据的增广,并保存增广后的数据;
23、数据标注模块:被配置为将增广后的数据与基础数据集合并得到完整数据集,并对该数据集进行标注;
24、模型训练模块:被配置为使用标注完成的数据集训练神经网络模型;
25、模型部署组件:被配置为将训练得到的模型进行编译、转换、封装,并部署到实际的平台和生产环境中。
26、本公开实施例提供的一种用于小样本数据场景的图像数据增广方法及装置、介质,可以实现以下技术效果:
27、通过增广基础数据集,有效解决了小样本数据场景下正样本数据集过少的问题,为模型训练提供了更丰富的数据。
28、自动化的数据增广流程简化了图像处理和数据准备步骤,减少了人工干预,提高了数据处理的效率。
29、通过创建ai工具箱和定义数据增广模板,可以根据不同的需求定制增广策略,增加了方法的灵活性和适用性。
30、多种基本操作函数的组合使用,如图像旋转、缩放、色彩调整等,增强了图像的多样性,有助于提高模型对不同情况的泛化能力。
31、在图像增广的同时确保标签也进行相应的变换,保持了数据集的一致性,有助于训练出更准确的模型。
32、通过增广后的数据集训练得到的神经网络模型,预期将具有更好的泛化能力和准确率,尤其是在小样本数据场景下。
33、训练得到的模型经过编译、转换、封装后,易于部署到实际的平台和生产环境中,提高了模型的实际应用价值。
34、通过自动化的数据增广和标注,降低了数据准备的成本和时间,提高了整个模型训练流程的效率。
35、以上的总体描述和下文中的描述仅是示例性和解释性的,不用于限制本申请。
1.一种用于小样本数据场景的图像数据增广方法,其特征在于,包括:
2.根据权利要求1所述的用于小样本数据场景的图像数据增广方法,其特征在于,获取基础数据集包括以下三种方式:从客户方收集指定的正负样本数据、从网络上爬取相关的正负样本数据、通过大模型的文生图功能生成模拟的正负样本数据。
3.根据权利要求1所述的用于小样本数据场景的图像数据增广方法,其特征在于,采用opencv实现对数据的增广具体方法如下:
4.根据权利要求3所述的用于小样本数据场景的图像数据增广方法,其特征在于,工具箱应包含以下基本操作的函数:图像旋转、图像缩放、图像平移、仿射变换、透视变换、色彩空间转换、色调调整、饱和度调整、亮度调整、高斯滤波、阈值分割、图像融合、图像编辑。
5.根据权利要求4所述的用于小样本数据场景的图像数据增广方法,其特征在于,数据增广模板包括:
6.一种用于小样本数据场景的图像数据增广系统,其特征在于,用于执行如权利要求1至5中任一项所述的用于小样本数据场景的图像数据增广方法;包括:
7.一种用于小样本数据场景的图像数据增广装置,包括处理器和存储有程序指令的存储器,其特征在于,所述处理器被配置为在运行所述程序指令时,执行如权利要求1至5任一项所述的用于小样本数据场景的图像数据增广方法。
8.一种存储介质,存储有程序指令,其特征在于,所述程序指令在运行时,执行如权利要求1至5任一项所述的用于小样本数据场景的图像数据增广方法。