一种样本数据扩充方法、装置、电子设备及存储介质

文档序号:40269681发布日期:2024-12-11 13:03阅读:21来源:国知局
一种样本数据扩充方法、装置、电子设备及存储介质

本发明涉及数字成像和深度学习,尤其涉及一种样本数据扩充方法、装置、电子设备及存储介质。


背景技术:

1、传统的中药材鉴定工作需要依靠经验丰富的专家进行人工鉴定,该过程不仅需要大量的人力物力,而且鉴定结果的准确性很大程度上依赖于鉴定人员的经验和水平,存在主观性强、效率低、易出错等问题。

2、为了解决上述问题,应用计算机图像识别等前沿技术开展中药智能识别方法研究成为当前的研究热点。通过采集中药材的数字图像,利用深度学习等人工智能技术进行特征提取和分类识别,可以实现对中药材的快速、准确鉴定。

3、然而,由于中药材种类繁多,形态各异,且缺乏公开的大规模数据集,因此深度学习模型在中草药质检任务上的训练往往只能在小样本数据集上进行。这导致模型容易出现过拟合问题,泛化能力较差,难以在实际应用中取得良好的效果。

4、因此,亟需一种能够提高深度学习模型在中草药质检任务上的泛化能力和识别精度,降低对大量标注数据的依赖,提高中药材鉴定的效率和准确性的一种样本数据扩充方法。


技术实现思路

1、本发明各实施例提供一种样本数据扩充方法,以解决现有技术中深度学习模型只能在小样本数据集上进行,容易出现过拟合,泛化能力较差,难以在实际应用中取得良好效果的问题。所述技术方案如下:

2、根据本发明的一个方面,一种样本数据扩充方法,所述方法包括:获取样本数据集的数字显微成像和标注作为训练集;所述标注包括类别标签、目标定位标注和特征分类标注;基于数字成像和深度学习技术设计初始数据扩充模型,将所述训练集中的样本图像作为输入图像,根据所述初始数据扩充模型得到输出图像;所述初始数据扩充模型包括特征提取模型,特征生成模型和特征判别模型;使用所述特征判别模型对所述输入图像和输出图像进行对比得到损失值,根据所述损失值优化所述特征生成模型;使用所述训练集对所述初始数据扩充模型进行迭代优化直至达到设定条件,得到训练好的数据扩充模型,使用所述数据扩充模型对所述样本数据集进行扩充。

3、在其中一个实施例中,获取样本数据集的数字显微成像和标注作为训练集通过以下步骤实现:分类任务的样本数据集中的各样本携带类别标签,检测任务的样本数据集中的各样本携带目标定位标注和特征分类标注;所述目标定位标注用于指示样本图像特征的位置坐标;所述特征分类标注用于指示样本图像的图像特征。

4、在其中一个实施例中,根据所述初始数据扩充模型得到输出图像通过以下步骤实现:使用所述特征提取模型对所述输入图像进行特征提取得到特征图,使用所述特征生成模型根据所述特征图和噪声信息得到输出图像;所述特征包括图像中目标的整体结构信息和类内不变信息。

5、在其中一个实施例中,使用所述特征提取模型对所述输入图像进行特征提取得到特征图通过以下步骤实现:将所述输入图像切分为图像块并记录位置编码,随机对所述图像块中的部分图像块进行掩码得到掩码图像块,将剩余的图像块打乱顺序得到图像块序列;通过所述特征提取模型对所述图像块序列进行多层特征提取得到特征图;所述特征提取模型包括多个以残差结构连接的特征提取层;所述特征提取层由多头自注意力层与全连接层堆叠而成。

6、在其中一个实施例中,使用所述特征生成模型根据所述特征图和噪声信息得到输出图像通过以下步骤实现:对所述特征图进行多头自注意力运算得到高斯分布的均值与标准差,将噪声向量与所述高斯分布的均值相加后再与所述高斯分布的标准差相乘,得到特征向量;将所述掩码图像块以纯噪声的形式补充到所述特征向量中,并根据所述位置编码对各所述图像块进行复位;使用多层特征映射层根据所述特征向量得到生成图像块序列,根据所述位置编码将所述生成图像块序列组合得到输出图像;所述特征映射层由残差结构连接的多头自注意力层与全连接层堆叠而成。

7、在其中一个实施例中,对所述特征图进行多头自注意力运算得到高斯分布的均值与标准差通过以下步骤实现:使用查询权重矩阵、键权重矩阵与值权重矩阵根据所述特征图生成对应的查询向量、键向量与值向量并切分为多份;通过全连接层对所述切分后的查询向量、键向量与值向量进行映射得到多份向量,对所述多份向量进行融合计算得到多份的注意力权重;将所述多份注意力权重进行拼接得到整体注意力权重,通过全连接层对所述整体注意力权重进行映射得到高斯分布的均值与标准差。

8、在其中一个实施例中,使用所述特征判别模型对所述输入图像和输出图像进行对比得到损失值,根据所述损失值优化所述特征生成模型通过以下步骤实现:根据所述特征判别模型过拟合的程度将部分输出图像作为输入图像,使用所述特征判别模型根据所述输入图像和输出图像得到判别结果;所述判别结果包括真实图像和生成图像;所述特征判别模型包括多层多头自注意力层与全连接层;通过对比所述输入图像与输出图像各像素点间的距离计算重建损失;所述重建损失用于保证输出图像与输入图像的整体布局相同;根据所述判别结果计算判别损失,根据所述重建损失与所述判别损失的和得到总损失,根据所述总损失优化所述特征生成模型。

9、根据本发明的一个方面,一种样本数据扩充装置,所述装置包括:训练集获取模块,用于获取样本数据集的数字显微成像和标注作为训练集;模型构建模块,用于基于数字成像和深度学习技术设计初始数据扩充模型,将所述训练集中的样本图像作为输入图像,根据所述初始数据扩充模型得到输出图像;所述初始数据扩充模型包括特征提取模型,特征生成模型和特征判别模型;模型优化模块,用于使用所述特征判别模型对所述输入图像和输出图像进行对比得到损失值,根据所述损失值优化所述特征生成模型;样本数据扩充模块,用于使用所述训练集对所述初始数据扩充模型进行迭代优化直至达到设定条件,得到训练好的数据扩充模型,使用所述数据扩充模型对所述样本数据集进行扩充。

10、根据本发明的一个方面,一种电子设备,包括至少一个处理器以及至少一个存储器,其中,所述存储器上存储有计算机可读指令;所述计算机可读指令被一个或多个所述处理器执行,使得电子设备实现如上所述的一种样本数据扩充方法。

11、根据本发明的一个方面,一种存储介质,其上存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行,以实现如上所述的一种样本数据扩充方法。

12、本发明提供的技术方案带来的有益效果是:

13、在上述技术方案,本发明通过首先获取样本数据集的数字显微成像和标注作为训练集,基于数字成像和深度学习技术设计初始数据扩充模型,将训练集中的样本图像作为输入图像,根据初始数据扩充模型得到输出图像,初始数据扩充模型包括特征提取模型,特征生成模型和特征判别模型,使用特征判别模型对输入图像和输出图像进行对比得到损失值,根据损失值优化特征生成模型,使用训练集对初始数据扩充模型进行迭代优化直至达到设定条件,得到训练好的数据扩充模型,使用数据扩充模型对样本数据集进行扩充,通过特征提取、生成与判别模型的协同工作,实现了对样本数据集的高效、精确扩充,特征判别模型对输入与输出图像的精准对比,有效指导了特征生成模型的优化,进而提升了扩充数据的质量,经过迭代训练,所得数据扩充模型能够生成高度逼真的图像,显著增强了原始数据集的多样性和丰富性,为深度学习模型的训练提供了强有力的支持,从而能够有效地解决现有技术中的深度学习模型只能在小样本数据集上进行,容易出现过拟合,泛化能力较差,难以在实际应用中取得良好效果的问题。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1