基于AIGC的训练数据集确定方法及装置、存储介质、终端与流程

文档序号:36085113发布日期:2023-11-18 02:45阅读:31来源:国知局
基于AIGC的训练数据集确定方法及装置、存储介质、终端与流程

本发明涉及数据处理,尤其涉及一种基于aigc的训练数据集确定方法及装置、存储介质、终端。


背景技术:

1、在工业连铸技术领域,通常需要对连铸产品(包括钢坯、铜棒等)的缺陷进行检测,比如检测铜棒是否存在开裂、波纹以及夹杂等情况。现有的产品缺陷检测方法通常是对实际生产环节对应的产品进行图像采集,然后采用人工分析或检测模型自动检测的方法获知相应产品的具体缺陷情况。

2、人工分析的成本高且效率低下,实际应用中较少采用。而采用检测模型自动检测的方法,其检测结果的准确度则依赖于检测模型本身的检测精度,这就需要获取大量带有产品缺陷标签的产品样本图像对相关检测模型进行训练,以提高模型性能。

3、然而,实际应用中,带产品缺陷标签的训练数据集往往难以快速获得,需要较高的人工标注成本,或者,对训练数据集标注的产品缺陷标签准确度不足,进而影响后续模型训练的效果。


技术实现思路

1、本发明实施例解决的技术问题是如何快速获得大量标注有准确的产品缺陷标签的训练数据集。

2、为解决上述技术问题,本发明实施例提供一种基于aigc的训练数据集确定方法,包括以下步骤:采用第一损失函数,将第一训练数据集输入初始模型进行初步迭代训练,直至所述第一损失函数的函数值达到第一阈值时停止迭代训练,得到预训练模型,其中,所述第一训练数据集包含第一数量的产品样本图像;采用第二损失函数,将第二训练数据集输入所述预训练模型进行再次迭代训练,直至所述第二损失函数的函数值达到第二阈值时停止迭代训练,得到再训练模型,其中,所述第二训练数据集是基于aigc技术对所述第一训练数据集进行扩充得到的,所述第二训练数据集包含第二数量的产品样本图像,所述第一训练数据集和第二训练数据集均标注有产品缺陷标签;将多张待标注图像输入所述再训练模型进行产品缺陷预测,并采用所述再训练模型输出的产品缺陷预测结果,对所述待标注图像进行标注,以得到第三训练数据集;其中,所述第二数量与所述第一数量的比值大于等于10,所述第一阈值与所述第二阈值的比值大于等于2。

3、可选的,在将第二训练数据集输入所述预训练模型进行再次迭代训练之前,所述方法还包括:基于aigc技术,对所述第一训练数据集进行数据扩充,得到扩充产品缺陷图像集;将所述扩充产品缺陷图像集以及所述第一训练数据集的集合,作为所述第二训练数据集。

4、可选的,基于aigc技术,对所述第一训练数据集进行数据扩充,得到扩充产品缺陷图像集,包括:对所述第一训练数据集中的产品样本图像进行特征提取,以得到每张产品样本图像的特征向量;根据每两张产品样本图像的特征向量之间的相似度,对所述产品样本图像进行聚类,以得到一个或多个产品样本图像子集;对每个产品样本图像子集,基于其中的产品样本图像的特征向量进行特征融合,以得到该产品样本图像子集对应的多个融合特征向量;基于所得到的各个融合特征向量,生成所述扩充产品缺陷图像集。

5、可选的,对每个产品样本图像子集,基于其中的产品样本图像的特征向量进行特征融合,以得到该产品样本图像子集对应的多个融合特征向量,包括:对每个产品样本图像子集中的产品样本图像,以每n张产品样本图像为一组,得到多个产品样本图像组;对于每个产品样本图像组,对该组的n张产品样本图像的特征向量进行向量拼接,得到该产品样本图像组对应的融合特征向量,从而获得所述产品样本图像子集对应的多个融合特征向量;其中,2≤n≤n,n为所述产品样本图像子集中的产品样本图像的总张数,n与n均为正整数。

6、可选的,所述扩充产品缺陷图像集的产品缺陷标签,是采用所述预训练模型进行产品缺陷预测得到的。

7、可选的,在对所述第一训练数据集中的产品样本图像进行特征提取之前,所述方法还包括:对所述第一训练数据集中的产品样本图像进行二值化处理。

8、可选的,所述第一训练数据集和所述第二训练数据集中的每张产品样本图像是对单张产品样本子图进行一次或多次正反倒转拼接得到的;其中,所述产品样本图像包含的每张产品样本子图均具有各自的产品缺陷标签。

9、可选的,采用下述表达式表示所述第一损失函数:

10、

11、其中,loss1表示所述第一损失函数的函数值,m表示所述第一数量,j表示所述第一训练数据集中的产品样本图像的序号,q表示产品样本图像包含的产品样本子图的数量,i表示产品样本图像中的产品样本子图的序号,xij表示所述第一训练数据集的第j张产品样本图像的第i张产品样本子图的产品缺陷预测结果,yij表示所述第一训练数据集的第j张产品样本图像的第i张产品样本子图的产品缺陷标签,wij表示第j张产品样本图像的第i张产品样本子图的权重值,b表示第一系数,σ表示第二系数。

12、可选的,采用下述表达式表示所述第二损失函数:

13、

14、其中,loss2表示所述第二损失函数的函数值,n表示所述第二数量,i表示所述第二训练数据集中的产品样本图像的序号,yi表示所述第二训练数据集的第i张产品样本图像的产品缺陷预测结果,yi'表示所述第二训练数据集的第i张产品样本图像的产品缺陷标签。

15、可选的,在得到所述第三训练数据集之后,所述方法还包括:对所述第三训练数据集标注缺陷位置标签,得到第四训练数据集;采用所述第四训练数据集,对预设的检测模型进行训练,得到优化检测模型;采用所述优化检测模型,对待检测产品图像进行缺陷检测,以得到所述待检测产品图像中的产品缺陷及缺陷位置。

16、本发明实施例还提供一种基于aigc的训练数据集确定装置,包括:初步训练模块,用于采用第一损失函数,将第一训练数据集输入初始模型进行初步迭代训练,直至所述第一损失函数的函数值达到第一阈值时停止迭代训练,得到预训练模型,其中,所述第一训练数据集包含第一数量的产品样本图像;再训练模块,用于采用第二损失函数,将第二训练数据集输入所述预训练模型进行再次迭代训练,直至所述第二损失函数的函数值达到第二阈值时停止迭代训练,得到再训练模型,其中,所述第二训练数据集是基于aigc技术对所述第一训练数据集进行扩充得到的,所述第二训练数据集包含第二数量的产品样本图像,所述第一训练数据集和第二训练数据集均标注有产品缺陷标签;训练数据集确定模块,用于将多张待标注图像输入所述再训练模型进行产品缺陷预测,并采用所述再训练模型输出的产品缺陷预测结果,对所述待标注图像进行标注,以得到第三训练数据集;其中,所述第二数量与所述第一数量的比值大于等于10,所述第一阈值与所述第二阈值的比值大于等于2。

17、本发明实施例还提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时执行上述基于aigc的训练数据集确定方法的步骤。

18、本发明实施例还提供一种终端,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行上述基于aigc的训练数据集确定方法的步骤。

19、与现有技术相比,本发明实施例的技术方案具有以下有益效果:

20、在本发明实施例中,通过初步迭代训练和再次迭代训练两步训练过程,可以实现对所述初始模型的深度优化。进一步,在再次迭代训练过程中,设置更大的训练数据量以及更小的损失函数收敛阈值,具体而言,再次迭代训练过程中,基于aigc技术对所述第一训练数据集进行扩充得到第二训练数据集,且第二训练数据集的训练数据量至少是初步迭代训练过程中的训练数据量的10倍,初步迭代训练过程中的损失函数收敛阈值至少是初步迭代训练过程中的损失函数收敛阈值的2倍。

21、通过采用上述阶梯式训练方式,可以使得再次迭代训练过程的迭代次数远大于初步迭代过程的迭代次数,这有助于改进模型的训练效果,获得性能更强、产品缺陷预测准确度更高的再训练模型。进一步,通过采用优化的再训练模型对待标注图像进行产品缺陷预测,获得产品缺陷标签,可以实现快速得到大量标注有准确的产品缺陷标签的训练数据集(即,所述第三训练数据集)。

22、进一步,在本发明实施例中,可以基于aigc技术,对所述第一训练数据集进行数据扩充,得到扩充产品缺陷图像集;将所述扩充产品缺陷图像集以及所述第一训练数据集的集合,作为所述第二训练数据集。如此,相较于基于图像拍摄/采集获取第二训练数据集的常规方式,采用本实施方案,一方面可以有效降低获取第二训练数据集的成本;另一方面,可以高效地获得数量大、内容丰富的产品缺陷图像用于后续再次迭代训练的过程。

23、进一步,对每个产品样本图像子集,基于其中的产品样本图像的特征向量进行特征融合,以得到该产品样本图像子集对应的多个融合特征向量,包括:对每个产品样本图像子集中的产品样本图像,以每n张产品样本图像为一组,得到多个产品样本图像组;对于每个产品样本图像组,对该产品样本图像组的n张产品样本图像的特征向量进行向量拼接,得到该产品样本图像组对应的融合特征向量,从而获得所述产品样本图像子集对应的多个融合特征向量;其中,2≤n≤n,n为所述产品样本图像子集中的产品样本图像的总张数,n与n均为正整数。

24、在本发明实施例中,通过采用上述组合方式,相较于对产品样本图像子集中的图像进行简单的两两组合,既可以大幅度增加产品样本图像组的数量,从而获得更大数量的融合特征向量。进一步,基于更大数量的融合特征向量,相应地可以生成数量更多、内容更丰富多样的扩充产品缺陷图像,改进再次迭代训练过程中模型训练效果。

25、进一步,所述第一训练数据集的每张产品样本图像是对单张产品样本子图进行一次或多次正反倒转拼接得到的;其中,所述产品样本图像包含的每张产品样本子图均具有各自的产品缺陷标签。相较于采用现有常规方法中通常采用整图作为输入,在本发明实施例中,采用对产品样本子图进行一次或多次拼接方式得到每张产品样本图像,一方面,可以结合实际应用场景中所述初始模型输入的图像分辨率要求,适应性获得具有适当分辨率的产品样本图像,改进模型训练效果;另一方面,在同一张产品样本图像中可以包含不同形式的产品样本子图,从而增加了训练数据集的丰富度,进一步改进模型的训练精度。

26、进一步,在本发明实施例中,对现有均方差损失函数进行改进,得到初步训练过程中的第一损失函数。具体地,通过对于每张产品样本子图的缺陷预测结果设置相应地权重值,并结合预设的第一系数、第二系数进行线性变换,获得线性变换后的缺陷预测结果,再对其与同一张产品样本子图的产品缺陷标签的计算差异。采用前述方式,可以对每张产品样本子图的缺陷预测结果进行修正,并获得更加准确的差异值(即,标注的产品缺陷标签与预测的产品缺陷之间的差异),进而提高模型训练的精度。进一步,还可以根据每张产品样本子图的图像质量等因素,适应性设置权重值,例如,对于质量更高的产品样本子图设置更高的权重,使其对训练过程的影响更大。由此,可以提高训练的针对性,进一步改进训练效果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1