本申请实施例涉及图像识别,具体而言,涉及一种模型的微调方法、装置、电子设备及存储介质。
背景技术:
1、深度学习技术逐渐融入社会生活的各个领域,分割类算法作为深度学习领域的重要分支,也应用在各个领域中,例如医学图像分割,视频人像分割、实例分割、头像分割等,分割类算法往往需要在现有的预训练模型上采用少量数据做微调,但是在微调过程中往往会遇到过拟合的方法。
2、针对分割类任务模型微调过程中带来的模型过拟合问题,目前主要有以下几种解决方案,一种是从数据量方面入手,通过增加微调时的数据量解决过拟合的问题;还可以通过移除特征、删除层等方式简化网络结构,避免过拟合;也可以通过早停法,在训练过程中监测损失(loss)变化,当出现上升趋势时停止训练,避免过拟合。
3、虽然从数据量着手是比较有效的解决过拟合的办法,但是在实际任务中往往缺少相应微调数据,或者数据成本较高,获取难度大等情况;移除特征或者删除层等方式简化网络结构,往往会弱化网络的拟合能力,对分割效果产生影响;早停法可以防止过拟合,但也存在模型还没有训练到最优结果却被停止了训练,导致模型最终的分割效果不理想。
技术实现思路
1、针对上述现有技术中存在的问题,本申请实施例提供了一种模型的微调方法、装置、电子设备及存储介质,可以在不增加模型大小,不改变模型的复杂度,不增加模型的推理耗时的同时避免模型微调时过拟合,有效提升分割类任务中模型的鲁棒性,保证模型的分割质量。
2、第一方面,本申请实施例提供了一种模型的微调方法,包括:
3、获得微调数据集,所述微调数据集包括输入图像;
4、将所述输入图像分别输入第一预训练模型和第二预训练模型,得到所述第一预训练模型输出的第一结果和第二预训练模型输出的第二结果,其中,所述第一预训练模型为权重冻结的预训练模型;
5、获得所述第二结果与所述输入图像的标签之间的第一损失、所述第二结果与所述第一结果之间的第二损失;
6、根据所述第一损失和所述第二损失,对所述第二预训练模型进行模型微调。
7、进一步地,所述获得所述第二结果与所述输入图像的标签之间的第一损失、所述第二结果与所述第一结果之间的第二损失,包括:
8、计算所述第二结果和所述输入图像的标签之间的第一结构相似性、所述第二结果与所述第一结果之间的第二结构相似性;
9、根据所述第一结构相似性得到所述第一损失,根据所述第二结构相似性得到所述第二损失。
10、进一步地,所述第一预训练模型和所述第二预训练模型为分割模型,所述分割模型用于根据输入的目标图像分割得到对应于所述目标图像的掩膜图像。
11、进一步地,所述根据所述第一损失和所述第二损失,对所述第二预训练模型进行模型微调,包括:
12、根据所述第一损失和所述第二损失,调节所述第二预训练模型中各层的参数,以实现所述第二预训练模型的模型微调。
13、第二方面,本申请实施例还提供了一种模型的微调装置,包括:
14、获取模块,用于获得微调数据集,所述微调数据集包括输入图像;
15、模型输出结果获取模块,用于将所述输入图像分别输入第一预训练模型和第二预训练模型,得到所述第一预训练模型输出的第一结果和第二预训练模型输出的第二结果,其中,所述第一预训练模型为权重冻结的预训练模型;
16、损失计算模块,用于获得所述第二结果与所述输入图像的标签之间的第一损失、所述第二结果与所述第一结果之间的第二损失;
17、微调模块,用于根据所述第一损失和所述第二损失,对所述第二预训练模型进行模型微调
18、进一步地,所述损失计算模块,具体用于:
19、计算所述第二结果和所述输入图像的标签之间的第一结构相似性、所述第二结果与所述第一结果之间的第二结构相似性;
20、根据所述第一结构相似性得到所述第一损失,根据所述第二结构相似性得到所述第二损失。
21、进一步地,所述微调模块,具体用于:
22、根据所述第一损失和所述第二损失,调节所述第二预训练模型中各层的参数,以实现所述第二预训练模型的模型微调。
23、第三方面,本申请实施例还提供了一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器用于执行所述程序时实现根据上述的第一方面所述的模型的微调方法。
24、第四方面,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序用于实现根据上述的第一方面所述的模型的微调方法。
25、第五方面,本申请实施例还提供了一种计算机程序产品,其上存储有计算机程序,所述计算机程序用于实现根据上述的第一方面所述的模型的微调方法。
26、本申请实施例带来了以下有益效果:
27、本申请的实施例,将输入图像分别输入第一预训练模型和第二预训练模型,得到第一预训练模型输出的第一结果和第二预训练模型输出的第二结果,并获得第二结果与输入图像的标签之间的第一损失、第二结果与第一结果之间的第二损失,最后根据第一损失和第二损失,对第二预训练模型进行模型微调。由此,通过模型和标签直接的损失以及模型和冻结的预训练模型的输出之间计算的先验语义保留损失,使得微调的模型能够保留预训练模型的先验语义特征,从而避免模型在少量微调数据集上过拟合,可以在不增加模型大小,不改变模型的复杂度,不增加模型的推理耗时的同时避免模型微调时过拟合,有效提升分割类任务中模型的鲁棒性,保证模型的分割质量。
1.一种模型的微调方法,其特征在于,包括:
2.根据权利要求1所述的模型的微调方法,其特征在于,所述获得所述第二结果与所述输入图像的标签之间的第一损失、所述第二结果与所述第一结果之间的第二损失,包括:
3.根据权利要求1所述的模型的微调方法,其特征在于,所述第一预训练模型和所述第二预训练模型为分割模型,所述分割模型用于根据输入的目标图像分割得到对应于所述目标图像的掩膜图像。
4.根据权利要求1-3任一项所述的模型的微调方法,其特征在于,所述根据所述第一损失和所述第二损失,对所述第二预训练模型进行模型微调,包括:
5.一种模型的微调装置,其特征在于,包括:
6.根据权利要求1所述的模型的微调装置,其特征在于,所述损失计算模块,具体用于:
7.根据权利要求5或6所述的模型的微调装置,其特征在于,所述微调模块,具体用于:
8.一种电子设备,其特征在于,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器用于执行所述程序时实现根据权利要求1-6任一项所述的模型的微调方法。
9.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序用于实现根据权利要求1-6任一项所述的模型的微调方法。
10.一种计算机程序产品,其上存储有计算机程序,所述计算机程序用于实现根据权利要求1-6任一项所述的模型的微调方法。