模型的微调方法、装置、电子设备及存储介质与流程

文档序号：34303258发布日期：2023-05-31 17:42阅读：74来源：国知局

本申请实施例涉及图像识别，具体而言，涉及一种模型的微调方法、装置、电子设备及存储介质。

背景技术：

1、深度学习技术逐渐融入社会生活的各个领域，分割类算法作为深度学习领域的重要分支，也应用在各个领域中，例如医学图像分割，视频人像分割、实例分割、头像分割等，分割类算法往往需要在现有的预训练模型上采用少量数据做微调，但是在微调过程中往往会遇到过拟合的方法。

2、针对分割类任务模型微调过程中带来的模型过拟合问题，目前主要有以下几种解决方案，一种是从数据量方面入手，通过增加微调时的数据量解决过拟合的问题；还可以通过移除特征、删除层等方式简化网络结构，避免过拟合；也可以通过早停法，在训练过程中监测损失(loss)变化，当出现上升趋势时停止训练，避免过拟合。

3、虽然从数据量着手是比较有效的解决过拟合的办法，但是在实际任务中往往缺少相应微调数据，或者数据成本较高，获取难度大等情况；移除特征或者删除层等方式简化网络结构，往往会弱化网络的拟合能力，对分割效果产生影响；早停法可以防止过拟合，但也存在模型还没有训练到最优结果却被停止了训练，导致模型最终的分割效果不理想。

技术实现思路

1、针对上述现有技术中存在的问题，本申请实施例提供了一种模型的微调方法、装置、电子设备及存储介质，可以在不增加模型大小，不改变模型的复杂度，不增加模型的推理耗时的同时避免模型微调时过拟合，有效提升分割类任务中模型的鲁棒性，保证模型的分割质量。

2、第一方面，本申请实施例提供了一种模型的微调方法，包括：

3、获得微调数据集，所述微调数据集包括输入图像；

4、将所述输入图像分别输入第一预训练模型和第二预训练模型，得到所述第一预训练模型输出的第一结果和第二预训练模型输出的第二结果，其中，所述第一预训练模型为权重冻结的预训练模型；

5、获得所述第二结果与所述输入图像的标签之间的第一损失、所述第二结果与所述第一结果之间的第二损失；

6、根据所述第一损失和所述第二损失，对所述第二预训练模型进行模型微调。

7、进一步地，所述获得所述第二结果与所述输入图像的标签之间的第一损失、所述第二结果与所述第一结果之间的第二损失，包括：

8、计算所述第二结果和所述输入图像的标签之间的第一结构相似性、所述第二结果与所述第一结果之间的第二结构相似性；

9、根据所述第一结构相似性得到所述第一损失，根据所述第二结构相似性得到所述第二损失。

10、进一步地，所述第一预训练模型和所述第二预训练模型为分割模型，所述分割模型用于根据输入的目标图像分割得到对应于所述目标图像的掩膜图像。

11、进一步地，所述根据所述第一损失和所述第二损失，对所述第二预训练模型进行模型微调，包括：

12、根据所述第一损失和所述第二损失，调节所述第二预训练模型中各层的参数，以实现所述第二预训练模型的模型微调。

13、第二方面，本申请实施例还提供了一种模型的微调装置，包括：

14、获取模块，用于获得微调数据集，所述微调数据集包括输入图像；

15、模型输出结果获取模块，用于将所述输入图像分别输入第一预训练模型和第二预训练模型，得到所述第一预训练模型输出的第一结果和第二预训练模型输出的第二结果，其中，所述第一预训练模型为权重冻结的预训练模型；

16、损失计算模块，用于获得所述第二结果与所述输入图像的标签之间的第一损失、所述第二结果与所述第一结果之间的第二损失；

17、微调模块，用于根据所述第一损失和所述第二损失，对所述第二预训练模型进行模型微调

18、进一步地，所述损失计算模块，具体用于：

19、计算所述第二结果和所述输入图像的标签之间的第一结构相似性、所述第二结果与所述第一结果之间的第二结构相似性；

20、根据所述第一结构相似性得到所述第一损失，根据所述第二结构相似性得到所述第二损失。

21、进一步地，所述微调模块，具体用于：

22、根据所述第一损失和所述第二损失，调节所述第二预训练模型中各层的参数，以实现所述第二预训练模型的模型微调。

23、第三方面，本申请实施例还提供了一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器用于执行所述程序时实现根据上述的第一方面所述的模型的微调方法。

24、第四方面，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序用于实现根据上述的第一方面所述的模型的微调方法。

25、第五方面，本申请实施例还提供了一种计算机程序产品，其上存储有计算机程序，所述计算机程序用于实现根据上述的第一方面所述的模型的微调方法。

26、本申请实施例带来了以下有益效果：

27、本申请的实施例，将输入图像分别输入第一预训练模型和第二预训练模型，得到第一预训练模型输出的第一结果和第二预训练模型输出的第二结果，并获得第二结果与输入图像的标签之间的第一损失、第二结果与第一结果之间的第二损失，最后根据第一损失和第二损失，对第二预训练模型进行模型微调。由此，通过模型和标签直接的损失以及模型和冻结的预训练模型的输出之间计算的先验语义保留损失，使得微调的模型能够保留预训练模型的先验语义特征，从而避免模型在少量微调数据集上过拟合，可以在不增加模型大小，不改变模型的复杂度，不增加模型的推理耗时的同时避免模型微调时过拟合，有效提升分割类任务中模型的鲁棒性，保证模型的分割质量。

技术特征：

1.一种模型的微调方法，其特征在于，包括：

2.根据权利要求1所述的模型的微调方法，其特征在于，所述获得所述第二结果与所述输入图像的标签之间的第一损失、所述第二结果与所述第一结果之间的第二损失，包括：

3.根据权利要求1所述的模型的微调方法，其特征在于，所述第一预训练模型和所述第二预训练模型为分割模型，所述分割模型用于根据输入的目标图像分割得到对应于所述目标图像的掩膜图像。

4.根据权利要求1-3任一项所述的模型的微调方法，其特征在于，所述根据所述第一损失和所述第二损失，对所述第二预训练模型进行模型微调，包括：

5.一种模型的微调装置，其特征在于，包括：

6.根据权利要求1所述的模型的微调装置，其特征在于，所述损失计算模块，具体用于：

7.根据权利要求5或6所述的模型的微调装置，其特征在于，所述微调模块，具体用于：

8.一种电子设备，其特征在于，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器用于执行所述程序时实现根据权利要求1-6任一项所述的模型的微调方法。

9.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序用于实现根据权利要求1-6任一项所述的模型的微调方法。

10.一种计算机程序产品，其上存储有计算机程序，所述计算机程序用于实现根据权利要求1-6任一项所述的模型的微调方法。

技术总结
本申请实施例公开一种模型的微调方法、装置、电子设备及存储介质。模型的微调方法包括：获得微调数据集，微调数据集包括输入图像；将输入图像分别输入第一预训练模型和第二预训练模型，得到第一预训练模型输出的第一结果和第二预训练模型输出的第二结果，第一预训练模型为权重冻结的预训练模型；获得第二结果与输入图像的标签之间的第一损失、第二结果与第一结果之间的第二损失；根据第一损失和第二损失，对第二预训练模型进行模型微调。本申请的实施例，可以在不增加模型大小，不改变模型的复杂度，不增加模型的推理耗时的同时避免模型微调时过拟合，有效提升分割类任务中模型的鲁棒性，保证模型的分割质量。

技术研发人员：王健,齐镗泉
受保护的技术使用者：深圳万兴软件有限公司
技术研发日：
技术公布日：2024/1/12

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王健齐镗泉
技术所有人：深圳万兴软件有限公司
我是此专利的发明人

上一篇：头部姿态驱动方法及其装置、设备、介质、产品与流程
上一篇：减压阀动铁行程测试装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。