本申请涉及知识蒸馏,尤其涉及一种模型知识蒸馏方法及装置。
背景技术:
1、模型蒸馏算法的目的是将用教师模型作为指导网络,去训练出模型尺寸更小并且精度损失满足要求的学生模型。学生模型因为较小的规模,可以增强在边缘端的部署效率。教师模型指导学生模型学习的过程中,现有算法往往会通过教师模型提供的标签作为伪标签来学习,这种伪标签是高层的语义信息,是粗粒度的,缺乏细节信息,从而影响了蒸馏效率。
技术实现思路
1、有鉴于此,本申请实施例提供了一种模型知识蒸馏方法、装置、电子设备及计算机可读存储介质,以解决现有技术中,模型蒸馏效果差的问题。
2、本申请实施例的第一方面,提供了一种模型知识蒸馏方法,包括:获取训练图像,利用教师模型处理训练图像,得到教师图像特征,利用学生模型处理训练图像,得到学生图像特征,其中,教师模型和学生模型均为用于目标识别的模型;利用多层信息注入网络处理教师图像特征,得到教师多层信息特征;基于学生图像特征和教师多层信息特征,利用分类网络确定训练图像的分类结果;计算教师图像特征和学生图像特征之间的散度损失,计算分类结果和训练图像的标签之间的分类损失,依据散度损失和分类损失优化学生模型的模型参数,以完成从教师模型至学生模型的知识蒸馏。
3、本申请实施例的第二方面,提供了一种模型知识蒸馏装置,包括:获取模块,被配置为获取训练图像,利用教师模型处理训练图像,得到教师图像特征,利用学生模型处理训练图像,得到学生图像特征,其中,教师模型和学生模型均为用于目标识别的模型;处理模块,被配置为利用多层信息注入网络处理教师图像特征,得到教师多层信息特征;分类模块,被配置为基于学生图像特征和教师多层信息特征,利用分类网络确定训练图像的分类结果;计算模块,被配置为计算教师图像特征和学生图像特征之间的散度损失,计算分类结果和训练图像的标签之间的分类损失,依据散度损失和分类损失优化学生模型的模型参数,以完成从教师模型至学生模型的知识蒸馏。
4、本申请实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
5、本申请实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
6、本申请实施例与现有技术相比存在的有益效果是:获取训练图像,利用教师模型处理训练图像,得到教师图像特征,利用学生模型处理训练图像,得到学生图像特征,其中,教师模型和学生模型均为用于目标识别的模型;利用多层信息注入网络处理教师图像特征,得到教师多层信息特征;基于学生图像特征和教师多层信息特征,利用分类网络确定训练图像的分类结果;计算教师图像特征和学生图像特征之间的散度损失,计算分类结果和训练图像的标签之间的分类损失,依据散度损失和分类损失优化学生模型的模型参数,以完成从教师模型至学生模型的知识蒸馏。采用上述技术手段,可以解决现有技术中,模型蒸馏效果差的问题,进而提高知识蒸馏效果。
1.一种模型知识蒸馏方法,应用于目标识别领域,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,利用多层信息注入网络处理所述教师图像特征,得到教师多层信息特征之前,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,利用多层信息注入网络处理所述教师图像特征,得到教师多层信息特征,包括:
4.根据权利要求1所述的方法,其特征在于,基于所述学生图像特征和所述教师多层信息特征,利用分类网络确定所述训练图像的分类结果,包括:
5.根据权利要求1所述的方法,其特征在于,依据所述散度损失和所述分类损失优化所述学生模型的模型参数,以完成从所述教师模型至所述学生模型的知识蒸馏,包括:
6.根据权利要求1所述的方法,其特征在于,基于所述学生图像特征和所述教师多层信息特征,利用分类网络确定所述训练图像的分类结果之后,所述方法还包括:
7.根据权利要求1所述的方法,其特征在于,依据所述散度损失和所述分类损失优化所述学生模型的模型参数,以完成从所述教师模型至所述学生模型的知识蒸馏之后,所述方法还包括:
8.一种模型知识蒸馏装置,其特征在于,包括:
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。