一种ViT蒸馏训练方法、系统、装置及可读存储介质与流程

文档序号:40356510发布日期:2024-12-18 13:34阅读:来源:国知局

技术特征:

1.一种vit蒸馏训练方法,其特征在于,包括:

2.根据权利要求1所述的vit蒸馏训练方法,其特征在于,所述选择长尾数据集,并对长尾数据集进行预处理,包括:

3.根据权利要求2所述的vit蒸馏训练方法,其特征在于,所述对卷积神经网络进行训练,生成教师模型,包括:

4.根据权利要求3所述的vit蒸馏训练方法,其特征在于,所述基于长尾数据集生成数据样本,输入教师模型,生成软标签,包括:

5.根据权利要求4所述的vit蒸馏训练方法,其特征在于,所述基于视觉transformer构建学生模型,为学生模型配置知识蒸馏功能和损失函数,包括:

6.根据权利要求5所述的vit蒸馏训练方法,其特征在于,所述基于分类结果和软标签利用损失函数优化学生模型参数,包括:

7.根据权利要求2所述的vit蒸馏训练方法,其特征在于,所述弱增强处理包括:随机裁剪处理、水平翻转处理和颜色调整处理;所述强增强处理包括:随机旋转处理、预设幅度的裁剪处理和颜色抖动处理。

8.一种vit蒸馏训练系统,其特征在于,所述系统采用权利要求1至7任一项所述的vit蒸馏训练方法;

9.一种vit蒸馏训练装置,其特征在于,包括:

10.一种可读存储介质,其特征在于:所述可读存储介质上存储有vit蒸馏训练程序,所述vit蒸馏训练程序被处理器执行时实现如权利要求1至7任一项权利要求所述的vit蒸馏训练方法的步骤。


技术总结
本发明提出的一种ViT蒸馏训练方法、系统、装置及可读存储介质,所述方法包括:选择长尾数据集,并对长尾数据集进行预处理;对卷积神经网络进行训练,生成教师模型;基于长尾数据集生成数据样本,输入教师模型,生成软标签;基于视觉Transformer构建学生模型,为学生模型配置知识蒸馏功能和损失函数;基于长尾数据集生成数据样本,输入学生模型,生成分类结果,基于分类结果和软标签利用损失函数优化学生模型参数,以训练学生模型;训练完成后,对学生模型进行模型验证和输出。本发明通过结合长尾数据集预处理、教师网络训练、知识蒸馏及损失重加权等技术,有效提升ViT模型在长尾数据集上的分类性能和泛化能力。

技术研发人员:管鹏伟,王珂,张再胜,于福勇,赵阳
受保护的技术使用者:浪潮智慧科技有限公司
技术研发日:
技术公布日:2024/12/17
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1