一种基于注意力图的视觉Transformer模型剪枝方法

文档序号:32134438发布日期:2022-11-09 12:08阅读:来源:国知局

技术特征:
1.一种基于注意力图的视觉transformer模型剪枝方法,应用于机器视觉推理系统,其特征在于,包括如下步骤:步骤a、在机器视觉推理系统中,通过数据训练网络对vit模型执行若干轮初始训练,以生成完整的注意力图;步骤b、计算注意力图的信息熵,根据计算的信息熵大小对注意力头进行剪枝操作,度量注意力图的不确定性;步骤c、移除被剪枝注意力头关联的各权重参数,以获得新vit模型;步骤d、重新微调新vit模型的参数。2.根据权利要求1所述的一种基于注意力图的视觉transformer模型剪枝方法,其特征在于:在所述的步骤a中,vit模型将输入图像拆分为n个图像块,并对每个图像块附加一个类编码,然后将附加类编码的n个图像块馈送到与普通transformer类似的编码器中,形成n个图像编码块。3.根据权利要求2所述的一种基于注意力图的视觉transformer模型剪枝方法,其特征在于:所述的步骤a,包括如下步骤:a1、在vit模型训练的初始阶段,vit模型没有学习到有用的信息,此时注意力图是无序的,且注意力图具有大的信息熵;a2、在vit模型经过若干轮的初始训练,vit模型学习到基本信息,并开始呈现出一定的模式;a3、在vit模型训练的最终阶段,当vit模型收敛时,每个注意力头都获得了注意力图,此时重要的图像编码块会受到注意力头的高度关注,使得信息熵降低,所有的注意力图都是一个训练轮次的平均结果。4.根据权利要求1所述的一种基于注意力图的视觉transformer模型剪枝方法,其特征在于:在所述的步骤b中,在vit模型执行若干轮初始训练后,当注意力头学习到的有用信息增加,注意力头会关注图像编码块,使得信息熵降低,注意力图具有确定性;当注意力头学习到的有用信息少时,注意力头会对全局有统一的关注,使得信息熵增加,从而产生大的不确定性,此过程中信息熵用于衡量注意力图的不确定性。5.根据权利要求4所述的一种基于注意力图的视觉transformer模型剪枝方法,其特征在于:在所述的步骤b中,对于transformer块而言,多头自注意力msa和多层感知机mlp是花费计算资源的主要部分;表示第l层的输入,且,则注意力头h的注意力计算如公式(1)所示:
ꢀꢀꢀ
(1);其中,;q、k、v分别表示多头注意力机制中的“查询”、“键”和“值”;
对于第l层中的第h个注意力头模块而言,参与生成注意力图,计算的“查询”、“键”和“值”分别表示为;d表示注意力头嵌入维度;n表示输入进vit模型的图像块的数量;t表示注意力头为h的视觉transformer网络;则多头自注意力msa的计算如公式(2)所示:
ꢀꢀꢀ
(2);表示4个投影矩阵的总和;h表示注意力头的数量。6.根据权利要求5所述的一种基于注意力图的视觉transformer模型剪枝方法,其特征在于:通过公式(1)和公式(2)包含的参数计算复杂度如公式(3)所示:
ꢀꢀꢀꢀ
(3);c表示参数计算复杂度;4ndhd表示投影计算的计算量总和;同时参数量如公式(4)所示: (4);p表示参数量;表示使用公式(1)计算注意力图的计算量;d表示嵌入维度,当vit模型还没有被剪枝时,d=hd。7.根据权利要求6所述的一种基于注意力图的视觉transformer模型剪枝方法,其特征在于:视觉transformer的输入序列是长序列场景时,自注意力的计算复杂度表示为;当视觉transformer的序列长度不能支配全部多头注意力模块的复杂度时,自注意力的计算复杂度表示为。8.根据权利要求7所述的一种基于注意力图的视觉transformer模型剪枝方法,其特征在于:在vit模型被剪枝后,注意力头的数量被剪枝为,则剪枝后的复杂度如公式(5)所示:
ꢀꢀ
(5);同时参数量如公式(6)所示:
ꢀꢀ
(6)。9.根据权利要求8所述的一种基于注意力图的视觉transformer模型剪枝方法,其特征在于:在所述的步骤b中,注意力图表示第l层和注意力头h的注意力图,则注意力图的信息熵如公式(7)所示:
ꢀꢀ
(7);表示第i个查询编码块第j个键编码块的相似度;对于第i个查询图像块,在注意力计算中进行softmax操作,则表示键图像块到第i个查询编码块的概率分布。

技术总结
本发明公开了一种基于注意力图的视觉Transformer模型剪枝方法,应用于机器视觉推理系统,包括如下步骤:在机器视觉推理系统中,通过数据训练网络对ViT模型执行若干轮初始训练,以生成完整的注意力图;计算注意力图的信息熵,根据计算的信息熵大小对注意力头进行剪枝操作;移除被剪枝注意力头关联的各权重参数,以获得新ViT模型;重新微调新ViT模型的参数;通过对多头注意力模块进行剪枝,删除具有高不确定性的特征图和相应的注意力头,以减少ViT模型的参数和复杂性,降低ViT模型的计算复杂度和参数量,能够缩减ViT模型大小,最终达到在ViT模型性能有限损失的情况下实现ViT模型的轻量化。的轻量化。的轻量化。


技术研发人员:王琼 黄丹 毛君竹 姚亚洲
受保护的技术使用者:南京理工大学
技术研发日:2022.10.11
技术公布日:2022/11/8
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1