一种基于注意力图的视觉Transformer模型剪枝方法

文档序号：32134438发布日期：2022-11-09 12:08阅读：来源：国知局

技术特征：
1.一种基于注意力图的视觉transformer模型剪枝方法，应用于机器视觉推理系统，其特征在于，包括如下步骤：步骤a、在机器视觉推理系统中，通过数据训练网络对vit模型执行若干轮初始训练，以生成完整的注意力图；步骤b、计算注意力图的信息熵，根据计算的信息熵大小对注意力头进行剪枝操作,度量注意力图的不确定性；步骤c、移除被剪枝注意力头关联的各权重参数，以获得新vit模型；步骤d、重新微调新vit模型的参数。2.根据权利要求1所述的一种基于注意力图的视觉transformer模型剪枝方法，其特征在于：在所述的步骤a中，vit模型将输入图像拆分为n个图像块，并对每个图像块附加一个类编码，然后将附加类编码的n个图像块馈送到与普通transformer类似的编码器中，形成n个图像编码块。3.根据权利要求2所述的一种基于注意力图的视觉transformer模型剪枝方法，其特征在于：所述的步骤a，包括如下步骤：a1、在vit模型训练的初始阶段，vit模型没有学习到有用的信息，此时注意力图是无序的，且注意力图具有大的信息熵；a2、在vit模型经过若干轮的初始训练，vit模型学习到基本信息，并开始呈现出一定的模式；a3、在vit模型训练的最终阶段，当vit模型收敛时，每个注意力头都获得了注意力图，此时重要的图像编码块会受到注意力头的高度关注，使得信息熵降低，所有的注意力图都是一个训练轮次的平均结果。4.根据权利要求1所述的一种基于注意力图的视觉transformer模型剪枝方法，其特征在于：在所述的步骤b中，在vit模型执行若干轮初始训练后，当注意力头学习到的有用信息增加，注意力头会关注图像编码块，使得信息熵降低，注意力图具有确定性；当注意力头学习到的有用信息少时，注意力头会对全局有统一的关注，使得信息熵增加，从而产生大的不确定性，此过程中信息熵用于衡量注意力图的不确定性。5.根据权利要求4所述的一种基于注意力图的视觉transformer模型剪枝方法，其特征在于：在所述的步骤b中，对于transformer块而言，多头自注意力msa和多层感知机mlp是花费计算资源的主要部分；表示第l层的输入，且，则注意力头h的注意力计算如公式（1）所示：
ꢀꢀꢀ
（1）；其中，；q、k、v分别表示多头注意力机制中的“查询”、“键”和“值”；
对于第l层中的第h个注意力头模块而言，参与生成注意力图，计算的“查询”、“键”和“值”分别表示为；d表示注意力头嵌入维度；n表示输入进vit模型的图像块的数量；t表示注意力头为h的视觉transformer网络；则多头自注意力msa的计算如公式（2）所示：
ꢀꢀꢀ
（2）；表示4个投影矩阵的总和；h表示注意力头的数量。6.根据权利要求5所述的一种基于注意力图的视觉transformer模型剪枝方法，其特征在于：通过公式（1）和公式（2）包含的参数计算复杂度如公式（3）所示：
ꢀꢀꢀꢀ
（3）；c表示参数计算复杂度；4ndhd表示投影计算的计算量总和；同时参数量如公式（4）所示：（4）；p表示参数量；表示使用公式（1）计算注意力图的计算量；d表示嵌入维度，当vit模型还没有被剪枝时，d=hd。7.根据权利要求6所述的一种基于注意力图的视觉transformer模型剪枝方法，其特征在于：视觉transformer的输入序列是长序列场景时，自注意力的计算复杂度表示为；当视觉transformer的序列长度不能支配全部多头注意力模块的复杂度时，自注意力的计算复杂度表示为。8.根据权利要求7所述的一种基于注意力图的视觉transformer模型剪枝方法，其特征在于：在vit模型被剪枝后，注意力头的数量被剪枝为，则剪枝后的复杂度如公式（5）所示：
ꢀꢀ
（5）；同时参数量如公式（6）所示：
ꢀꢀ
（6）。9.根据权利要求8所述的一种基于注意力图的视觉transformer模型剪枝方法，其特征在于：在所述的步骤b中，注意力图表示第l层和注意力头h的注意力图,则注意力图的信息熵如公式（7）所示：
ꢀꢀ
（7）；表示第i个查询编码块第j个键编码块的相似度；对于第i个查询图像块，在注意力计算中进行softmax操作，则表示键图像块到第i个查询编码块的概率分布。

技术总结
本发明公开了一种基于注意力图的视觉Transformer模型剪枝方法，应用于机器视觉推理系统，包括如下步骤：在机器视觉推理系统中，通过数据训练网络对ViT模型执行若干轮初始训练，以生成完整的注意力图；计算注意力图的信息熵，根据计算的信息熵大小对注意力头进行剪枝操作；移除被剪枝注意力头关联的各权重参数，以获得新ViT模型；重新微调新ViT模型的参数；通过对多头注意力模块进行剪枝，删除具有高不确定性的特征图和相应的注意力头，以减少ViT模型的参数和复杂性，降低ViT模型的计算复杂度和参数量，能够缩减ViT模型大小，最终达到在ViT模型性能有限损失的情况下实现ViT模型的轻量化。的轻量化。的轻量化。

技术研发人员：王琼黄丹毛君竹姚亚洲
受保护的技术使用者：南京理工大学
技术研发日：2022.10.11
技术公布日：2022/11/8

完整全部详细技术资料下载

当前第2页1 2