本发明涉及计算机视觉的一种图像分类方法,涉及神经网络结构设计、图像分类、图像检测及其装置,具体而言是涉及了一种层次化视觉多层感知机的图像识别分类方法。
背景技术:
1、视觉感知机是最近1年刚提出的新方法,相比视觉变压器(vision transformer),其实现简单,能更好的被硬件支持,且同样能达到较好的效果。在图像分类、目标检测、语义分割、图像处理等多个领域中都有不俗表现。
2、mlp-mixer(mlp-mixer:an all-mlp architecture for vision,neurips 2021)是第一个提出这个概念的工作,但是其只能在分类任务上使用,无法将预训练权重迁移到其他任务上,不能作为一个通用的视觉骨干网络。
3、shift-t(when shift operation meets vision transformer:an extremelysimple alternative to attention mechanism,aaai 2022)
4、as-mlp(as-mlp:an axial shifted mlp architecture for vision,iclr 2022)
5、cyclemlp(cyclemlp:a mlp-like architecture for dense prediction,iclr2022)
6、hire-mlp(hire-mlp:vision mlp via hierarchical rearrangement,cvpr2022)
7、之后的一些方法,采用特征局部偏移的方法,从而捕捉空间信息,并使得网络可以迁移到下游任务中,但是现有技术的这些方法均只能获得局部信息,感受野较小,效果并不理想。
技术实现思路
1、为了解决背景技术中存在的问题,本发明提出了一种层次化的视觉多层感知机结构及其的图像识别分类方法。
2、所述的视觉多层感知机结构具备全局感受野,其既能捕获局部特征,也能捕获全局特征,并可以在下游任务上取得较好结果。
3、本发明采用的技术方案是:
4、1)建立一个带有层次化的视觉多层感知机的感知神经网络;
5、2)将图像输入到感知神经网络中分类识别处理,获得图像的类别分类。
6、所述的感知神经网络包括连续依次进行的一个卷积层和四个感知模块,前两个感知模块包含有用于提取局部特征的紧凑区域多层感知机,后两个感知模块包含有用于汇聚全部特征的紧凑区域多层感知机。
7、第一个感知模块仅只由一个紧凑区域多层感知机构成,第二个感知模块是由一个卷积层和一个紧凑区域多层感知机构成,第三个感知模块和第四个感知模块是由一个卷积层和一个稀疏区域多层感知机构成。
8、所述的紧凑区域多层感知机是将将输入自身的特征图i依次经过通道全连接层、紧凑区域全连接层、通道全连接层和归一化操作得到感知特征图i’,将输入的特征图i和感知特征图i’相加得到最终的输出特征图o。
9、所述的稀疏区域多层感知机是将将输入自身的特征图i依次经过通道全连接层、稀疏区域全连接层、通道全连接层和归一化操作得到感知特征图i’,将输入的特征图i和感知特征图i’相加得到最终的输出特征图o。
10、所述的通道全连接层即为常规的全连接层。
11、所述的卷积层均为1/4下采样的处理。
12、所述的紧凑区域全连接层,具体按照以下方式处理:
13、s1、将输入自身的特征图在空间维度上进行紧凑切分得到(h/cs)*(w/cs)个、长和宽均为cs的紧凑局部区域;
14、s2、对每个紧凑局部区域进行平均池化得到(h/cs)*(w/cs)个紧凑局部特征块;
15、s3、对每个紧凑局部特征块经空间全连接层处理得到(h/cs)*(w/cs)个紧凑增强特征块;
16、s4、对每个紧凑增强特征块进行最近邻上采样,使长和宽重新变为h和w,得到局部区域特征块。
17、s5、对所有局部区域特征块进行sigmoid激活函数的处理得到局部区域权重,将局部区域权重和原始输入自身的特征图进行加权操作得到紧凑区域全连接层输出的特征图。
18、所述的稀疏区域全连接层,具体按照以下方式处理:
19、s1、将输入自身的特征图在空间维度上进行稀疏切分得到(h/cs)*(w/cs)个、长和宽均为cs的稀疏全局区域;
20、s2、对每个稀疏全局区域进行平均池化得到(h/cs)*(w/cs)个稀疏全局特征块;
21、s3、对每个稀疏全局特征块经空间全连接层处理得到(h/cs)*(w/cs)个稀疏增强特征块;
22、s4、对每个稀疏增强特征块进行最近邻上采样,使长和宽重新变为h和w,得到全局区域特征块。
23、s5、对所有局部区域特征块进行sigmoid激活函数的处理得到全局区域权重,将局部区域权重和原始输入自身的特征图进行加权操作得到稀疏区域全连接层输出的特征图。
24、本发明的有益效果是:
25、相比现有的视觉多层感知机模型,本发明解决了现有方法中,下游任务迁移以及全局感受野之间的冲突,并大幅度提升了模型精度,使得方法可以更好地推广至目标检测和语义分割等下游视觉任务中。
1.一种层次化视觉多层感知机的图像识别分类方法,其特征在于:
2.根据权利要求1所述的一种层次化视觉多层感知机的图像识别分类方法,其特征在于:所述的感知神经网络包括连续依次进行的一个卷积层和四个感知模块,前两个感知模块包含有用于提取局部特征的紧凑区域多层感知机,后两个感知模块包含有用于汇聚全部特征的紧凑区域多层感知机。
3.根据权利要求2所述的一种层次化视觉多层感知机的图像识别分类方法,其特征在于:第一个感知模块仅只由一个紧凑区域多层感知机构成,第二个感知模块是由一个卷积层和一个紧凑区域多层感知机构成,第三个感知模块和第四个感知模块是由一个卷积层和一个稀疏区域多层感知机构成。
4.根据权利要求2所述的一种层次化视觉多层感知机的图像识别分类方法,其特征在于:所述的紧凑区域多层感知机是将将输入自身的特征图i依次经过通道全连接层、紧凑区域全连接层、通道全连接层和归一化操作得到感知特征图i’,将输入的特征图i和感知特征图i’相加得到最终的输出特征图o。
5.根据权利要求2所述的一种层次化视觉多层感知机的图像识别分类方法,其特征在于:所述的稀疏区域多层感知机是将将输入自身的特征图i依次经过通道全连接层、稀疏区域全连接层、通道全连接层和归一化操作得到感知特征图i’,将输入的特征图i和感知特征图i’相加得到最终的输出特征图o。
6.根据权利要求4所述的一种层次化视觉多层感知机的图像识别分类方法,其特征在于:所述的紧凑区域全连接层,具体按照以下方式处理:
7.根据权利要求5所述的一种层次化视觉多层感知机的图像识别分类方法,其特征在于:所述的稀疏区域全连接层,具体按照以下方式处理: