一种针对损坏图像的行人重识别方法及系统

文档序号:34362825发布日期:2023-06-04 18:14阅读:162来源:国知局
一种针对损坏图像的行人重识别方法及系统

本发明属于计算机视觉技术、数字图像处理、深度学习等,涉及一种针对损坏图像的行人重识别方法及系统,特别是涉及一种针对损坏行人重识别图像通过风格归一化和全局注意力进行特征提取的行人重识别方法。


背景技术:

1、行人重识别(pedestrian re-identification,reid)旨在跨摄像机、时间与地点检索特定行人。因深度学习的飞速发展,计算机视觉领域取得了质的飞跃。随之基于深度学习的行人重识别在视频监控、智能安防和无人超市等方面得以广泛应用,并成为了一个热门的研究方向。

2、研究人员在现实中采集的行人图像却易被噪声、模糊、天气和数字等因素所损坏,且当前行人重识别模型在评估时,仅考虑了在干净(常规)数据集下的性能,却忽略了各式各样损坏情况下的行人图像。因此,2019年hendrycks等人建立了imgenet-c和imagenet-p两个新基准,用于评估并提高模型在损坏图像下的性能,为行人重识别的研究带来了新思路。为进一步提高损坏图像下的鲁棒性,2020年mu等人提出了一种数据增强技术augmix,通过混合多个增强图像,在imgenet-c上的性能获得了显著提升。为全面地研究损坏行人图像下模型的识别能力,2021年chen等人首次使用干净数据集通过imagenet-c算法并额外引入了一种新的损坏类型——“雨”,生成了覆盖真实生活中常见的20种损坏类型的行人损坏数据集:market1501-c、cuhk03-c和msmt17-c,以此用于评估模型的鲁棒性。其通过对随机擦除、bnneck和id loss进行改进,建立了一个针对损坏图像的行人重识别新基线cil。虽然该模型性能相比之前的主流模型在损坏图像下的性能得到了大幅提升,但是整体指标仍很低,相比干净数据集下的指标存在相当大的差距,如在market1501数据集的损坏测试集上minp指标仅为1.76%,其与干净测试集下的差值达到了56.14%。同时激活函数在行人重识别网络的训练中起着核心作用,而relu非线性激活函数在负空间会直接将值置为0,造成导数为0,因此出现参数不更新的情况,使神经元在训练期间死亡。于是2013年,leakyrelu函数被提出,通过给定一个非常小的系数,使在负空间的导数接近于零而不等于零,以此让参数得到更新。2017年谷歌提出了swish非线性激活函数,用于改善relu的上述问题。但leakyrelu、swish在实际使用中不太稳定,导致在面对复杂的损坏类型图像时,效果不佳。

3、近年来,越来越多的注意力机制也被运用于行人重识别以提升模型性能,如wang等人通过编码-解码器残差注意力模块以增加对行人特征的提取能力;sang等人使用通道注意力与空间注意力机制依次进行操作,且将bam并行运行,可从通道与空间两个维度提取显著行人的注意力特征。但由于信息的减少与维度分离,使模块忽略了通道、空间宽度和空间高度之间的交互作用,丢失了跨维信息。


技术实现思路

1、为了有效地解决网络面对复杂且风格多样的损坏图像时难以提取显著行人特征以及缺失“全局”跨维度信息的问题,本发明在cil网络基础上,提出了一种损坏图像下基于风格归一化与全局注意力的行人重识别方法及系统。

2、本发明的方法所采用的技术方案是:一种针对损坏图像的行人重识别方法,将损坏图像输入损坏图像行人重识别网络,有效提取相对原始非损坏图像不变的行人表征;

3、所述损坏图像行人重识别网络,以resnet50作为骨干网络,其骨干网络的四个layer层之后均添加设置了平滑极大单元的风格归一化和恢复模块sm-snr,所述sm-snr,是基于风格归一化和恢复模块snr,并将该模块中平均池化后的relu层替换成平滑极大单元smu,构成所述的平滑风格归一化和恢复模块;最后一个sm-snr后设置有全局注意力模块gam,同时删除resnet50尾部的池化层和全连接层,最后一个layer层即layer4的步长设置为1;输出相对原始非损坏图像不变的行人表征。

4、本发明的系统所采用的技术方案是:一种针对损坏图像的行人重识别系统,包括:

5、一个或多个处理器;

6、存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现所述的针对损坏图像的行人重识别方法。

7、本发明与现有算法相比,其显著优点和效果如下:

8、1)本发明提出的平滑风格归一化和恢复模块sm-snr,可使网络模型过滤掉各种损坏图像中的干扰,并从过滤信息中捕获出行人相关特征恢复至网络中,在消除图像风格差异的同时确保行人id特征不丢失。并解决梯度消失问题,使模块能够稳定地提取行人特征。在模型面对风格多变的目标域时,显著提升其辨别能力;

9、2)本发明通过全局注意力gam,减少信息弥散以放大通道和空间上跨维度的交互作用,使本模型能够在三个维度上捕捉行人显著特征,在面对损坏但不丢失原始语义信息的行人图像时,能够更充分地捕捉到相对原始图像不变的行人表征;

10、3)本发明与以往仅仅关注干净(常规)数据集下性能的算法不同,针对了各式各样损坏情况下的行人图像而设计的算法。本发明在损坏测试集上的各项指标与目前主流算法对比具有显著的优越性。其中,本发明与2021年的cil模型使用cuhk03数据集比较的结果为:在corrupted eval上,rank-1、map和minp分别提高了15.18%、15.75%与11.65%。



技术特征:

1.一种针对损坏图像的行人重识别方法,其特征在于:将损坏图像输入损坏图像行人重识别网络,提取相对原始非损坏图像不变的行人表征;

2.根据权利要求1所述的针对损坏图像的行人重识别方法,其特征在于:所述sm-snr以特征图f0∈rc×h×w作为输入,作为输出,其中,c、h和w分别表示为特征图的通道数、高度和宽度;

3.根据权利要求1所述的针对损坏图像的行人重识别方法,其特征在于:所述平滑极大单元smu,平滑激活函数通过maximum函数的平滑近似来实现,使用xerf(μx)作为平滑函数,以达到对maximum函数近似的目的。

4.根据权利要求1所述的针对损坏图像的行人重识别方法,其特征在于:所述全局注意力模块gam,以第四个sm-snr模块后的输出特征f1∈rc×h×w为输入,f2为处于中间状态时的特征,f3为最终输出特征;

5.根据权利要求1所述的针对损坏图像的行人重识别方法,其特征在于:所述gam后通过设置的广义均值池化层gem获得全局特征f,用于triplet loss进行度量学习;所述f通过设置的bnneck层归一化处理得到预设大小的特征f,f通过一致性id loss优化样本在特征空间中的距离,监督网络的训练;

6.根据权利要求1-5任意一项所述的针对损坏图像的行人重识别方法,其特征在于:所述损坏图像行人重识别网络的损失函数;训练过程的损失函数为ltotal=lcid+lt;其中,lcid为一致性id loss,lt为三元组损失;

7.一种针对损坏图像的行人重识别系统,其特征在于,包括:


技术总结
本发明公开了一种针对损坏图像的行人重识别方法及系统,本发明采用独创的针对损坏图像的行人重识别网络,能够输出相对原始非损坏图像不变的行人表征;本发明通过平滑风格归一化与恢复模块中的实例规范化过滤掉域中的风格变化,同时平滑极大单元能使该模块更充分地从删除的信息中提取行人相关特征并将其恢复至网络中,缓解损坏图像带来的风格差异。此外,全局注意力机制通过关注通道与空间之间的相互作用,以捕获三个维度上的显著行人特征,减少跨维信息的丢失,最终使使本模型在面对损坏但不丢失原始语义信息的行人图像时,能够更充分地捕捉到相对原始图像不变的行人表征。

技术研发人员:熊炜,刘粤,许婷婷,孙鹏,赵迪,李利荣,万相奎
受保护的技术使用者:湖北工业大学
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1