一种雾先验频域注意表征引导的雾天图像人群计数方法

文档序号:36459330发布日期:2023-12-21 18:16阅读:23来源:国知局
一种雾先验频域注意表征引导的雾天图像人群计数方法

本发明涉及一种雾先验频域注意表征引导的雾天图像人群计数方法,属于图像处理领域。


背景技术:

1、智能视频监控技术为社会公共安全管理提供了强有力的保障。图像人群计数作为智能视频监控系统中的人群分析和人群异常检测等现实场景应用的核心理论方法之一,近年来受到了学术界和工业界的广泛关注。现有图像人群计数方法大多面向户外晴朗场景进行人群数量预测并取得显著优良效果。然而由于雾天场景中行人能见度降低、轮廓模糊、外观辨识度显著降级等问题,直接将面向晴朗场景的图像人群计数方法应用于雾天场景中会使得预测人群数量远低于人群数量真实值。已有的少量雾天场景图像人群计数方法通过建立基于密度图估计的注意力增强深度模型并用传统欧氏距离进行模型优化实现端到端的人群数量预测,忽视了雾天场景中雾因素对人群计数特征表征过程的负面影响。同时,其他可借鉴的雾天场景计算机视觉任务如雾天目标检测,常将目标任务解耦为去雾和目标检测两个阶段或转换为域适应问题,需要依赖去雾阶段的繁重手工标注或复杂域适应策略。

2、总的来说,已有的少量雾天场景图像人群计数方法或技术因未考虑对雾天因素进行量化分析而不能适应雾浓度剧烈变化的雾天场景进而不能保证计数性能;已有的雾天场景其他计算机视觉任务需依赖繁重标注成本或复杂域适应实现过程,难以应用于需要更高层次推理功能的雾天人群计数任务。


技术实现思路

1、本发明为解决上述技术问题,提供一种雾先验频域注意表征引导的雾天图像人群计数方法,以量化建模并精准降低户外雾天场景中雾天气因素对雾天人群计数性能的负面影响,从而实现面向户外雾天场景图像的准确人群数量预测。

2、为解决上述技术问题,本发明所采用的技术方案是:

3、一种雾先验频域注意表征引导的雾天图像人群计数方法,建立雾先验频域注意表征引导的雾天图像人群计数模型,将待估计人数的雾天场景图像输入雾天图像人群计数模型进行人群计数;具体操作包括如下步骤:

4、s1、将雾天场景图像输入到c1块中,得到第一初始特征图;

5、s2、将所述的第一初始特征图输入第一雾先验引导表征学习过程,得到第一中间特征图和第一雾天信息图;

6、s3、将所述的第一中间特征图输入到第二雾先验引导表征学习过程,得到高级语义特征图和第二雾天信息图;

7、s4、将所述的高级语义特征图输入密度图回归模块,进行密度图回归,得到估计人群密度图;

8、s5、将所述的估计人群密度图的像素值求和,得到估计人群计数结果。

9、本发明技术方案的进一步改进在于:所述c1块包括八层卷积层和三层池化层,所述c1块从输入依次为:两层卷积层、一层池化层、两层卷积层、一层池化层、四层卷积层和一层池化层,每层卷积层的卷积核尺寸均为3×3,从输入到输出方向各卷积层依次生成通道数为64、64、128、128、256、256、256和256的特征图,各所述池化层是步长为2的最大池化层。

10、本发明技术方案的进一步改进在于:所述s2的具体操作如下:

11、所述第一雾先验引导表征学习过程包括c2块、第一残差细节特征恢复模块和第一雾先验预测模块;

12、将所述第一初始特征图输入到第一雾先验引导表征学习过程的c2块中,得到第二初始特征图,所述c2块依次包括四层卷积层和一层池化层,所述c2块从输入到输出方向各卷积层依次生成通道数为512、512、512和512的特征图,每层卷积层的卷积核尺寸为3×3,池化层为步长为2的最大池化层;

13、将所述第二初始特征图输入到第一雾先验引导表征学习过程的第一残差细节特征恢复模块中,得到第一特征图,所述第一残差细节特征恢复模块依次包括一层池化层和三层卷积层,池化层是步长为2的最大池化层,每层卷积层的卷积核尺寸均为3×3,从输入到输出方向各卷积层依次生成通道数为512、512和512的特征图,将第二初始特征图输入池化层得到第一池化特征图,将第一池化特征图输入到三层卷积层中,得到第一卷积特征图,将第一池化特征图和第一卷积特征图进行对应像素位置相加操作,得到第一特征图;

14、将所述第二初始特征图与第一特征图进行通道连接,并使用卷积核尺寸为1×1的二维卷积进行通道降维操作,将通道数从1024降维到512,得到第一中间特征图;

15、将所述第一特征图与第一中间特征图进行差分操作,得到第一初始雾天信息特征图,所述的差分操作为第一特征图与第一中间特征图进行对应像素位置相减操作,具体为第一特征图减去第一中间特征图,得到第一初始雾天信息特征图;

16、将所述第一初始雾天信息特征图输入到第一雾先验引导表征学习过程的第一雾先验预测模块中,得到第一雾天信息图,所述第一雾先验预测模块包括一层梯度反转层和四层卷积层,梯度反转层的权重是-0.1,从输入到输出方向各卷积层依次生成通道数为512、256和64的特征图,其中卷积层的卷积核尺寸均为3×3,最后经过卷积核为1×1的卷积操作,将通道数从512降维到1,得到第一雾天信息图。

17、本发明技术方案的进一步改进在于:将得到的第一雾天信息图与真实雾先验特征图进行第一雾先验损失计算,第一雾先验损失lhaze-1计算公式为:

18、

19、式中,xi为第i个样本,n为雾天人群图像训练样本数量,h1(·)是第一雾先验预测模块,r1(·)是第一残差细节特征恢复模块,f1(·)是c1块,f1是第一中间特征图,σ(xi)为第i个样本的真实雾先验特征图。

20、本发明技术方案的进一步改进在于:所述s3的具体操作为:

21、所述第二雾先验引导表征学习过程包括c3块、频域嵌入注意模块、第二残差细节特征恢复模块和第二雾先验预测模块;

22、将所述第一中间特征图输入到第二雾先验引导表征学习过程的c3块中,得到第三初始特征图,所述c3块依次包括四层卷积层和一层池化层,所述c3块从输入到输出方向各卷积层依次生成通道数为512、512、512和512的特征图,每层卷积层的卷积核尺寸为3×3,池化层为步长为2的最大池化层;

23、将所述第一中间特征图输入到第二雾先验引导表征学习过程的第二残差细节特征恢复模块中,得到第二特征图,所述第二残差细节特征恢复模块包括一层池化层和三层卷积层,池化层是步长为2的最大池化层,每层卷积层的卷积核尺寸均为3×3,从输入到输出方向各卷积层依次生成通道数为512、512和512的特征图,将第一中间特征图输入池化层得到第二池化特征图,将第二池化特征图输入到三层卷积层中,得到第二卷积特征图,将第二池化特征图和第二卷积特征图进行对应像素位置相加操作,得到第二特征图;

24、将所述第三初始特征图与第二特征图在通道维度上相加,并使用卷积核为1×1的二维卷积进行通道降维操作,将通道数从1024降维到512,得到第二中间特征图;

25、将所述第二中间特征图输入到频域嵌入注意模块,所述的频域嵌入注意模块包括:频域注意力聚合块、空间-像素注意力聚合块和通道注意力聚合块;

26、将所述第二中间特征图输入到频域嵌入注意模块的频域注意力聚合块中,得到频域注意特征图,所述频域注意力聚合块包括离散小波变换、上采样、一层卷积核为1×1的卷积层和sigmoid函数,经过离散小波变换,将第二中间特征图在频域上分解为低频分量、水平高频分量、垂直高频分量和对角高频分量,分量的通道数均为512,水平高频分量、垂直高频分量和对角高频分量进行通道连接,并使用卷积核尺寸为1×1的二维卷积进行通道降维操作,将通道数从1536降维到512,接着进行上采样,将降维后的特征图的长和宽都扩大为原来的两倍,然后进行一层卷积核为1×1的卷积操作和sigmoid操作,得到通道数为512的频域注意特征图;

27、将所述第二中间特征图输入到频域嵌入注意模块的空间-像素注意力聚合块中,得到空间-像素注意特征图,所述空间-像素注意力聚合块包括空间注意力部分和像素注意力部分,所述的空间注意力部分包括并列池化层结构、一层卷积层和sigmoid函数,并列池化层结构包括一层最大池化层和一层平均池化层,将尺寸为c×h×w的第二中间特征图分别输入到并列池化层结构的最大池化层和平均池化层,得到尺寸为1×h×w的空间最大池化特征图和尺寸为1×h×w的空间平均池化特征图,将这两个特征图进行拼接得到尺寸为2×h×w的特征图,然后经过卷积核为1×1的卷积层和sigmoid函数得到通道数为512的空间注意加权特征图,将第二中间特征图和空间注意加权特征图进行逐元素相乘,得到空间注意特征图,将空间注意特征图输入到像素注意力部分,像素注意力部分依次为一层卷积核为3×3的卷积层、sigmoid函数和一层卷积核为3×3的卷积层,得到通道数为512的像素注意加权特征图,然后将像素注意加权特征图与空间注意特征图进行逐元素相乘,得到通道数为512的空间-像素注意特征图;

28、将所述频域注意特征图和空间-像素注意特征图在通道维度上相加,并使用卷积核尺寸为1×1的二维卷积进行通道降维操作,将通道数从1024降维到512,得到频域-空间-像素注意特征图;

29、将所述频域-空间-像素注意特征图输入到频域嵌入注意模块的通道注意力聚合块中,得到高级语义特征图,所述通道注意力聚合块包括并列池化部分、两个全连接层和sigmoid函数,并列池化部分为一层最大池化层和一层平均池化层,将频域-空间-像素注意特征图分别输入到并列池化部分的最大池化层和平均池化层进行池化操作,得到c×1×1的通道最大池化结果和c×1×1的通道平均池化结果,将通道最大池化结果和通道平均池化结果进行对应位置元素相加,然后输入到全连接层和sigmoid函数中,第一个全连接层的神经元个数为32,第二个全连接层的神经元个数为512,得到通道数为512的通道注意加权特征图,将通道注意加权特征图和频域-空间-像素注意特征图进行逐元素相乘,得到通道数为512的高级语义特征图;

30、将所述第二特征图和高级语义特征图进行差分操作,得到第二初始雾天信息特征图,所述的差分操作为第二特征图和高级语义特征图进行对应像素位置相减操作,具体为第二特征图减去高级语义特征图,得到第二初始雾天信息特征图;

31、将所述第二初始雾天信息特征图输入到第二雾先验引导表征学习过程的第二雾先验预测模块中,得到第二雾天信息图,所述第二雾先验预测模块包括一层梯度反转层和四层卷积层,梯度反转层的权重是-0.1,从输入到输出方向各卷积层依次生成通道数为512、256和64的特征图,卷积层的卷积核尺寸均为3×3,最后经过卷积核为1×1的卷积操作,得到通道数为1的第二雾天信息图。

32、本发明技术方案的进一步改进在于:将所述得到的第二雾天信息图与真实雾先验特征图进行第二雾先验损失计算,第二雾先验损失lhaze-2计算公式为:

33、

34、式中,xi为第i个样本,h2(·)是第二雾先验预测模块,r2(·)是第二残差细节特征恢复模块,f2(·)是c2块,f3(·)是c3块,ffh(·)是频域嵌入注意模块,σ(xi)为第i个样本的真实雾先验特征图。

35、本发明技术方案的进一步改进在于:所述密度图回归模块依次为三层卷积层,前两个卷积层的卷积核尺寸为3×3,最后一层卷积核尺寸为1×1,各所述卷积层的通道数由输入至输出方向依次为256、128和1,输出特征图即为估计人群密度图。

36、本发明技术方案的进一步改进在于:在人群计数前,利用若干张雾天场景图像和真实人群密度图对雾先验频域注意表征引导的雾天图像人群计数模型进行训练,使得雾先验频域注意表征引导的雾天图像人群计数模型的总损失函数l损失最小,即训练完成;

37、所述总损失函数l表示为:

38、l=lc+0.0001×lhaze-1+0.005×lhaze-2;

39、其中,lhaze-1为第一雾先验损失;

40、lhaze-2为第二雾先验损失;

41、lc为人群计数损失,即将估计人群密度图和真实人群数量标签做人群计数损失计算,表示为:

42、

43、

44、

45、式中,γ(·)是l1距离函数,e[cn]表示第n个人的计数期望,dest表示估计的密度图,p(yn|xm)表示每个像素出现人的后验概率,n(xm:;zn,σ212×2)表示在xm处评估的二维高斯分布,xm表示每个目标在图像中的位置分布,yn表示目标标签,m表示每个密度图里的像素数量,n表示每张图像训练样本的总人数。

46、由于采用了上述技术方案,本发明取得的技术进步是:

47、本发明通过设计“初始特征提取-残差细节恢复-差分-雾先验预测”过程实现在不同层次特征上的雾先验引导高效表征学习进而达到引导计数模型过滤雾信息干扰及增强雾天人群特征建模精准度的技术效果。通过设计“频域嵌入+多维注意增强”的频域嵌入注意模块实现雾天场景图像中人群边缘特征、纹理特征和结构特征等在以频域空间为代表的多维方向特征恢复及注意力增强的技术效果。通过在人群计数特征提取阶段设计雾先验引导表征学习过程和频域嵌入注意模块部分实现对雾天信息精准量化提取过滤及频域多维人群特征建模,进而降低户外场景中雾因素对人群计数特征提取过程的负面影响,从而提升人群计数方法在恶劣天气户外场景中的鲁棒性和普适性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1