本申请涉及图像数据处理,尤其涉及一种基于多尺度卷积神经网络和自注意力网络的凝视估计方法、装置、设备及存储介质。
背景技术:
1、凝视是一种注视的行为,作为一种非语言交互线索之一,凝视方向反映了有意义的注意力信息。凝视估计技术广泛地应用与人机交互、增强现实或虚拟现实、医学诊断、辅助驾驶等领域。
2、现常用的凝视估计技术主要可分为基于模型的方法和基于外观的方法。基于模型的方法大多受到严格的用户-摄像机距离或专业设备的限制,无约束的环境下可靠性较差。而基于外观的方法虽限制较少,但其易受环境因素的影响,且无法解决遮挡问题下的精度问题。
3、因此,如何有效提升三维凝视估计的精度,成为一个亟待解决的问题。
技术实现思路
1、本申请的主要目的在于提供一种基于多尺度卷积神经网络和自注意力网络的凝视估计方法、装置、设备及存储介质,旨在解决如何有效提升三维凝视估计的精度的技术问题。
2、为实现上述目的,本申请提出一种基于多尺度卷积神经网络和自注意力网络的凝视估计方法,该方法包括:
3、通过预设多尺度卷积网络对目标面部图像进行并行特征提取,获得初始面部特征;
4、对所述初始面部特征进行特征交叉融合,获得多尺度融合特征;
5、通过自注意力网络对所述多尺度融合特征进行特征增强,获得目标特征图;
6、基于所述目标特征图进行凝视方向预测,获得目标凝视结果。
7、在一实施例中,所述初始面部特征包括初始脸部特征和初始眼部特征;
8、所述对所述初始面部特征进行特征交叉融合,获得多尺度融合特征的步骤,包括:
9、通过预设多尺度特征融合模块对所述初始眼部特征进行特征交叉融合,获得第一融合特征;
10、对所述初始眼部特征进行上采样,获得变形眼部特征;
11、通过所述预设多尺度特征融合模块对所述变形眼部特征和所述初始脸部特征进行特征交叉融合,获得第二融合特征;
12、对所述第一融合特征和所述第二融合特征进行预设特征拼接,获得多尺度融合特征。
13、在一实施例中,所述预设多尺度特征融合模块包括通道特征模块、第一位置特征模块和第二位置特征模块;
14、所述通过预设多尺度特征融合模块对所述初始眼部特征进行特征交叉融合,获得第一融合特征的步骤,包括:
15、通过所述通道权重模块对所述初始眼部特征进行通道特征分析,获得通道权重信息;
16、通过所述第一位置特征模块对所述初始眼部特征进行空间特征分析,获得第一位置权重信息;
17、通过所述第二位置特征模块对所述初始眼部特征进行空间特征分析,获得第二位置权重信息;
18、对所述初始眼部特征、所述通道权重信息、所述第一位置权重信息、所述第二位置权重信息进行逐项相乘,获得第一融合特征。
19、在一实施例中,所述通过自注意力网络对所述多尺度融合特征进行特征增强,获得目标特征图的步骤,包括:
20、对所述多尺度融合特征进行通道卷积堆叠,获得多通道特征体;
21、通过融合注意力模块对所述多通道特征体进行全局注意力分析,获得优化融合特征;
22、通过自注意力网络对所述优化融合特征进行特征增强,获得目标特征图。
23、在一实施例中,所述融合注意力模块包括:通道注意力模块、空间注意力模块和激活模块;
24、所述通过融合注意力模块对所述多通道特征体进行全局注意力分析,获得优化融合特征的步骤,包括:
25、通过所述通道注意力模块对所述多通道特征体进行预设通道处理,获得全局通道信息;
26、通过所述空间注意力模块对所述多通道特征体进行预设空间处理,获得全局空间信息;
27、将所述全局通道信息和所述全局空间信息逐元素相乘后输入所述激活模块,获得统一注意力权重;
28、根据所述统一注意力权重对所述多通道特征体进行特征重组,获得优化融合特征。
29、在一实施例中,所述基于所述目标特征图进行凝视方向预测,获得目标凝视结果的步骤,包括:
30、对所述目标特征图进行预设特征降维,获得二维凝视特征;
31、对所述二维凝视特征进行角度维度变换,获得目标凝视结果。
32、在一实施例中,所述预设多尺度卷积网络的主干网络为包含至少两个并行卷积核的改进convnext-t网络。
33、此外,为实现上述目的,本申请还提出一种基于多尺度卷积神经网络和自注意力网络的凝视估计装置,基于多尺度卷积神经网络和自注意力网络的凝视估计装置包括:
34、多尺度特征提取模块,用于通过预设多尺度卷积网络对目标面部图像进行并行特征提取,获得初始面部特征;
35、交叉特征融合模块,用于对所述初始面部特征进行特征交叉融合,获得多尺度融合特征;
36、特征优化模块,用于通过自注意力网络对所述多尺度融合特征进行特征增强,获得目标特征图;
37、凝视分析模块,用于对所述目标特征图进行预设角度变换,获得目标凝视结果。
38、此外,为实现上述目的,本申请还提出一种基于多尺度卷积神经网络和自注意力网络的凝视估计设备,设备包括:存储器、处理器及存储在存储器上并可在处理器上运行的基于多尺度卷积神经网络和自注意力网络的凝视估计程序,基于多尺度卷积神经网络和自注意力网络的凝视估计程序配置为实现如上文的基于多尺度卷积神经网络和自注意力网络的凝视估计方法的步骤。
39、此外,为实现上述目的,本申请还提供一种存储介质,所述存储介质为计算机可读存储介质,所述计算机可读存储介质上存储有实现基于多尺度卷积神经网络和自注意力网络的凝视估计方法的程序,所述实现基于多尺度卷积神经网络和自注意力网络的凝视估计方法的程序被处理器执行以实现如上所述基于多尺度卷积神经网络和自注意力网络的凝视估计方法的步骤。
40、本申请提供了一种基于多尺度卷积神经网络和自注意力网络的凝视估计方法、装置、设备及存储介质,该方法包括:通过预设多尺度卷积网络对目标面部图像进行并行特征提取,获得初始面部特征;对初始面部特征进行特征交叉融合,获得多尺度融合特征;通过自注意力网络对多尺度融合特征进行特征增强,获得目标特征图;基于目标特征图进行凝视方向预测,获得目标凝视结果。本申请通过并行提取目标面部图像对应的包含不同尺寸特征的初始面部特征,以更好地捕获图像的局部特征和全局特征,提高对目标图像的理解;然后,本申请对初始面部特征进行特征交叉融合,通过不同感受野有效融合不同尺度特征,获得多尺度融合特征;最后,通过自注意力网络加强全局特征信息,进一步提高特征分析的准确度,并基于精确获取的目标特征图通过最终获得的目标凝视结果精度。
1.一种基于多尺度卷积神经网络和自注意力网络的凝视估计方法,其特征在于,所述方法包括:
2.如权利要求1所述的凝视估计方法,其特征在于,所述初始面部特征包括初始脸部特征和初始眼部特征;
3.如权利要求2所述的凝视估计方法,其特征在于,所述预设多尺度特征融合模块包括通道特征模块、第一位置特征模块和第二位置特征模块;
4.如权利要求1所述的凝视估计方法,其特征在于,所述通过自注意力网络对所述多尺度融合特征进行特征增强,获得目标特征图的步骤,包括:
5.如权利要求4所述的凝视估计方法,其特征在于,所述融合注意力模块包括:通道注意力模块、空间注意力模块和激活模块;
6.如权利要求1所述的凝视估计方法,其特征在于,所述基于所述目标特征图进行凝视方向预测,获得目标凝视结果的步骤,包括:
7.如权利要求1所述的凝视估计方法,其特征在于,所述预设多尺度卷积网络的主干网络为包含至少两个并行卷积核的改进convnext-t网络。
8.一种基于多尺度卷积神经网络和自注意力网络的凝视估计装置,其特征在于,所述装置包括:
9.一种基于多尺度卷积神经网络和自注意力网络的凝视估计设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于多尺度卷积神经网络和自注意力网络的凝视估计程序,所述基于多尺度卷积神经网络和自注意力网络的凝视估计程序配置为实现如权利要求1至7中任一项所述的基于多尺度卷积神经网络和自注意力网络的凝视估计方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有基于多尺度卷积神经网络和自注意力网络的凝视估计程序,所述基于多尺度卷积神经网络和自注意力网络的凝视估计程序被处理器执行时实现如权利要求1至7任一项所述的基于多尺度卷积神经网络和自注意力网络的凝视估计方法的步骤。