1.一种基于信息融合的人脸特征点定位方法,其特征在于,包括:
获取待识别的人脸局部图像作为人脸特征点定位模型的输入,该人脸特征点定位模型包括依次连接的特征图分辨率快速下降网络、信息融合网络和特征点定位网络;
利用特征图分辨率快速下降网络将人脸局部图像转换为低分辨率特征图;
利用信息融合网络对低分辨率特征图进行处理,得到融合有上下文环境信息、通道注意力信息和空间注意力信息的融合特征图;
利用特征点定位网络对融合特征图进行处理,得到所述人脸局部图像上的人脸特征点位置。
2.如权利要求1所述的基于信息融合的人脸特征点定位方法,其特征在于,所述特征图分辨率快速下降网络包括卷积层conv0和最大值池化层maxpool0,卷积层conv0的输入为所述人脸局部图像、输出与最大值池化层maxpool0连接,最大值池化层maxpool0输出为所述低分辨率特征图。
3.如权利要求1所述的基于信息融合的人脸特征点定位方法,其特征在于,所述信息融合网络包括依次连接的信息融合模块rcam0、rcam1、rcam2和rcam3,信息融合模块rcam0的输入为所述低分辨率特征图,信息融合模块rcam3的输出为所述融合特征图;
每个信息融合模块包括依次连接上下文环境信息模块、综合注意力模块、拼接层concat和卷积层conv2,拼接层concat的输入连接最大值池化层maxpool1的输出,上下文环境信息模块和最大值池化层maxpool1输入为上一信息融合模块的输出或所述特征图分辨率快速下降网络的输出。
4.如权利要求3所述的基于信息融合的人脸特征点定位方法,其特征在于,所述上下文环境信息模块包括合并层contextsum、卷积层contextconv0、contextconv1_0、contextconv2_0、contextconv3_0、contextconv1_1、contextconv2_1、contextconv3_1、contextconv2_2、contextconv3_2、contextconv3_3以及contextconv4;
卷积层contextconv0、contextconv1_0、contextconv2_0和contextconv3_0作为所述上下文环境信息模块的输入层,卷积层contextconv1_0的输出接卷积层contextconv1_1,卷积层contextconv2_0的输出接卷积层contextconv2_1的输入,卷积层contextconv2_1的输出接卷积层contextconv2_2的输入,卷积层contextconv3_0的输出依次经卷积层contextconv3_1、contextconv3_2与contextconv3_3的输入连接;
卷积层contextconv0、contextconv1_1、contextconv2_2和contextconv3_3的输出均与合并层contextsum连接,合并层contextsum的输出与卷积层contextconv4的输入连接,卷积层contextconv4的输出与所述综合注意力模块的输入连接。
5.如权利要求3所述的基于信息融合的人脸特征点定位方法,其特征在于,所述综合注意力模块包括通道注意力模块和空间注意力模块,通道注意力模块包括基于特征图宽度和高度维度的全局均值池化层globalavepool0、基于特征图宽度和高度维度的全局最大值池化层globalmaxpool0、全连接层amf0和amfc1、第一sigmod层以及通道加权层scale0;
空间注意力模块包括基于特征图通道维度的全局均值池化层globalavepool1、基于特征图通道维度的全局最大值池化层globalmaxpool1、卷积层amconv0、第二sigmod层和像素加权层scale1;
基于特征图宽度和高度维度的全局均值池化层globalavepool0、基于特征图通道维度的全局均值池化层globalavepool1和通道加权层scale0的输入为所述上下文环境信息模块的输出,基于特征图宽度和高度维度的全局最大值池化层globalmaxpool0输出的特征图与基于特征图宽度和高度维度的全局均值池化层globalavepool0输出的特征图按通道维度拼接后作为全连接层amf0的输入,全连接层amf0的输出经全连接层amfc1与第一sigmod层输入连接,第一sigmod层输出与通道加权层scale0的输入连接;
基于特征图通道维度的全局均值池化层globalavepool1输出的特征图和基于特征图通道维度的全局最大值池化层globalmaxpool1输出的特征图按通道维度进行拼接后作为卷积层amconv0的输入,卷积层amconv0的输出经第二sigmod层与像素加权层scale1的输入连接;
通道加权层scale0的输出与像素加权层scale1的输入连接,像素加权层scale1的输出作为所述拼接层concat的输入。
6.如权利要求5所述的基于信息融合的人脸特征点定位方法,其特征在于,所述通道加权层scale0用于对输入的特征图的各个通道特征图进行加权,加权计算公式为:
fsc(x,y)=sc*fc(x,y)
其中,fsc(x,y)表示输出加权特征图的第c个通道(x,y)位置处的数值,sc表示第c个通道的权重值,fc(x,y)表示输入的特征图的第c个通道(x,y)位置处的数值。
7.如权利要求5所述的基于信息融合的人脸特征点定位方法,其特征在于,所述像素加权层scale1用于对输入的特征图按照逐像素位置进行加权,加权计算公式为:
fsc(x,y)=s(x,y)*fc(x,y)
其中,fsc(x,y)表示输出加权特征图的第c个通道(x,y)位置处的数值,s(x,y)表示输入特征图的(x,y)位置处的重要程度权重值,fc(x,y)表示输入特征图的第c个通道第(x,y)位置处的数值。
8.如权利要求1所述的基于信息融合的人脸特征点定位方法,其特征在于,所述特征点定位网络包括全局均值池化层ave-pool和全连接层fc,全局均值池化层ave-pool的输入与所述信息融合网络的输出连接、输出与全连接层fc的输入连接。
9.如权利要求1~8任一项所述的基于信息融合的人脸特征点定位方法,其特征在于,在所述获取待识别的人脸局部图像作为人脸特征点定位模型的输入之前,还包括对所述人脸特征点定位模型进行训练,具体为:
获取训练样本图像集,该集合中的样本图像为标注有特征点位置信息的人脸局部图像;
设置所述人脸特征点定位模型的目标损失函数谓均方差损失函数;
将训练样本图像集送入人脸特征点定位模型,学习模型参数。
10.一种基于信息融合的人脸特征点定位系统,其特征在于,包括:获取模块、转换模块、融合模块和定位模块,其中:
获取模块用于获取待识别的人脸局部图像并输入至人脸特征点定位模型,该人脸特征点定位模型包括依次连接的特征图分辨率快速下降网络、信息融合网络和特征点定位网络;
转换模块用于利用特征图分辨率快速下降网络将人脸局部图像转换为低分辨率特征图;
融合模块用于利用信息融合网络对低分辨率特征图进行处理,得到融合有上下文环境信息、通道注意力信息和空间注意力信息的融合特征图;
定位模块用于利用特征点定位网络对融合特征图进行处理,得到所述人脸局部图像上的人脸特征点位置。