一种基于图推理的人脸遮挡检测的网络模型及方法

文档序号：26547135发布日期：2021-09-07 23:43阅读：152来源：国知局

1.本发明涉及人工智能技术领域，特别涉及一种基于图推理的人脸遮挡检测的网络模型及方法。

背景技术：

2.人脸识别具有图像获取途径简单、成本较低、身份鉴定的过程中完全不需要接触目标等优点，所以人脸识别的应用范围越来越广。但实际人脸识别系统的图像采集过程中往往存在光照、姿态、遮挡等不确定性因素，其中遮挡因素占比重很大，而传统的人脸识别方法对其识别效果不佳，如何有效地处理遮挡问题并提高识别效率仍是人脸识别系统中的难点之一。
3.为了解决人脸遮挡的问题，wu等人提出一种基于自适应无监督学习模型和注意力学习模型的遮挡人脸识别算法，对深度人脸特征进行自适应学习，在遮挡面部的无监督学习领域取得了优良的识别率和准确率；为充分考虑遮挡的空间局部连续性，wei等人提出一种基于有监督遮挡字典的遮挡结构稀疏性人脸识别方法；zhu等人提出一种自适应的稳定人脸特征检测用于遮挡人脸识别，利用几何注意知识蒸馏的方法进行低秩学习，在野外具备良好的鲁棒性。但是这些方法均需要建立字典，并且需要庞大的数据支撑，而且在识别时并不能完全排除遮挡物的影响，由此会使识别率降低。
4.目前国内外在解决人脸遮挡问题方面，大都基于卷积神经网络(convolutional neural networks,cnn)方法，通过不断卷积提取高层次信息，在识别过程中尽可能忽略掉遮挡的影响。但是随着遮挡场景越来越复杂，卷积层数越来越多，对研究人员以及设备的要求越来越高，单靠卷积神经网络已经不能满足遮挡人脸的高识别率要求。此外，在一般的cnn结构中，卷积层后面通常连接着全连接层。而全连接层的特征数是固定的，所以在网络输入的时候，要求输入图像为固定尺寸。但在实际中，图像尺寸不能总是满足网络的输入要求。一般采用裁剪和拉伸的方法进行预处理，但是会丢失部分原始图像信息，使最后结果受到影响。

技术实现要素：

5.针对上述问题本发明提供了一种基于图卷积推理的人脸遮挡检测的网络模型及方法。
6.为了达到上述目的，本发明采用了下列技术方案：
7.本发明提供一种基于图推理的人脸遮挡检测的网络模型，包括特征提取网络、图注意推理模块(graph attention reasoning module,garm)和解码(即解卷积)3个部分。其中，特征提取网络部分包括残差网络resnet101模型、空间金字塔池化，用于提取包含低层特征、含有遮挡信息的高层特征以及边缘特征的人脸特征；图注意推理模块部分包括图投影、图卷积、图推理和图重投影4个子模块，用于获得含有遮挡部位的人脸特征向量；解码部分用于输出最终得到的含有遮挡部分掩膜的人脸图片并检测出遮挡部分。
8.本发明还提供一种基于图推理的人脸遮挡检测的方法，包括以下步骤：
9.步骤1，人脸特征的提取；
10.步骤2，含有遮挡部分的人脸特征向量的获得；
11.步骤3，利用解卷积输出最终得到的含有遮挡部分掩膜的人脸图片并检测出遮挡部分。
12.进一步，所述步骤1中的人脸特征包括低层特征、含有遮挡信息的高层特征、边缘特征。
13.进一步，所述步骤1中人脸特征的提取具体包括以下步骤：
14.(1)利用残差网络resnet101模型进行初步特征的提取得到低层特征；
15.(2)利用空间金字塔池化对残差网络resnet101模型的输出进行映射，得到含有遮挡信息的高层特征；
16.(3)取残差网络resnet101模型第一、二、四卷积层输出的特征，经过边缘算子的运算，得到边缘特征。
17.检测人脸遮挡首先需要获得人脸的低层特征和高层特征，利用残差网络和空间金字塔池化来进行高低层以及边缘特征的提取。残差网络能够较好地防止过拟合等问题并且可以在训练过程中提取边缘特征；空间金字塔池化可以提取出高层特征信息。所以本发明将两种方法结合应用于特征提取网络。此外，在残差网络中，残差块(图2)应用于卷积神经网络的每一层，在增加网络深度的同时使网络收敛速度加快。
18.进一步，所述步骤2中含有遮挡部分的人脸特征向量获得的步骤为：在图投影子模块运用非局部操作对特征提取网络获得的高层特征和边缘特征进行投影计算，将图片的高层特征映射到图节点上；通过图卷积和图推理各节点之间的关系，确定遮挡特征；在图重投影子模块将遮挡特征映射回原来的特征，得到含有遮挡部分的人脸特征向量。
19.更进一步，所述含有遮挡部分的人脸特征向量获得的具体步骤为：
20.(1)先对高层特征进行平均池化，计算其与边缘特征的关系，将高层特征x通过非局部操作映射到以边缘特征y为先验的节点特征，将其作为最终投影矩阵h
[0021][0022]
其中，p为平均池化操作，为图投影部分的1*1卷积操作；
[0023]
(2)投影到矩阵h之后，对节点特征h
ij
∈h进行编码，计算编码向量z
k’，建立包含节点特征z
k
的矩阵向量空间z∈r
d
×
|v|
和权重向量空间w∈r
d
×
|v|
以及高斯参量空间σ∈r
d
×
|v|
[0024][0025]
其中，x
ij
为输入特征，i是像素，j是类别，k代表维度，d为输入特征数，v为节点数量，z
k
∈z为利用编码向量计算的节点特征，ω
k
∈w为权重参量，σ
k
∈σ为高斯参量；
[0026]
计算邻接矩阵和总的节点特征分别作为节点特征的位置关系权重和总的特征关系
[0027]
δ＝z
t
z，h
g
＝hθ(x)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0028]
其中δ为邻接矩阵，h
g
为总的节点特征，θ为图推理部分的1*1卷积操作；
[0029]
将图卷积网络与图推理相结合，通过图卷积建立节点之间联通性关系，对遮挡位
置与其他位置的关系进行推理，采用relu激活函数进行推理表示
[0030][0031]
其中，w
g
是图卷积网络的权重，是节点关系的推理表示；
[0032]
(3)将投影矩阵转置与推理子模块的输出相乘，将推理到的遮挡部分特征映射回原特征
[0033][0034]
其中，τ是图重投影部分的1*1卷积运算，a是带有遮挡部分的人脸特征向量。
[0035]
与现有技术相比本发明具有以下优点：
[0036]
1、本发明的网络模型通过训练以后准确率基本稳定在97％左右，具有良好的学习性能，利用图推理能够较精准地定位被遮挡的位置，增加了检测精度。运用本发明网络模型对遮挡图像的检测效果(分割精度和检测精度)优于其它现有的遮挡检测网络模型。
[0037]
2、本发明选用空间金字塔池化支持不同尺寸的图片以及窗口，无论输入图像尺寸多大，都可以产生固定大小的输出，在提高图像尺度不变性的同时有效地降低了过拟合；而且在提取高层信息特征的同时大大提高了网络的训练速度以及图像检测的准确性。
[0038]
3、本发明选用残差网络能够较好地防止过拟合等问题并且可以在训练过程中提取边缘特征；在残差网络中，残差块应用于卷积神经网络的每一层，增加网络深度的同时使网络收敛速度加快。通过训练得到的残差不仅能够增加网络深度还可以使网络不产生梯度爆炸，增加了整个网络的稳定性。
附图说明
[0039]
图1为本发明的基于图推理的人脸遮挡检测的网络模型的结构图。
[0040]
图2为残差网络中残差块的结构示意图。
[0041]
图3为空间金字塔池化网络结构图。
[0042]
图4为图注意推理模块的网络结构示意图。
[0043]
图5为本发明各种人脸遮挡类型上mpa值图。
[0044]
图6为各评价指标在训练过程中的变化。
[0045]
图7为网络训练时的损失函数曲线。
[0046]
图8为本发明网络运行结果展示图。
具体实施方式
[0047]
下面结合本发明实施例和附图，对本发明实施例中的技术方案进行具体、详细的说明。应当指出，对于本领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干变型和改进，这些也应视为属于本发明的保护范围。
[0048]
数据集
[0049]
实验采用helen数据集和lapa数据集。helen数据集是用于人脸分割的数据集，用于训练图推理网络，其中包括2330幅人脸图像，11类人脸特征标签：背景、皮肤、左/右眉、左/右眼、上/下唇、内口和头发，其中训练和测试样本的数量分别为2000和330。lapa数据集是一个新发布的具有挑战性的人脸分割数据集，主要用其进行测试，lapa数据集和helen数
据集一样包含11个人脸标签，涵盖了面部姿态和遮挡的变化，由18176张训练图像，2000张验证图像和2000张测试图像组成。
[0050]
实施例1
[0051]
基于图推理的人脸遮挡检测的网络模型
[0052]
如图1所示，基于图推理的人脸遮挡检测的网络模型包括特征提取网络、图注意推理模块和解码3部分；其中，特征提取网络部分包括残差网络resnet101模型和空间金字塔池化网络，用于提取人脸特征；图注意推理模块包括图投影、图卷积、图推理和图重投影4个子模块，用于获得含有遮挡部位的人脸特征向量；解码部分用于输出最终得到的含有遮挡部分掩膜的人脸图片并检测遮挡部分。
[0053]
实施例2
[0054]
基于图推理的人脸遮挡检测的方法，包括以下步骤
[0055]
步骤1，人脸特征(低层特征、含有遮挡信息的高层特征、边缘特征)的提取；具体为：利用残差网络resnet101模型进行初步特征的提取得到低层特征；利用空间金字塔池化对残差网络resnet101模型的输出进行映射，得到含有遮挡信息的高层特征；取残差网络resnet101模型第一、二、四卷积层输出的特征，经过边缘算子的运算，得到边缘特征。
[0056]
步骤2，含有遮挡部分的人脸特征向量的获得；即在图投影子模块运用非局部操作对特征提取网络获得的高层特征和边缘特征进行投影计算，将图片的高层特征映射到图节点上；通过图卷积和图推理各节点之间的关系，确定遮挡特征；在图重投影子模块将遮挡特征映射回原来的特征，得到含有遮挡部分的人脸特征向量。具体为：
[0057]
(1)先对高层特征进行平均池化，计算其与边缘特征的关系，将高层特征x通过非局部操作映射到以边缘特征y为先验的节点特征，将其作为最终投影矩阵h
[0058][0059]
其中，p为平均池化操作，为图投影部分的1*1卷积操作；
[0060]
(2)投影到矩阵h之后，对节点特征h
ij
∈h进行编码，计算编码向量z
k’，建立包含节点特征z
k
的矩阵向量空间z∈r
d
×
|v|
和权重向量空间w∈r
d
×
|v|
以及高斯参量空间σ∈r
d
×
|v|
[0061][0062]
其中，x
ij
为输入特征，i是像素，j是类别，k代表维度，d为输入特征数，v为节点数量，z
k
∈z为利用编码向量计算的节点特征，ω
k
∈w为权重参量，σ
k
∈σ为高斯参量；
[0063]
计算邻接矩阵和总的节点特征分别作为节点特征的位置关系权重和总的特征关系
[0064]
δ＝z
t
z，h
g
＝hθ(x)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0065]
其中，δ为邻接矩阵，h
g
为总的节点特征，θ为图推理部分的1*1卷积操作；
[0066]
将图卷积网络与图推理相结合，通过图卷积建立节点之间联通性关系，对遮挡位置与其他位置的关系进行推理，采用relu激活函数进行推理表示
[0067][0068]
其中，w
g
是图卷积网络的权重，是节点关系的推理表示；
[0069]
(3)将投影矩阵转置与推理子模块的输出相乘，将推理到的遮挡部分特征映射回原特征
[0070][0071]
其中，τ是图重投影部分的1*1卷积运算，a是带有遮挡部分的人脸特征向量。
[0072]
步骤3，利用解卷积输出最终得到的含有遮挡部分掩膜的人脸图片并检测出遮挡部分。
[0073]
网络模型训练和测试
[0074]
对本发明网络模型即特征提取
‑
图卷积推理网络(resnet101+garm)进行了训练和测试，实验测试时输入图片均为尺寸为473*473的有遮挡人脸图片，批量处理的尺寸为4，迭代次数为80次，初始学习率为0.01，权重衰减为0.0005。
[0075]
训练网络采用端到端的训练方法，由于网络模型包含三类网络，在进行回归分类时，预测值和真值总有偏差。所以我们的损失函数包含三个部分：
①
残差网络的回归交叉熵损失l0；
②
边缘注意损失l
e
；
③
图卷积产生的节点回归损失l
g
，表达式为
[0076]
l＝l0+l
e
+l
g
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0077][0078][0079][0080]
式(7)中hw是输入图片的尺寸，i是像素，j是类别，n是类别的数目，x
ij
是i像素j类别对应的输入特征(即神经元真值)，a
ij
是预测的值；式(8)中v
ij
是i像素j类别对应的边缘真值，y
ij
是预测的边缘值；式(9)中[]是艾弗森括号，如果方括号内的条件满足则为1，不满足则为0，e
i
是边缘标签，z
ij
是真实的标签，p
ij
是预测的标签。
[0081]
本发明的网络模型对人脸各部位遮挡检测的训练准确率如图5所示。结果表明，对于复杂的遮挡情况，模型的准确率会下降10％左右，对于极端的遮挡，分割检测精度最低为71.82％，图推理网络结构和残差网络部分还有很大的优化空间。
[0082]
pa、mpa、miou在训练迭代过程中的变化如图6所示。由图6可以看到，在训练迭代大约60次之后，分割检测精度逐渐趋于稳定。训练好的网络准确率基本稳定在97％左右，表明本发明网络模型具有良好的学习性能。
[0083]
网络训练时的损失函数曲线如图7所示。损失函数随迭代次数的增加而下降为3.5，此时学习率为4.78e
‑
5，网络收敛。
[0084]
评价指标
[0085]
最终实验结果用像素精度(pixel accuracy，pa)、平均像素准确率(mean pixel accuracy，mpa)以及平均交并比(mean intersection over union，miou)三个指标衡量。
[0086]
像素精度是被分类正确的像素占总像素的比例，表达式如下
[0087][0088]
平均像素准确率是计算每个类内被正确分类像素数比例后求所有类的平均，表达式如下
[0089][0090]
平均交并比是计算真实值和预测值两个集合的交集和并集之比，表达式如下
[0091][0092]
式(10)(11)(12)中，p
ij
表示真实值为i，被预测为j的像素数量，k+1是类别个数(包含空类)，p
ii
是真实的像素数量。
[0093]
本文设计的基于图卷积推理网络的人脸遮挡位置检测的网络模型运行的部分结果如图8所示；与其它先进模型的综合结果对比如表1所示。
[0094]
表1本文方法与其他模型的评价指标比较
[0095][0096]
由图8的实验结果可以看出，对于输入只含有遮挡类型噪声的图片，本发明的网络模型可以精确对遮挡区域分配像素并绘制掩膜，遮挡像素已知图片的人脸检测效率会大幅度提高。和国内外其他先进模型相比，本文所设计的resnet101+garm准确率与iou评分显著提升，像素精度达到97.11％，与cnn+rnn模型相比提高6.11％，与cnn+roi tanh
‑
warping模型相比提高0.31％，其他人脸位置遮挡检测效果也优于其他模型。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张丽红;司春晖
技术所有人：山西大学
我是此专利的发明人

上一篇：一种快速化安装的钢-混凝土组合梁桥的制作方法
上一篇：一种流量可调节的手持式播种器的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。