文本描述辅助的姿势感知的人脸表情识别方法与流程

文档序号：31300098发布日期：2022-08-27 04:45阅读：来源：国知局

技术特征：
1.一种文本描述辅助的姿势感知的人脸表情识别方法，其特征在于，是按如下步骤进行：步骤1、构建多模态数据集合a；步骤1.1、构建多模态数据的表情描述文本集合，记为其中，s
k
表示第k条文本，m为文本的总条数；所述第k条文本s
k
包含的单词，记为其中，t
k,l
表示所述第k条文本s
k
中的第l个单词，n
k
表示第k条文本信息的单词长度；步骤1.2、构建多模态数据的表情图像数据集合：获取真实人脸图像数据集并使用图像旋转、裁剪以及归一化的方法进行预处理，从而得到表情图像数据集其中，x
i
，y
i
，v
i
分别表示第i个人脸图像及对应的表情类别和姿势类别，y
i
∈{1,2,
…
,m'}，v
i
∈{1,2,
…
,n}，n是表情图像数据集d中图像的数量，m'是表情的总类别数，n是姿势的总类别数，且m'＝m；步骤2、构建姿势分类器，包含：姿势特征提取器e
p
，分类器c
p
和特征对齐器al：步骤2.1、构建所述姿势特征提取器e
p
为resnet50结构：所述resnet50结构由一个卷积层，一个批归一化层，一个relu激活函数层，一个最大池化层，四个深度残差块和一个平均池化层组成；步骤2.2、提取姿势特征：将所述表情图像数据集d的第i个人脸图像x
i
输入所述姿势特征提取器e
p
中，获得第i个人脸图像x
i
的姿势特征步骤2.3、构建所述分类器c
p
，包含一个全连接层：将所述姿势特征输入到所述分类器c
p
中，得到第i个人脸图像x
i
预测的姿势类别v'
i
；步骤2.4、利用式(1)构建姿势分类损失l
pose
：l
pose
＝crossentro
py
(v
′
i
,v
i
)
ꢀꢀꢀ
(1)式(1)中，crossentropy()表示交叉熵函数；步骤2.5、利用式(2)计算第j种姿势的特征f
j
，从而得到n种姿势的特征：式(2)中，n
j
表示预测的姿势类别v'
i
和真实的姿势类别v
i
都为第j种姿势类别的姿势特征集合的特征数量；步骤2.6、构建所述特征对齐器al，包含一个全连接层：将所述第j种姿势的特征f
j
输入到所述特征对齐器al中，得到对齐后的第j种姿势特征步骤3、构建表情描述文本特征提取器，包含：分词器e
t
，文本内特征编码器e
intra
和文本间特征编码器e
inter
：步骤3.1、构建所述分词器e
t
，依次包含文本预处理层、特殊符号添加层、符号数字化层和序列对齐层；将所述表情描述文本集合s的第k条文本s
k
输入到所述分词器e
t
中进行处理，获得对应
的第k个数字序列以及对应的第k个位置编码为pc
k
；步骤3.2、构建文本内特征编码器e
intra
，包含：嵌入层和多层transformer编码器；所述transformer编码器由一个多头自注意力子层和一个前馈子层以残差方式连接而成；将所述第k个数字序列和第k个位置编码pc
k
输入到所述文本内特征编码器e
intra
中进行处理，获得第k个初步表情描述文本特征步骤3.3、构建所述文本间特征编码器e
inter
，包含：多层transformer编码器；将所有初步表情描述文本特征输入到所述文本间特征编码器e
inter
中进行处理，获得最终表情描述文本特征其中，表示第k条表情文本描述特征；步骤4、构建跨模态模块，包含：图像视觉特征提取器e
v
，姿势分类器c
p
和表情分类器c
e
：步骤4.1、构建所述图像视觉特征提取器e
v
，包含部分resnet50的层结构；所述部分resnet50的层结构包含一个卷积层，一个批归一化层，一个relu激活函数层，一个最大池化层和三个深度残差块；将所述表情图像集d的第i个人脸图像x
i
输入到图像视觉特征提取器e
v
中进行处理，获得第i个人脸图像x
i
的视觉特征步骤4.2、生成注意力图：步骤4.2.1、利用式(3)计算对齐后的第j种姿势特征第k种表情文本描述特征与视觉特征的余弦矩阵的余弦矩阵式(4)中，
×
表示矩阵乘法，|
·
|表示沿着第0维求和；步骤4.3.2、利用式(4)计算余弦矩阵经激活函数relu后的矩阵经激活函数relu后的矩阵步骤4.3.3、利用式(5)计算矩阵经归一化函数norm后的注意力图经归一化函数norm后的注意力图步骤4.4、利用式(6)计算第i个人脸图像x
i
的最终特征f
i
：式(6)中，w和h分别表示视觉特征的宽度和高度，表示注意力图中按照先行后列的顺序排列后的第q个注意力权重，表示视觉特征中按照先行后列的顺序排列后的第q个视觉特征；步骤4.4、构建姿势分类器c
p
和表情分类器c
e
：
所述姿势分类器c
p
和表情分类器c
e
均为一个全连接层；步骤4.5、将所述最终特征f
i
分别输入到所述分类器c
p
和分类器c
e
中，并相应得到所述分类器c
p
预测的人脸图像x
i
的姿势类别和所述分类器c
e
预测的人脸图像x
i
的表情类别步骤4.6、利用式(7)构建总分类损失l
all
：步骤4.7、基于构建的多模态数据集合a，利用梯度下降的方法对所述文本间特征编码器e
inter
，图像视觉特征提取器e
v
，姿势分类器c
p
和表情分类器c
e
进行训练，计算所述总分类损失l
all
用于更新网络参数，并在总分类损失l
all
最小时停止训练，从而得到最优表情表征网络，用于同时对姿势和表情进行识别。

技术总结
本发明公开了一种表情描述文本辅助的姿势感知的人脸表情识别方法，包括：1、根据表情发生时的面部单元动作和对原始人脸图像的预处理，构建出多模态数据集合；2、构建姿势分类器，从人脸图像中提取姿势特征，并选取各种姿势的聚类中心作为对应的姿势特征；3、构建表情描述文本特征提取器，从文本中提取表情文本特征；4、融合人脸视觉特征，姿势特征和表情文本特征，以跨模态的方式为视觉特征生成对应姿势和表情的注意力图，并通过同时区分注意力图加权后的视觉特征的姿势和表情类别，从而得到最优表情表征网络。本发明能有效利用先验姿势特征和表情描述文本丰富的语义信息，从而能实现任意姿势下的表情的精准识别。任意姿势下的表情的精准识别。任意姿势下的表情的精准识别。

技术研发人员：王上飞吴毅常亚南李国鸣毛萌
受保护的技术使用者：招商银行股份有限公司
技术研发日：2022.06.16
技术公布日：2022/8/26

完整全部详细技术资料下载

当前第2页1 2