基于联合和交替学习框架的跨域新类人脸表情识别方法

文档序号:29635493发布日期:2022-04-13 17:02阅读:158来源:国知局
基于联合和交替学习框架的跨域新类人脸表情识别方法

1.本发明涉及计算机视觉技术领域,尤其涉及基于联合和交替学习框架的跨域新类人脸表情识别方法。


背景技术:

2.人脸表情,是人类传递情感信号的最直观、有效的方式之一。近年来,人脸表情识别已经成为计算机视觉及人工智能领域一个重要的研究方向,并广泛应用于安全驾驶、医疗监护、在线教育等多个实际场景中。
3.根据著名心理学家ekman等人的研究,人脸表情可以划分为七个基本表情类别,即愤怒、惊讶、厌恶、恐惧、高兴、悲伤和中立。基于此,研究者们收集了一系列的基本类表情数据集(如ck+,oulu,mmi,raf,sfew等),并对自动化的人脸表情识别展开了研究。早年的表情识别方法主要基于纹理、几何等手工特征,它们能在可控的室内表情数据集上表现良好,但在非受控的真实数据集上性能不理想。随着深度学习的发展,基于神经网络的特征提取方法成为主流,表情识别算法的关注点也逐渐从简单的室内数据集,转移到更具挑战性的室外数据集上。
4.然而,这些基本表情类别很难刻画真实表情世界的多样性。2014年du等人(du,s.;tao,y.;and martinez,a.m.2014.compound facial expressions of emotion.proceedings of the national academy of sciences,111(15):e1454

e1462.)通过组合基本表情类别提出复合表情,并将表情类别扩展到22类。另一些学者,基于情感轮盘理论和层级模型收集了细粒度的表情数据集,进一步对表情数据集的类别进行扩展。虽然基本类表情识别问题已经得到了大量关注,但对上述非基本的表情类别的研究相对较少。khadija slimani等人(khadija slimani,khadija lekdioui,rochdi messoussi,and raja touahni.2019.compound facial expression recognition based on highway cnn.in proceedings of the new challenges in data sciences:acts of the second conference of the moroccan classification society.1

7.)提出高速卷积网络,用可学习的参数代替残差网络的短接线来完成复合表情识别任务。jianzhu guo等人(jianzhu guo,shuai zhou,jinlin wu,jun wan,xiangyu zhu,zhen lei,and stan z li.2017.multi-modality network with visual and geometrical information for micro emotion recognition.in2017 12th ieee international conference on automatic face and gesture recognition.ieee,814

819.)提出多模态的网络,同时利用视觉和几何特征来识别复合表情。然而,这些方法需要依赖大量的有标签的复合类表情数据集。相比于基本类表情数据,复合表情的标注成本更大,且通常需要心理学家的专业指导。因此,如何利用少量的有标签样本来进行新的复合表情的识别是一个重要且尚未解决的问题。
5.对于我们人类来说,基于对已见过的情感的认知,在面对未知情感时,只需要少量的观察就能判断一种新的未知的情感。这种基于少量新类有标签样本,快速泛化到新类的
学习范式在计算机领域被称为小样本学习。尽管小样本学习在图像识别,目标检测等领域有广泛的研究,但在表情识别领域鲜有探索。本发明旨在解决小样本学习范式下的新的复合表情分类问题,以缓解现有复合表情分类模型需要预先收集大量的有标注的复合表情数据的压力。值得注意的是,相比于把一个复合表情数据集划分为基类(用于训练)和新类(用于测试),本发明适用一种更加具有挑战性但实用的场合,即跨域小样本的设置,我们在易获得的多个基本表情数据集上训练模型,在新的复合表情数据集上进行测试。
6.目前,小样本学习的方法主要分为两类:基于迁移学习的方法和基于元学习的方法。基于迁移学习的方法旨在利用传统的批训练(batch training)的方式,在基类数据集上学习完整的分类模型,并利用少量有标签的新类样本,微调分类器来完成新类识别任务。由于特征提取的过程与新任务完全无关,此类算法在新类上的泛化性能有限。基于元学习的方法,主要依靠情景训练的方式(episodic training),在训练和测试时构造相似的任务,利用任务之间的相似性,来实现知识从基类到新类的迁移。其中,最常见的是基于度量的方法,在基类上学习易于泛化的度量,并迁移至新类。本发明正是基于此类基线方法。
7.然而,不同于miniimagenet,ominglot等常用的评价小样本学习算法的数据集,基本表情的类别有限。因此,在情景训练的过程中,每次采样任务高度重复,模型极易陷入对见过的任务的过拟合问题,现有的小样本学习的算法在新类表情识别任务上性能不尽人意。


技术实现要素:

8.有鉴于此,本发明的目的在于提出一种基于联合和交替学习框架的跨域新类人脸表情识别方法,其利用情感分支来辅助相似度分支的学习,完成灵活、高精度的新类表情识别任务。
9.为了实现上述的技术目的,本发明所采用的技术方案为:
10.一种基于联合和交替学习框架的跨域新类人脸表情识别方法,其包括:
11.a、建立基本类表情数据集和复合类表情数据集,并对其进行数据预处理;
12.b、构建用于表情数据识别的情感-相似度网络,其包括情感分支和相似度分支,其中,情感分支用于捕获全部基本类表情数据的整体特征,相似度分支用于学习两个表情数据之间可迁移的度量信息,且基于所获得的度量完成新类人脸表情的识别;
13.c、对步骤b中的情感分支采用批训练的方式进行训练全部基本类表情数据的分类模型;
14.d、对步骤b中的相似度分支采用元学习中情景训练的方法进行学习表情数据可迁移的特征和度量;
15.e、构建二阶段的联合和交替学习学习框架进行训练情感-相似度网络,以提高模型对新类表情的泛化能力;
16.f、在复合类表情数据集上采样n个类,使每类包含k个有标签样本作为支持集(即构造n-way k-shot任务),每类q个样本作为查询集,然后基于经训练的相似度分支对查询集进行新类表情分类准确率的计算。
17.作为一种可能的实施方式,进一步,步骤a中,所述基本类表情数据集包括室内数据集和室外数据集,其中,室内数据集至少包括ck+数据集,mmi数据集和oulu数据集中的一
种以上;室外数据集至少包括raf数据集和sfew数据集中的一种以上。
18.作为一种较优的选择实施方式,优选的,步骤a中,所述复合类表情数据集包括cfee数据集和emotionet数据集。
19.作为一种较优的选择实施方式,优选的,步骤a中,所述基本类表情数据集和复合类表情数据集均先经过mtcnn进行人脸对齐,并裁剪变化到224*224后,作为模型的输入项。
20.作为一种较优的选择实施方式,优选的,步骤b中,所述情感分支包括基于resnet18的情感特征提取器和分类器两部分;所述相似度分支包括基于resnet18的相似度特征提取器和度量模块两部分。
21.作为一种较优的选择实施方式,优选的,步骤c中,对情感分支采用批训练的方式进行训练全部基本类表情数据的分类模型,其每次迭代从一个基本类表情数据集中采样出批数据{x,y},然后对于其中的一个样本xi,经过情感特征提取器ee和分类器f的前向传播,得到预测结果再计算预测结果与真实标签y的交叉熵损失以用于更新网络参数,该交叉熵损失的公式如下:
[0022][0023]
其中,c为基本表情的类别数,指示函数为1当且仅当c=yi时成立。
[0024]
作为一种较优的选择实施方式,优选的,步骤d中,对步骤b中的相似度分支采用元学习中情景训练的方法进行学习表情数据可迁移的特征和度量,其每次从一个基本类表情数据集中随机采样出n个类,每类采样出若干样本并划分为支持集和查询集其中,xs,ys,xq,yq分别表示支持集和查询集的样本和标签,由此构造了n-way k-shot的小样本分类任务,k为支持集中每类样本的个数;
[0025]
将支持集和查询集的样本分别经过相似度特征提取器es的前向传播计算图像特征,由度量模块m计算支持集和查询集的样本距离,并将查询集样本分配给最近邻的支持集,其公式如下:
[0026][0027]
其中,表示对于查询集样本的预测结果,m表示度量模块;
[0028]
对相似度分支,计算预测结果与真实标签yq的交叉熵损失用于更新网络参数,其公式如下:
[0029][0030]
作为一种较优的选择实施方式,优选的,步骤e包括:
[0031]
e1、对步骤c、步骤d训练过程的每一批/情景中,随机选一个源域进行采样;
[0032]
e2、联合学习过程:采用多任务学习,联合训练情感分支和相似度分支,利用情感分支对相似度分支进行正则化规约,来防止模型对采样的高度重复的任务的过拟合,该过程的整体损失为;
[0033]
[0034]
其中,λ
emo
为调节两者损失的平衡参数,分别表示公式一、公式三中定义的情感分支和相似度分支的任务损失;
[0035]
e3、交替学习过程:固定相似度分支的网络参数,用相似度特征提取器的输出特征,监督情感特征提取器的输出特征,这一过程损失函数定义如下:
[0036][0037]
其中,为公式一中定义的情感分支自身任务的损失函数,表示用于监督的正则项的权重;
[0038]
将情感分支和相似度分支进行角色互换,固定情感分支的网络参数,并用情感特征提取器的输出特征监督相似度特征提取器的输出特征,同理,该过程的损失函数定义如下:
[0039][0040]
其中,为公式三中定义的相似度分支自身任务的损失函数,动态变化的权重用于强调本身相似度分支任务的重要性。
[0041]
作为一种较优的选择实施方式,优选的,步骤f中,利用经步骤e训练好的情感-相似度网络模型,在复合类表情数据集上采样n个类,使每类包含k个有标签样本作为支持集,每类q个样本作为查询集,计算查询集的所有n*q个样本的分类准确率作为当前任务的精度;
[0042]
测试过程,利用在基本类表情数据集上训练得到的相似度分支,将采样的支持集和查询集样本分别送入相似度特征提取器,再通过度量模块,计算查询集的各样本与支持集的每类的距离,并将查询集样本分配给特征空间中与其最近邻的支持集的类别。
[0043]
基于上述方法,本发明还提供一种计算机可读的存储介质,所述的存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述的至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行实现上述所述的基于联合和交替学习框架的跨域新类人脸表情识别方法。
[0044]
采用上述的技术方案,本发明与现有技术相比,其具有的有益效果为:本方案提出了一种基于联合和交替学习框架的跨域新类人脸表情识别方法,其基于现有的基于度量的小样本基线方法,针对基本表情类别有限所导致的采样任务高度重复问题,提出灵活、高精度的新类人脸表情识别方法。本方案提出了双分支的情感-相似度网络,并构建二阶段的基于联合和交替学习框架的训练策略来训练模型,首先,在多任务的模式下,联合训练情感分支和相似度分支,在情感分支的约束下,能够有效防止相似度分支对重复采样的基类的过拟合问题;其次,本方案让两个分支交替学习,进一步提升相似度分支对未见过的新类的泛化能力。本方案在多个基本表情数据集上训练模型,只需要少量新类图片就能快速将现有信息泛化到未知域的新类表情上,在室内和室外复合表情数据集上都取得了具有竞争力的结果。
附图说明
[0045]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0046]
图1为本发明实施例的整个实现流程图。
[0047]
图2为本发明实施例的整个网络框架图。
具体实施方式
[0048]
下面结合附图和实施例,对本发明作进一步的详细描述。特别指出的是,以下实施例仅用于说明本发明,但不对本发明的范围进行限定。同样的,以下实施例仅为本发明的部分实施例而非全部实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0049]
如图1或图2所示,本方案一种基于联合和交替学习框架的跨域新类人脸表情识别方法,包括:
[0050]
a、准备基本类、复合类表情数据,分别用于训练和测试,并进行数据预处理;
[0051]
本步骤使用的训练数据集为5个常见的基本表情数据集,其中包括三个室内数据集ck+,mmi,oulu,和两个室外数据集raf,sfew。室内数据集是在室内环境下拍摄获得的,具有可控的外界因素,如光照、姿态等。室外数据集指的是自然条件下收集的数据集,具有不可控的外界因素,其中raf数据集是在互联网上下载获得的,sfew数据集包含了从电影中截取出的视频片段。上述数据集大都带有基本类表情数据集标注,分别是愤怒、惊讶、厌恶、恐惧、高兴、悲伤和中立,ck+数据集具有额外的轻蔑类表情标注。
[0052]
本步骤使用的测试数据集来自两个最新收集的复合表情数据集,cfee和emotionet。其中,cfee数据集为室内数据集,emotionet为室外表情数据集。不同于基本类表情数据集,他们有更加细粒度的表情信息标注,且与训练数据的类别不同。所有训练、测试图片都先经过mtcnn进行人脸对齐,并裁剪变化到224*224,作为模型的输入。训练时,图像会经过额外的随机翻转及颜色抖动(亮度、对比度、饱和度和色相的变化),来进行数据增强,以丰富训练数据的多样性。
[0053]
b、构建用于表情数据识别的情感-相似度网络(主网络),其包括情感分支和相似度分支,其中,情感分支用于捕获全部基本类表情数据的整体特征,相似度分支用于学习两个表情数据之间可迁移的度量信息,且基于所获得的度量完成新类人脸表情的识别;
[0054]
其中,情感分支用于捕获全部基本表情类别的整体特征,并作为正则化的手段来防止相似度分支对于高度重复的采样任务的过拟合。情感分支包括基于resnet18的情感特征提取器和分类器两部分。
[0055]
相似度分支用于学习两个表情图片之间可迁移的度量信息,并基于度量完成新类表情识别。其由基于resnet18的相似度特征提取器和度量模块两部分组成。
[0056]
c、对步骤b中的情感分支采用传统的批训练(batch training)方式进行训练全部基本类表情数据的分类模型。
[0057]
具体的,本步骤中,每次迭代从一个数据集中采样出批数据{x,y},对于其中的一
个样本xi,经过情感特征提取器ee和分类器f的前向传播,得到预测结果计算预测结果与真实标签y的交叉熵损失用于更新网络参数,其公式如下:
[0058][0059]
其中,c为基本表情的类别数。指示函数为1当且仅当c=yi时成立。
[0060]
d、对步骤b中的相似度分支采用元学习中常见的情景训练(episodic training)方法进行学习表情数据可迁移的特征和度量。
[0061]
具体的,本步骤每次从一个数据集中随机采样出n个类,每类采样出若干样本并划分为支持集和查询集其中xs,ys,xq,yq分别表示支持集和查询集的样本和标签,由此构造了n-way k-shot的小样本分类任务,k为支持集中每类样本的个数。相似度分支的目的就是利用支持集的有限的有标签的样本信息来完成对查询集的分类任务。
[0062]
将支持集和查询集的样本分别经过相似度特征提取器es的前向传播计算图像特征,由度量模块m计算支持集和查询集的样本距离,并将查询集样本分配给最近邻的支持集。相应公式如下:
[0063][0064]
其中,表示对于查询集样本的预测结果。m表示度量模块,目前已有的小样本的基线方法研究了如欧式距离,余弦距离,基于学习的多种度量模块形式。实验证明,本方法所提出的联合和交替学习框架能在新类表情识别问题上,有效提升上述基线方法的性能。
[0065]
对相似度分支,计算预测结果与真实标签yq的交叉熵损失用于更新网络参数,其公式如下:
[0066][0067]
e、为了防止由基本表情类别有限,造成的相似度分支对重复采样任务的过拟合问题,构建二阶段的联合和交替学习学习框架进行训练情感-相似度网络,以提高模型对新类表情的泛化能力。本步骤e可以进一步包括以下子步骤:
[0068]
e1、整体上,批训练/情景训练的方式都从多域进行采样,来增强训练资料(数据/元任务)的多样性,同时缓解训练源域和测试目标域之间的域差异性问题。即,在训练过程的每一批/情景中,随机选一个源域进行采样。
[0069]
e2、训练的第一阶段为联合学习过程。采用多任务学习,联合训练情感分支和相似度分支。利用情感分支对相似度分支进行正则化规约,来防止模型对采样的高度重复的任务的过拟合,这个过程的整体损失为;
[0070][0071]
其中,λ
emo
为调节两者损失的平衡参数,在本发明中固定为1,分别表示公式一、三中定义的情感分支和相似度分支的任务损失。
[0072]
e3、训练的第二阶段为交替学习过程。尽管在联合学习的过程中,情感分支能够对
daan wierstra.2016.matching networks for one shot learning.in nips.3630

3638.)使用的余弦距离;relationnet方法(flood sung,yongxin yang,li zhang,tao xiang,philip hs torr,and timothy mhospedales.2018.learning to compare:relation network for few-shot learning.in cvpr.1199

1208)使用的基于卷积网络的度量模块,以及gnn方法(victor garcia and joan bruna.2018.few-shot learning with graph neural networks.in iclr.)使用的基于图神经网络的度量模块,具体对比测试结果如表1所示:
[0083]
表1本方案与其它小样本方法在cfee,emotionet测试数据集上的准确率对比
[0084][0085]
其中,
[0086]
protonet对应jake snell等人提出的方法(jake snell,kevin swersky,and richard s zemel.2017.prototypical networks for few-shot learning.in neurips.4077

4087.);
[0087]
matchingnet对应oriol vinyals等人提出的方法(oriol vinyals,charles blundell,timothy lillicrap,koray kavukcuoglu,and daan wierstra.2016.matching networks for one shot learning.in neurips.3630

3638.);
[0088]
relationnet对应flood sung等人提出的方法(flood sung,yongxin yang,li zhang,tao xiang,philip hs torr,and timothy mhospedales.2018.learning to compare:relation network for few-shot learning.in cvpr.1199

1208);
[0089]
gnn对应victor garcia等人提出的方法(victor garcia and joan bruna.2018.few-shot learning with graph neural networks.in iclr.);
[0090]
infopatch对应liu,c.等人提出的方法(liu,c.;fu,y.;xu,c.;yang,s.;li,j.;wang,c.;and zhang,l.2021.learning a few-shot embedding model with contrastive learning.in aaai,volume 35,8635

8643.);
[0091]
dkt对应patacchiola,m等人提出的方法(patacchiola,m.;turner,j.;crowley,e.j.;o’boyle,m.;and storkey,a.2020.bayesian meta-learning for the few-shot setting via deep kernels.in neurips.);
[0092]
gnn+lft对应tseng,h.-y等人提出的方法(tseng,h.-y.;lee,h.-y.;huang,j.-b.;and yang,m.-h.2020.cross-domain few-shot classification via learned feature-wise transformation.in iclr.);
[0093]
baseline,baseline++对应chen,w.-y等人提出的方法(chen,w.-y.;liu,y.-c.;kira,z.;wang,y.-c.f.;and huang,j.-b.2019.a closer look at few-shot classification.in 7th international conference on learning representations.);
[0094]
arcmax loss对应afrasiyabi,a等人提出的方法(afrasiyabi,a.;lalonde,j.-f.;and gagn

e,c.2020.associative alignment for few-shot image classification.in eccv,18

35.springer.);
[0095]
pt+ncm对应hu,y等人提出的方法(hu,y.;gripon,v.;and pateux,s.2021.leveraging the feature distribution in transfer-based few-shot learning.in icann,volume 12892,487

499.);
[0096]
lr+dc对应yang,s.等人提出的方法(yang,s.;liu,l.;and xu,m.2021.free lunch for fewshot learning:distribution calibration.in iclr.);
[0097]
本发明方案提出的方法(p),本发明提出的方法(m),本发明提出的方法(r),本发明提出的方法(g),分别表示本发明以protonet,matchingnet,relationnet,gnn为基线方法的变体。
[0098]
由上表可知,本方案可以有效将情感信息由基本类表情迁移到细粒度的复合类表情数据集上,其只需要少量有标签的新类表情数据,就能快速泛化且胜任未知新类的表情识别任务。该方案不仅在多个公开的数据集上都取得了良好的识别性能,同时相比于传统的监督学习,是一种更加灵活,且贴近实际需求的解决新类人脸表情识别问题的方案。
[0099]
另外,在本发明各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0100]
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备
(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0101]
以上所述仅为本发明的部分实施例,并非因此限制本发明的保护范围,凡是利用本发明说明书及附图内容所作的等效装置或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1