一种图像预训练模型到视频人脸表情识别的方法

文档序号:36890673发布日期:2024-02-02 21:23阅读:21来源:国知局
一种图像预训练模型到视频人脸表情识别的方法

本发明涉及深度学习、计算机视觉,具体涉及一种图像预训练模型到视频人脸表情识别的方法。


背景技术:

1、面部表情往往能够反映一个人的情感状态,在人际互动中发挥着至关重要的作用。由于其在应用中的重要性不断增加,如人机交互、医疗辅助和疲劳驾驶检测等,因此理解面部表情中的情感状态变得越来越关键,自动且准确地识别面部表情已经成为计算机视觉领域中的一项重要且备受欢迎的任务。

2、目前,面部表情识别可以大致分为两种类型:静态面部表情识别(sfer)和动态面部表情识别(dfer)。其中,sfer主要集中在从静态图像中识别表情,而dfer集中在从动态图像序列(或视频)中识别表情。本领域技术人员在这一领域已经进行了大量的研究工作,以推动sfer和dfer的发展。

3、在深度学习时代之前,本领域技术人员主要依赖于浅层学习方法和手工特征提取方法来进行fer,例如局部二进制(lbp)、梯度直方图(hog)、非负矩阵分解(nmf)和稀疏表示等。尽管这些方法在实验室环境中的数据集上表现出有希望的性能,但在处理真实世界的人脸时,它们的性能急剧下降。

4、随着深度学习的兴起,fer采用了数据驱动方法,受益于卷积神经网络(cnn)和视觉变换器(vision transformer)等强大的表示能力。fer在真实世界的sfer数据集上取得了显著进展,如raf-db、affectnet、ferplus等,但在dfer数据集上的性能(例如dfew、ferv39k、mafw等)仍然不尽如人意。这主要是由于dfer数据集的收集困难、数据中的限制(例如姿势、遮挡、光照)、模糊的标注(即嘈杂的标签)以及有关时间信息的不足学习所致。


技术实现思路

1、本发明的目的提供一种图像预训练模型到视频人脸表情识别的方法,以解决上述背景技术中提出的问题。

2、为实现上述目的,本发明采用如下技术方案:

3、一种图像预训练模型到视频人脸表情识别的方法,包括以下步骤:

4、s1、基于人脸表情图片数据集,提取并引入人脸关键点,训练出具有图像表征能力的图像预训练模型;

5、s2、将该图像预训练模型扩展到视频模型,基于人脸表情视频数据集,再次提取并引入人脸关键点,训练出具有动态识别能力的人脸表情识别模型。

6、进一步地,所述步骤s1具体包括以下操作:

7、s11、在标准的vision transformer模型的基础上插入模态互补模块,得到初始图像训练模型;

8、s12、基于人脸表情图片数据集提取人脸关键点,通过模态互补模块对人脸表情的特征和人脸关键点的特征进行模态融合;

9、s13、基于初始图像训练模型,对经过模态融合后的人脸表情的特征进行学习优化,得到具有图像表征能力的图像预训练模型。

10、进一步地,所述步骤s2具体包括以下操作:

11、s21、在图像预训练模型的基础上插入时间建模模块,得到初始视频训练模型;

12、s22、基于人脸表情视频数据集提取人脸关键点,通过模态互补模块对人脸表情的特征和人脸关键点的特征进行模态融合,人脸表情的特征同时通过时间建模模块学习时间维度信息;

13、s23、基于初始视频训练模型,对经过模态融合和学习时间维度信息后的人脸表情的特征进行学习优化,得到人脸表情识别模型。

14、进一步地,所述人脸关键点是基于人脸表情图片数据集或人脸表情视频数据集通过人脸关键点提取模型获得的;所述初始图像训练模型以人脸表情的图像序列和人脸关键点的图像序列作为输入;所述初始视频训练模型以人脸表情的视频片段和人脸关键点的视频片段作为输入;所述人脸表情和人脸关键点的图像序列或视频片段分别表示为:

15、

16、

17、式中:表示数据集;xf表示人脸表情的图像序列或视频片段;xl表示人脸关键点的图像序列或视频片段;t表示帧数;c表示通道数;h表示高;w表示宽。

18、进一步地,所述初始图像训练模型在接收人脸表情和人脸关键点的图像序列后具体执行以下操作:

19、首先将xf、xl分别通过一个patch embedding层分成n个块,并变换到d维空间,得到:

20、

21、

22、式中:表示人脸表情的tokens;表示人脸关键点的tokens;

23、然后将和输入到模态互补模块中进行模态融合生成引导prompt:生成的引导prompt以残差的形式加到此次模态融合前的人脸表情的tokens中并重复所述模态融合的过程;

24、为每个模态融合的人脸表情的token及其块的类别xclass附上位置信息positionembedding;同时将xclass以及position embedding输入到初始图像训练模型的transformer层中进行学习优化;

25、所述模态融合和学习优化的过程通过公式(1)和公式(2)表示:

26、

27、

28、公式(1)、(2)中:l表示模态融合以及学习优化的次数;l表示transformer层的层数;表示第l次模态融合前的人脸表情的tokens,表示第l次模态融合后的人脸表情的tokens;表示第l+1次模态融合生成的引导prompt;表示第l+1次学习优化后的人脸表情的tokens。

29、进一步地,所述初始视频训练模型在接收人脸表情和人脸关键点的视频片段后具体执行以下操作:

30、首先将xf、xl分别通过一个patch embedding层分成n个块,并变换到d维空间,得到:

31、

32、

33、式中:表示人脸表情的tokens;表示人脸关键点的tokens;

34、然后将和输入到模态互补模块中进行模态融合并生成引导prompt:同时将输入到时间建模模块中学习时间维度信息:生成的引导prompt和学习到的时间维度信息以残差的形式加到此次模态融合和学习时间维度信息前人脸表情的tokens中,并重复所述模态融合和学习时间维度信息的过程;

35、为每个模态融合的人脸表情的token及其块的类别xclass附上位置信息positionembedding;同时将xclass以及position embedding输入到初始视频训练模型的transformer层中进行学习优化;

36、所述模态融合、学习时间维度信息以及学习优化的过程通过公式(3)和公式(4)表示:

37、

38、

39、公式(3)、(4)中:l表示模态融合、学习时间维度信息以及学习优化的次数;l表示transformer层的层数;表示第l次模态融合和学习时间维度信息前的人脸表情的tokens,表示第l次模态融合和学习时间维度信息后的人脸表情的tokens;表示第l+1次模态融合生成的引导prompt;表示第l+1次学习到的时间维度信息;表示第l+1次学习优化后的人脸表情的tokens。

40、进一步地,将每次模态融合前的人脸表情特征和人脸关键点特征记作和所述通过模态互补模块对人脸表情特征和人脸关键点进行模态融合具体通过以下方法实现:

41、首先模态互补模块接收人脸表情特征和人脸关键点特征作为输入;

42、然后将和通过1x1卷积层分别投影到一个低纬度的空间:

43、

44、

45、公式(5)、(6)中:和表示和低维度空间上的投影;g1和g2均是1×1卷积层;

46、再对做类似注意力度操作:

47、

48、

49、公式(7)、(8)中:表示mask信息;表示选择的人脸表情特征;[:,i,j]表示三维数组中第一维全取、第二位取i、第三维取j,i和j均大于等于零且小于图像或视频的patch大小;λ表示一个随机初始化的可学习的变量;

50、学习到的引导prompt通过公式(9)表示:

51、

52、公式(9)中:g2是1×1卷积层。

53、进一步地,所述时间建模模块包括temporal adapter模块、layer norm层和simple adapter模块;其中所述temporary adapter模块包括用于捕捉时间信息的多头自注意力模块;所述时间建模模块以人脸表情特征作为输入,人脸表情特征通过时间建模模块学习时间维度信息具体通过以下方法实现:

54、首先将输入形状变换到并通过一层线性层投影到一个更低的维度,然后通过多头自注意力模块捕获时间信息:

55、

56、

57、

58、公式(10)、(11)、(12)中:f1、f2表示线性层;gelu表示gelu激活函数;t-msa表示时间维度的多头自注意力机制;表示被形状变换回t×n×d的捕获了时间信息后的人脸表情特征;

59、再经过layer nrom层和simple adapter模块后输出:

60、

61、

62、公式(13)、(14)中:ln表示layernorm层;gelu表示grlu激活函数;f3和f4表示线性层;表示第l+1次学习到的时间维度信息。

63、进一步地,在所述初始视频训练模型的训练过程中,通过表情锚的自蒸馏损失提供辅助监督信号以减少噪声标签的干扰,具体通过以下方法实现:

64、首先在初始视频训练模型的训练过程中为每一个人脸表情的类别维护两个队列pc和qc,分别用于保存模型的输出特征v和输出概率p,且‖p‖=1;队列pc和qc表示为:

65、

66、

67、将训练过程中输入的视频片段及其标签记作样本(xi,yi),每一个输入的样本(xi,yi)的输出特征和输出概率记作vi和pi;

68、首先计算输出特征vi和队列qc中每一个向量的余弦相似度,得到相似度分数α={α1,α2,…,αc},其中相似度分数由公式(15)计算得到:

69、

70、公式(15)中:表示对输出特征vi进行转置;

71、再从每一个人脸表情的类别中挑选出分数最高的样本,得到最后的分数σ:

72、

73、

74、公式(16)中:k表示分数最高的样本的数量;

75、通过以下公式得到最后估计的伪标签ysoft:

76、

77、然后采用真实标签yi和伪标签ysoft进行监督,损失的计算公式如下:

78、

79、

80、公式(18)、(19)中:表示目标损失函数;表示辅助损失函数;bce表示二值交叉熵损失函数;

81、最后结合式目标损失函数和辅助损失函数,得到监督损失函数:

82、

83、公式(20)中:表示监督损失函数;γ1表示表示目标损失的权重;γ2表示辅助损失函数的权重。

84、由以上技术方案可知,本发明具有以下技术优势:

85、1、本发明采用了先在静态表情数据集上训练然后再动态视频数据集上微调的方法,通过静态数据弥补视频数据集数量上的不足;

86、2、本发明通过时间建模模块,有效地在时间维度学习动态时间信息,将图像模型方便的扩展到视频模型;

87、3、本发明设通过基于表情锚的自蒸馏损失,利用其他表情来估计噪声样本的标签分布,为模型提供了一份辅助监督信号,减少了噪声样本的干扰,且只需要在训练阶段使用,不会在推理阶段带来额外的计算开销,能够有效提高模型的性能;

88、4、本方法将图像模型扩展到视频模型时,只需要训练很小部分参数(<模型参数的10%),既高效又有效。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1