面部表情识别的制作方法

文档序号：35909340发布日期：2023-10-29 09:12阅读：33来源：国知局

本公开涉及面部表情识别。更具体地，本公开涉及基于在被训练用于面部表情识别的神经网络中实施面部地标检测技术来改进面部表情识别系统。

背景技术：

1、许多设备和系统允许通过生成场景的图像(或帧)和/或视频数据(包括多个帧)来捕获场景。例如，相机或包括相机的计算设备(例如，移动设备，如包括一个或多个相机的移动电话或智能手机)可捕获场景的帧的序列。图像和/或视频数据可由此类设备和系统(例如移动设备、ip相机等)捕获和处理，并可被输出用于消费(例如，在该设备和/或其他设备上显示)。在一些情况下，图像和/或视频数据可由此类设备和系统捕获，并输出以由其他设备处理和/或消费。

2、可以对图像进行处理(例如，使用人的面部或对象检测、识别、分割等)，以确定图像中存在的任何对象或人，这对许多应用都是有用的。例如，可以确定用于识别图像中捕获的人的面部表情的模型，并且该模型可用于促进各种应用和系统的有效操作。此类应用和系统的示例包括增强现实(ar)、人工现实(ai)、物联网(iot)设备、安全系统(例如，车辆安全系统)、情感识别系统，以及许多其他应用和系统。

技术实现思路

1、本文中描述了可被实施用于改进面部表情识别的系统和技术。根据至少一个示例，提供了用于改进面部表情识别的装置。示例装置可以包括存储器(或多个存储器)和耦合到存储器(或多个存储器)的处理器或多个处理器(例如，以电路实施)。(一个或多个)处理器被配置为：接收对应于人的面部的图像帧；基于面部的三维模型来确定与面部的地标特征相关联的地标特征信息；向被训练用于面部表情识别的神经网络的至少一层输入图像帧和地标特征信息；以及使用神经网络确定与面部相关联的面部表情。

2、另一个示例装置可以包括：用于接收对应于人的面部的图像帧的部件；用于基于面部的三维模型来确定与面部的地标特征相关联的地标特征信息的部件；用于向被训练用于面部表情识别的神经网络的至少一层输入图像帧和地标特征信息的部件；以及用于使用神经网络确定与面部相关联的面部表情的部件。

3、在另一个示例中，提供了用于改进面部表情识别的方法。示例方法可包括接收对应于人的面部的图像帧。该方法还可包括基于面部的三维模型来确定与面部的地标特征相关联的地标特征信息。该方法可以包括向被训练用于面部表情识别的神经网络的至少一层输入图像帧和地标特征信息。该方法还可包括使用神经网络确定与面部相关联的面部表情。

4、在另一个示例中，提供了用于改进面部表情识别的非暂时性计算机可读介质。示例非暂时性计算机可读介质可以存储指令，当指令由一个或多个处理器执行时，使一个或多个处理器：基于面部的三维模型来确定与面部的地标特征相关联的地标特征信息；向被训练用于面部表情识别的神经网络的至少一层输入图像帧和地标特征信息；以及使用神经网络，确定与面部相关联的面部表情。

5、在一些方面，地标特征信息可包括基于三维模型确定的一个或多个混合形状系数。在一些示例中，以上描述的方法、装置和计算机可读介质可以包括：生成面部的三维模型；以及基于面部的三维模型与图像帧内对应于面部的图像数据之间的比较来确定一个或多个混合形状系数。在一个示例中，以上描述的方法、装置和计算机可读介质可包括将一个或多个混合形状系数输入到神经网络的全连接层。此外，在一些情况下，全连接层可以将一个或多个混合形状系数与神经网络的卷积层输出的数据联接。

6、在一些方面，以上描述的方法、装置和计算机可读介质可以包括使用一个或多个混合形状系数生成指示面部的一个或多个地标特征的地标图像帧。例如，以上描述的方法、装置和计算机可读介质可以包括：基于一个或多个混合形状系数来确定面部的多个地标特征；确定对应于关键地标特征的多个地标特征的子集；以及基于在对应于关键地标特征的多个地标特征中的子集之间形成一个或多个连接，生成地标图像帧。在一个示例中，以上描述的方法、装置和计算机可读介质可包括基于确定与人的面部表情相关的地标特征来确定对应于关键地标特征的多个地标特征的子集。进一步地，地标图像帧可以包括使用预定像素值指示对应于关键地标特征的像素的二进制图像帧。

7、在一些方面，以上描述的方法、装置和计算机可读介质可以包括将地标图像帧输入到神经网络的一个或多个层。例如，以上描述的方法、装置和计算机可读介质可以包括：将地标图像帧的第一版本输入到神经网络的第一层，地标图像帧的第一版本具有第一分辨率；以及将地标图像帧的第二版本输入到发生在第一层之后的神经网络的第二层，地标图像帧的第二版本具有比第一分辨率低的第二分辨率。在一个示例中，神经网络的第一层和第二层可以是卷积层。此外，神经网络可包括在第一层和第二层之间的池化层。池化层可被配置为：将由第一层输出的激活数据下采样到地标图像帧的第二版本的第二分辨率；接收地标图像帧的第二版本；以及将由第一层输出的下采样激活数据和地标图像帧的第二版本传递给第二层。

8、在一些方面，以上描述的方法、装置和计算机可读介质可以包括使用训练数据集来训练神经网络。训练数据集可包括：对应于多个人的面部的多个图像帧，多个图像帧被标记有与多个人的面部相关联的面部表情；以及与多个图像帧相关联的多个地标特征信息。

9、在一些方面，三维模型可包括三维可变形模型(3dmm)。

10、在一些方面，以上描述的方法、装置和计算机可读介质可以包括使用相机系统来捕获对应于人的面部的图像帧。

11、在一些方面，以上描述的每个装置是或包括相机、移动设备(例如，移动电话或所谓的“智能电话”或其它移动设备)、智能可穿戴设备、扩展现实设备(例如虚拟现实(vr)设备、增强现实(ar)设备或混合现实(mr)设备)、个人计算机、膝上型计算机、服务器计算机、车辆(例如，自主车辆)或其它设备。在一些方面，装置包括用于捕获一个或多个视频和/或图像的一个或多个相机。在一些方面，该装置还包括用于显示一个或多个视频和/或图像的显示器。在一些方面，以上描述的装置可以包括一个或多个传感器。

12、本
技术实现要素：
并不旨在确定所要求保护的主题的关键或必要特征，也并不旨在单独用于确定所要求保护的主题的范围。本主题应通过参照本专利的整个说明书的适当部分、任何或所有附图以及每项权利要求书来理解。

13、在参照以下说明书、权利要求书和附图时，前述内容以及其他特征和实施例将变得更加显而易见。

技术特征：

1.一种用于面部表情识别的装置，所述装置包括：

2.根据权利要求1所述的装置，其中所述地标特征信息包括基于所述三维模型确定的一个或多个混合形状系数。

3.根据权利要求2所述的装置，其中所述一个或多个处理器被配置为：

4.根据权利要求3所述的装置，其中所述一个或多个处理器被配置为将所述一个或多个混合形状系数输入到所述神经网络的全连接层。

5.根据权利要求4所述的装置，其中所述全连接层将所述一个或多个混合形状系数与所述神经网络的卷积层输出的数据进行联接。

6.根据权利要求2所述的装置，其中所述一个或多个处理器被配置为使用所述一个或多个混合形状系数生成指示所述面部的一个或多个地标特征的地标图像帧。

7.根据权利要求6所述的装置，其中所述一个或多个处理器被配置为：

8.根据权利要求7所述的装置，其中所述一个或多个处理器被配置为基于确定与人的面部表情相关的地标特征，来确定对应于所述关键地标特征的所述多个地标特征的所述子集。

9.根据权利要求8所述的装置，其中所述地标图像帧包括二进制图像帧，所述二进制图像帧使用预定像素值指示对应于所述关键地标特征的像素。

10.根据权利要求6所述的装置，其中所述一个或多个处理器被配置为将所述地标图像帧输入到所述神经网络的一个或多个层。

11.根据权利要求10所述的装置，其中所述一个或多个处理器被配置为：

12.根据权利要求11所述的装置，其中所述神经网络的所述第一层和所述第二层是卷积层。

13.根据权利要求12所述的装置，其中所述神经网络包括在所述第一层和所述第二层之间的池化层，所述池化层被配置为：

14.根据权利要求1所述的装置，其中所述一个或多个处理器被配置为使用训练数据集训练所述神经网络，所述训练数据集包括：

15.根据权利要求1所述的装置，其中所述三维模型包括三维可变形模型(3dmm)。

16.根据权利要求1所述的装置，其中所述装置包括捕获对应于所述人的所述面部的所述图像帧的相机系统。

17.根据权利要求1所述的装置，其中所述装置包括移动设备。

18.根据权利要求1所述的装置，还包括显示器。

19.一种面部表情识别方法，所述方法包括：

20.根据权利要求19所述的方法，其中所述地标特征信息包括基于所述三维模型确定的一个或多个混合形状系数。

21.根据权利要求20所述的方法，还包括：

22.根据权利要求21所述的方法，其中：

23.根据权利要求22所述的方法，其中所述全连接层将所述一个或多个混合形状系数与所述神经网络的卷积层输出的数据进行联接。

24.根据权利要求20所述的方法，还包括使用所述一个或多个混合形状系数生成指示所述面部的一个或多个地标特征的地标图像帧。

25.根据权利要求24所述的方法，其中生成所述地标图像帧包括：

26.根据权利要求25所述的方法，还包括基于确定与人的面部表情相关的地标特征来确定对应于所述关键地标特征的所述多个地标特征的所述子集。

27.根据权利要求26所述的方法，其中所述地标图像帧包括二进制图像帧，所述二进制图像帧使用预定像素值指示对应于所述关键地标特征的像素。

28.根据权利要求24所述的方法，其中：

29.根据权利要求28所述的方法，其中将所述地标图像帧输入到所述神经网络的所述一个或多个层包括：

30.一种用于面部表情识别的非暂时性计算机可读存储介质，所述非暂时性计算机可读存储介质包括：

技术总结
提供了用于面部表情识别的系统和技术。在一些示例中，系统接收对应于人的面部的图像帧。系统还基于面部的三维模型来确定与面部的地标特征相关联的地标特征信息。然后，系统将图像帧和地标特征信息输入到被训练用于面部表情识别的神经网络的至少一层。系统进一步使用神经网络确定与面部相关联的面部表情。

技术研发人员：刘鹏,L·王,K-M·黄,M·A·萨基斯,N·毕
受保护的技术使用者：高通股份有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘鹏 L
技术所有人：高通股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。