1.本说明书涉及计算机技术领域,尤其涉及一种视线方向估计方法、装置、电子设备、介质及程序产品。
背景技术:2.视线方向在一定程度上能够反映人类的注意力,视线方向估计在线下刷脸支付安全、人机交互、虚拟现实、医疗健康、辅助驾驶、行为预测、心理分析、线下零售等场景中均有着广阔的应用空间。目前,相关的视线方向估计方法主要集中在通过人的脸部图像对视线方向的进行估计。
技术实现要素:3.本说明书实施例提供了一种视线方向估计方法、装置、电子设备、介质及程序产品,通过基于眼部状态及脸部图像,采用视线方向估计模型的端到端学习的方式,实现对眼部状态鲁棒的视线方向估计,从而能够更加便捷准确地估计出视线方向。上述技术方案如下:
4.第一方面,本说明书实施例提供了一种视线方向估计方法,包括:
5.基于目标对象对应的目标图像获取目标脸部图像和目标眼部图像;
6.将上述目标脸部图像和上述目标眼部图像输入视线方向估计模型中,输出上述目标对象的第一目标视线方向;上述视线方向估计模型基于已知视线方向和眼部状态的多个样本图像各自对应的样本脸部图像和样本眼部图像进行训练得到。
7.在一种可能的实现方式中,上述将上述目标脸部图像和上述目标眼部图像输入视线方向估计模型中,输出上述目标对象的第一目标视线方向,包括:
8.提取上述目标脸部图像对应的目标脸部特征,并提取上述目标眼部图像对应的目标眼部特征;
9.基于上述目标眼部特征确定上述目标眼部图像对应的眼部状态;
10.基于上述眼部状态对上述目标眼部特征进行加权得到上述目标眼部图像对应的目标眼部状态监督特征;
11.将上述目标脸部特征以及上述目标眼部状态监督特征进行融合,得到目标融合特征;
12.基于上述目标融合特征估计上述目标对象的第一目标视线方向。
13.在一种可能的实现方式中,上述目标眼部图像包括目标左眼图像和目标右眼图像;
14.上述提取上述目标眼部图像对应的目标眼部特征,包括:
15.分别提取上述目标左眼图像对应的目标左眼特征和上述目标右眼图像对应的目标右眼特征;
16.上述基于上述目标眼部特征确定上述目标眼部图像对应的眼部状态,包括:
17.基于上述目标左眼特征确定上述目标左眼图像对应的左眼状态,以及上述目标右眼特征基于上述目标右眼图像对应的右眼状态;
18.上述基于上述眼部状态对上述目标眼部特征进行加权得到上述目标眼部图像对应的目标眼部状态监督特征,包括:
19.基于上述目标左眼图像对应的左眼状态对上述目标左眼特征进行加权得到上述目标左眼图像对应的目标左眼状态监督特征,以及基于上述目标右眼图像对应的右眼状态对上述目标右眼特征进行加权得到上述目标右眼图像对应的目标右眼状态监督特征;
20.上述将上述目标脸部特征以及上述目标眼部状态监督特征进行融合,得到目标融合特征,包括:
21.将上述目标脸部特征、上述目标左眼状态监督特征以及上述目标右眼状态监督特征进行融合,得到目标融合特征。
22.在一种可能的实现方式中,上述视线方向估计模型包括:脸部图像视线方向估计网络、眼部图像视线方向估计网络以及特征融合视线方向估计网络;
23.上述脸部图像视线方向估计网络,用于提取输入上述视线方向估计模型的脸部图像中的脸部特征;
24.上述眼部图像视线方向估计网络,用于提取输入上述视线方向估计模型的眼部图像的眼部特征,并基于上述眼部特征确定上述眼部图像对应的眼部状态;
25.上述特征融合视线方向估计网络,用于基于上述眼部图像对应的眼部状态将上述眼部特征与上述脸部特征进行融合得到融合特征,并基于上述融合特征估计上述脸部图像以及上述眼部图像对应的对象的视线方向。
26.在一种可能的实现方式中,上述眼部状态包括睁闭眼状态和/或遮挡状态;上述睁闭眼状态包括睁眼状态和闭眼状态;上述遮挡状态包括未遮挡状态和已遮挡状态。
27.在一种可能的实现方式中,上述脸部图像视线方向估计网络基于已知视线方向多个样本图像各自对应的样本脸部图像进行训练得到;
28.上述眼部图像视线方向估计网络基于已知视线方向和眼部状态的多个样本图像各自对应的样本眼部图像进行训练得到;
29.上述特征融合视线方向估计网络基于上述多个样本图像各自对应的样本脸部图像经由上述脸部图像视线方向估计网络得到的脸部特征、上述多个样本图像各自对应的样本眼部图像经由上述眼部图像视线方向估计网络得到的眼部特征和眼部状态、以及上述多个样本图像各自对应的视线方向进行训练得到。
30.在一种可能的实现方式中,上述基于目标对象对应的目标图像获取目标脸部图像和目标眼部图像,包括:
31.基于目标对象对应的目标图像利用脸部检测算法以及关键点检测算法分别确定上述目标对象在头部坐标系下的第一脸部位置信息以及第一关键点位置信息;
32.根据上述第一脸部位置信息以及上述第一关键点位置信息利用预设坐标转换算法得到上述目标图像对应的相机坐标系下的第一脸部图像和第一眼部图像;
33.基于预设透视变换矩阵对上述第一脸部图像和上述第一眼部图像进行矫正处理,得到目标脸部图像和目标眼部图像。
34.在一种可能的实现方式中,上述将上述目标脸部图像和上述目标眼部图像输入视
线方向估计模型中,输出上述目标对象的第一目标视线方向之后,上述方法还包括:
35.基于上述预设透视变换矩阵的逆矩阵计算上述第一目标视线方向在上述相机坐标系下的第二目标视线方向。
36.第二方面,本说明书实施例提供了一种视线方向估计装置,包括:
37.获取模块,用于基于目标对象对应的目标图像获取目标脸部图像和目标眼部图像;
38.视线方向估计模块,用于将上述目标脸部图像和上述目标眼部图像输入视线方向估计模型中,输出上述目标对象的第一目标视线方向;上述视线方向估计模型基于已知视线方向和眼部状态的多个样本图像各自对应的样本脸部图像和样本眼部图像进行训练得到。
39.在一种可能的实现方式中,上述视线方向估计模块包括:
40.提取单元,用于提取上述目标脸部图像对应的目标脸部特征,并提取上述目标眼部图像对应的目标眼部特征;
41.第一确定单元,用于基于上述目标眼部特征确定上述目标眼部图像对应的眼部状态;
42.加权单元,用于基于上述眼部状态对上述目标眼部特征进行加权得到上述目标眼部图像对应的目标眼部状态监督特征;
43.融合单元,用于将上述目标脸部特征以及上述目标眼部状态监督特征进行融合,得到目标融合特征;
44.第一估计单元,用于基于上述目标融合特征估计上述目标对象的第一目标视线方向。
45.在一种可能的实现方式中,上述目标眼部图像包括目标左眼图像和目标右眼图像;
46.上述提取单元具体用于:分别提取上述目标左眼图像对应的目标左眼特征和上述目标右眼图像对应的目标右眼特征;
47.上述第一确定单元具体用于:基于上述目标左眼特征确定上述目标左眼图像对应的左眼状态,以及上述目标右眼特征基于上述目标右眼图像对应的右眼状态;
48.上述加权单元具体用于:基于上述目标左眼图像对应的左眼状态对上述目标左眼特征进行加权得到上述目标左眼图像对应的目标左眼状态监督特征,以及基于上述目标右眼图像对应的右眼状态对上述目标右眼特征进行加权得到上述目标右眼图像对应的目标右眼状态监督特征;
49.上述融合单元具体用于:将上述目标脸部特征、上述目标左眼状态监督特征以及上述目标右眼状态监督特征进行融合,得到目标融合特征。
50.在一种可能的实现方式中,上述视线方向估计模型包括:脸部图像视线方向估计网络、眼部图像视线方向估计网络以及特征融合视线方向估计网络;
51.上述脸部图像视线方向估计网络,用于提取输入上述视线方向估计模型的脸部图像中的脸部特征;
52.上述眼部图像视线方向估计网络,用于提取输入上述视线方向估计模型的眼部图像的眼部特征,并基于上述眼部特征确定上述眼部图像对应的眼部状态;
53.上述特征融合视线方向估计网络,用于基于上述眼部图像对应的眼部状态将上述眼部特征与上述脸部特征进行融合得到融合特征,并基于上述融合特征估计上述脸部图像以及上述眼部图像对应的对象的视线方向。
54.在一种可能的实现方式中,上述眼部状态包括睁闭眼状态和/或遮挡状态;上述睁闭眼状态包括睁眼状态和闭眼状态;上述遮挡状态包括未遮挡状态和已遮挡状态。
55.在一种可能的实现方式中,上述脸部图像视线方向估计网络基于已知视线方向多个样本图像各自对应的样本脸部图像进行训练得到;
56.上述眼部图像视线方向估计网络基于已知视线方向和眼部状态的多个样本图像各自对应的样本眼部图像进行训练得到;
57.上述特征融合视线方向估计网络基于上述多个样本图像各自对应的样本脸部图像经由上述脸部图像视线方向估计网络得到的脸部特征、上述多个样本图像各自对应的样本眼部图像经由上述眼部图像视线方向估计网络得到的眼部特征和眼部状态、以及上述多个样本图像各自对应的视线方向进行训练得到。
58.在一种可能的实现方式中,上述获取模块包括:
59.第二确定单元,用于基于目标对象对应的目标图像利用脸部检测算法以及关键点检测算法分别确定上述目标对象在头部坐标系下的第一脸部位置信息以及第一关键点位置信息;
60.坐标转换单元,用于根据上述第一脸部位置信息以及上述第一关键点位置信息利用预设坐标转换算法得到上述目标图像对应的相机坐标系下的第一脸部图像和第一眼部图像;
61.矫正处理单元,用于基于预设透视变换矩阵对上述第一脸部图像和上述第一眼部图像进行矫正处理,得到目标脸部图像和目标眼部图像。
62.在一种可能的实现方式中,上述视线方向估计装置还包括:
63.计算模块,用于基于上述预设透视变换矩阵的逆矩阵计算上述第一目标视线方向在上述相机坐标系下的第二目标视线方向。
64.第三方面,本说明书实施例提供了一种电子设备,包括:处理器以及存储器;
65.上述处理器与上述存储器相连;
66.上述存储器,用于存储可执行程序代码;
67.上述处理器通过读取上述存储器中存储的可执行程序代码来运行与上述可执行程序代码对应的程序,以用于执行本说明书实施例第一方面或第一方面的任意一种可能的实现方式提供的方法。
68.第四方面,本说明书实施例提供了一种计算机存储介质,上述计算机存储介质存储有多条指令,上述指令适于由处理器加载并执行本说明书实施例第一方面或第一方面的任意一种可能的实现方式提供的方法。
69.第五方面,本说明书实施例提供了一种包含指令的计算机程序产品,当上述计算机程序产品在计算机或处理器上运行时,使得上述计算机或上述处理器执行本说明书实施例第一方面或第一方面的任意一种可能的实现方式提供的视线方向估计方法。
70.本说明书实施例通过基于目标对象对应的目标图像获取目标脸部图像和目标眼部图像,并将目标脸部图像和目标眼部图像输入视线方向估计模型中,输出目标对象的第
一目标视线方向,视线方向估计模型基于已知视线方向和眼部状态的多个样本图像各自对应的样本脸部图像和样本眼部图像进行训练得到。本说明书实施例通过视线方向估计模型的端到端学习方式,能够更加便捷地实现视线方向估计。一方面,由于视线方向估计模型不单单只是根据脸部图像进行训练,而是结合了脸部图像和眼部图像共同进行训练的,相比于只用脸部图像进行训练而言,结合脸部图像和眼部图像共同训练的视线方向估计模型能够提高视线方向估计的准确性,从而在刷脸支付场景中,可以通过估计出的更加准确的视线方向避免盗刷或误刷的情况,提高刷脸支付的安全性,在医疗场景中,可以通过估计出的更加准确的视线方向检测和诊断精神类或心理类的等的疾病,或为一些病人提供便利,如可以辅助渐冻症患者完成一些日常活动等;另一方面,视线方向估计模型也不单单只是根据已知视线方向脸部图像和眼部图像进行训练,而是还结合了眼部状态在进行视线方向估计时对脸部图像和眼部图像各自的贡献进行了更加精确地分析,从而使得视线方向估计更具鲁棒性。
附图说明
71.为了更清楚地说明本说明书实施例中的技术方案,下面将对实施例中所需使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
72.图1为本说明书一示例性实施例提供的一种视线方向估计系统的架构示意图;
73.图2为本说明书一示例性实施例提供的一种视线方向估计方法的运用场景示意图;
74.图3为本说明书一示例性实施例提供的一种视线方向估计方法的流程示意图;
75.图4为本说明书一示例性实施例提供的一种获取目标脸部图像和目标眼部图像的实现流程示意图;
76.图5为本说明书一示例性实施例提供的一种估计目标对象的第一目标视线方向的实现流程示意图;
77.图6为本说明书一示例性实施例提供的一种视线方向估计模型的结构示意图;
78.图7为本说明书一示例性实施例提供的另一种视线方向估计模型的结构示意图;
79.图8为本说明书一示例性实施例提供的一种视线方向估计方法的实现过程示意图;
80.图9为本说明书一示例性实施例提供的一种视线方向估计装置的结构示意图;
81.图10为本说明书一示例性实施例提供的一种电子设备的结构示意图。
具体实施方式
82.下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述。
83.本说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备
没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
84.请参考图1,图1为本说明书一示例性实施例提供的一种视线方向估计系统的架构示意图。如图1所示,视线方向估计系统可以包括:图像采集设备110和服务器120。其中:
85.图像采集设备110可以是安装有用户版软件和摄像头的手机、平板电脑、笔记本电脑等设备,也可以是相机或安装有摄像头的其它设备等,本说明书实施例对此不作限定。
86.可选地,当想要了解目标对象的视线方向时,可以通过图像采集设备110采集目标对象对应的目标图像。同时,图像采集设备110可以基于目标对象对应的目标图像获取目标脸部图像和目标眼部图像,将目标脸部图像和目标眼部图像输入视线方向估计模型中,输出目标对象的第一目标视线方向,视线方向估计模型基于已知视线方向和眼部状态的多个样本图像各自对应的样本脸部图像和样本眼部图像进行训练得到。
87.可选地,在通过图像采集设备110采集目标对象对应的目标图像之后,图像采集设备110也可以建立与网络之间的数据关系,并通过该网络和服务器120建立数据连接关系,例如发送目标对象对应的目标图像、接收服务器120基于目标对象对应的目标图像估计的目标对象的第一目标视线方向等。
88.服务器120可以是能提供多种视线方向估计的服务器,可以通过网络接收图像采集设备110发送的目标对象对应的目标图像等数据,并基于目标对象对应的目标图像获取目标脸部图像和目标眼部图像,将目标脸部图像和目标眼部图像输入视线方向估计模型中,输出目标对象的第一目标视线方向,视线方向估计模型基于已知视线方向和眼部状态的多个样本图像各自对应的样本脸部图像和样本眼部图像进行训练得到。
89.服务器120还可以给图像采集设备110或目标对象对应的终端发送目标对象的第一目标视线方向,以使用户能够在安装的用户版软件通过目标对象的视线方向及时了解到目标对象的注意力,理解目标对象的意图。服务器120可以但不限于是硬件服务器、虚拟服务器、云服务器等。
90.网络可以是在服务器120和任意一个图像采集设备110之间提供通信链路的介质,也可以是包含网络设备和传输介质的互联网,不限于此。传输介质可以是有线链路(例如但不限于,同轴电缆、光纤和数字用户线路(digital subscriber line,dsl)等)或无线链路(例如但不限于,无线上网(wireless fidelity,wifi)、蓝牙和移动设备网络等)。
91.示例性地,图1中的图像采集设备110可以是图2中的刷脸设备210,在使用刷脸设备210进行刷脸支付的场景中,可能会存在一些不法人员利用刷脸设备210在他人不注意情况下盗刷他人的脸部的情况,或者在刷脸设备210的前方可能站着多个用户,即刷脸设备210采集的刷脸图像中出现多个用户时,可能会存在用户a启用刷脸,而误刷用户b的情况,从而容易导致刷脸支付安全性舆情的发生,由于实际有刷脸支付意愿的用户的注视点与没有刷脸支付意愿的用户的注视点存在较大差别,为了解决上述问题,在通过刷脸设备210的摄像头211采集到用户220(目标对象)的刷脸图像(目标图像)之后,可以通过本说明书实施例提供的基于眼部状态及脸部图像端到端式的视线方向估计方法实现对用户220眼部状态鲁棒的视线方向估计,并基于估计出的视线方向分析出用户220的是否在注视刷脸设备210或刷脸设备210的摄像头211,从而通过提高视线方向估计的准确性与鲁棒性进一步提高刷脸支付的安全性,极大地避免了刷脸支付时盗刷或误刷的情况。
92.可以理解地,图2所示的刷脸设备210可以是安装有摄像头的手机、电脑等,也可以是线下iot机等,本说明书实施例对此不作限定。
93.示例性地,在人机交互的场景中,从手机、电脑等电子设备使用安全的角度考虑,当用户的眼神或者目光停留在屏幕的时候才会开启解锁等功能,即可以通过本说明书实施例提供的基于眼部状态及脸部图像端到端式的视线方向估计方法去实现对用户眼部状态鲁棒的视线方向估计,从而能够更加便捷高效地与电子设备进行交互,实现通过估计用户(目标对象)的视线方向,检测用户有没有看电子设备来做下一步判断,是否需要解锁或者做脸部对比等。
94.示例性地,在虚拟现实技术(virtual reality,vr)的场景中,可以通过头盔内置图像采集设备110(摄像头)采集用户对应的目标图像,并基于目标对象对应的目标图像获取目标脸部图像和目标眼部图像,然后将目标脸部图像和目标眼部图像输入基于已知视线方向和眼部状态的多个样本图像各自对应的样本脸部图像和样本眼部图像进行训练得到的视线方向估计模型中,从而便捷准确地估计出用户的视线方向,实现对用户注视范围内的场景进行精细渲染,大大降低vr的硬件成本。
95.示例性地,在医疗场景中,可以通过图1所示的视线方向估计系统对患者眼部状态鲁棒的视线方向估计,既可以更加准确便捷的检测和诊断精神类或心理类的等的疾病,又可以为一些病人提供便利,如可以辅助渐冻症患者完成一些日常活动。
96.可以理解地,图1所示的视线方向估计系统还可以运用于辅助驾驶场景、辅助教学、线下零售场景等多种场景中,本说明书实施例对此不作限定。
97.可以理解地,图1所示的视线方向估计系统中的图像采集设备110和服务器120的数目仅作为示例,在具体实现中,该视线方向估计系统中可以包含任意数目的图像采集设备和服务器,本说明书实施例对此不作具体限定。例如但不限于,图像采集设备110可以是多个图像采集设备组成的图像采集设备集群,服务器120可以是多个服务器组成的服务器集群。
98.接下来结合图1,以由图像采集设备110执行视线方向估计为例,介绍本说明书实施例提供的视线方向估计方法。具体请参考图3,其为本说明书一示例性实施例提供的一种视线方向估计方法的流程示意图。如图3所示,该视线方向估计方法包括以下几个步骤:
99.s302,基于目标对象对应的目标图像获取目标脸部图像和目标眼部图像。
100.具体地,当想要估计目标对象的视线方向时,可以先通过图像采集设备110采集目标对象对应的目标图像,目标图像中包括了目标对象的脸部。为了能够更加准确地估计出目标对象的视线方向,图像采集设备110在采集到目标对象对应的目标图像之后,可以从目标图像中获取目标对象的目标脸部图像和目标眼部图像,通过根据目标对象的脸部和眼部状态共同估计视线方向,既能够更加鲁棒的实现视线方向估计,又能够确保视线方向估计的准确度。
101.可以理解地,目标对象可以是人、也可以是具有眼部和脸部的动物或其它有视觉的物体等,本说明书对此不作限定。
102.可选地,图像采集设备110采集的目标图像中目标对象对应的位置信息会对视线方向的估计产生影响,例如目标图像中的目标对象倾斜或发生形变时,若直接从目标图像中截取目标脸部图像和目标眼部图像估计视线方向,最终估计的视线方向将会与现实世界
中目标对象的视线方向产生较大地差异,从而出现视线方向估计准确率较低的情况,为了解决上述问题,如图4所示,s302中获取目标脸部图像和目标眼部图像的实现流程可以包括以下几个步骤:
103.s402,基于目标对象对应的目标图像利用脸部检测算法以及关键点检测算法分别确定目标对象在头部坐标系下的第一脸部位置信息以及第一关键点位置信息。
104.具体地,图像采集设备110在采集到目标对象对应的目标图像之后,可以利用脸部检测算法检测到目标对象的脸部所在的区域,从而确定其在目标对象对应的头部坐标系下的第一脸部位置信息,以及利用关键点检测算法定位目标对象的脸部在目标图像中的关键特征点,从而确定目标对象在头部坐标系下的第一关键点位置信息。上述头部坐标系可以是以目标对象的头部为中心建立的三维空间坐标系。
105.具体地,上述脸部检测算法可以是基于特征的脸部检测算法、基于模板匹配脸部检测算法或者其它的脸部检测算法等,本说明书实施例对此不作限定。上述基于特征的脸部检测算法通过采用颜色、轮廓、纹理、结构或者直方图特征等进行脸部检测;上述基于模板匹配脸部检测算法通过从数据库中提取与采集的目标图像相匹配的脸部模板,从而根据所匹配的脸部模板大小确定目标图像中目标对象的脸部大小以及位置信息。
106.可以理解地,上述第一脸部位置信息所表示的目标对象的脸部区域可以是矩形、圆形等规则区域,也可以是任意不规则区域,本说明书实施例对此不作限定。
107.可以理解地,上述第一关键点位置信息可以包括一个或多个第一关键点对应的头部坐标系下的位置信息,本说明实施例对此不作限定。在一定程度上,上述第一关键点位置信息包括的第一关键点的数量越多,最后获取的目标脸部图像和目标眼部图像的质量就越高,视线方向估计的准确率就越高。
108.s404,根据第一脸部位置信息以及第一关键点位置信息利用预设坐标转换算法得到目标图像对应的相机坐标系下的第一脸部图像和第一眼部图像。
109.具体地,可以先基于第一关键点位置信息通过预设坐标转换算法确定头部坐标系在相机坐标系中的表示,即平移向量和转换旋转矩阵,并基于上述平移向量和转换旋转矩阵根据第一脸部位置信息以及第一关键点位置信息裁剪出目标图像对应的相机坐标系下的第一脸部图像和第一眼部图像。上述相机坐标系可以是以相机为中心建立的三维空间坐标系。上述预设坐标转换算法,用于将目标图像中头部坐标系下的点转换至相机坐标系下,可以包括pnp(perspective-n-point)等,本说明书实施例对此不作限定。
110.s406,基于预设透视变换矩阵对第一脸部图像和第一眼部图像进行矫正处理,得到目标脸部图像和目标眼部图像。
111.具体地,为了避免第一脸部图像和第一眼部图像中脸部和眼部的位置倾斜或发生形变等对视线方向估计的准确率的影响,图像采集设备110可以基于预设透视变换矩阵对第一脸部图像和第一眼部图像进行矫正处理,得到归一化图像采集设备110(相机)中的目标脸部图像和目标眼部图像,从而进一步提供视线方向估计的准确率。
112.示例性地,预设透视变换矩阵其中dn表示
距离参数,er表示平移向量,r表示矫正旋转矩阵,cr表示图像采集设备110(相机)内参矩阵,cn表示归一化相机对应的归一化相机内参矩阵。
113.s304,将目标脸部图像和目标眼部图像输入视线方向估计模型中,输出目标对象的第一目标视线方向,视线方向估计模型基于已知视线方向和眼部状态的多个样本图像各自对应的样本脸部图像和样本眼部图像进行训练得到。
114.具体地,眼部状态包括睁闭眼状态和/或遮挡状态,睁闭眼状态包括睁眼状态和闭眼状态,遮挡状态包括未遮挡状态和已遮挡状态。本说明书实施例通过视线方向估计模型的端到端学习方式,能够更加便捷地实现视线方向估计。一方面,由于视线方向估计模型不单单只是根据脸部图像进行训练,而是结合了脸部图像和眼部图像共同进行训练的,相比于只用脸部图像进行训练而言,结合脸部图像和眼部图像共同训练的视线方向估计模型能够提高视线方向估计的准确性,从而在刷脸支付场景中,可以通过估计出的更加准确的视线方向避免盗刷或误刷的情况,提高刷脸支付的安全性,在医疗场景中,可以通过估计出的更加准确的视线方向检测和诊断精神类或心理类的等的疾病,或为一些病人提供便利,如可以辅助渐冻症患者完成一些日常活动等;另一方面,视线方向估计模型也不单单只是根据已知视线方向脸部图像和眼部图像进行训练,而是还结合了眼部状态在进行视线方向估计时对脸部图像和眼部图像各自的贡献进行了更加精确地分析,从而使得视线方向估计更具鲁棒性。
115.可选地,由于目标脸部图像和目标眼部图像都是经过预设透视变换矩阵进行矫正之后的图像,并非真实世界的相机坐标系下的图像,因此,为了能够得到真实世界的相机坐标系下的视线方向,在视线方向估计模型输出目标对象的第一目标视线方向之后,还可以基于预设透视变换矩阵的逆矩阵计算第一目标视线方向在相机坐标系下的第二目标视线方向。
116.具体地,如图5所示,上述s304中视线方向估计模型估计目标对象的第一目标视线方向的实现流程可以包括以下几个步骤:
117.s502,提取目标脸部图像对应的目标脸部特征,并提取目标眼部图像对应的目标眼部特征。
118.可选地,目标眼部图像可以包括目标左眼图像和目标右眼图像,在提取目标眼部图像对应的目标眼部特征时,可以分别提取目标左眼图像对应的目标左眼特征和目标右眼图像对应的目标右眼特征。
119.可选地,单张目标眼部图像也可以直接包括目标对象的双眼,从而提取目标眼部图像对应的目标对象的双眼特征集合,本说明书实施例对此不作限定。
120.s504,基于目标眼部特征确定目标眼部图像对应的眼部状态。
121.具体地,眼部状态包括睁闭眼状态和/或遮挡状态,睁闭眼状态包括睁眼状态和闭眼状态,遮挡状态包括未遮挡状态和已遮挡状态。
122.具体地,为了能够自主选择眼部特征进行视线方向估计,图像采集设备110可以先根据目标眼部特征确定目标眼部图像中目标对象的眼部处于睁眼状态和/或闭眼状态的概率,和/或处于未遮挡状态和/或已遮挡状态的概率,即眼部状态,为实现根据目标对象眼部所处的睁闭眼状态和/或遮挡状态等情况自主选择眼部特征进行视线方向估计提供选择依据。
123.可选地,目标眼部图像包括目标左眼图像和目标右眼图像时,图像采集设备110可以基于目标左眼特征确定目标左眼图像对应的左眼状态,以及目标右眼特征基于目标右眼图像对应的右眼状态,左眼状态和右眼状态均包括睁闭眼状态和/或遮挡状态。
124.s506,基于眼部状态对目标眼部特征进行加权得到目标眼部图像对应的目标眼部状态监督特征。
125.具体地,在通过眼部特征和脸部特征进行视线方向估计时,为了提高视线方向估计的准确率,不同的眼部状态对应的眼部特征的权重应该有所不同,例如目标对象闭眼时应该减小眼部特征在视线方向估计中所占的权重等,因此,图像采集设备110在通过目标眼部特征和目标脸部特征进行视线方向估计之前,可以先基于眼部状态对目标眼部特征进行加权,即将眼部状态与目标眼部特征相乘,以根据眼部状态改变眼部特征在视线方向估计中所占的权重,得到目标眼部图像对应的目标眼部状态监督特征。
126.可选地,目标眼部图像包括目标左眼图像和目标右眼图像时,图像采集设备110可以基于目标左眼图像对应的左眼状态对目标左眼特征进行加权得到目标左眼图像对应的目标左眼状态监督特征,以及基于目标右眼图像对应的右眼状态对目标右眼特征进行加权得到目标右眼图像对应的目标右眼状态监督特征。
127.s508,将目标脸部特征以及目标眼部状态监督特征进行融合,得到目标融合特征。
128.具体地,可以先将目标脸部特征以及目标眼部状态监督特征进行拼接,然后通过融合卷积网络对拼接后的目标脸部特征以及目标眼部状态监督特征进行融合,从而得到目标融合特征。
129.可选地,目标眼部图像包括目标左眼图像和目标右眼图像,即目标眼部状态监督特征包括目标左眼状态监督特征和目标右眼状态监督特征时,可以将目标脸部特征、目标左眼状态监督特征以及目标右眼状态监督特征进行融合,得到目标融合特征。
130.s510,基于目标融合特征估计目标对象的第一目标视线方向。
131.具体地,可以根据目标脸部特征以及目标眼部状态监督特征得到目标融合特征估计出目标对象的第一目标视线方向,从而实现根据目标对象眼部所处的睁闭眼状态和/或遮挡状态等情况自动调整眼部特征参与视线方向估计的权重,使得进行视线方向估计的过程中更依赖于脸部特征和高质量(睁眼、非遮挡)的眼部特征,从而在眼部遮挡、闭眼等情况下能够实现鲁棒的视线方向估计,进一步确保视线方向估计的准确率。
132.请参考图6,其为本说明书一示例性实施例提供的一种视线方向估计模型的结构示意图。如图6所示,s304中的视线方向估计模型包括:脸部图像视线方向估计网络610、眼部图像视线方向估计网络620以及特征融合视线方向估计网络630。其中:
133.脸部图像视线方向估计网络610,用于提取输入视线方向估计模型的脸部图像中的脸部特征。
134.具体地,脸部图像视线方向估计网络610基于已知视线方向多个样本图像各自对应的样本脸部图像进行训练得到。
135.可选地,脸部图像视线方向估计网络610在提取输入视线方向估计模型的脸部图像中的脸部特征之后,还可以基于上述脸部特征输出输入视线方向估计模型的脸部图像的对象的第一视线方向。
136.眼部图像视线方向估计网络620,用于提取输入视线方向估计模型的眼部图像的
眼部特征,并基于眼部特征确定眼部图像对应的眼部状态。
137.具体地,眼部图像视线方向估计网络620基于已知视线方向和眼部状态的多个样本图像各自对应的样本眼部图像进行训练得到。
138.可选地,眼部图像视线方向估计网络620在提取输入视线方向估计模型的眼部图像的眼部特征之后,还可以基于上述眼部特征输出输入视线方向估计模型的脸部图像的对象的第二视线方向。
139.特征融合视线方向估计网络630,用于基于眼部图像对应的眼部状态将眼部特征与脸部特征进行融合得到融合特征,并基于融合特征估计脸部图像以及眼部图像对应的对象的视线方向。
140.具体地,特征融合视线方向估计网络630基于多个样本图像各自对应的样本脸部图像经由脸部图像视线方向估计网络得到的脸部特征、多个样本图像各自对应的样本眼部图像经由眼部图像视线方向估计网络得到的眼部特征和眼部状态、以及多个样本图像各自对应的视线方向进行训练得到。
141.可以理解地,图6所示的视线方向估计模型的训练方式可以是基于已知视线方向的多个样本图像各自对应的样本脸部图像和样本眼部图像直接进行整体训练,也可以是先基于已知视线方向的多个样本图像各自对应的样本脸部图像训练脸部图像视线方向估计网络610和上述多个样本图像各自对应的已知视线方向和眼部状态的样本眼部图像训练视线方向估计网络620,然后再基于已知视线方向的多个样本图像各自对应的样本脸部图像和样本眼部图像,以及训练好的脸部图像视线方向估计网络610和眼部图像视线方向估计网络620训练特征融合视线方向估计网络630,本说明书实施例对此不作限定。
142.可选地,除了直接将视线方向估计模型输出的视线方向,即特征融合视线方向估计网络630基于融合特征估计的视线方向确定为脸部图像以及眼部图像对应的对象的最终视线方向之外,还可以结合脸部图像视线方向估计网络610输出的第一视线方向、眼部图像视线方向估计网络620输出的第二视线方向以及特征融合视线方向估计网络630基于融合特征估计的视线方向三者之间共同确定输入视线方向估计模型的脸部图像以及眼部图像的对象的最终视线方向,本说明书实施例对此不作限定。
143.可选地,当输入视线方向估计模型的脸部图像包括左眼图像和右眼图像,眼部状态包括睁闭眼状态和遮挡状态时,如图7所示,s304中的视线方向估计模型包括:脸部图像视线方向估计网络、左眼图像视线方向估计网络、右眼图像视线方向估计网络以及特征融合视线方向估计网络。其中:
144.脸部图像视线方向估计网络可以通过脸部特征提取模块提取出输入视线方向估计模型的脸部图像对应的脸部特征,并通过全连接层根据脸部特征输出脸部图像的对象的第一视线方向。
145.可选地,脸部图像视线方向估计网络的损失函数l
fn
可以为:
[0146][0147]
其中,表示脸部图像视线方向估计网络估计的样本脸部图像的对象的第一视
线方向;gn表示样本眼部图像对应的视线方向;表示的范数;||gn||表示gn的范数;
·
表示数量积运算。
[0148]
左眼图像视线方向估计网络可以通过左眼特征提取模块提取出输入视线方向估计模型的左眼图像对应的左眼特征,并通过全连接层根据左眼特征输出左眼图像的对象的第二视线方向,以及通过全连接层和激活函数基于左眼特征分别得到左眼图像对应的睁闭眼状态和遮挡状态。
[0149]
可选地,左眼图像视线方向估计网络的损失函数l
le
可以为:
[0150][0151]
其中,表示左眼图像视线方向估计网络估计的样本左眼图像的对象的第二视线方向;表示的范数;y
ls
表示样本左眼图像对应的真实睁闭眼状态;y
lo
表示样本左眼图像对应的真实遮挡状态;表示左眼图像视线方向估计网络基于左眼特征估计的样本左眼图像的睁闭眼状态;表示左眼图像视线方向估计网络基于左眼特征估计的样本左眼图像的遮挡状态。
[0152]
右眼图像视线方向估计网络可以通过右眼特征提取模块提取出输入视线方向估计模型的右眼图像对应的右眼特征,并通过全连接层根据右眼特征输出右眼图像的对象的第二视线方向,以及通过全连接层和激活函数基于右眼特征分别得到右眼图像对应的睁闭眼状态和遮挡状态。
[0153]
可选地,右眼图像视线方向估计网络的损失函数l
re
可以为:
[0154][0155]
其中,表示右眼图像视线方向估计网络估计的样本右眼图像的对象的第二视线方向;表示的范数;y
rs
表示样本右眼图像对应的真实睁闭眼状态;y
ro
表示样本右眼图像对应的真实遮挡状态;表示右眼图像视线方向估计网络基于右眼特征估计的样本右眼图像的睁闭眼状态;表示右眼图像视线方向估计网络基于右眼特征估计的样本右眼图像的遮挡状态。
[0156]
特征融合视线方向估计网络可以先将左眼特征以及对应的睁闭眼状态和遮挡状态相乘,得到左眼状态监督特征,将右眼特征以及对应的睁闭眼状态和遮挡状态相乘,得到右眼状态监督特征,然后再将脸部特征、左眼状态监督特征和右眼状态监督特征相加,得到融合特征,最后通过全连接层根据融合特征输出脸部图像、左眼图像以及右眼图像的对象的目标视线方向。
[0157]
可选地,特征融合视线方向估计网络的损失函数l
fusion
可以为:
[0158]
[0159]
其中,表示特征融合视线方向估计网络估计的样本脸部图像、样本右眼图像以及样本右眼图像的对象的目标视线方向;表示的范数。
[0160]
可选地,图7所示视线方向估计模型图的总损失函数l可以为:
[0161]
l=l
fusion
+αl
fn
+β(l
le
+l
re
);其中,α、β为权重参数。
[0162]
可以理解地,在进行视线方向估计时,输入图7所示的视线方向估计模型中的脸部图像、左眼图像以及右眼图像基于同一个对象的同一张包括该对象脸部的图像得到。
[0163]
可以理解地,本说明书实施例提供的视线方向估计模型不限于图6和图7所示的结构,也可以具有其它结构。
[0164]
可以理解地,本说明书实施例提供的视线方向估计方法中估计目标对象的视线方向的方式不限于通过视线方向估计模型实现,也可以通过图8所示的视线方向估计的全部或部分过程或者其它类似的过程得到目标对象的目标视线方向。
[0165]
请参考图9,图9为本说明书一示例性实施例提供的一种视线方向估计装置。该视线方向估计装置900包括:
[0166]
获取模块910,用于基于目标对象对应的目标图像获取目标脸部图像和目标眼部图像;
[0167]
视线方向估计模块920,用于将上述目标脸部图像和上述目标眼部图像输入视线方向估计模型中,输出上述目标对象的第一目标视线方向;上述视线方向估计模型基于已知视线方向和眼部状态的多个样本图像各自对应的样本脸部图像和样本眼部图像进行训练得到。
[0168]
在一种可能的实现方式中,上述视线方向估计模块920包括:
[0169]
提取单元,用于提取上述目标脸部图像对应的目标脸部特征,并提取上述目标眼部图像对应的目标眼部特征;
[0170]
第一确定单元,用于基于上述目标眼部特征确定上述目标眼部图像对应的眼部状态;
[0171]
加权单元,用于基于上述眼部状态对上述目标眼部特征进行加权得到上述目标眼部图像对应的目标眼部状态监督特征;
[0172]
融合单元,用于将上述目标脸部特征以及上述目标眼部状态监督特征进行融合,得到目标融合特征;
[0173]
第一估计单元,用于基于上述目标融合特征估计上述目标对象的第一目标视线方向。
[0174]
在一种可能的实现方式中,上述目标眼部图像包括目标左眼图像和目标右眼图像;
[0175]
上述提取单元具体用于:分别提取上述目标左眼图像对应的目标左眼特征和上述目标右眼图像对应的目标右眼特征;
[0176]
上述第一确定单元具体用于:基于上述目标左眼特征确定上述目标左眼图像对应的左眼状态,以及上述目标右眼特征基于上述目标右眼图像对应的右眼状态;
[0177]
上述加权单元具体用于:基于上述目标左眼图像对应的左眼状态对上述目标左眼特征进行加权得到上述目标左眼图像对应的目标左眼状态监督特征,以及基于上述目标右
眼图像对应的右眼状态对上述目标右眼特征进行加权得到上述目标右眼图像对应的目标右眼状态监督特征;
[0178]
上述融合单元具体用于:将上述目标脸部特征、上述目标左眼状态监督特征以及上述目标右眼状态监督特征进行融合,得到目标融合特征。
[0179]
在一种可能的实现方式中,上述视线方向估计模型包括:脸部图像视线方向估计网络、眼部图像视线方向估计网络以及特征融合视线方向估计网络;
[0180]
上述脸部图像视线方向估计网络,用于提取输入上述视线方向估计模型的脸部图像中的脸部特征;
[0181]
上述眼部图像视线方向估计网络,用于提取输入上述视线方向估计模型的眼部图像的眼部特征,并基于上述眼部特征确定上述眼部图像对应的眼部状态;
[0182]
上述特征融合视线方向估计网络,用于基于上述眼部图像对应的眼部状态将上述眼部特征与上述脸部特征进行融合得到融合特征,并基于上述融合特征估计上述脸部图像以及上述眼部图像对应的对象的视线方向。
[0183]
在一种可能的实现方式中,上述眼部状态包括睁闭眼状态和/或遮挡状态;上述睁闭眼状态包括睁眼状态和闭眼状态;上述遮挡状态包括未遮挡状态和已遮挡状态。
[0184]
在一种可能的实现方式中,上述脸部图像视线方向估计网络基于已知视线方向多个样本图像各自对应的样本脸部图像进行训练得到;
[0185]
上述眼部图像视线方向估计网络基于已知视线方向和眼部状态的多个样本图像各自对应的样本眼部图像进行训练得到;
[0186]
上述特征融合视线方向估计网络基于上述多个样本图像各自对应的样本脸部图像经由上述脸部图像视线方向估计网络得到的脸部特征、上述多个样本图像各自对应的样本眼部图像经由上述眼部图像视线方向估计网络得到的眼部特征和眼部状态、以及上述多个样本图像各自对应的视线方向进行训练得到。
[0187]
在一种可能的实现方式中,上述获取模块910包括:
[0188]
第二确定单元,用于基于目标对象对应的目标图像利用脸部检测算法以及关键点检测算法分别确定上述目标对象在头部坐标系下的第一脸部位置信息以及第一关键点位置信息;
[0189]
坐标转换单元,用于根据上述第一脸部位置信息以及上述第一关键点位置信息利用预设坐标转换算法得到上述目标图像对应的相机坐标系下的第一脸部图像和第一眼部图像;
[0190]
矫正处理单元,用于基于预设透视变换矩阵对上述第一脸部图像和上述第一眼部图像进行矫正处理,得到目标脸部图像和目标眼部图像。
[0191]
在一种可能的实现方式中,上述视线方向估计装置900还包括:
[0192]
计算模块,用于基于上述预设透视变换矩阵的逆矩阵计算上述第一目标视线方向在上述相机坐标系下的第二目标视线方向。
[0193]
上述视线方向估计装置中各模块的划分仅用于举例说明,在其他实施例中,可将视线方向估计装置按照需要划分为不同的模块,以完成上述视线方向估计装置的全部或部分功能。本说明书实施例中提供的视线方向估计装置中的各个模块的实现可为计算机程序的形式。该计算机程序可在终端或服务器上运行。该计算机程序构成的程序模块可存储在
终端或服务器的存储器上。该计算机程序被处理器执行时,实现本说明书实施例中所描述的视线方向估计方法的全部或部分步骤。
[0194]
请参阅图10,图10为本说明书一示例性实施例提供的一种电子设备的结构示意图。如图10所示,该电子设备1000可以包括:至少一个处理器1010、至少一个通信总线1020、用户接口1030、至少一个网络接口1040、存储器1050。其中,通信总线1020可用于实现上述各个组件的连接通信。
[0195]
其中,用户接口1030可以包括显示屏(display)和摄像头(camera),可选用户接口还可以包括标准的有线接口、无线接口。
[0196]
其中,网络接口1040可选的可以包括蓝牙模块、近场通信(near field communication,nfc)模块、无线保真(wireless fidelity,wi-fi)模块等。
[0197]
其中,处理器1010可以包括一个或者多个处理核心。处理器1010利用各种接口和线路连接整个电子设备1000内的各个部分,通过运行或执行存储在存储器1050内的指令、程序、代码集或指令集,以及调用存储在存储器1050内的数据,执行路由电子设备1000的各种功能和处理数据。可选的,处理器1010可以采用数字信号处理(digital signal processing,dsp)、现场可编程门阵列(field-programmable gate array,fpga)、可编程逻辑阵列(programmable logic array,pla)中的至少一种硬件形式来实现。处理器1010可集成处理器(central processing unit,cpu)、图像处理器(graphics processing unit,gpu)和调制解调器等中的一种或几种的组合。其中,cpu主要处理操作系统、用户界面和应用程序等;gpu用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器1010中,单独通过一块芯片进行实现。
[0198]
其中,存储器1050可以包括随机存储器(random access memory,ram),也可以包括只读存储器(read-only memory,rom)。可选的,该存储器1050包括非瞬时性计算机可读介质。存储器1050可用于存储指令、程序、代码、代码集或指令集。存储器1050可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如获取功能、视线方向估计功能、提取功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1050可选的还可以是至少一个位于远离前述处理器1010的存储装置。如图10所示,作为一种计算机存储介质的存储器1050中可以包括操作系统、网络通信模块、用户接口模块以及程序指令。
[0199]
具体地,处理器1010可以用于调用存储器1050中存储的程序指令,并具体执行以下操作:
[0200]
基于目标对象对应的目标图像获取目标脸部图像和目标眼部图像。
[0201]
将上述目标脸部图像和上述目标眼部图像输入视线方向估计模型中,输出上述目标对象的第一目标视线方向;上述视线方向估计模型基于已知视线方向和眼部状态的多个样本图像各自对应的样本脸部图像和样本眼部图像进行训练得到。
[0202]
在一些可能的实施例中,上述处理器1010执行将上述目标脸部图像和上述目标眼部图像输入视线方向估计模型中,输出上述目标对象的第一目标视线方向时,具体用于执行:
[0203]
提取上述目标脸部图像对应的目标脸部特征,并提取上述目标眼部图像对应的目
标眼部特征。
[0204]
基于上述目标眼部特征确定上述目标眼部图像对应的眼部状态。
[0205]
基于上述眼部状态对上述目标眼部特征进行加权得到上述目标眼部图像对应的目标眼部状态监督特征。
[0206]
将上述目标脸部特征以及上述目标眼部状态监督特征进行融合,得到目标融合特征。
[0207]
基于上述目标融合特征估计上述目标对象的第一目标视线方向。
[0208]
在一些可能的实施例中,上述目标眼部图像包括目标左眼图像和目标右眼图像;
[0209]
上述处理器1010执行提取上述目标眼部图像对应的目标眼部特征时,具体用于执行:
[0210]
分别提取上述目标左眼图像对应的目标左眼特征和上述目标右眼图像对应的目标右眼特征。
[0211]
上述处理器1010执行基于上述目标眼部特征确定上述目标眼部图像对应的眼部状态时,具体用于执行:
[0212]
基于上述目标左眼特征确定上述目标左眼图像对应的左眼状态,以及上述目标右眼特征基于上述目标右眼图像对应的右眼状态。
[0213]
上述处理器1010执行基于上述眼部状态对上述目标眼部特征进行加权得到上述目标眼部图像对应的目标眼部状态监督特征时,具体用于执行:
[0214]
基于上述目标左眼图像对应的左眼状态对上述目标左眼特征进行加权得到上述目标左眼图像对应的目标左眼状态监督特征,以及基于上述目标右眼图像对应的右眼状态对上述目标右眼特征进行加权得到上述目标右眼图像对应的目标右眼状态监督特征。
[0215]
上述处理器1010执行将上述目标脸部特征以及上述目标眼部状态监督特征进行融合,得到目标融合特征时,具体用于执行:
[0216]
将上述目标脸部特征、上述目标左眼状态监督特征以及上述目标右眼状态监督特征进行融合,得到目标融合特征。
[0217]
在一些可能的实施例中,上述视线方向估计模型包括:脸部图像视线方向估计网络、眼部图像视线方向估计网络以及特征融合视线方向估计网络;上述脸部图像视线方向估计网络,用于提取输入上述视线方向估计模型的脸部图像中的脸部特征;上述眼部图像视线方向估计网络,用于提取输入上述视线方向估计模型的眼部图像的眼部特征,并基于上述眼部特征确定上述眼部图像对应的眼部状态;上述特征融合视线方向估计网络,用于基于上述眼部图像对应的眼部状态将上述眼部特征与上述脸部特征进行融合得到融合特征,并基于上述融合特征估计上述脸部图像以及上述眼部图像对应的对象的视线方向。
[0218]
在一些可能的实施例中,上述眼部状态包括睁闭眼状态和/或遮挡状态;上述睁闭眼状态包括睁眼状态和闭眼状态;上述遮挡状态包括未遮挡状态和已遮挡状态。
[0219]
在一些可能的实施例中,上述脸部图像视线方向估计网络基于已知视线方向多个样本图像各自对应的样本脸部图像进行训练得到;上述眼部图像视线方向估计网络基于已知视线方向和眼部状态的多个样本图像各自对应的样本眼部图像进行训练得到;上述特征融合视线方向估计网络基于上述多个样本图像各自对应的样本脸部图像经由上述脸部图像视线方向估计网络得到的脸部特征、上述多个样本图像各自对应的样本眼部图像经由上
述眼部图像视线方向估计网络得到的眼部特征和眼部状态、以及上述多个样本图像各自对应的视线方向进行训练得到。
[0220]
在一些可能的实施例中,上述处理器1010执行基于目标对象对应的目标图像获取目标脸部图像和目标眼部图像时,具体用于执行:
[0221]
基于目标对象对应的目标图像利用脸部检测算法以及关键点检测算法分别确定上述目标对象在头部坐标系下的第一脸部位置信息以及第一关键点位置信息。
[0222]
根据上述第一脸部位置信息以及上述第一关键点位置信息利用预设坐标转换算法得到上述目标图像对应的相机坐标系下的第一脸部图像和第一眼部图像。
[0223]
基于预设透视变换矩阵对上述第一脸部图像和上述第一眼部图像进行矫正处理,得到目标脸部图像和目标眼部图像。
[0224]
在一些可能的实施例中,上述处理器1010执行将上述目标脸部图像和上述目标眼部图像输入视线方向估计模型中,输出上述目标对象的第一目标视线方向之后,还用于执行:
[0225]
基于上述预设透视变换矩阵的逆矩阵计算上述第一目标视线方向在上述相机坐标系下的第二目标视线方向。
[0226]
本说明书实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机或处理器上运行时,使得计算机或处理器执行上述实施例中的一个或多个步骤。上述视线方向估计装置的各组成模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取存储介质中。
[0227]
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。上述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行上述计算机程序指令时,全部或部分地产生按照本说明书实施例上述的流程或功能。上述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。上述计算机指令可以存储在计算机可读存储介质中,或者通过上述计算机可读存储介质进行传输。上述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。上述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。上述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,数字多功能光盘(digital versatile disc,dvd))、或者半导体介质(例如,固态硬盘(solid state disk,ssd))等。
[0228]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可存储程序代码的介质。在不冲突的情况下,本实施例和实施方案中的技术特征可以任意组合。
[0229]
以上所述的实施例仅仅是本说明书的优选实施例方式进行描述,并非对本说明书的范围进行限定,在不脱离本说明书的设计精神的前提下,本领域普通技术人员对本说明书的技术方案作出的各种变形及改进,均应落入权利要求书确定的保护范围内。
[0230]
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书和说明书中记载的动作或步骤可以按照不同于说明书记载的实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。