本技术涉及模型训练,特别是涉及一种视线估计模型训练方法、装置及系统。
背景技术:
1、近年来,视线估计方法在人机交互、增强/虚拟/混合现实、眼动行为分析、辅助驾驶(智能座舱)等领域已经有着广泛的应用。通过视线估计,可以根据用户的视线进行显示,从而提高用户体验。
2、然而,当前在进行视线估计模型的训练时,往往是通过获取样本图像后,通过特征提取网络进行特征的提取,然后通过待训练的视线估计网络根据提取的特征进行视线的估计,最后通过预先标注的视线方向和视线的估计结果计算损失,并进行特征提取网络和视线估计网络的参数的调整,模型训练效率较低。
技术实现思路
1、本技术实施例的目的在于提供一种视线估计模型训练方法、装置及系统,用以解决当前视线估计模型的训练时,通过计算损失同时对特征提取网络和视线估计网络的参数的调整,训练效率低的问题。具体技术方案如下:
2、本技术实施例的第一方面,提供了一种视线估计模型训练方法,包括:
3、获取样本人脸图像,其中,所述样本人脸图像是预先标注有视线方向的人脸图像;
4、将所述样本人脸图像输入待训练的特征提取网络,分别对所述样本人脸图像中的眼部区域和脸部区域进行特征提取,得到样本眼部特征和样本脸部特征;
5、通过预设自监督损失算法,分别根据所述样本眼部特征和样本脸部特征进行自监督损失的计算,得到样本眼部自监督损失和样本脸部自监督损失;
6、将所述样本眼部特征和样本脸部特征输入待训练的视线方向估计网络进行视线方向的计算,得到估计视线方向;
7、根据所述样本人脸图像预先标注的视线方向和所述估计视线方向,计算得到监督损失;
8、通过所述样本眼部自监督损失和样本脸部自监督损失对所述待训练的特征提取网络的参数进行调整,通过所述监督损失对所述待训练的视线方向估计网络的参数进行调整,并返回所述将所述样本人脸图像输入待训练的特征提取网络,分别对所述样本人脸图像中的眼部区域和脸部区域进行特征提取,得到样本眼部特征和样本脸部特征的步骤继续执行,直至满足第一预设迭代停止条件,得到训练好的特征提取网络和训练好的视线方向估计网络。
9、可选的,所述样本眼部特征包括样本左眼特征和样本右眼特征,所述将所述样本人脸图像输入待训练的特征提取网络,分别对所述样本人脸图像中的眼部区域和脸部区域进行特征提取,得到样本眼部特征和样本脸部特征,包括:
10、对所述样本人脸图像进行归一化,确定对应的左眼眼部区域、右眼眼部区域和脸部区域;
11、通过所述待训练的眼部特征提取网络对所述左眼眼部区域和右眼眼部区域进行特征提取,得到所述样本左眼特征和所述样本右眼特征;
12、通过所述待训练的脸部特征提取网络对所述脸部区域进行特征提取,得到所述样本脸部特征。
13、可选的,所述样本眼部自监督损失包括样本左眼自监督损失和样本右眼自监督损失;
14、所述通过预设自监督损失算法,分别根据所述样本眼部特征和样本脸部特征进行自监督损失的计算,得到样本眼部自监督损失和样本脸部自监督损失,包括:
15、通过预设自监督损失算法,分别根据所述样本左眼特征和所述样本右眼特征进行自监督损失的计算,得到所述样本左眼自监督损失和样本右眼自监督损失;
16、通过预设自监督损失算法,分别根据所述样本脸部特征进行自监督损失的计算,得到所述样本脸部自监督损失;
17、所述通过所述样本眼部自监督损失和样本脸部自监督损失对所述待训练的特征提取网络的参数进行调整,包括:
18、通过所述样本眼部自监督损失对所述待训练的眼部特征提取网络的参数进行调整;
19、通过所述样本脸部自监督损失对所述待训练的脸部特征提取网络的参数进行调整。
20、可选的,所述将所述样本人脸图像输入待训练的特征提取网络,分别对所述样本人脸图像中的眼部区域和脸部区域进行特征提取,得到样本眼部特征和样本脸部特征,包括:
21、分别对所述样本人脸图像中的眼部区域和脸部区域进行数据增强,生成自监督样本对,其中,所述自监督样本对包括眼部样本对和脸部样本对,所述眼部样本对包括数据增强前的眼部区域和数据增强后的眼部区域,所述脸部样本对包括数据增强前的脸部区域和数据增强后的脸部区域;
22、将所述眼部样本对输入所述待训练的眼部特征提取网络进行特征提取,得到所述数据增强前的眼部区域和数据增强后的眼部区域各自对应的眼部特征;
23、将脸部样本对输入所述待训练的脸部特征提取网络进行特征提取,得到所述数据增强前的脸部区域和数据增强后的脸部区域各自对应的脸部特征;
24、所述通过预设自监督损失算法,分别根据所述样本眼部特征和样本脸部特征进行自监督损失的计算,得到样本眼部自监督损失和样本脸部自监督损失,包括:
25、以所述数据增强前的眼部区域对应的眼部特征为正样本,以所述数据增强后的眼部区域各自对应的眼部特征为负样本,通过预设自监督损失算法计算所述样本眼部自监督损失;
26、以所述数据增强前的脸部区域对应的脸部特征为正样本,以所述数据增强后的脸部区域各自对应的脸部特征为负样本,通过预设自监督损失算法计算所述样本脸部自监督损失。
27、可选的,所述将所述样本人脸图像输入待训练的特征提取网络,分别对所述样本人脸图像中的眼部区域和脸部区域进行特征提取,得到样本眼部特征和样本脸部特征,包括:
28、针对任一样本人物,对所述样本人脸图像中该样本人物对应的多张样本人脸图像进行图像重构,得到多张重构图像,其中,所述所述样本人脸图像中包括同一人物对应的多张图像;
29、对所述重构图像中的眼部区域和脸部区域进行特征提取,得到样本眼部特征和样本脸部特征;
30、所述通过预设自监督损失算法,分别根据所述样本眼部特征和样本脸部特征进行自监督损失的计算,得到样本眼部自监督损失和样本脸部自监督损失,包括:
31、根据所述样本眼部特征和样本脸部特征进行光流识别,并根据识别到的光流构建图像,得到构建眼部特征和构建脸部特征;
32、根据所述构建眼部特征和所述构建脸部特征,计算所述样本眼部自监督损失和样本脸部自监督损失。
33、可选的,所述通过所述样本眼部自监督损失和样本脸部自监督损失对所述待训练的特征提取网络的参数进行调整,通过所述监督损失对所述待训练的视线方向估计网络的参数进行调整,并返回所述将所述样本人脸图像输入待训练的特征提取网络,分别对所述样本人脸图像中的眼部区域和脸部区域进行特征提取,得到样本眼部特征和样本脸部特征的步骤继续执行,直至满足第一预设迭代停止条件,得到训练好的特征提取网络和训练好的视线方向估计网络之后,所述方法还包括:
34、获取目标用户人脸图像;
35、将所述目标用户人脸图像输入所述训练好的特征提取网络,分别对所述目标用户人脸图像中的眼部区域和脸部区域进行特征提取,得到用户眼部特征和用户脸部特征;
36、通过所述预设自监督损失算法,分别根据所述用户眼部特征和用户脸部特征进行自监督损失的计算,得到用户眼部自监督损失和用户脸部自监督损失;
37、根据所述用户眼部自监督损失和用户脸部自监督损失对所述训练好的特征提取网络的参数进行调整,并返回所述将所述目标用户人脸图像输入所述训练好的特征提取网络,分别对所述目标用户人脸图像中的眼部区域和脸部区域进行特征提取,得到用户眼部特征和用户脸部特征的步骤继续执行,直至满足第二预设迭代停止条件,得到用户特征提取网络。
38、本技术实施例的第二方面,提供了一种视线估计模型训练装置,包括:
39、样本获取模块,用于获取样本人脸图像,其中,所述样本人脸图像是预先标注有视线方向的人脸图像;
40、特征提取模块,用于将所述样本人脸图像输入待训练的特征提取网络,分别对所述样本人脸图像中的眼部区域和脸部区域进行特征提取,得到样本眼部特征和样本脸部特征;
41、自监督损失计算模块,用于通过预设自监督损失算法,分别根据所述样本眼部特征和样本脸部特征进行自监督损失的计算,得到样本眼部自监督损失和样本脸部自监督损失;
42、视线估计模块,用于将所述样本眼部特征和样本脸部特征输入待训练的视线方向估计网络进行视线方向的计算,得到估计视线方向;
43、监督损失计算模块,用于根据所述样本人脸图像预先标注的视线方向和所述估计视线方向,计算得到监督损失;
44、模型输出模块,用于通过所述样本眼部自监督损失和样本脸部自监督损失对所述待训练的特征提取网络的参数进行调整,通过所述监督损失对所述待训练的视线方向估计网络的参数进行调整,并返回所述将所述样本人脸图像输入待训练的特征提取网络,分别对所述样本人脸图像中的眼部区域和脸部区域进行特征提取,得到样本眼部特征和样本脸部特征的步骤继续执行,直至满足第一预设迭代停止条件,得到训练好的特征提取网络和训练好的视线方向估计网络。
45、可选的,所述特征提取模块,包括:
46、归一化子模块,用于对所述样本人脸图像进行归一化,确定对应的左眼眼部区域、右眼眼部区域和脸部区域;
47、左右眼特征提取子模块,用于通过所述待训练的眼部特征提取网络对所述左眼眼部区域和右眼眼部区域进行特征提取,得到所述样本左眼特征和所述样本右眼特征;
48、脸部特征提取子模块,用于通过所述待训练的脸部特征提取网络对所述脸部区域进行特征提取,得到所述样本脸部特征。
49、可选的,所述样本眼部自监督损失包括样本左眼自监督损失和样本右眼自监督损失;
50、所述自监督损失计算模块,包括:
51、左右眼自监督损失计算子模块,用于通过预设自监督损失算法,分别根据所述样本左眼特征和所述样本右眼特征进行自监督损失的计算,得到所述样本左眼自监督损失和样本右眼自监督损失;
52、脸部自监督损失计算子模块,用于通过预设自监督损失算法,分别根据所述样本脸部特征进行自监督损失的计算,得到所述样本脸部自监督损失;
53、所述模型输出模块,包括:
54、眼部特征提取网络调整子模块,用于通过所述样本眼部自监督损失对所述待训练的眼部特征提取网络的参数进行调整;
55、脸部特征提取网络调整子模块,用于通过所述样本脸部自监督损失对所述待训练的脸部特征提取网络的参数进行调整。
56、可选的,所述特征提取模块,包括:
57、数据增强子模块,用于分别对所述样本人脸图像中的眼部区域和脸部区域进行数据增强,生成自监督样本对,其中,所述自监督样本对包括眼部样本对和脸部样本对,所述眼部样本对包括数据增强前的眼部区域和数据增强后的眼部区域,所述脸部样本对包括数据增强前的脸部区域和数据增强后的脸部区域;
58、眼部特征提取子模块,用于将所述眼部样本对输入所述待训练的眼部特征提取网络进行特征提取,得到所述数据增强前的眼部区域和数据增强后的眼部区域各自对应的眼部特征;
59、脸部特征提取子模块,用于将脸部样本对输入所述待训练的脸部特征提取网络进行特征提取,得到所述数据增强前的脸部区域和数据增强后的脸部区域各自对应的脸部特征;
60、所述自监督损失计算模块,包括:
61、样本设定子模块,用于以所述数据增强前的眼部区域对应的眼部特征为正样本,以所述数据增强后的眼部区域各自对应的眼部特征为负样本,通过预设自监督损失算法计算所述样本眼部自监督损失;
62、损失计算子模块,用于以所述数据增强前的脸部区域对应的脸部特征为正样本,以所述数据增强后的脸部区域各自对应的脸部特征为负样本,通过预设自监督损失算法计算所述样本脸部自监督损失。
63、可选的,所述特征提取模块,包括:
64、图像重构子模块,用于针对任一样本人物,对所述样本人脸图像中该样本人物对应的多张样本人脸图像进行图像重构,得到多张重构图像,其中,所述所述样本人脸图像中包括同一人物对应的多张图像;
65、重构特征提取子模块,用于对所述重构图像中的眼部区域和脸部区域进行特征提取,得到样本眼部特征和样本脸部特征;
66、所述自监督损失计算模块,包括:
67、特征构建子模块,用于根据所述样本眼部特征和样本脸部特征进行光流识别,并根据识别到的光流构建图像,得到构建眼部特征和构建脸部特征;
68、构建损失计算子模块,用于根据所述构建眼部特征和所述构建脸部特征,计算所述样本眼部自监督损失和样本脸部自监督损失。
69、可选的,所述装置还包括:
70、用户图像获取模块,用于获取目标用户人脸图像;
71、用户特征提取模块,用于将所述目标用户人脸图像输入所述训练好的特征提取网络,分别对所述目标用户人脸图像中的眼部区域和脸部区域进行特征提取,得到用户眼部特征和用户脸部特征;
72、用户损失计算模块,用于通过所述预设自监督损失算法,分别根据所述用户眼部特征和用户脸部特征进行自监督损失的计算,得到用户眼部自监督损失和用户脸部自监督损失;
73、用户网络训练模块,用于根据所述用户眼部自监督损失和用户脸部自监督损失对所述训练好的特征提取网络的参数进行调整,并返回所述将所述目标用户人脸图像输入所述训练好的特征提取网络,分别对所述目标用户人脸图像中的眼部区域和脸部区域进行特征提取,得到用户眼部特征和用户脸部特征的步骤继续执行,直至满足第二预设迭代停止条件,得到用户特征提取网络。
74、本技术实施例的第三方面,提供了一种视线识别系统,所述系统包括图像传感器和处理器;
75、所述图像传感器,用于采集人脸图像,并将采集到的人脸图像输入所述处理器;
76、所述处理器,用于接收所述采集到的人脸图像,并通过上述任一视线估计模型训练方法训练得到的训练好的特征提取网络和训练好的视线方向估计网络,进行视线的估计。
77、可选的,所述系统还包括ar/vr眼镜;
78、所述ar/vr眼镜,用于根据视线估计结果,将指定图像显示在所述视线估计结果对应的视线方向。
79、可选的,所述系统应用于与车辆;
80、所述图像传感器,用于采集驾驶员的人脸图像,并将采集到的驾驶员的人脸图像输入所述处理器;
81、所述处理器,用于接收所述采集到的驾驶员的人脸图像,并通过上述任一视线估计模型训练方法训练得到的训练好的特征提取网络和训练好的视线方向估计网络,进行所述驾驶员的视线的估计。
82、本技术实施例的另一方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
83、存储器,用于存放计算机程序;
84、处理器,用于执行存储器上所存放的程序时,实现上述任一视线估计模型训练和校正方法。
85、本技术实施例的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一视线估计模型训练和校正方法。
86、本技术实施例的另一方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一视线估计模型训练和校正方法。
87、本技术实施例有益效果:
88、本技术实施例提供的一种视线估计模型训练方法、装置及系统,可以获取样本人脸图像,其中,样本人脸图像是预先标注有视线方向的人脸图像;将样本人脸图像输入待训练的特征提取网络,分别对样本人脸图像中的眼部区域和脸部区域进行特征提取,得到样本眼部特征和样本脸部特征;通过预设自监督损失算法,分别根据样本眼部特征和样本脸部特征进行自监督损失的计算,得到样本眼部自监督损失和样本脸部自监督损失;将样本眼部特征和样本脸部特征输入待训练的视线方向估计网络进行视线方向的计算,得到估计视线方向;根据样本人脸图像预先标注的视线方向和估计视线方向,计算得到监督损失;通过样本眼部自监督损失和样本脸部自监督损失对待训练的特征提取网络的参数进行调整,通过监督损失对待训练的视线方向估计网络的参数进行调整,并返回将样本人脸图像输入待训练的特征提取网络,分别对样本人脸图像中的眼部区域和脸部区域进行特征提取,得到样本眼部特征和样本脸部特征的步骤继续执行,直至满足第一预设迭代停止条件,得到训练好的特征提取网络和训练好的视线方向估计网络。通过本技术实施例的方法,在获取预先标注有视线方向的人脸图像之后,不但可以根据样本人脸图像预先标注的视线方向和估计视线方向,计算得到监督损失,还可以通过预设自监督损失算法进行样本眼部自监督损失和样本脸部自监督损失的计算,从而通过样本眼部自监督损失和样本脸部自监督损失对待训练的特征提取网络的参数进行调整,通过监督损失对待训练的视线方向估计网络的参数进行调整,提高模型的训练效率,从而解决当前视线估计模型的训练时,通过计算损失同时对特征提取网络和视线估计网络的参数的调整,训练效率低的问题。
89、当然,实施本技术的任一产品或方法并不一定需要同时达到以上所述的所有优点。