本技术涉及图像处理,尤其涉及一种视线估计方法及系统。
背景技术:
1、视线估计算法可以分为基于几何的方法和基于外观的方法。基于几何的方法依赖于眼睛的关键特征,如眼角、瞳孔位置等,估计准确,且对不同的域(domain)表现稳定。然而,对图片的质量和分辨率有很高的要求。为不受图片质量和分辨率的严格限制对视线估计,采用基于外观的方法,其直接学习一个将眼睛或人脸的外观映射到视线方向的模型。然而,模型的训练需要大量数据,并且容易对域过拟合(domain overfitting)。
2、为实现高精度估算,利用基于外观的cnn(convolutional neural networks,卷积神经网络)算法,其利用卷积神经网络从眼睛或人脸的外观图像中预测视线方向的方法。通过学习眼睛或面部特征与视线方向之间的复杂映射关系来实现视线估计。
3、但在训练基于cnn的视线估计算法时,缺乏鲁棒性和泛化性,并且需要大量数据来覆盖各种可能的视线方向和眼部外观变化。
技术实现思路
1、本技术提供一种视线估计方法及系统,以解决利用cnn视线估计算法数据利用率低的问题。
2、第一方面,本技术提供一种视线估计方法,包括:
3、构建视线估计模型,所述视线估计模型至少包括第一模块、第二模块、第三模块、第四模块和第五模块;
4、将待检测图像通过第一模块,输出特征图,所述待检测图像为人脸图像,所述特征图为多个特征值的集合;
5、将所述特征图通过所述第二模块的第一分支块,输出第一残差特征图;
6、将所述第一残差特征图输入所述第二模块的至少两个第二分支块,以输出第二残差特征图;
7、将所述第二残差特征图依次输入第三模块、第四模块和第五模块,以输出第三残差特征图;
8、将所述第三残差特征图转换为特征向量;
9、利用归一化指数层将所述特征向量转换为概率向量,所述概率向量用于表征待检测图像对应类别的概率;
10、根据所述概率向量估计所述待检测图像的视线特征,所述视线特征包括视线的方向和角度。
11、在一些可行的实施例中,所述将所述特征图通过所述第二模块的第一分支块,输出第一残差特征图,包括:
12、将所述特征图依次输入至第一卷积层、第二卷积层和第一卷积层,以输出第一响应图,所述第一卷积层为第一分支块的1×1的卷积层,所述第二卷积层为第一分支块的3×3的卷积层;
13、将所述特征图输入至所述第一卷积层,以输出第二响应图;
14、所述第一响应图和第二响应图通过激活函数,输出第一残差特征图。
15、在一些可行的实施例中,所述将所述第一残差特征图输入所述第二模块的至少两个第二分支块,输出第二残差特征图,包括:
16、将所述第一残差特征图沿通道维度切分为第一部分和第二部分;
17、将第一部分依次输入至第一卷积层、第二卷积层和第三卷积层,以输出局部响应图;
18、将所述局部响应图与第二部分输入第一卷积层,以输出第二残差特征图,所述第二残差特征图包含局部特征信息和第一残差特征图的全局特征信息。
19、在一些可行的实施例中,所述将所述第一残差特征图输入所述第二模块的至少两个第二分支块,输出第二残差特征图,包括:
20、将所述第一部分输入至第一卷积层,输出第三响应图;
21、将所述第三响应图输入至第二卷积层,输出第四响应图;
22、将所述第四响应图输入至第一卷积层,输出第五响应图;
23、将所述第三响应图、第四响应图和第五响应图执行平移操作,输出平移响应图;
24、将所述第二部分和所述平移响应图分别输入至第一卷积层,以输出第二残差特征图。
25、在一些可行的实施例中,所述将所述第二残差特征图依次输入第三模块、第四模块和第五模块,以输出第三残差特征图,包括:
26、将所述第二残差特征图依次输入第三模块的第一分支块和至少三个第二分支块,以输出第四残差特征图;
27、将所述第四残差特征图依次输入第四模块的第一分支块和至少四个第二分支块,以输出第五残差特征图;
28、将所述第五残差特征图依次输入第五模块的第一分支块和至少五个第二分支块,以输出第三残差特征图。
29、在一些可行的实施例中,所述根据所述概率向量估计所述待检测图像的视线特征,包括:
30、利用交叉熵损失计算待检测图像对应类别的概率与目标箱标签的分类损失;
31、计算概率分布的期望值,以得到视线预测位置,所述概率分布的期望值为像素的概率值与位置坐标相乘,将乘积值相加后除以所有概率值的总和得到的;
32、计算所述概率分布的期望值的均方误差;
33、将所述均方误差添加至所述交叉熵损失中,以输出第一复合损失;
34、利用所述第一复合损失估计所述待检测图像的视线特征。
35、在一些可行的实施例中,所述将所述第一残差特征图输入所述第二模块的至少两个第二分支块,输出第二残差特征图前,包括:
36、利用上采样调整所述第一残差特征图的宽度和高度,并利用卷积操作调整所述第一残差特征图的通道数,以生成第六残差特征图,所述第六残差特征图的通道数、宽度、高度与所述特征图的通道数、宽度、高度相同;
37、将所述第六残差特征图输入至少两个所述第二分支块。
38、在一些可行的实施例中,所述方法还包括:
39、将所述特征向量分别输入至第一个全连接层和第二个全连接层,输出偏航角度预测值和俯仰角度预测值,所述第一个全连接层用于预测偏航角度,所述第二个全连接层用于预测俯仰角度;
40、计算第二复合损失和第三复合损失,所述第二复合损失通过偏航角度的凝视二进制分类损失和回归损失生成的损失,所述第三复合损失通过俯仰角度的凝视二进制分类损失和回归损失生成的损失;
41、计算第一梯度信息和第二梯度信息,所述第一梯度信息为所述第二复合损失相对于所述偏航角度预测值的梯度,所述第二梯度信息为所述第三复合损失相对于所述俯仰角度预测值的梯度;
42、利用所述第一梯度信息更新第一个全连接层的权重和偏置,利用所述第二梯度信息更新第二个全连接层的权重和偏置。
43、第二方面,本技术提供一种视线估计系统,用于执行第一方面所述的视线估计方法,包括:
44、构建单元,所述构建单元用于构建视线估计模型,所述视线估计模型至少包括第一模块、第二模块、第三模块、第四模块和第五模块;
45、估计单元,所述估计单元用于将待检测图像通过第一模块,输出特征图,所述待检测图像为人脸图像,所述特征图为多个特征值的集合;以及,将所述特征图通过所述第二模块的第一分支块,输出第一残差特征图;以及,将所述第一残差特征图输入所述第二模块的至少两个第二分支块,输出第二残差特征图;以及,将所述第二残差特征图依次输入第三模块、第四模块和第五模块,以输出第三残差特征图;以及,将所述第三残差特征图转换为特征向量;以及,利用归一化指数层将所述特征向量转换为概率向量,所述概率向量用于表征待检测图像对应类别的概率;以及,根据所述概率向量估计所述待检测图像的视线特征,所述视线特征包括视线的方向和角度。
46、由以上技术方案可知,本技术提供一种视线估计方法及系统,所述方法包括:构建视线估计模型,所述视线估计模型至少包括第一模块、第二模块、第三模块、第四模块和第五模块;将待检测图像通过第一模块,输出特征图,所述待检测图像为人脸图像,所述特征图为多个特征值的集合;再将所述特征图通过所述第二模块的第一分支块,输出第一残差特征图;将所述第一残差特征图输入所述第二模块的至少两个第二分支块,输出第二残差特征图;将所述第二残差特征图依次输入第三模块、第四模块和第五模块,以输出第三残差特征图;将所述第三残差特征图转换为特征向量;再利用归一化指数层将所述特征向量转换为概率向量,所述概率向量用于表征待检测图像对应类别的概率;根据所述概率向量估计所述待检测图像的视线特征,所述视线特征包括视线的方向和角度。所述方法通过视线估计模型中不同分支块跨阶段连接的方式,实现部分特征的重用,以提高特征的利用率。