本发明涉及计算机视觉和图像处理领域,具体地说是一种人眼左右眼图像联合的视线方向计算方法。
背景技术:
视线追踪/眼动追踪对于用户行为理解和高效人机交互具有重要意义。人类可感知信息中超过80%的部分由人眼接收,而其中超过90%的部分由视觉系统处理。因此,视线是反映人与外界交互过程的重要线索。近年来,由于虚拟现实技术和人机交互技术的迅速发展,视线追踪技术的应用价值逐渐凸显;另一方面,视线方向计算在计算机视觉领域仍然是一个极富挑战性的问题。
目前的视线追踪技术从根本上分为了基于外观的视线追踪技术和基于模型的视线追踪技术两种。在当前的环境中,由于基于模型的视线追踪技术往往有着很高的正确率,从而使得大多数的人们都专注于基于模型的视线追踪方法的研究。基于模型的视线追踪技术需要实验者提供很多的几何特征,比如说瞳孔的方向,并以此来建立一个眼睛模型,通过模型来预测人们视线的方向。正因如此,基于模型的视线追踪技术有着以下几点缺陷:1)需要昂贵的设备仪器。基于模型的视线追踪技术是通过建立一个眼睛模型或者其他的几何模型来预测参与者的视线方向,所以它需要通过使用一些独特的设备来提取参与者的一些关于眼睛的几何特征,并以此建立模型。2)基于模型的视线追踪技术需要在严格的室内环境中进行。由于基于模型的视线追踪技术中需要实验者提供的几何特征一般是由红外线所测量得到的,而一些其他的干扰源,比如太阳光中蕴含了太多的红外光,这会对仪器的测量结果造成非常严重的干扰,所以测量的设备也需要放在严格的室内环境中,以此来避免太阳光等其他红外光的干扰。3)基于模型的视线追踪技术需要高分辨率的图像来进行训练,所以有着被限制的工作距离,一般来说不超过60cm。因此,基于模型的实验方法不能普遍的使用于大部分的普通环境中。
与此相反的,基于外观的视线追踪技术直接通过从人眼图片中学习到各种信息,建立图片和人眼视线之间的映射关系,以此来得到视线的方向,它并没有上述基于模型的视线追踪技术所拥有的种种限制,它只需要通过一个普通的相机去拍摄到人眼的外观图片。这一条件使得基于外观的视线追踪技术有着普遍的适用性,也使得基于外观的视线追踪技术有着无可媲美的应用前景。但是由于基于外观的视线追踪技术对于采样工具、采样环境的要求并不严格,从而使得模型的输入数据,往往有着多种多样的环境因素影响,比如说:光照、参与者、头部位置等。光照的强度会使得图片变得明亮或暗,在极暗环境中,人们更是难以从图片上分辨出一个人的眼睛图像;同样的,头部位置的不同更是对于人眼的采样有着很大的影响,对于同一个人来说,拍摄它的正面照和侧向拍照所得到的人眼图像就有所不同。以上的种种因素,使得基于外观的视线追踪技术的输入数据中就有着很大的噪声信息,这也正是基于外观的视线追踪技术所面临的一个挑战,正因为这个缺陷,基于外观的视线追踪技术,在精确度上,远远不如基于模型的视线追踪方法。同时,目前的基于外观的视线追踪方法,往往是以用户的单眼图像作为输入信息的,然而在实际的应用中,每一次对于用户信息的采集得到的往往都是用户某一时刻的双眼图像,将同一时刻的双眼图像分开输入,也正忽略了双眼图像中关于某一时刻的相关性。
在近些年来,各种各样的新式模型也是应运而生,在这各种各样的模型中,神经网络的表现尤为突出。深度学习中的卷积神经网络作为神经网络的一个类别,更是十分火热。由于深度学习中的卷积神经网络具有了局部感知的特性,使得它能够很好的提取出图片的局部特征,保留图片的局部相关信息,同时由于权值共享的原因,使得深度学习中的卷积神经网络也不会需要消耗大量的时间去进行训练,也正因此,深度学习中的卷积神经网络在各种图像处理任务中表现尤为突出,例如:图像分类,目标检测,以及语义分隔等。同时,近些年来,硬件的飞速发展,更是让深度学习中的卷积神经网络在图像处理方法表现的更加出色。但用于人眼视线方向确定方法还尚未有相似文献报导。
技术实现要素:
本发明技术解决问题:克服现有技术的不足,提供一种人眼左右眼图像联合的视线方向计算方法,通过使用神经网络去提取图像中蕴含着的信息因素,并通过自适应的方法调整神经网络模型,最终预测双眼的视线方向,主要通过结合双眼的图像信息,从而用于解决基于外观的视线追踪方法中输入的单眼图像噪声较大的问题,从而实现了高精度的三维视线方向预测。
本发明技术解决方案:一种人眼左右眼图像联合的视线方向计算方法,包含以下步骤:
(1)拍摄用户面部图像,定位左眼或右眼区域,预处理人眼图像,实现对头部位置的修正,并得到固定像素大小的人眼图像;
(2)建立双通道模型,分别输入人眼图像中左眼和右眼的图像信息,使用深度神经网络模型分别提取并输出左眼和右眼的信息特征;
(3)建立单通道模型,输入左眼和右眼的图像信息,使用深度神经网络模型提取并输出左右眼图像联合信息特征;
(4)使用回归分析的方法,结合左眼和右眼的信息特征及左右眼图像联合信息特征,并经过联合优化,预测双眼分别对应的三维视线方向;或者单独使用左眼和右眼的信息特征或左右眼图像联合信息特征,使用回归分析的方法,经过优化后,预测双眼分别对应的三维视线方向
所述步骤(2)建立双通道模型,分别输入人眼图像中左眼和右眼的图像信息,经过双通道模型分别提取并输出左眼和右眼的信息特征的具体过程如下:
(21)将修正后的固定大小的左眼和右眼图像il和ir输入双通道模型中,il和ir分别经过一个通道处理;
(22)每个通道均为一个深度神经网络模型,所述模型对输入的人眼图像进行卷积、池化、全连接操作,输出固定长度的特征向量;
(23)每个通道产生的固定长度的特征向量即是对应输入图像经过深度神经网络提取后的信息特征,将两个通道所产生的信息特征连接起来,得到最终的左眼和右眼的信息特征。
所述步骤(3)建立单通道模型,输入左眼和右眼的图片信息,使用单通道模型提取并输出左右眼图像联合信息特征的具体过程如下:
(31)将修正后的固定大小的人眼图像输入单通道模型中;
(32)分别使用深度神经网络模型,分别对左右眼的图像进行卷积、池化、全连接操作,输出精简后的左右眼信息特征;
(33)连接左右眼信息特征,在深度神经网络模型后添加多个全连接层,使用全连接层合并左右眼的信息特征,最终得到左右眼图像联合信息特征。
所述步骤(4)利用使用回归分析的方法,结合左眼和右眼的信息特征,及左右眼图像联合信息特征,并经过联合优化,预测双眼分别对应的三维视线方向的具体过程如下:
(41)输入修正后的左眼和右眼图像il和ir,以及图像所对应的真实左眼视线方向gl和真实右眼视线方向gr;
(42)使用步骤(2)以及步骤(3)中提出的深度神经网络模型,提取图像所对应的双眼信息特征以及联合信息特征;
(43)连接所有提取的信息特征或单独使用一种特征作为整体特征,使用回归分析的方法,得到预测的左眼视线方向f(i)l和预测的右眼视线方向f(i)r;
(44)以角度差作为误差值,使用梯度下降的方法,对模型进行迭代优化,使得预测的视线方向越来越接近于真实的视线方向;
(45)选择预测视线方向最接近于真实视线方向的模型作为最终的模型,模型通过输入人眼图像,得到预测的视线方向,并将该视线方向作为最终预测结果。
与其它的视线追踪的方法相比,本发明有益的特点在于:
(1)发明了双眼的信息特征提取模型,能够提取双眼的信息特征,并且也能够单独的使用双眼的特征信息来预测视线方向,结果仍然优于一般的单眼视线追踪方法;
(2)考虑到同一时刻的双眼图像中存在着某种相关性的联系,发明了人眼联合信息特征的提取模型,能够提取双眼的相关性特征信息,有效的结合了双眼的图像信息,同时仅仅使用双眼的相关性特征信息来预测视线方向,结果仍优于一般的单眼视线追踪方法;
(3)建立了一个多路的神经网络,网络通过输入特征信息,通过回归的方法能够更精确的预测得到双眼的三维视线方向,同时能够有效的解决某些单眼图像存在较大噪声而导致预测结果不准确的问题。
附图说明
图1是本发明的网络结构示意简图,其中a为发明内容中步骤(2)中的双通道模型,b为发明内容中步骤(3)中的单通道模型,c为发明内容中步骤(4)的视线预测模型;
图2是本发明的基础神经网络结构示意图;
图3是本发明的基于用户双眼分析匹配视线方向的计算方法的总体结构图;
图4是本发明的模型训练流程图。
具体实施方式
下面结合附图对本发明的具体实施作详细说明。
本发明提供了一种人眼左右眼图像联合的视线方向计算方法,输入人眼信息特征,预测人们的双眼视线方向,同时,分别提出了单通道和双通道深度神经网络模型,用来提取方法中使用到的信息特征。本方法对系统没有额外需求,仅使用单相机拍摄的人眼图像作为输入。同时,本发明通过结合双眼的图像信息,能够消除某些单眼噪声较大的误差情况,从而实现了相比其它类似方法更好的鲁棒性。
首先,针对人眼图像获取,本发明包含以下流程。使用单相机,拍摄含有用户面部区域的图像。利用已有人脸分析方法定位左眼或右眼区域。对提取出的人眼图像进行预处理,得到对头部位置进行了修正的固定像素大小的人眼图像。
其次,发明了同时提取左眼和右眼信息特征的双通道深度神经网络模型,在输入双眼图像的前提下,左眼和右眼图像分别进入一个通道,并经过各通道的单独处理后,分别得到左眼和右眼的特征信息。
进一步,发明了针对于双眼图像输入的人眼联合信息特征提取的单通道深度神经网络模型,在输入双眼图像的前提下,建立深度神经网络模型,模型同时处理左眼和右眼的图像信息,并结合处理后的图像信息,模型再对结合的信息进一步处理,从而得到关于左眼和右眼的联合信息特征。
最后,通过结合上面的两个网络模型,发明了人眼左右眼图像联合的视线方向确定方法。方法建立了多路深度神经网络视线方向预测模型,通过融合上面的两个信息特征提取模型,连接得到的双眼的信息特征和双眼的联合信息特征,回归分析得到双眼的预测视线方向,并且通过统计预测的视线方向与真实视线方向的角度偏差,来衡量当前模型的好坏。模型使用梯度下降的方法进行自主优化,通过使用公式:
计算角度偏差,其中n代表输入的图像对的数量,并且以降低角度偏差为目标,对模型进行不断的优化,在联合优化的过程中,每当输入一对人眼图像以及真实视线方向,就对模型进行一次迭代优化,当输入完所有的已知图像信息后,优化过程结束,并得到了最终的模型。实际应用中,模型通过接收一对全新的人眼图像,直接的预测人眼图像的视线方向。
同时,视线方向估计方法具有可缩减性,可以单独将人眼左右眼的信息特征或联合信息特征用于回归分析,得到双眼的预测视线方向,并采用输入图像的真实视线方向与输出预测视线方向之间的平均角度偏差作为误差项,对预测模型进行自适应的调整。同样,视线方向估计方法具有可添加性,在得到了双眼的信息特征和双眼的联合信息特征后,可以直接添加一些其他的相关信息特征,并以所有的特征为整体,进行回归分析判断。
下面再详细进行说明,参阅图1本发明的网络结构示意简图,具体如下:
图1中的(a)是用于同时提取左眼和右眼信息特征的双通道深度神经网络模型的结构示意简图te-i。模型通过输入双眼的图像,图像经过基于卷积神经网络(cnn)的网络的处理分别输出左眼以及右眼的特征信息,特征信息称呼于双眼特征,由双眼特征也可以预测得到双眼的视线方向;
图1中的(b)是用于同时提取左眼和右眼信息特征的单通道深度神经网络模型结构示意图te-ii。输入双眼图像后,图像首先分别经过一个基于cnn的网络处理,得到各自独立的特征信息,随后经过一个全连接层,将各自独立的特征信息融合而最终得到了双眼相关性信息,同样的,仅仅由双眼的相关性信息,也可以预测得到双眼的视线方向;
图1中的(c)是人眼左右眼图像联合的视线方向计算方法的网络模型的结构示意图te-a,通过结合图1中的(a)和图1中的(b)中的两种模型结构,通过一次性获得双眼特征和双眼相关性特征,并以这些信息为整体特征,回归分析得到双眼的视线方向。
在上述三种模型中,由于考虑到当使用相机从正面拍摄人眼外观时,用户头部位置的不同,会使得拍摄到的人眼图像有着不同的形变,尽管人眼图像在最初进行了相应的变换以消除头部位置的影响,但影响无法全部消除,所以在进行预测分析视线方向的时候,将头部位置向量也加入到最终的特征集中。
参阅图2本发明的基础神经网络结构示意图。为了能从图像中提取出优异的特征信息,考虑到目前卷积神经网络在图像处理中的优异表现,方法采用了cnn网络作为特征提取的基础网络。网络的输入为一张36×60的灰度图片,输出为x维特征,x的具体数值可以自行设定。图片经过输入后,首先经过一层卷积,卷积核的大小设定为5×5,输出通道个数设定为20个,经过第一层卷积后,输出的便是20张32×56大小的图片,然后,图片经过最大池化层,通过2×2的池化后,输出20张16×28的图片。随后,将这20张图片再次进行卷积,卷积核仍为5×5,输出通道为50,一共输出50张12×24的图片,再将这50张图片经过2×2的最大池化层,得到50张6×12的图片。最后,将这50张6×12的图片摊开,得到50×6×12个数,通过全连接层,得到最终想要的x维特征。
参阅图3本发明的一种人眼左右眼图像联合的视线方向确定方法的总体结构图。本发明通过自主组建神经网络,并以此来预测分析用户的双眼三维视线方向。方法通过输入固定大小的人眼灰度图片,以及头部角度向量,得到1506维特征向量,然后再通过回归分析,得到6维的双眼视线方向。本发明的总体结构同样包含了发明内容中的步骤(2)、(3)的网络。步骤(2)的网络总体结构如图3中以上面两张人眼图片作为输入的结构,网络分别输入左眼和右眼的图像,然后使用图2中的cnn网络对图像进行卷积,并且最后的特征数量x设定为1000,得到了长度为1000的特征向量;特征向量再分别经过一个全连接层(fc),分别得到了500维的特征向量;最后,简单的将这两个500维的特征向量连接起来,作为第一部分的输出特征。步骤(3)的网络总体结构如图3中以下两张图像作为输入的结构,第二部分同样使用左眼和右眼图像作为输入,通过使用cnn网络对图像进行卷积,并且最终的特征数量x设定为500,分别得到了500维的特征向量,然后,简单的将这500维的特征向量连接成为1000维的向量,并通过一个全连接层对特征向量进行融合,得到500维的特征向量,并以这500维的特征向量作为第二部分的输出;同样的,由于考虑到了头部位置的不同,将会对图像造成一些不可消除的影响,本发明将头部位置向量作为第三部分输入,并不经过处理,直接添加到最终的特征向量中。三个部分分别输出了1000维,500维,6维的特征向量,将这些向量进行连接,便得到了1506维的最终特征。
参阅图4本发明的基于用户双眼图像的视线方向预测流程图,结合前文描述的相关具体技术,以下介绍基于用户双眼图像的视线方向预测的具体实施过程。
首先,通过对图3中提出的模型使用简单的随机赋予初值的方法,初始化该预测模型。随后,输入经过处理后的人眼图像,每当输入一对人眼图像il和ir,通过网络即可获得一对预测的三维视线方向f(i)l和f(i)r,分别代表了左眼和右眼的视线方向。再通过与原始的三维视线方向gl和gr进行比较,求得预测的角度偏差,然后通过使用梯度下降的方法,以降低角度偏差为目标,不断的优化网络,每当输入一对图像,便对网络参数进行一次迭代调整。当输入完全部图像后,得到的就是最终的预测模型。在最终的预测模型中,通过输入图像,便可以预测出图像所对应的视线方向。
以上所述仅为本发明的一个代表性实施例,依据本发明的技术方案所做的任何等效变换,均应属于本发明的保护范围。