专利名称:视频会议的水平凝视估计的制作方法
技术领域:
本公开涉及视频会议,更具体而言涉及确定视频会议会话中涉及的人的水平凝视 (horizontal gaze)0
背景技术:
视频会议系统中的脸部检测有许多应用。例如,可通过在视频编码过程中向脸部区域给予优先来提高在给定的比特率预算下解码后视频的感知质量。然而,单是脸部检测技术并不能提供关于人的水平凝视的任何指示。人的水平凝视可用于确定在视频会议会话期间“谁正在看着谁”。迄今为止已知的凝视估计技术一般是被开发来帮助人类-计算机交互的。结果, 它们通常依赖于准确的眼睛跟踪,这种眼睛跟踪或者使用专门的大范围硬件来跟踪眼睛的光学现象,或者涉及计算机视觉技术来将眼睛与抽象模型相映射。由于准确的眼球定位和跟踪检测的困难性和这些过程所要求的计算复杂度,眼睛映射技术的性能一般是较差的。因此,希望有用于实时估计视频会议会话中涉及的一个或多个人的水平凝视的技术。
图1是示出了多人网真(telepresence)视频会议系统配置的示图,其中得出参与的人的水平凝视以确定该人正在看着谁。图2和3是示出从其估计水平凝视的头部区域内的耳-鼻-嘴(ENM)子区域的示例的示图。图4是概括示出对其进行检测和跟踪并从其估计水平凝视的头部区域内的ENM子区域的尺寸和位置的示图。图5是被配置为确定人的水平凝视的网真视频会议系统的框图。图6是被配置为估计人的水平凝视的控制器的框图。图7是示出水平凝视估计过程的逻辑的流程图的示例。图8是示出计算头部区域内的E匪子区域的尺寸和位置的过程的逻辑的流程图的示例。
具体实施例方式概述这里描述了从视频信号确定人的水平凝视的技术,该视频信号是通过利用至少一个视频相机观看该人来生成的。从该视频信号中,检测和跟踪该人的头部区域。还从该视频信号中检测和跟踪头部区域内的子区域的尺寸和位置。根据子区域在头部区域内的相对位置来计算该人的水平凝视的估计。首先参考图1,在标号5概括示出了网真视频会议系统。“网真”系统是系统端点之间的高保真视频(带有音频)会议系统。从而,系统5包括至少第一和第二端点100(1) 和100( ,其中一个或多个人可参与网真会话。例如,在端点100(1)处,有分别被表示为 A、B、C、D、E和F的人的群组20的桌子10周围的位置。类似地,在端点100 (2)处,有分别被表示为G、H、I、J、K和L的人的群组30的桌子25周围的位置。端点100(1)包括在110(1)示出的视频相机集群和由被配置为显示相应的人的图像的多个显示面板(区段或区块)构成的显示器120(1)。端点100( 包括类似配置的视频相机集群110(2)和显示器120(2)。每个视频相机集群110(1)和110(2)可包括一个或多个视频相机。视频相机集群110(1)被配置为将端点100(1)处的群组20中的参与的人 A-E中的每一个捕捉到一个视频信号或若干个个体视频信号中,并且视频相机集群110(2) 被配置为将端点100( 处的群组30中的参与的人G-L中的每一个捕捉到一个视频信号或若干个个体视频信号中。例如,(在每个视频相机集群中)可能有一个单独的视频相机指向桌子周围的相应的人的位置。图1中出于简明原因而没有示出的是提供了适当定位的麦克风以便在每个端点处捕捉人的音频。如上所述,显示器120(1)包括多个显示区块或面板,这些显示区块或面板被配置为在各个显示区块中显示相应的人的视频图像,更具体而言是显示端点100( 处的群组 30中的相应的人的视频图像。从而,显示器120(1)包括个体显示区块,用以显示人G-L的相应视频图像(以虚影示出),这些视频图像是从端点100( 处的视频相机集群110(2)所生成的视频信号输出得出的。类似地,显示器120( 包括个体显示区块,用以显示人A-G 的相应视频图像(以虚影示出),这些视频图像是从端点100(1)处的视频相机集群110(1) 所生成的视频信号输出得出的。另外,图1示出了在给定的时间点群组30中的人K正在讲话的示例。希望计算出当人K正在讲话期间群组20和30中的其他人的水平凝视的估计。例如,可能希望确定群组20中的人C是否正在看着人K,并且可能希望确定群组30中的人H是否正在看着人K。 水平凝视问题是通过估计检测到的人的脸部或头部区域的水平凝视来解决的,而水平凝视进而又是通过测量头部区域内的被紧密跟踪的眼、鼻和嘴(ENM)子区域的尺寸和相对位置来估计的。图2和图3示出了检测到的头部区域和E匪区域的两个示例。在图2中,人的头部被示为面向视频相机。头部区域由第一外部(头部)矩形50勾勒,并且E匪子区域由第二内部E匪矩形52表示。作为对比,图3示出了人的头部更大程度上是侧面对着视频相机的示例。在图3中,头部区域由第一外部头部矩形60表示,并且E匪子区域由第二内部EW 矩形62表示。头部矩形和E匪矩形各自具有水平中心点。在图2中,水平线M经过头部矩形50 的水平中心点,并且水平线56经过E匪矩形52的水平中心点。在图3中,水平线64经过头部矩形60的水平中心点,并且水平线66经过E匪矩形62的水平中心点。测量距离d被定义为头部矩形和其内的E匪矩形的水平中心之间的距离。另一个测量值r被定义为头部矩形的“半径”(水平边长的1/幻。对比图2和图3,可以注意到图 2中的E匪矩形62的尺寸小于图3中的E匪矩形52的尺寸。另外,图2的示例中的测量距离d小于图3的示例的。再次参考图1,并继续参考图2和图3,相对于视频相机的人的脸部的水平凝视可
5由图1中所示的角度α (阿尔法)来表示并且可由以下计算来估计α = arcsin(d/r)(1)其中d的定义如上所述。图1中的实际观看角度在端点100(1)处是(α + θ),而在端点100( 处是 (α-θ),其中θ表示在视频相机与人的脸部之间延伸的虚拟线与视频相机的光轴之间的角度。给定要估计其水平凝视的人的脸部位置,可以计算角度θ。从而,在端点100(1)处, 角度θ和α是相对于群组20中的人C示出的,而在端点100( 处,角度θ和α是相对于群组30中的人H示出的。如下所述,估计的水平凝视角度α被与从接收自另一端点的视频信号得出的显示区块上的脸部位置以及诸如显示区块的位移之类的其他系统参数相组合,以确定在网真会话期间“谁在看着谁”。现在参考图4。剩下的难点在于检测和跟踪检测到的头部区域72内的由(x,y,w, h)表示的E匪子区域(例如矩形)70的尺寸和位置,其中(X,y)是相对于头部区域72的左上角的E匪子区域70的中心,并且w和h分别是E匪子区域70的宽度和高度。有许多种检测和跟踪头部区域内的E匪子区域的方式。这里描述的一种技术采用概率性跟踪,具体而言是蒙特卡洛方法,也称为粒子滤波器技术。现在转到图5,提供了更详细的框图来示出端点设备100(1)和100(2)的组件。在图5所示的示例中,端点设备100(1)和100(2)实质上是相同的,但这不是必需的。在每个端点处的设备之间可存在变化。每个端点100⑴和100⑵可同时充当视频流(包含视频和音频信息)的源和目的地两者。端点100(1)包括视频相机集群110(1)、显示器120(1)、编码器130(1)、解码器 140⑴、网络接口和控制单元150⑴和控制器160⑴。类似地,端点100⑵包括视频相机集群11(K2)、显示器12(Κ2)、编码器13(Κ2)、解码器140 )、网络接口和控制单元150(2) 和控制器160(2)。由于端点是相同的,所以现在只简要描述端点100(1)的操作。视频相机集群110(1)捕捉一个或多个人的视频并将视频信号提供给编码器 130(1)。编码器130(1)将视频信号编码成分组,供网络接口和控制单元150(1)进一步处理,网络接口和控制单元150(1)经由网络170将分组发送到另一端点设备。网络170可由局域网和广域网(例如因特网)构成。网络接口和控制单元150(1)还接收从端点100(2) 发送来的分组并将它们提供给解码器140(1)。解码器140(1)将分组解码成用于在显示器 120(1)上显示图片信息的格式。音频也被一个或多个麦克风(未示出)捕捉并被编码成在端点设备之间传递的分组的流。控制器160(1)被配置为对由视频相机集群110(1)产生的视频信号根据从接收自端点100( 的由视频相机集群110( 捕捉的视频得出的解码后视频信号执行水平凝视分析。类似地,端点100( 处的控制器160( 被配置为对由视频相机集群110( 产生的视频信号根据从接收自端点100(1)的由视频相机集群110(1)捕捉的视频得出的解码后视频信号执行水平凝视分析。虽然图5示出了两个端点设备100(1)和10(K2),但应当理解,可能有多于两个端点设备参与网真会话。这里描述的水平凝视分析技术可应用来在有两个或更多个参与的端点设备的会话期间使用。现在转到图6,示出了端点100(1)中的控制器160(1)的框图,并且如上所述,端点 100⑵中的控制器160⑵的配置方式类似于控制器160⑴。控制器160⑴包括数据处理器162和存储器164。处理器162可以是微处理器、数字信号处理器或其他计算数据处理器设备。存储器164存储或被编码有用于水平凝视估计过程逻辑200的指令,这些指令在被处理器162执行时使得处理器162执行下文中所述的水平凝视估计过程。存储器164也可用于存储在水平凝视估计过程的进程中生成的数据。或者,水平凝视估计过程逻辑200可由硬件/固件形式的数字逻辑执行,这种数字逻辑例如具有一个或多个专用集成电路(ASIC) 中的固定数字逻辑门或诸如现场编程门阵列(FPGA)中的可编程数字逻辑门或者其任何组
I=I O转到图7,现在概括描述水平凝视估计过程逻辑200。过程200的输入是来自正在观看至少一个人的至少一个视频相机集群的视频信号。该视频信号可以源自本地视频相机集群和/或源自另一端点处的视频相机集群。在210,从输出自观看人的视频相机的视频信号中检测和跟踪人的头部区域。现在以知或今后开发的多种头部跟踪视频信号分析技术中的任何一种可用于功能210。脸部检测在不同的计算要求下可以通过各种方式来完成,例如基于颜色分析、边缘分析和时间性差异分析中的一个或多个。脸部检测技术的示例例如在2008年10月2日公布的题为“Real-Time Face Detection”的共同转让的美国已公布专利申请 No. 2008/0240237 和 2008 年 10 月 2 日公布的题为 “Real-Time Face Detection Using Temporal Differences”的共同转让的美国已公布专利申请No. 2008/0M0571中公开。头部或脸部检测功能210的输出是表示人的头部区域的第一(头部)矩形的数据,其中头部区域例如是图2和图3中分别示出的区域50和60。在220,检测头部区域内的E匪子区域并且跟踪其在头部区域内的尺寸和位置。功能220的输出是头部区域(矩形)内的E匪子区域(矩形)的尺寸和相对位置的数据。同样,EW子区域(例如E匪矩形)的示例分别在图2和图3中的标号52和62处示出。用于检测和跟踪头部区域内的ENM子区域的尺寸和位置的一种技术在下文中结合图8来描述。利用表示头部区域和头部区域内的E匪子区域的尺寸和相对位置的数据,在230 计算水平凝视的估计,例如凝视角度α。上文中针对使用图1中定义的角度和测量值d和 r的、相对于视频相机的人的水平凝视的式(1)给出和描述了水平凝视角度的计算。d和r 的数据表示E匪矩形在头部矩形内的相对位置。在250,随后确定在功能210和220跟踪其头部区域和E匪子区域的人正在看着谁。在250处做出该确定时,使用其他数据和系统参数信息,包括(本地端点设备和(一个或多个)远程端点设备处的)各种显示区块上的脸部位置,以及从视频相机集群到人的脸部的显示位移距离(先验地确定或估计,等等)。现在参考图8,现在描述用于执行E匪子区域跟踪功能230的过程的一个示例。在此示例中,使用概率性跟踪技术,具体是顺序蒙特卡洛方法,也称为粒子滤波器技术。与卡尔曼滤波器类似,粒子滤波技术的目的是在给定有噪声测量值的情况下估计随机系统的状态的后验概率分布。与假定每一步的后验密度为高斯型的卡尔曼滤波器不同,粒子滤波器可以传播更一般的分布,尽管只是近似性的。所要求的后验密度函数由具有相关联的“重要性”权重的离散随机样本(粒子)的集合表示并且基于这些样本和重要性权重来计算估计。 在E匪子区域跟踪的情况下,“状态”是表示头部区域内的EW子区域(例如E匪矩形)的尺寸和位置的数据。一般地,功能240被配置为在每个时间步阶计算头部区域内分布的E匪矩形尺寸和位置的随机样本(粒子)。样本的重要性权重是基于相对于参考模型的至少一个图像分析特征(例如颜色和边缘特征)来计算的。输出状态被估计为所有样本或具有最高重要性权重的前几个样本的加权平均。如图8中所示,功能230的输入是表示头部区域的图像数据(其是图7中的功能 220的输出)。在232,计算表示随着时间流逝头部区域内的E匪子区域的尺寸和位置的随机样本粒子分布的数据,即< p(x IXL1),其中ι e χ并且χ表示状态空间。同样,状态是要跟踪的EW矩形,该EW矩形被定义为\ = (xn, yn,wn, hn),其中η表示时间步阶,并且状态空间X是头部矩形的扩展区域。在一个示例中,假定状态根据高斯随机游动过程而演变ρ Ocn I Xlri) N Ocn I Xlri,Λ )(2)其中前一时间步阶的状态^是均值并且八二—^^,^,口夂“煶多维高斯分布的协方差矩阵。对于在232计算的每个样本,执行功能234和236。功能234包括计算E匪子区域的至少一个图像分析特征并将其与相应的参考模型相比较。在功能236,基于在234 计算的至少一个图像分析特征,对于提议的(新的)粒子分布计算重要性权重。更具体而言,在234,采用一个或若干个测量模型(也称为似然)来将有噪声测量值关联到状态(E^矩形)。例如,考虑测量值(图像特征)的两个来源颜色f和边缘特征yE。更明确地说,分析蓝色度(Cb)和红色度(Cr)颜色域中的正规化颜色直方图和边缘特征的垂直和水平投影。为此,生成参考直方图或投影,其中在生成时或者使用手动选择的训练数据离线生成,或者通过对于多个帧使用相对粗略的E匪检测方案(例如上述已公布专利申请中描述的那些)并计算时间平均来在线生成。将参考直方图或投影表示为hMf,并将与状态X相对应的区域的直方图或投影表
示为hx,则似然模型对于颜色直方图被定义为
f \KycIx) ^exp - YjD2 (h, Kef )!2σΙ(3)
、eejCA.Cr}y对于边缘特征投影被定义为
/ \
权利要求
1.一种方法,包括利用至少第一视频相机观看至少第一人并从其产生视频信号;在所述视频信号中检测和跟踪所述第一人的头部区域;在所述视频信号中检测和跟踪所述头部区域内的子区域的尺寸和位置;以及根据所述子区域在所述头部区域内的相对位置来计算所述第一人的水平凝视的估计。
2.如权利要求1所述的方法,其中,观看包括利用相对于多个视频显示区块定位的、被布置成面向所述第一人的所述第一视频相机来观看所述第一人,并且所述方法还包括在所述多个视频显示区块中的相应视频显示区块上显示多个人中的每一个的视频图像;以及根据所述第一人的水平凝视的估计来确定所述第一人正在看向所述多个人中的哪个。
3.如权利要求1所述的方法,其中,观看还包括利用所述第一视频相机或另外的视频相机观看多个人,并且所述方法还包括根据所述第一人的水平凝视的估计来确定所述第一人正在看向所述多个其他人中的哪个。
4.如权利要求1所述的方法,其中,检测和跟踪所述头部区域包括生成表示所述第一人的头部区域的第一矩形的数据,并且检测和跟踪所述子区域包括生成所述第一矩形内的第二矩形的尺寸和位置的数据,其中所述第二矩形包括所述第一人的耳、鼻和嘴。
5.如权利要求4所述的方法,其中,计算所述水平凝视的估计包括计算所述第一矩形和所述第二矩形各自的水平中心之间的距离d,以及所述第一矩形的半径r,并且计算水平凝视角度为arCSin(d/r)。
6.如权利要求1所述的方法,其中,观看包括在第一位置处利用所述第一视频相机观看包括所述第一人的第一组人并且在第二位置处利用至少第二视频相机观看第二组人,并且所述方法还包括在所述第一位置处基于由所述第二视频相机输出的视频信号在各个视频显示区块上显示所述第二组人中的各个人的视频图像并且在所述第二位置处基于由所述第一视频相机输出的视频信号在各个视频显示区块上显示所述第一组人中的各个人的视频图像。
7.如权利要求6所述的方法,其中,计算包括计算相对于所述第一组人中的另一人的所述第一人的水平凝视的估计。
8.如权利要求6所述的方法,其中,计算包括计算相对于示出所述第二组人中的人的视频图像的视频显示区块的所述第一人的水平凝视的估计。
9.如权利要求1所述的方法,其中,计算包括在每个时间步阶计算表示所述头部区域内的所述子区域的尺寸和位置的随机样本粒子分布;计算所述子区域的至少一个图像分析特征;基于所述至少一个图像分析特征计算所提议的粒子分布的重要性权重;通过强调具有高重要性权重的样本粒子分布的成分并且不强调具有低重要性权重的样本粒子分布的成分来计算新的样本粒子分布。
10.如权利要求9所述的方法,还包括计算所述头部区域内的所述子区域的尺寸和位置的更新后估计为所述新的样本粒子分布的加权平均。
11.如权利要求9所述的方法,还包括基于所述新的样本粒子分布的具有最高重要性权重的成分的加权平均来计算所述头部区域内的所述子区域的尺寸和位置的更新后估计。
12.如权利要求1所述的方法,其中,检测所述头部区域、检测所述子区域和计算是相对于多个人中的每一个执行的,以便根据所述多个人中的每一个的水平凝视来计算共同视野,并且所述方法还包括选择包含确定所述共同视野所朝向的特定人的图像的视频信号。
13.如权利要求1所述的方法,其中,检测所述头部区域、检测所述子区域和计算是相对于多个人中的每一个执行的,以便根据所述多个人中的每一个的水平凝视来计算共同视野,并且所述方法还包括在显示器的一个区块上显示说话的人的图像并且在所述显示器的另一区块中显示确定所述共同视野所朝向的人的图像。
14.如权利要求1所述的方法,还包括处理所述第一人的视频图像以人为地调整所述第一人的眼球方向。
15.如权利要求1所述的方法,还包括基于所述第一人的水平凝视来选择来自多个视频相机之一的信号用于输出到显示器。
16.编码在一个或多个有形介质中供执行的逻辑,该逻辑在被执行时可操作来从由被配置为观看人的视频相机产生的视频信号中检测和跟踪人的头部区域;在所述视频信号中检测和跟踪所述头部区域内的子区域的尺寸和位置;以及根据所述子区域在所述头部区域内的相对位置来计算所述人的水平凝视的估计。
17.如权利要求16所述的逻辑,其中,检测和跟踪所述头部区域的逻辑包括被配置为生成表示所述人的头部区域的第一矩形的数据的逻辑,并且检测和跟踪所述子区域的逻辑包括被配置为生成所述第一矩形内的第二矩形的尺寸和位置的数据的逻辑,其中所述第二矩形包括所述人的耳、鼻和嘴。
18.如权利要求17所述的逻辑,其中,计算所述水平凝视的估计的逻辑包括被配置为计算所述第一矩形和所述第二矩形各自的水平中心之间的距离d以及所述第一矩形的半径r并且计算水平凝视角度为arCSin(d/r)的逻辑。
19.如权利要求16所述的逻辑,其中,计算所述水平凝视的估计的逻辑包括被配置为在每个时间步阶进行以下操作的逻辑计算表示所述头部区域内的所述子区域的尺寸和位置的随机样本粒子分布;计算所述子区域的至少一个图像分析特征;基于所述至少一个图像分析特征计算所提议的粒子分布的重要性权重;通过强调具有高重要性权重的样本粒子分布的成分并且不强调具有低重要性权重的样本粒子分布的成分来计算新的样本粒子分布。
20.一种装置,包括至少一个视频相机,该至少一个视频相机被配置为观看人并产生视频信号;处理器,该处理器被配置为在所述视频信号中检测和跟踪所述人的头部区域;在所述视频信号中检测和跟踪所述头部区域内的子区域的尺寸和位置;以及根据所述子区域在所述头部区域内的相对位置来计算所述人的水平凝视的估计。
21.如权利要求20所述的装置,其中,所述处理器被配置为通过生成表示所述人的头部区域的第一矩形的数据来检测和跟踪所述头部区域,并且所述处理器被配置为通过生成所述第一矩形内的第二矩形的尺寸和位置的数据来检测和跟踪所述子区域,其中所述第二矩形包括所述人的耳、鼻和嘴。
22.如权利要求21所述的装置,其中,所述处理器被配置为通过计算所述第一矩形和所述第二矩形各自的水平中心之间的距离d以及所述第一矩形的半径r并且计算水平凝视角度为arcsin(d/r)来计算所述水平凝视的估计。
全文摘要
提供从视频信号确定人的水平凝视的技术,该视频信号是通过利用至少一个视频相机观看该人来生成的。从该视频信号中,检测和跟踪该人的头部区域。还从该视频信号中检测和跟踪头部区域内的子区域的尺寸和位置。根据子区域在头部区域内的相对位置来计算该人的水平凝视的估计。
文档编号G06T7/20GK102317976SQ201080008055
公开日2012年1月11日 申请日期2010年2月12日 优先权日2009年2月17日
发明者J·威廉·穆澈利, 田迪洪, 约瑟夫·T·福瑞尔 申请人:思科技术公司