专利名称:对图像进行处理的方法、设备和系统的制作方法
技术领域:
本发明涉及人脸图像处理,具体涉及一种对来自多个摄像机的人 脸图像进行处理,以便对其进行聚类的方法,设备和系统。
背景技术:
人脸检测是模式识别研发的热点话题。在过去的几年中,人脸检 测技术在检测精度和检测速度方面都得到了长足的发展。人脸检测的 目的在于确定图像中是否有包含人脸图像的区域并且自动定位这些 人脸图像区域。人脸检测广泛应用于生活的各个领域。例如,近年来, 人脸检测已经嵌入到数码相机中,以便使用人脸自动检测技术帮助人 们针对人脸获得高质量的图像。另外,在安全应用中,人脸检测技术 用来提取人脸图像并且将提取的人脸图像提供给人脸识别器,从而进 行人脸的自动分析。
另外,基于相机的人脸捕获技术是人脸检测的一个应用。人脸捕 获技术首先由相机捕获图像,然后输出带有人脸图像区域的那些图 像。这种技术可以用于人脸识别的前端模块或者人脸分析系统的前端 模块,以便为后续的分析提供良好的人脸图像数据。
人脸图像捕获的目的在于从输入的图像中自动提取人脸图像。通
常采用人脸检测技术来定位图像中的人脸区域。由于人脸是3D物体, 人脸图像实际上是三维人脸物体在二维图像平面上的投影。不同的脸 部姿态会从一个3D人脸产生多幅人脸图像。因此,人脸捕获技术的 任务不但是要检测并且提取正面人脸图像,而且要捕获其他方向的人 脸图像,例如侧面图像。
目前的人脸捕获技术通常使用单一相机。人脸检测模块首先从相 机获得捕获的图像,然后搜索捕获的图像中的各个位置。在每个位置, 人脸检测模块首先确定预定尺寸的图像区域,并且判断该区域是否是 人脸区域。如果该区域被分类为人脸区域,则该区域被作为候选人脸图像区域来处理。在搜索之后,如果这些人脸区域有重叠部分,则对 这些人脸图像进行融合。最终将融合人脸图像区域的位置标记为人脸 图像区域。如果仅仅需要人脸图像,则从这些人脸图像区域取出样本 区域即可。
基于单一相机的人脸检测的缺点在于人脸检测模块对于正面人 脸图像能够取得较高的检测精度,而对于非正面人脸图像,则精度较 差。另一个问题在于,只有当人们正对着相机时才能够捕获正面图像, 而实际的情况并不能总满足这一点。因此需要人脸检测系统尽可能地 获得人脸的正面图像。换言之,在基于单一相机的人脸检测技术中, 难以避免由于被拍摄者的人脸姿态所造成的问题,原因在于人们并不 总是正对着相机镜头。如果人们没有正对着相机的镜头,则捕获的人 脸图像必然是非正面图像或者侧面图像。
在基于多相机的人脸捕获技术中,非常容易获得人脸的正面图 像,这是由于有多个相机对着人们,使得捕获人脸的正面图像的机会 增大。在基于多相机的人脸检测技术中,多个相机在同一时刻会捕获 相同人脸的不同方向的图像,这就产生了需要将来自不同摄像机的人 脸图像进行聚类的问题。
发明内容
本发明的图像处理技术基于多相机。由于多个相机在同一时刻捕 获了相同人脸的不同图像,本发明的技术意欲提供一种聚类方法,以 便将这些图像对应于不同的人而聚类。在本发明的实施例中,利用图 像之间的距离来测量不同姿态的图像之间的相似度,从而免去了要进 行人脸姿态估计所引起的复杂计算量问题。换言之,本发明的图像处 理技术可以有效地捕获人脸图像,而不存在姿态估计问题,并且能够 输出高质量的人脸图像。
在本发明的一个方面,提出了一种对图像进行处理的方法,所述 图像是由分布在不同位置的多个摄像机对同一场景所捕获的,所述方 法包括步骤从所捕获的图像中检测人脸图像;以不同的姿态角度,
用预先确定的人脸姿态模型对检测到的人脸图像中的每一个进行处理,生成不同姿态角度的合成图像,作为相应人脸图像的合成图像集; 提取合成图像集中的合成图像的特征矢量;通过计算不同合成图像集 中的合成图像之间的特征矢量距离来计算不同合成图像集之间的距 离;基于不同合成图像集之间的距离对检测的人脸图像进行聚类。
在本发明的另一方面,提出了一种对图像进行处理的设备,所述 图像是由分布在不同位置的多个摄像机对同一场景所拍摄的该设备 包括检测装置,从所捕获的图像中检测人脸图像;人脸模型存储装 置,存储预先确定的人脸姿态模型;处理装置,以不同的姿态角度, 用人脸模型存储装置中存储的人脸姿态模型对检测到的人脸图像中 的每一个进行处理,生成不同姿态角度的合成图像,作为相应人脸图 像的合成图像集;提取装置,提取合成图像集中的合成图像的特征矢 量;距离计算装置,通过计算不同合成图像集中的合成图像之间的特 征矢量距离来计算不同合成图像集之间的距离;聚类装置,基于不同 合成图像集之间的距离对检测的人脸图像进行聚类。
在本发明的又一方面,提出了一种图像处理系统,包括分布在 不同位置的摄像机,用于针对同一场景捕获图像;检测装置,从所捕 获的图像中检测人脸图像;人脸模型存储装置,存储预先确定的人脸 姿态模型;处理装置,以不同的姿态角度,用预先确定的人脸姿态模 型对检测到的人脸图像中的每一个进行处理,生成不同姿态角度的合 成图像,作为相应人脸图像的合成图像集;提取装置,提取合成图像 集中的合成图像的特征矢量;距离计算装置,通过计算不同合成图像 集中的合成图像之间的特征矢量距离来计算不同合成图像集之间的 距离;聚类装置,基于不同合成图像集之间的距离对检测的人脸图像 进行聚类。
利用本发明实施例的技术,可以很容易检测并且提取高质量的人 脸图像。由于使用了布置在不同位置的多个相机,本发明实施例的技 术可以解决人脸姿态问题。人脸姿态空间被多个相机划分成多个子人 脸姿态空间。每个摄像机之间的人脸姿态改变程度很小。
本发明实施例还采用了有效的人脸距离来进行人脸图像聚类,从 而更为鲁棒并且计算量更小。
从下面结合附图的详细描述中,本发明的上述特征和优点将更加 明显,其中
图1示出了根据本发明实施例的图像处理系统的结构示意图; 图2示出了根据本发明实施例的图像处理方法的流程图; 图3是对人脸图像进行处理所用的姿态角的示意图;以及 图4是进行距离计算所用的距离矩阵的示意图。
具体实施例方式
下面,参考附图详细说明本发明的优选实施方式。为了清楚和简 明,包含在这里的已知的功能和结构的详细描述将被省略,以防止它 们使本发明的主题不清楚。
图1示出了根据本发明实施例的图像处理系统的结构示意图。如
图1所示,根据本发明实施例的图像处理系统包括视频捕获部分10, 人脸检测部分20,人脸聚类部分30和选择部分40。根据本发明的实 施例,人脸聚类部分30包括图像处理单元31,特征矢量提取单元32, 距离计算单元33和聚类单元34。
视频捕获部分IO例如是设置在不同位置的多个摄像机,针对同 一场景,例如大厦的门口进行拍摄,并且将捕获的视频信号转换成数 字图像数据。然后捕获的图像被送入人脸检测部分20。在人脸检测 部分20,定位捕获的图像中包含人脸的区域的位置,并且基于这些 位置从图像中提取人脸图像。然后,在人脸聚类部分30中对来自不 同摄像机的各个人脸图像进行聚类,形成针对不同人的图像组。最后, 在选择部分40中,基于预定的准则,例如清晰度或者两眼之间的距 离,从聚类后的图像组中选为每一类选择相应的代表性图像,作为输 出。
在人脸聚类部分30中,图像处理单元31以事先存储在人脸模型 存储器(未示出)中的3D姿态模型或者2D姿态模型对各个人脸图 像进行处理,生成各个姿态角度的合成人脸图像,作为针对个人脸图
8像的合成图像集。然后,特征矢量提取单元32提取各个合成图像的 LDA或者PCA矢量。由距离计算单元33计算不同合成图像集的合 成人脸图像之间的距离,并且将最小的距离作为两个集合之间的距 离。接下来,聚类单元34基于合成图像集之间的距离对人脸图像进 行聚类,产生针对不同人的图像组。
接下来,如上所述,选择部分40基于预定的准则,例如清晰度 或者两眼之间的距离,从聚类后的图像组中选为每一类选择相应的代 表性图像,作为输出。
下面结合如图2 4详细说明上述各个部分的详细构成和操作过 程。图2示出了根据本发明实施例的图像处理方法的流程图。
在本发明的实施例中,采用多个相机一起协作的形式来捕获图 像,这些相机布置成针对同一目标进行拍摄,例如大厦的门口。换言 之,这些相机中的至少部分具有公共的视场。
在步骤Sll,包括摄像头和视频采集卡的视频捕获部分IO针对同 一场景产生视频信号,对视频信号进行采样并且将其转换成数字视频 图像。产生的数字视频图像存储在系统的缓冲存储器(未示出)中。 根据本发明的实施例,图像的格式可以是PAL或者NTSC或者按照 用户的需要而确定。同样,图像的尺寸同样可以是事先确定的或者是 按照用户的需求而确定的。
在步骤S12,人脸检测部分采用各种检测器,例如非专利文献1 (Ming-Hsuan Yan, David J. Kriengman, and Narendra Ahuja. Detecting Faces in Images: A Survey. IEEE Transactions On Pattern analysis and Machine Intelligence, Vol. 24, No. 1, pp. 34-58, 2002)中描述的各种人 脸检测器,或者非专利文献2 (Paul A. Viola, Michael J. Jones: Rapid Object Detection using a Boosted Cascade of Simple Features. In Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2001), Vol. 1, pp. 511-518, Kauai, HI, USA, 8-14 December 2001 )提出的分类器来检测捕获图像中的人脸区 域。例如首先对用带人脸的图像人脸图像,则分类器输出"',否则输出'0,。这样,分类器以不同的尺度搜索图像中的所有位置后找到图像中的人脸区域。
在步骤S13,以不同的姿态角度对人脸图像进行处理,得到合成
图像集。如上所述,在基于多相机的应用中, 一个人被多个相机捕获得到不同姿态角度的人脸图像,这是由于相机处于不同的位置和方位。因此聚类的过程可以看出是将同一人的不同姿态的人脸图像进行分类的过程。
通常,来自同一人的两幅相同姿态的人脸图像之间的相似度要大于不同姿态的图像之间的相似度。来自不同人的两幅相同姿态的人脸图像之间的相似度要小于来自同一人的两幅相同姿态的人脸图像之间的相似度。因此相同姿态的人脸图像将很容易被聚为一类。根据本
发明的实施例,使用非专利文献3(W. Zhao, R. Chellappa, A. Rosenfeld:P.J. Phillips, Face Recognition: A Literature Survey, ACM ComputingSurveys, Vol. 35, Issue 4, pp. 399-458, December 2003)所述的诸如LDA或者PCA之类的特征矢量之间的距离来表示人脸图像之间的相似度。根据本发明的实施例,以不同的姿态角度对人脸图像进行处理,例如渲染,产生针对不同姿态角度,例如水平和/或垂直-45度到+45度,的合成人脸图像,作为该人脸图像的合成图像集。图3是各个人脸姿态角度的例子。
在步骤S14,提取合成图像集中的各个图像的特征矢量。在步骤S15,通过计算特征矢量之间的距离来确定合成图像集之间的距离。
例如,计算不同图像集的各个合成图像之间的LDA或PCA特征矢量距离,然后计算这些距离中的最小距离,作为合成图像集之间的距离。下面详细描述该过程。
给定两幅人脸图像力和力,通过用不同的姿态角度对两幅人脸图像进行渲染来得到相应的合成人脸图像集A和《。合成人脸图像集表示如下
<formula>formula see original document page 10</formula>
/(W)和/,(M)是使用某个姿态角度W的模型渲染后得到的合成人脸图像,e是预定的单位人脸姿态角度,A是-"到"的整数变量.
对于每对人脸图像/(W)和/(^),可以通过LDA或PCA特征矢量的特征矢量距离获得距离矩阵。图4示出了这样的一个距离矩阵的例子。在计算得到了特征矩阵之后,将人脸图像/和力之间的最小人脸姿态距离(MFPD)定义为距离矩阵之间的最小距离。MFPD表示如下
J、,、e卜o,;i〗 J J
在步骤S16,基于图像集之间的距离对人脸图像进行聚类。 一旦得到了两幅人脸图像之间的距离,则可以使用基于约束的分级聚类方法可以被用来对人脸图像进行聚类。这里的约束是如果不同的人脸图像来自同一摄像机,则将这些人脸图像分为不同类。例如,将距离小于预定的阈值的两类合并成同一类,直到没有可合并的类别。两类C,.和G之间的距离定义如下
"(C,,C,) = m(nMF尸"(/,/').
两类之间的距离还可以采用最大或者平均MFPD距离。
在步骤S17,在聚类之后,根据预定的准则从人脸图像中选择一幅图像作为该类图像的代表性图像。例如选择两眼之间的距离最大的那幅图像或者清晰度最大的那幅图像作为该类的代表性图像
上面的描述仅用于实现本发明的实施方式,本领域的技术人员应该理解,在不脱离本发明的范围的任何修改或局部替换,均应该属于本发明的权利要求来限定的范围,因此,本发明的保护范围应该以权利要求书的保护范围为准。
ii
权利要求
1、一种对图像进行处理的方法,所述图像是由分布在不同位置的多个摄像机对同一场景所捕获的,所述方法包括步骤从所捕获的图像中检测人脸图像;以不同的姿态角度,用预先确定的人脸姿态模型对检测到的人脸图像中的每一个进行处理,生成不同姿态角度的合成图像,作为相应的人脸图像的合成图像集;提取合成图像集中的合成图像的特征矢量;通过计算不同合成图像集中的合成图像之间的特征矢量距离来计算不同合成图像集之间的距离;基于不同合成图像集之间的距离对检测的人脸图像进行聚类。
2、 如权利要求1所述的方法,还包括从同一聚类的图像中选择两眼之间的距离最大的那幅图像,作为 该聚类的代表性图像。
3、 如权利要求1所述的方法,还包括从同一聚类的图像中选择清晰度最大的那幅图像,作为该聚类的 代表性图像。
4、 如权利要求1所述的方法,其中所述的特征矢量是LDA或 PCA特征矢量。
5、 如权利要求1所述的方法,其中所述基于不同合成图像集之 间的距离对检测的人脸图像进行聚类的步骤包括将不同合成图像集之间的距离小于预定阈值的人脸图像分为同一聚类。
6、 如权利要求1所述的方法,其中,如果不同的人脸图像来自 同一摄像机,则将这些人脸图像分为不同类。
7、 如权利要求l所述的方法,其中,所述姿态角度的范围是从 -45度到+45度的水平和/或垂直角。
8、 如权利要求1所述的方法,其中通过计算不同合成图像集中的合成图像之间的特征矢量距离来计算不同合成图像集之间的距离 的步骤包括计算不同合成图像集中的合成图像之间的特征矢量距离; 确定所计算的特征矢量距离中最小的特征矢量距离,作为所述不 同合成图像集之间的距离。
9、 如权利要求1所述的方法,其中所述人脸姿态模型是2D或 3D人脸姿态模型。
10、 一种对图像进行处理的设备,所述图像是由分布在不同位置 的多个摄像机对同一场景所拍摄的该设备包括.-检测装置,从所捕获的图像中检测人脸图像;人脸模型存储装置,存储预先确定的人脸姿态模型;处理装置,以不同的姿态角度,用人脸模型存储装置中存储的人脸姿态模型对检测到的人脸图像中的每一个进行处理,生成不同姿态角度的合成图像,作为相应人脸图像的合成图像集;提取装置,提取合成图像集中的合成图像的特征矢量; 距离计算装置,通过计算不同合成图像集中的合成图像之间的特征矢量距离来计算不同合成图像集之间的距离;聚类装置,基于不同合成图像集之间的距离对检测的人脸图像进行聚类。
11、 如权利要求IO所述的设备,还包括选择装置,用于从同一聚类的图像中选择两眼之间的距离最大的 那幅图像,作为该聚类的代表性图像。
12、 如权利要求IO所述的设备,还包括选择装置,从同一聚类的图像中选择清晰度最大的那幅图像,作 为该聚类的代表性图像。
13、 如权利要求IO所述的设备,其中所述的特征矢量是LDA或 PCA特征矢量。
14、如权利要求10所述的设备,其中所述聚类装置将不同合成 图像集之间的距离小于预定阈值的人脸图像分为同一聚类。
15、如权利要求IO所述的设备,其中,如果不同的人脸图像来自同一摄像机,则聚类装置将该图像分为不同类。
16、 如权利要求10所述的设备,其中,所述姿态角度的范围是从-45度到+45度的水平和/或垂直角。
17、 如权利要求IO所述的设备,其中距离计算装置计算不同合 成图像集中的合成图像之间的特征矢量距离,并且确定所计算的特征 矢量距离中最小的特征矢量距离,作为所述不同合成图像集之间的距 离。
18、 如权利要求10所述的设备,其中所述人脸姿态模型是2D 或3D人脸姿态模型。
19、 一种图像处理系统,包括分布在不同位置的摄像机,用于针对同一场景捕获图像; 检测装置,从所捕获的图像中检测人脸图像; 人脸模型存储装置,存储预先确定的人脸姿态模型; 处理装置,以不同的姿态角度,用预先确定的人脸姿态模型对检测到的人脸图像中的每一个进行处理,生成不同姿态角度的合成图像,作为相应人脸图像的合成图像集;提取装置,提取合成图像集中的合成图像的特征矢量; 距离计算装置,通过计算不同合成图像集中的合成图像之间的特征矢量距离来计算不同合成图像集之间的距离;聚类装置,基于不同合成图像集之间的距离对检测的人脸图像进行聚类。
全文摘要
提出了一种对图像进行处理的方法,设备和系统。该图像是由分布在不同位置的多个摄像机对同一场景所捕获的,所述方法包括如下步骤从所捕获的图像中检测人脸图像;以不同的姿态角度,用预先确定的人脸姿态模型对检测到的人脸图像中的每一个进行处理,生成不同姿态角度的合成图像,作为相应人脸图像的合成图像集;提取合成图像集中的合成图像的特征矢量;通过计算不同合成图像集中的合成图像之间的特征矢量距离来计算不同合成图像集之间的距离;基于不同合成图像集之间的距离对检测的人脸图像进行聚类。该方法、设备和系统可以很容易检测并提取高质量的人脸图像。
文档编号G06T5/50GK101673346SQ200810215058
公开日2010年3月17日 申请日期2008年9月9日 优先权日2008年9月9日
发明者张洪明, 炜 曾 申请人:日电(中国)有限公司