专利名称:在对图像中的人的识别过程中使用时间的制作方法
技术领域:
本发明涉及图像处理,更特别地涉及对数字图像或视频的集合中的 感兴趣的人的辨认或识别。
背景技术:
随着数字摄影的出现,用户正在积聚大量的数字图像和视频。每个 摄影者利用数字照相机拍摄的图像的平均数量每年仍在增长。因此,对 于典型用户来说,对图像和视频的组织和检索已经是一个问题。目前, 典型用户的数字图像集合所跨越的时间长度只有几年。随着平均数字图 像和视频集合所跨越的时间长度增加,组织和检索的问题将继续增长。用户摄影的最基本的对象之一是人。而且,在给定集合的数字图像 和视频中,某些人往往会频繁地出现。例如,新为父母者所拍摄的大多 数图像包含他们的新生婴儿是普遍的。用户期望具有从他们的集合中找 到包含特定人的全部图像的能力。然而,这在技术上是一个非常困难的 任务。例如,婴儿会从婴儿成长到幼儿、儿童、成人,并且在表观上会 有根本的变化。存在许多为了安全或其它目的而试图识别人的图像处理包。 一些例子是来自Cognitec Systems GmbH的FaceVACS面部识别软件以及来自 Imagis Technologies Inc.和Identix Inc.的面部识另'j SDK。这些程序包主要 打算用于安全类型的应用,其中人在均匀的照明、正面的姿势和中性的 表情下面对照相机。这些方法不适合用于个人用户图像,因为在该领域 的图像中会遇到在姿势、照明、表情和面部尺寸上大的变化。而且,这 些系统的目标是应用于成人面部,并且不能成功地识别处于任何年龄的 感兴趣的特定人的图像。几种用于从数字图像中检测人的年龄的图像处理技术已经被描 述。例如,Lobo和Kwon在美国专利No. 5,781,650中描述了 一种对数字图像中人的面部的年龄进行分类的方法。他们进行面部测量和采用蛇 形折线(snake)的皱紋分析,并把人的年龄分类为以下类别婴儿(直 到大约3岁)、年少者(3至40岁)和年长者(超过40岁)。该方法
没有讨论识别图像中的人的身份的问题。其它面部识别的图像处理技术是已知的。例如,美国公布的专利申请US 2004/0247177A1使用本征脸 来表征一个对象的面部的像素密度模式。所有上述技术都会遇到问题并 且可能错误地识别感兴趣的人。发明内容本发明的 一个目的是提供一种在图像的集合中识别 一个人的改进 的方法。已经确定的是,使用具有以感兴趣的已知人的面部特征之间的 距离测量值为基础的特征的表观模型来分类未知的人是特别有效的。在 成人中,这些距离测量值特征一般不随时间而改变,并且对感兴趣的人 的搜索的精确度会得到改善。在其特征随着成长而迅速改变的儿童中, 使用距离测量值的表观模型能够被有效地使用。该目的通过一种在随着时间而拍摄的数字图像的集合中识别至少 一个感兴趣的特定人的方法来实现,该方法包括提供数字图像的所述集合,其中每幅数字图像包含一个或多个人;在一个数字数据库中存储具有一组特征的一个表观模型,该组特征 是与在一个关联时间所述感兴趣的特定人的面部特征相关的距离测量值;并且提供一个个人识别分类器,所述个人识别分类器使用所述表观模型和 所述关联时间在来自数字图像的所述集合的图像中识别所述感兴趣的特 定人。本发明的一个有益效果是,使用一幅图像和一个关联时间, 一个感 兴趣的人能够在一个数字图像或视频中被识别出来。换句话说,本发明 认识到, 一幅婴儿的图像能够描绘与在稍后的日期拍摄的更大的儿童或 成人的照片中相同的人。
通过参考下面结合附图所作的对本发明实施例的描述,本发明的上发明本身将被更好地理解。其中图1是可以实施本发明的计算机系统的示意图; 图2是本发明的 一个实施例的流程图3A和3B是具有不同关联时间的感兴趣的人的表观模型; 图4A是用于产生一个具有关联时间的表观模型的本发明的一个实 施例的流程图;图4B是一个具有标记的特征点的感兴趣的人的表观模型; 图5是本发明的一个实施例的更详细的流程图; 图6示出一个儿童的表观模型;图7示出该表观模型的变型,其表示该儿童成年后可能的表观; 图8是本发明的一个可选实施例的流程图; 图9是本发明的一个可选实施例的流程图;以及 图10是与估计的出生日期以及和表观模型相关的出生日期相关的 概率分布的曲线图。
具体实施方式
在下面的描述中,本发明的一些实施例将被描述为软件程序。本领 域技术人员将容易认识到,这样的软件的等同物也能以硬件来构造。因 为图像处理算法和系统是公知的,所以当前的描述将特别针对形成根据 本发明的方法的 一部分、或者与根据本发明的方法更直接地协作的算法 和系统。在此未被专门示出或描述的、这种算法和系统的其它方面以及 用于产生并以别的方式处理随其涉及的图像信号的硬件或软件,可以从 本领域公知的系统、算法、部件和单元中进行选择。给定如在下面的说 明书中所阐述的描述,其所有的软件实施都是常规的,并且在这种领域 的普通技术手段之内。本发明能够被实施在计算机硬件和计算机化的设备中。例如,该方 法可以在数字照相机、数字打印机、因特网服务器、信息亭和个人计算 机中执行。参考图1,说明了一个用于实施本发明的计算机系统。尽管 为了说明优选实施例的目的而示出该计算机系统,但是本发明不限于所 述计算机系统,而是可被用于例如在数字照相机、家用计算机、信息亭、 零散或批量的相片洗印加工中发现的任何电子处理系统上,或者被用于 任何其它用于处理数字图像的系统上。该计算机系统包括一个基于微处 理器的单元20 (在此也被称为数字图像处理器)以用于接收和处理软件 程序以及用于执行其它处理功能。数字图像处理器20处理来自诸如照 相机、扫描仪或计算机图像生成软件之类的图像捕获装置10的图像。
数字图像处理器20可被用来处理数字图像,以便通过使图像输出装置 30产生一个好看的图像的方式来对数字图像的整体亮度、色阶、图像结 构等进行调整。数字图像处理器20与总控计算机40 (也是一个基于微 处理器的单元)连接以用于交换数据和命令。总控计算机40和数字图 像处理器20可以是两个不同的微处理器,或者每一个的功能可被一个 单独的物理微处理器来执行。数字图像处理器20常常向图像输出装置 30 (例如打印机)输出图像以用于显示该图像。显示装置50被电连接 到数字图像处理器20以用于显示与该软件有关的用户相关信息,比如 通过图像用户接口 。键盘60也经由总控计算机40被连接到基于微处理 器的单元20来允许用户向该软件输入信息。作为对使用键盘60进行输 入的替代,鼠标也可被用于移动在显示装置50上的选择器并选择该选 择器置于其上的一个项目,这是本领域所公知的。为了提供一种向总控计算机40和数字图像处理器20输入软件程序 和其它信息的手段, 一个通常包含软件程序的光盘只读存储器(CD-ROM) 被插入总控计算机 40。 另外,软盘也可以包含软件程序,并被 插入总控计算机40来输入软件程序。更进一步,正如本领域所公知的, 总控计算机40可被编程以在内部存储软件程序。总控计算机40可以具 有到外部网络(例如局域网或因特网)的网络连接,例如电话线或无线 连接。图像也可以经由个人计算机卡(PC Card)被显示于显示装置50上, 例如,正如先前所/>知的, 一个包含以电子的方式体现在该卡中的凄t字 化图像的PCMCIA卡(基于个人计算机存储卡国际协会的规范)。图像输出装置30提供最终图像。图像输出装置30可以是打印机或 其它提供纸张或其它硬拷贝的最终图像的输出装置。图像输出装置30 也可以是提供作为数字文件的最终图像的输出装置。图像输出装置30 也可以包括输出(例如打印的图像和存储单元(比如CD或DVD)上的 数字文件)的组合。一幅数字图像包含一个或多个数字图像通道或颜色分量。每个数字 图像通道都是像素的一个二维阵列。每个像素值涉及图像捕获装置接收 到的与像素的物理区域相对应的光量。对于彩色成像应用, 一幅数字图像通常将由红色、绿色和蓝色数字图像通道组成。运动成像应用可以被 认为是数字图像的序列。本领域技术人员将认识到,本发明可被应用于
(但不限于)任何这里提到的应用的数字图像通道。虽然数字图像通道 被描述为以行和列排列的像素值的二维阵列,但是本领域技术人员将认 识到,本发明可被应用于具有同等效果的非直线阵列。本领域技术人员 还将认识到,下文描述为用处理后的像素值代替原始像素值的数字图像 处理步骤在功能上等同于,把相同的处理步骤描述为用处理后的像素值 生成新的数字图像,同时保留原始像素值。应当注意,本发明可在软件或硬件的组合中实施,并且不限于物理 连接的或位于相同的物理位置内的装置。图l所示的一个或多个装置可 以位于远方并可经由网络连接。 一个或多个装置可以直接或经由网络无 线连接,例如通过射频链路。本发明可以被用于各种用户背景和环境中。示例性的背景和环境包 括但不限于批量数字相片洗印加工(其包括诸如拍摄、数字处理、打印 输出之类的示例性处理步骤或阶段)、零散数字相片洗印加工(拍摄、 数字处理、打印输出)、家庭打印(家用扫描胶片或数字图像、数字处 理、打印输出)、桌面软件(对数字印刷品应用算法以使其更好或甚至仅使其改变的软件)、数字实现(来自介质或经由web的数字图像输入, 数字处理,在介质上以数字形式、经由web以数字形式、或者在硬拷贝 印刷品上打印的图像输出)、信息亭(数字或扫描输入、数字处理、数 字或硬拷贝输出)、移动设备(例如可用作处理单元、显示单元、或给 出处理指令的单元的PDA或蜂窝电话)、以及作为通过万维网提供的 服务。在所有情况下,本发明可以是独立的,或者可以是一个更大的系统 解决方案的一个部件。而且,人机接口 (例如扫描或输入,数字处理, 对用户的显示(如果需要的话),用户请求或处理指令的输入(如果需 要的话),输出)可处于相同或不同的装置和物理位置上,并且这些装 置和位置之间的通信可以经由公共或专用的网络连接,或者是基于介质 的通信。在与本发明的前述^Hf相一致的情况下,本发明的方法可以是 全自动的,可以具有用户输入(全部或部分手动),可以具有用户或操 作者的检查来接收或拒绝结果,或者可以由元数据(可以由用户提供 的、由测量装置(例如在照相机中)提供的、或者由算法确定的元数据) 加以辅助。此外,所述算法可以与多种工作流用户接口方案相连。本发明包含在此描述的实施例的组合。提到"一个特定实施例"等 等是指存在于本发明的至少一个实施例中的特征。单独提到"一个实施 例,,或"特定实施例"等等不一定是指相同的一个或多个实施例;然而, 这样的实施例不是互斥的,除非被指明如此或者对本领域技术人员来说 显然如此。在图2中说明本发明的一个实施例。分析数字图像或视频104以识 别其中的人的身份。对数字图像或视频104的集合中的人的识别允许建 立一个数据库120,该数据库使数字图像或视频104和在数字图像或视 频104中的人的身份相关。因此,可以利用一个查询122来查询数据库 120,以找到那些包含所查询的人的图像和视频。数据库120可以采取 任何形式。另外,例如通过把个人分类118插入到数字图像或视频104 的文件头中,数据库120可以分布在许多存储位置上。例如, 一个对 "Jim"的图像的查询122返回包含一组含有感兴趣的人"Jim"的数字 图像或视频104的查询结果124。接着查询结果124可以被返回。查询 结果124是一组含有所查询的人的数字图像和视频104。数字图像或视频104被传送到捕获时间提取器108。捕获时间提取 器108确定数字图像或视频104被捕获的时间,并输出该图像捕获时间 112。数字图像或视频104的图像捕获时间112由捕获时间提取器108 通过几种方法中的一种来确定。时常地,捕获时间被嵌入数字图像或视 频104的文件头中。例如,EXIF图像格式(描述于www.exif.org)允许 图像或视频捕获装置在文件头中存储与该图像或视频相关的信息。"日 期\时间"条目与图像被捕获的日期和时间相关联。在一些情况下,数字 图像或视频由扫描胶片产生,并且图像捕获时间112通过对打印在图像 (在捕荻时常常这样做)区域(通常在图像的左下角)中的日期的检测 来确定。 一幅照片被打印的日期常常被打印在打印材料的背面。可选择 地, 一些胶片系统在胶片上含有磁性层来存储诸如捕获日期之类的信 息。捕获时间提取器108使用最适当的方法来提取图像的图像捕获时间 112。优选地,数字图像104的来源是数字照相机,并且捕获时间提取 器108从图像文件信息中提取捕获时间。注意,图像捕获时间112可以在时间上精确到分钟,例如2004年3 月27日10:17 AM。或者图^4甫获时间112可以不大精确,例如2004 年或2004年3月。图像捕获时间112可以采取概率分布函数的形式, 例如具有95%的置信度的2004年3月27日+/-2天。图像捕获时间ll2 被输入到个人识别分类器114。数字图像或视频104也作为输入被提供给个人查找器(finder) 106 来自动地检测在数字图像或视频中的人。个人查找器106识别数字视频 中的一个或多个人的个人特征110。优选地,人通过面部检测被找到。 检测人脸的方法在数字图像处理的领域中是公知的。例如, 一种用于找 到图像中的人脸的面部检测方法在下列文章中被描述Jones, M丄;Viola, P., "Fast Multi-view Face Detection", IEEE Conference on Computer Vision and Pattern Recognition(CVPR), June 2003。而且, 一旦面部被检测出来, 面部特征(例如眼睛、鼻子、嘴等)也可以使用公知的方法来定位,例 ^口由 Yuille等人在 "Feature Extraction from Faces Using Deformable Templates", Int. Journal of Comp. Vis., Vol. 8, Iss. 2, 1992, pp. 99-111中所 描述的方法。作者描述了一种使用具有模板匹配的能量最小化来定位 嘴、眼睛和虹膜/巩膜边界的方法。面部特征也可以使用由T. F. Cootes 和 C. J. Taylor 的 "Constrained Active Appearance Models", 8th International Conference on Computer Vision, Vol. 1, pages 748-754. IEEE Computer Society Press, July 2001描述的主动表观模型来找到。在优选的 实施例中,使用在 "An Automatic Facial Feature Finding System For Portrait Images", by Bolin and Chen in the Proceedings of IS&T PICS Conference, 2002中描述的基于人脸的主动形状模型来定位面部特征点 的方法。个人查找器106输出作为被个人查找器106检测到的人的定量描述 的个人特征110。优选地,个人查找器106为每个被检测到的人输出一 组个人特征110。优选地,个人特征是与特定面部特征相关联的82个特 征点的位置,这是使用与前述Cootes等人的主动表观模型类似的方法 找到的。 一幅面部图像的面部特征点的可视表示作为说明被示出在图3A 和3B中。可选择地,个人特征110可以另外利用诸如眼睛颜色、皮肤 颜色、脸型等之类的可定量描述符来表示。个人特征也可以是特定特征 点之间的距离或者由连接各组特定特征点的线形成的角。 一旦人和面部 特征被个人查找器106定位,颜色提示就容易地从数字图像或视频104 中被提取出来。个人特征110被输入到个人识别分类器114。可选择地,不同的面部特征也可以被使用。例如, 一个实施例可以 基于由M. Turk和A. Pentland在 "Eigenfaces for Recognition" Journal ofCognitive Neurosdence. Vol 3, No 1, 71-86, 1991中描述的面部相似性量 度。通过把面部的图像投影到一组描述面部表观的可变性的主成分函数 来获得面部描述符。任何两张脸之间的相似性通过计算把每张脸投影到 相同的 一 组函数所获得的多个特征的欧氏距离来测量。在这种情况下, 表观模型可描述同 一 张脸的多幅图像在这些主成分函数上的投影的均 值和协方差。相似性量度(例如通过图5的个人分类器132来计算)可 以计算一张新脸到该模型的均值的Mahalonobis距离。表观才莫型和相似性测量可以包括诸如本征脸、面部测量、颜色/紋 理信息、小波特征等之类的几个不同特征类型的组合。来自所存储的数 字数据库的一组表观模型116'-116N被输入到个人识别分类器114以确 定被个人查找器106检测到并用个人特征110表示的人的身份。表观模 型116,-116N包含与感兴趣的特定人相关联的一组特征。另外,每个表 观模型具有一个关联时间。表观模型116广116w表示感兴趣的人在特定 时间或年龄的个人表观(优选面部表观)。表观模型将在下面被更详细 地讨论。感兴趣的人是对在数字图像和视频104的集合中进行识别来说 重要的人。例如,在一个有小孩的家庭中,每个孩子都可能会是感兴趣 的人,因为对于家长来说,识别在数字媒体集合的每个照片和视频104 中各个孩子的出现是有用的和有价值的。个人识别分类器114的目的是 使用表观模型116,-116N、图像捕获时间112和个人特征110中的一个 或多个来确定由个人查找器106检测到的人是否就是感兴趣的人。这通 过将检测到的人的个人特征110与感兴趣的特定人的表观模型116的特 征进行比较来实现。个人识别分类器114输出个人分类118。优选地, 个人分类118是个人查找器106检测到的人正是感兴趣的人的可能性 (概率)。个人分类118可以是二进制指示符(例如真或假),其指示 个人识别分类器114对与个人特征110相关联的人是否就是感兴趣的人 的判定。通过对在集合的每个数字图像或视频104中检测到的每个人重复应 用个人识别分类器114,所有被个人查找器106检测到的人都被按照各 自正是感兴趣的特定人的可能性进行分类。另外,感兴趣的另一人的表观模型117,-117M也被输入到个人识别 分类器114。每个被个人查找器106找到的人随后生成一组个人特征 110,并且个人识别分类器114输出个人分类118以指示每个被检测到 的对应于一组个人特征110的人是任一感兴趣的人的可能性。个人分类优选是一组表示与个人查找器106检测到的人相对应的个人特征IIO正 是感兴趣的特定人的概率,每个感兴趣的人一个概率。简要概括一下,个人识别分类器114使用图像捕获时间112和具有 与感兴趣的特定人相关联的关联时间的表观模型116的特征来产生描述 检测到的人正是感兴趣的人的可能性的个人分类118。个人分类118的信息随后可以被存储在数据库120中,其与个人特 征110相关联或者与数字图像或视频相关联。当作出对包含感兴趣的特 定人的图像或视频的查询122时,数据库120被搜索,并且适当的查询 结果124通过用户接口 (例如图1的显示装置50)被返回给用户。N个表观模型116,-116w表示感兴趣的人的表观。每个表观模型具 有一个关联时间。例如,表观模型116,可以表示感兴趣的人在1岁时的 表观,以及表观模型1162可以表示感兴趣的人在2岁时的表观。在这个 例子中,关联时间是1岁和2岁。与表观模型相关联的时间可以是感兴 趣的人的年龄或者诸如日期之类的绝对时间。与图像捕获时间112 — 样,与表观模型相关联的时间可以是概率分布函数,或者可以是精确的 (例如按天衡量的感兴趣的人的年龄)或不精确的(例如按十年衡量的 感兴趣的人的年龄)。感兴趣的人的表观模型也可以包含该感兴趣的人 的出生日期。与图像捕获时间112和与表观模型相关联的时间一样,出 生日期可以是精确的(例如出生日期2002年6月26日)或不精确的(例 如出生日期在20世纪60年代),或者可以被表示为概率分布函数。例如,图3A和3B示出感兴趣的特定人的两个不同的表观模型。图 3A示出感兴趣的特定人在1岁时的表观模型的图示,而图3B示出感兴 趣的特定人在2岁时的图示。每个表观模型图示示出了面部的轮廓、眼 睛和眉毛的轮廓、以及鼻子底部的标记。所述显示被标准化,以使左眼 位于(0, 0)且右眼位于(1, 0)。注意,2岁的表观模型中的眼睛显 得比1岁时小,这是与生长相关的面部改变的结果。为感兴趣的人生成表观模型的优选方法在图4A和4B中被示出。通 过从一组含有感兴趣的人的图像中计算个人特征IIO来处理数字图像或 视频104的集合。个人查找器106在图像中找到人,并且个人特征IIO 被计算出来。找到的人脸被分组成具有类似面部的簇,其中每个簇表示 一个人或是一个人的一个特定表观,正如在2003年11月13日公布的
共同转让的美国公布专利申请20030210808 Al中所描述的。人类用户 确保聚类是正确的,并且在单个簇中的所有人都是相同的感兴趣的人。 同样,捕获时间提取器108提取与每个图像或视频104相关联的图像捕 获时间112。图像捕获时间112和个人特征IIO被输入到表观模型生成 器102。表观模型生成器为感兴趣的人输出一组表观模型116,-116N。 人类用户输入103也被输入到表观模型生成器102来指示感兴趣的人的 出生日期。表观模型生成器使用与感兴趣的人相关的个人特征并生成一 组表观模型116-116N。例如,表观模型生成器102使用与个人查找器 106对感兴趣的人的所有4佥测相关的、感兴趣的人1岁时的个人特征来 生成表观模型116"然后,表观模型生成器102使用与个人查找器106 对感兴趣的人的所有检测相关的、感兴趣的人2岁时的个人特征生成表 观模型1162。因为人脸在生长年龄(0至16岁)变化最为迅速,所以儿童的表观 模型需要比非生长年龄的表观模型具有更小的时间间隔(相对于表观模 型的关联时间)。为了良好的性能,处于生长年龄的儿童比处于非生长 年龄的成人需要数量更多的表观模型。例如,以下会是优选的在O与 6岁之间每一年、在6与16岁之间每2年、在16与22岁之间每3年、 以及在这之后每5年的关联时间的间隔生成一个表观模型。表观模型 116可以通过计算感兴趣的人的个人特征的全部实例的均值和协方差来 生成,其中该感兴趣的人的年龄(如果该感兴趣的人的出生日期是已知 的,否则使用图像捕获时间)处于给定的间隔内。概括一下,表观模型 116包含表示定量的面部属性的特征。在优选的实施例中,这些面部属 性是与诸如眼睛、鼻子、嘴和前额之类的面部特征相关的测量值。所用 的特征被列于表1中,并且它们的计算涉及图4B中用数字所示的面部上的点。Arc(Pn, Pm)被定义为§|户"-+ 其中||尸"-/^||指的是特征点n和m之间的欧氏距离。这些弧长特征除以两眼间距以在不同的面 部尺寸上进4于标准化。点PC是位于点0和1的形心的点(即该点正好
在两眼之间)。这里使用的面部测量值源自于已经被表明与判断性别、年龄、吸引力和种族性相关的人脸的人体测量值(参考"Anthropometry of the Head and Face" by Farkas(Ed.), 2nd edition, Raven Press, New York, 1994)。表l:比例特征的列表名称分子分母眼睛至鼻子/眼晴至嘴PC-P2PC-P32眼睛至嘴/眼睛至下颚PC-P32PC-P75头至下颚/眼睛至嘴P62-P75PC-P32头至眼晴/眼睛至下颚P62-PCPC-P75头至眼晴/眼睛至嘴P62-PCPC-P32鼻子至下颚/眼睛至下颚P38-P75PC-P75嘴至下颚/眼睛至下颚P35-P75PC-P75头至鼻子/鼻子至下颚P62-P2P2-P75嘴至下颚/鼻子至下颚P35-P75P2-P75颚宽/脸宽P78-P72P56-P68眼睛间距/鼻宽P07-P13P37-P39嘴至下颚/颚宽P35-P75P78-P72表2:弧长特征的列表名称计算下颚弧Arc(P69, P81)上眼框弧(P56-P40)+Int(P40, P44)+(P44-P48) +Arc(P48, P52)+(P52-P68)上嘴唇弧Arc(P23, P27)下嘴唇弧Arc(P27, P30)+(P30-P23)表观模型描述了在关联时间上感兴趣的人的表观。给定的表观模型 可以包含特定情况的子模型。例如,在一个给定的表观模型中可以有感 兴趣的人戴眼镜时的子模型以及感兴趣的人不戴眼镜的第二表观模15型。图5说明了当与表观模型116,-116N相关的时间是感兴趣的人的年 龄并且感兴趣的人的出生日期已知时个人识别分类器114更详细的寺见 图。年龄计算器126计算感兴趣的人的在图像捕获时间的年龄。例如, 如果图像捕获时间是1999年11月2日并且感兴趣的人的出生日期是 1977年,则年龄计算器126确定感兴趣的人的年龄是7976天至8340天 (21岁10个月2天至22岁10个月1天)。年龄建模器128使用感兴 趣的人的表观模型116,- 116N和由年龄计算器算出的感兴趣的人的年龄 来产生年龄特定模型130。年龄建模器128优选地从感兴趣的人的N个 表观模型116, - 116N中选择具有最接近地匹配于该感兴趣的人在图像捕 获时间的年龄的关联时间(年龄)的表观模型。例如,当感兴趣的人的 年龄是7976天至8340天时,与22岁时的感兴趣的人相对应的表观模 型被选择。当年龄计算器126返回负的时间量时,这表明图像捕获时间在感兴 趣的人的出生日期之前。在典型的用户图像和视频中,具有出生前的个 人的图像或视频是非常罕见的(除了诸如超声之类医学成像技术)。因 此,在图像捕获时间112在感兴趣的人的出生日期(被包含在表观模型 116中)之前的情况下,个人识别分类器114产生个人分类118来表明 由个人查找器106检测到的人不是感兴趣的人(或者具有非常低的概率 或零概率或者是感兴趣的人)。同样,当年龄计算器126确定在图像捕 获时间时感兴趣的人的年龄大于人类寿命的预期(例如116岁),则个 人分类器132产生个人分类118来表明由个人查找器106检测到的人不 是感兴趣的人(或者具有非常低的概率或零概率或者是感兴趣的人)。可选择地,在接近图像捕获时间112的关联时间上可能没有感兴趣 的人的表观模型116。例如,感兴趣的特定人可能只有一个与2岁时的 该感兴趣的人相对应的表观模型16。该模型116将不适合用于确定该 感兴趣的人是否在一张当该感兴趣的人的年龄将是22岁时捕荻的图像 内。如果表观模型的关联时间表明当感兴趣的人的年龄在O与6岁之间 时,其在该感兴趣的人的年龄的1年之内,当年龄在6与16岁之间时 在2年之内,当年龄在16与22岁之间时在3年之内,以及当年龄大于 22岁时在5年之内,表观模型116可能是适合的。如果模型是不适合的, 则年龄建模器128选择一个或多个具有与感兴趣的人在图像捕获时间112的年龄最接近的关联时间的表观模型116,-116N。然后年龄建模器 128修改所选择的表观模型以便补偿在与该表观模型相关联的时间与感 兴趣的人在图像捕获时间112时被确定的年龄之间的时间差。这通过使 用个人特征如何随人变老而变化的通用模型来实现。该通用模型是对面 部特征(例如眼睛、嘴、鼻子等)随着人变老的运动的平均的数学描述。 当感兴趣的人的性别、种族背景等已知时,专用模型可被用于描述面部 特征的运动。为了说明这一概念,图6示出具有3个月年龄的关联时间 的特定婴儿的表观模型的表示。该表观模型通过与面部特征点从婴儿到 成人的运动相关的通用模型来修改,以形成在图7中所示的当该婴儿成 为30岁的成人时的年龄特定表观模型130。在该例子中,通用模型表明 了面部特征点位置从嬰儿到成人的变化。然而,类似的变老模型可以被岁或者5岁^ 10岁^间。另外,变老模型可被用来生成比与表观模型 相关的年龄年轻的年龄特定的修改的表观模型。例如,与30岁相关的 表观模型可以被修改以生成感兴趣的个人在5岁时的年龄特定模型。在另一个替代方案中,年龄特定模型UO可以通过在感兴趣的人的 两个或更多个表观模型116,-116N之间进行内插来生成。例如,存在4 岁和8岁的感兴趣的人的表观模型。年龄计算器126确定当图像被捕获 时感兴趣的人是6岁。与4岁和8岁相关的年龄模型可以被合并(例如 加权平均),以创建6岁时的感兴趣的个人的估计的年龄特定模型。再次参考图5,通过任何上面提到的方法生成的年龄特定模型130 与个人查找器106所找到的个人特征110 —起被输入到个人分类器132 以产生个人分类ll8。所述查询122可以包括人的身份和时间(绝对时间或年龄)。例如, 所述查询可以是对于"Pete"在1999年期间的图像,或者是对于"Pete" 在34岁时的图像。个人分类器132计算在从用户图像集合中的面部图 像计算的面部测量值与为所述查询122中规定的年龄上的人存储的表观 模型之间的相似性得分。检索到的图像列表按相似性递减排序以向用户 显示。相似性得分是在给定的面部测量值与模型之间的加权差,其中所 述权重与特定面部测量值在个人之间进行区分时的重要性成比例。例 如,在权重基于测量值的方差的情况下可以使用Mahalanobis距离。在 优选的实施例中,为同 一 个人的实例和来自 一 大组已知身份的面部图像
的不同个人计算每个面部测量值之间的差的分布。假定零均值高斯分 布,为每个面部测量值计算等概率点(在该点上所述差是来自同一人的 变化与它是由于来自不同个人的两个测量值是等可能的)。用于未知的 差的权重是该点的倒数,从而任何差被表示为等概率差的分数。图8示出一个可选实施例,其中与表观模型116相关的时间是曰历 日期(即绝对时间),并且感兴趣的人的出生日期是未知的。在这种情 况下,时间建模器134通过选择具有最接近图像捕获时间112的相关绝 对时间的表观模型来生成时间特定表观模型136。该时间特定模型136 然后被传送到个人分类器132以如前所述生成个人分类118。在这种情 况下,因为感兴趣的人的出生日期是未知的,所以通用变老模型不能被 用来对与感兴趣的人的表观模型116, - 116N相关的时间之外的时间上的 感兴趣的个人的表观进行建模。在一些情况下,感兴趣的个人的出生日 期可以被年龄估计器142估计。当感兴趣的个人的出生日期被年龄估计 器142成功地确定时,该信息被添加到表观模型116。然后可以使用如 参考图5所述的方法。年龄估计器142确定与表观模型或从中得到表观模型的数字图像相 关的年龄(以及随之而来的感兴趣的人的出生日期)。年龄估计器142 可以是例如Lobo在美国专利No. 5,781,650中描述的方法。当年龄估计 器142估计许多图像或许多表观模型的年龄并将所有估计的结果合并 时,对感兴趣的人的出生日期的估计的鲁棒性得到改善。因为图像和表 观模型之间的相关时间是已知的,所以鲁棒性被进一步改善。因此,当 多个估计被合并时,错误的年龄估计可被拒绝。图9示出本发明的另一个可选实施例。在该实施例中,年龄估计器 142被应用于个人特征110或与检测到的人相关的原始数字图像或视频 104。使用来自年龄估计器142的估计年龄和与数字图像或视频104相 关的捕获时间112,生日估计器144可以估计检测到的人的出生日期。 如前所述,所述检测到的出生日期是一个概率分布函数。由个人分类器 146把所述检测到的出生日期与感兴趣的人的表观模型116相关联的出 生日期进行比较来生成个人分类118。例如,图IO示出估计的出生日期 和与表观模型相关联的出生日期的说明。年龄估计器142估计,个人查 找器106检测到的人的出生日期是由虛线所示的分布。与表观模型相关 联的出生日期分布由实线来示出。个人分类器146基于来自生日估计器144的估计的出生日期分布和与表观模型116相关的出生日期(并且还 可能考虑其它因素)来确定个人分类(例如上述两个分布的乘积的平方 根的和)。个人分类器146例如可以计算分布的乘积来作为表明检测到的人正是感兴趣的人的概率或可能性的个人分类118。图9提供的好处是确保感兴趣的人不会在具有先于该感兴趣的人的 出生日期的图像捕获日期的图像中被检测到。为了说明的目的,假定年 龄估计器142简单地估计任何可能被个人查找器106在图像104中找到 的人至少是0岁。生日估计器144然后确定任何找到的人的出生日期必 须早于捕获时间112。因此,图9的实施例提供不在任何早于与感兴趣 的人相关的出生日期捕获的图像中查找感兴趣的人。年龄注意分类器 114在具有晚于出生日期的捕获时间的图像104中搜索具有相关出生日 期的感兴趣的人,并且不在具有早于出生日期的捕获时间的图像10 4中 搜索该感兴趣的人。在此描述的方法将有某些失效模式是已知的。例如,如果一幅21 岁时的George Washington的雕像的图像在2005年3月14日被捕获, 则图5的年龄计算器126计算感兴趣的人(George Washington )的年龄 是273岁,因此个人分类器132输出被检测到的人不可能是George Washington的个人分类,因为273岁远远超出了人类的寿命预期。换言 之,本方法在数字图像捕获了人的图像而不是实际的人时的相对非常少 的情况下可能失效。
附图标记列表10图像捕获装置20数字图像处理器 30图像输出装置 40总控计算机 50显示装置 60键盘 82特征点102表观模型生成器 103人类用户输入 104数字图像或视频 106个人查找器 108捕获时间提取器 110个人特征 112图像捕获时间 114个人识别分类器 116表观模型 118个人分类 120数据库 122查询 124查询结果 126年龄计算器 128年龄建模器 130年龄特定表观模型 132个人分类器 134时间建模器 136时间特定表观模型 142年龄估计器 144生日估计器 146个人分类
权利要求
1.一种在随着时间而拍摄的数字图像的集合中识别至少一个感兴趣的特定人的方法,包括提供数字图像的所述集合,其中每幅数字图像包含一个或多个人;在一个数字数据库中存储具有一组特征的一个表观模型,该组特征是与所述感兴趣的特定人在一个关联时间的面部特征相关联的距离测量值;并且提供一个个人识别分类器,所述个人识别分类器使用所述表观模型和所述关联时间在来自数字图像的所述集合的图像中识别所述感兴趣的特定人。
2. 权利要求1所述的方法,其中数字图像的所述集合的每幅图像 的图像捕获时间是已知的,并且被个人识别分类器用来识别感兴趣的特 定人。
3. 权利要求1所述的方法,其中距离测量值是与面部特征之间的 距离相关联的比例或角度。
4. 权利要求3所述的方法,其中面部特征包括眼睛、鼻子、眉毛或嘴。
5. 权利要求1所述的方法,其中为处于其生长年龄期间的儿童使 用更多数量的表观模型。
6. 权利要求2所述的方法,其中感兴趣的人在图像捕获时的年龄 是已知的,并且进一步包括修改表观模型以便补偿在与该表观模型相 关联的时间和感兴趣的人的年龄之间的时间差。
7. 权利要求1所述的方法,进一步包括至少两个具有不同关联时 间的表观模型。
8. 权利要求1所述的方法,其中特征包括感兴趣的特定人的出生 曰期。
9. 权利要求1所述的方法,其中关联时间是日历日期或感兴趣的 特定人的年龄。
10. 权利要求2所述的方法,进一步包括至少两个具有不同关联时 间的表观模型,其中具有与图像捕获时间最接近的关联时间的表观模型 被个人识别分类器用来识别感兴趣的特定人。
11. 权利要求2所述的方法,其中表观模型被修改,以产生一个被 个人识别分类器用来识别感兴趣的特定人的年龄特定表观模型。
12. 权利要求2所述的方法,进一步包括至少两个具有不同关联时 间的表观模型,其中从所述至少两个表观模型中生成一个年龄特定表观 模型,其中该年龄特定表观模型被个人识别分类器用来识别感兴趣的特 定人。
13. —种在随着时间而拍摄的数字图像的集合中识别至少一个感兴 趣的特定人的方法,包括提供数字图像的所述集合,其中每幅数字图像包含一个或多个人; 在一个数字数据库中存储具有一组特征的一个表观模型,该组特征 是与感兴趣的特定人的面部特征相关联的距离测量值,并且是从先前捕 获的与在关联时间的感兴趣的特定人相关联的数字图像中导出的;并且提供一个个人识别分类器,所述个人识别分类器使用所述表观模型 和所述关联时间在来自数字图像的所述集合的图像中识别所述感兴趣 的特定人。
14. 权利要求13所述的方法,其中数字图像的所述集合包括在存 储步骤中所使用的捕获的数字图像。
15. 权利要求13所述的方法,其中数字图像的所述集合的每幅图 像的图像捕获时间是已知的,并且被个人识别分类器用来识别感兴趣的 特定人。
16. 权利要求15所述的方法,其中表观模型被修改,以产生一个 被个人识别分类器用来识别感兴趣的特写人的年龄特定表观模型。
17. 权利要求15所述的方法,进一步包括至少两个具有不同关联 时间的表观模型,其中从所述至少两个表观模型中生成一个年龄特定表 观模型,其中该年龄特定表观模型被个人识别分类器用来识别感兴趣的特定人。
18. 权利要求15所述的方法,进一步包括至少两个具有不同关联 时间的表观模型,其中具有与图像捕获时间最接近的关联时间的表观模 型被个人识别分类器用来识别感兴趣的特定人。
19. 权利要求13所述的方法,其中所存储的特征是个人识别分类 器使用的与感兴趣的特定人的面部特征相关联的测量值。
20. 权利要求13所述的方法,进一步包括至少两个具有不同关联 时间的表观模型。
21. 权利要求20所述的方法,其中为处于生长年龄期间的儿童使 用更多数量的表观模型。
22. 权利要求13所述的方法,其中特征包括感兴趣的特定人的出 生日期。
23. 权利要求13所述的方法,其中关联时间是日历日期或感兴趣的特定人的年龄。
24. —种在随着时间而拍摄的数字图像的集合中识别至少 一个感兴趣的特定人的方法,包括提供数字图像的所述集合,其中每幅数字图像的捕获时间是已知的;在一个数字数据库中存储所述感兴趣的特定人的表观模型和所述 感兴趣的人的相关出生日期;并且仅在那些具有晚于感兴趣的个人的出生日期的捕获时间的数字图 像中搜索所述感兴趣的个人。
全文摘要
一种在随着时间而拍摄的数字图像的集合中识别至少一个感兴趣的特定人的方法包括提供数字图像的所述集合,其中每幅数字图像包含一个或多个人;在一个数字数据库中存储具有一组特征的一个表观模型,该组特征是与感兴趣的特定人在一个关联时间的面部特征相关联的距离测量值;并且提供一个个人识别分类器,所述个人识别分类器使用所述表观模型和所述关联时间在来自数字图像的所述集合的图像中识别所述感兴趣的特定人。
文档编号G06K9/00GK101167087SQ200680014367
公开日2008年4月23日 申请日期2006年4月18日 优先权日2005年4月28日
发明者A·C·加拉赫尔, M·达斯, P·O·施图布勒 申请人:伊斯曼柯达公司