用于视频对象检测的方法和系统的制作方法

文档序号:6436673阅读:181来源:国知局

专利名称::用于视频对象检测的方法和系统的制作方法
技术领域
:本公开一般涉及视频处理,特别地,涉及视频中的前景对象与背景的分离。
背景技术
:当前,诸如摇摄-倾斜-变焦(PTZ)照相机的视频照相机是十分普遍的,并且常常用于监视目的。照相机所捕获的数据(视频内容)多于观察者所能够处理的。因此,需要视频内容的自动分析。术语前景对象和前景指的是在视频上捕获的场景中出现的瞬时对象。这些瞬时对象可包含例如运动的人。即使场景的剩余部分包含诸如水波纹或在风中运动的草的运动,所述剩余部分也被视为背景区域。视频内容的处理中的重要步骤是将视频数据分离成前景对象与背景场景或背景。该处理被称为前景/背景分离。这种分离使得能够进行进一步的分析,诸如特定前景对象的检测或运动对象的跟踪。这种进一步的分析具有许多的应用,包括例如自动视频监视和诸如人员计数的统计汇集。前景/背景分离的一种方法是统计场景模型化。在一个例子中,对于各像素保持多个高斯分布,以将像素的最近的历史模型化。当接收新的输入帧时,对照(against)通过相应的像素位置处的模型保持的高斯分布评价来自输入帧的各像素。如果输入像素匹配高斯分布中的一个,那么,以适应性学习率更新相关的高斯分布的参数。否则,创建用于所述像素的新的高斯模型。前景/背景分离的另一方法保持两个基于像素的背景模型BI和B2。BI包含初始化(initialisation)时段期间对于各像素位置的最小值,B2包含最大值。当接收新的帧时,在每像素的基础上计算输入帧和各背景模型之间的差异。对于各像素,通过使用具有固定的学习率的近似的中间更新方法来更新对于所述像素具有最小的差异的相应的模型。另一技术使用能够处理场景的迅速变化和逐渐变化两者的双背景模型。为了这样做,从以恒定的速度采样的高速缓存帧的列表导出正常的背景模型。双背景模型系统还尝试检测场景中的大变化情况。仅当检测到大变化情况时,才基于以比正常背景模型快的速度采样的高速缓存帧的另一列表创建新的背景模型。对于生成准确的前景/背景分离,开发鲁棒的场景模型是关键的。构建鲁棒的场景模型的主要挑战之一是适应场景的变化。一些现有技术很好地处理逐渐和缓慢的变化。但是,当场景中的变化变得大和快时,这些现有技术的模型不能跟上变化,并因此导致多个错误的前景检测。现有技术不能处理另一类型的变化,所述另一类型的变化包括从稳定状态出现延长的大和快的变化、接着迅速和突然复原(reversion)到所述稳定状态。处理包含大和快的变化的第一类型的变化的现有方法不处理突然的复原。相反,处理包含突然的复原的第二类型的变化的现有方法不处理大和快的变化。因此,需要改进的视频对象检测方法。
发明内容本公开涉及用于更新用于在图像处理中执行前景/背景分离的场景模型的方法和系统。前景/背景分离可然后被用于识别视频序列中的前景对象。本公开提供与场景模型中的各模型视觉元素相关的元素模型组。各元素模型与多个视觉数据组相关。所述方法利用视觉数据组来选择元素模型并然后根据选择的元素模型将输入视觉元素归类。所述方法然后根据不同的学习率更新与选择的元素模型相关的视觉数据组。根据本公开的第一方面,提供一种对于输入图像执行前景/背景分离的计算机实现的方法。所述方法包括以下的步骤对于输入图像中的各输入视觉元素识别与输入图像相关的场景模型中的相应的模型视觉元素,模型视觉元素与元素模型组相关,各元素模型包含多个视觉数据组;根据满足预先确定的准则的输入视觉元素和选择的元素模型的视觉数据组之间的视觉距离,从元素模型组选择元素模型;根据选择的元素模型将输入视觉元素归类为前景和背景中的一个;和根据输入视觉元素和用于更新视觉数据组的至少第一和第二不同的方法更新选择的元素模型中的各视觉数据组。根据本公开的第二方面,提供一种上面记录有对于输入图像执行前景/背景分离的计算机程序的计算机可读存储介质。计算机程序包括用于执行以下的步骤的代码对于输入图像中的各输入视觉元素识别与输入图像相关的场景模型中的相应的模型视觉元素,模型视觉元素与元素模型组相关,各元素模型包含多个视觉数据组;根据满足预先确定的准则的输入视觉元素和选择的元素模型的视觉数据组之间的视觉距离,从元素模型组选择元素模型;根据选择的元素模型将输入视觉元素归类为前景和背景中的一个;和根据输入视觉元素和用于更新视觉数据组的至少第一和第二不同的方法更新选择的元素模型中的各视觉数据组。根据本发明的第三方面,提供一种用于对于输入图像执行前景/背景分离的装置。所述装置包括用于存储计算机程序的存储设备和用于执行程序的处理器。所述程序包含用于执行以下的方法步骤的代码对于输入图像中的各输入视觉元素识别与输入图像相关的场景模型中的相应的模型视觉元素,模型视觉元素与元素模型组相关,各元素模型包含多个视觉数据组;根据满足预先确定的准则的输入视觉元素和选择的元素模型的视觉数据组之间的视觉距离,从元素模型组选择元素模型;根据选择的元素模型将输入视觉元素归类为前景和背景中的一个;和根据输入视觉元素和用于更新视觉数据组的至少第一和第二不同的方法更新选择的元素模型中的各视觉数据组。根据本发明的第四方面,提供一种对于输入视频帧执行前景/背景分离的计算机实现的方法。所述方法包括以下的步骤接收与帧相关的场景模型中的元素模型组,其中,元素模型组中的各元素模型包含第一和第二视觉组;对于场景模型中的场所处的视觉元素,比较与该视觉元素相关的至少一个元素模型的第一和第二视觉组与对应于所述场所的帧中的视觉元素的视觉组;基于所述比较步骤选择第一和第二视觉组中的一个,第一和第二视觉组中的所述一个到相应元素的视觉组的视觉距离满足预先确定的准则;基于选择的视觉组从元素模型组选择元素模型;基于选择的元素模型将输入视觉元素归类为前景和背景中的一个;通过使用第一方法基于相应元素的视觉组更新选择的元素模型的第一视觉组;和通过使用与第一方法不同的第二方法基于相应元素的视觉组更新选择的元素模型的第二视觉组。根据本发明的另一方面,提供用于实现上述的方法中的任一个的装置。根据本发明的另一方面,提供包括上面记录有用于实现上述的方法中的任一个的计算机程序的计算机可读介质的计算机程序产品。还公开了本发明的其它方面。现在,将参照以下的附图描述本公开的一个或更多个实施例,其中,图I表示可在其上执行前景/背景分离的照相机的示意性功能框图;图2表示由元件模型组成的场景模型的框图;图3表示示出使场景模型与输入帧匹配的方法的示意性流程图;图4表示示出选择匹配在图3的方法中使用的输入视觉元件的元件模型的方法的示意性流程图;图5表示LRniax的值如何控制每个帧的模型值的最大变化的示图;图6A和图6B形成可实施所述的布置的通用计算机系统的示意性框图;图7A和图7B表示模型中的视觉数据组之间随时间的歧离(divergence);图8表示在元件模型中存在单个视觉数据组并且所述视觉数据组具有高的LRmax时的有问题的复原情景(scenario)的示图;以及图9表示在元件模型中存在单个视觉数据组并且所述视觉数据组具有低的LRmax时的有问题的复原情景的示图。具体实施例方式当在附图中的任意一个或更多个中参照具有相同的附图标记的步骤和/或特征的情况下,除非出现相反的意图,否则,这些步骤和/或特征对于本说明书具有相同的功能或操作(operation)。视频是一系列的图像或帧。因此,各帧是图像序列(视频序列)的图像。视频的各帧具有X轴和I轴。场景是在帧中包含的信息,并且可包含例如前景对象、背景对象或它们的组合。场景模型是与场景有关的存储的信息,并且可包含前景、背景或它们的组合。场景模型一般涉及从图像序列得到的背景信息。视频可被编码和压缩。可以诸如运动JPEG(M-JPEG)那样在帧内或者诸如在H.264标准中规定的那样在帧间执行这种编码和压缩。图像由视觉元素构成。视觉元素可以为例如像素或在运动JPEG流中的JPEG图像中使用的8X8DCT(离散余弦变换)块或在运动JPEG2000流中的JPEG2000图像中使用的子波域变换图像。帧轴中的视觉元素位置由被考虑的视觉元素的X坐标和y坐标表示。视觉元素的一种表现形式是像素视觉元素。在一个实施例中,各视觉元素具有描述视觉元素的三(3)个值。在一个例子中,三个值是红色、绿色和蓝色值(RGB值)。表示视觉元素的特性的值被称为视觉元素属性。与各视觉元素相关的值的数量和类型(视觉元素属性)依赖于用于实现本公开的实施例的装置所利用的格式。应当注意,根据具体实现,可以等同地利用以诸如四值的青色、品红色、黄色和键黑色(Keyblack)(CMYK)的其它的颜色空间存储的值或表示色调-饱和度-亮度的值,而不脱离本公开的精神和范围。视觉元素的另一表现形式使用8X8DCT块作为视觉元素。8X8DCT块的视觉元素属性是块的64亮度DCT系数、64色度红色(Cr)DCT系数和64色度蓝色(Cb)DCT系数。64亮度DCT系数可进一步被分成IDC系数和63AC系数。所述DC系数是视觉元素的平均亮度值的表现形式,并且,所述AC系数表示8X8块的亮度特性的频域信息。AC系数一般以之字形方式组织而从最低频率分量到最高频率分量排序。ACl表示具有最低的水平频率的DCT分量。AC2表示具有最低的垂直频率的水平分量,等等。较高编号的AC系数与较高的频率对应。属性被表示为(Y、U、V、AC),表示DC系数⑴、色度值(U、V)和AC系数(AC),从而总共给出196个属性。属性的许多其它的组合是可能的,或者,可通过使用诸如线性回归技术的机器学习算法从上述的属性生成其它的属性。应当注意,可通过使用视觉元素的其它的表现形式等同地实施所述方法。例如,DCT块可具有不同的尺寸以使得能够实现用于存储由DCT块表现的像素的属性的不同的粒度。也可使用诸如子波变换的其它的变换以从场景内的像素生成代表性的属性,使得可以累积场景的历史表现形式。本公开涉及用于更新用于执行图像处理中的前景/背景分离的场景模型的方法和系统。然后可利用前景/背景分离以识别视频序列中的前景对象。使用场景模型的视频对象的检测包含比较接收的输入图像与场景模型,并因此确定输入图像的哪些部分或区域是前景,输入图像的哪些部分是背景。基于输入图像和比较的结果更新场景模型。本公开提供多模态场景模型(multi-modalscenemodel),其中,场景模型包含多个视觉元素,并且,各视觉元素与一组的元素模型(model)或模式(mode)相关。各元素模型包含与单个时间特征组相关的多个视觉数据组。所述方法利用用于与输入图像比较的视觉特征组和时间特征组。对于输入图像中的各视觉元素,所述方法识别元素模型的相应的组。对于相应元素模型组中的各元素模型,所述方法比较用于该元素模型的视觉数据组与正被处理的视觉元素。根据具体应用和实现,所述方法也可比较用于该元素模型的时间特征组与正被处理的视觉元素。所述方法从与该视觉元素相关的元素模型组中的元素模型确定和选择作为该视觉元素的最佳匹配的元素模型。所述方法然后根据不同的比率更新所选择的元素模型的视觉特征数据组。在一种布置中,以低的学习率更新第一视觉数据组,并且,以高的学习率更新第二视觉数据组。以低的学习率和高的学习率之间的预先定义的比率更新与选择的元素模型相关的任何进一步的视觉数据组。一种布置通过利用更新视觉数据组的至少第一和第二不同的方法更新视觉数据组,其中,第一和第二不同的方法利用具有不同参数组的单个函数以实现不同的学习率。因此,用于更新第一视觉数据组的第一方法利用具有第一组参数的更新函数,并且,用于更新第二视觉数据组的不同的第二方法利用具有第二组参数的相同更新函数,其中,为了实现不同的学习率,第一组参数和第二组参数是不同的。一种布置通过利用更新视觉数据组的至少第一和第二不同的方法更新视觉数据组,其中,第一和第二不同的方法利用多个函数以实现不同的学习率。因此,用于更新第一视觉数据组的第一方法利用具有第一组参数的第一更新函数,并且,用于更新第二视觉数据组的第二方法利用具有第二组参数的第二更新函数,其中,为了实现不同的学习率,第一函数与第二函数不同。在对于元素模型存在多于两个的视觉数据组的实施例中,通过使用相应的学习率更新视觉数据组中的每一个。在一个实现中,通过对于各视觉数据组使用具有不同的参数的单个函数来实现不同的学习率。在替代性实现中,通过使用不同的函数来实现不同的学习率。在替代性实施例中,所述方法处理元素模型组中的用于正被处理的视觉元素的元素模型。但是,可能不必处理元素模型组中的所有元素模型。一旦识别具有对于正被处理的视觉元素提供足够好的匹配的视觉数据组的元素模型,就不必处理该元素模型组中的剩余元素模型。以此方式,能够减少处理时间。例如,通过比较视觉数据组和视觉元素之间的视觉距离分数与预先确定的阈值,可以确定视觉数据组是否对于视觉元素提供足够好的匹配。图I表示可以在其上执行根据本公开的前景/背景分离的方法的照相机的示意性功能框图。照相机100是包含照相机模块101、摇摄和倾斜模块103以及透镜系统102的摇摄-倾斜-变焦照相机(PTZ)。照相机模块101—般包含至少一个处理器单元105、存储器单元106、光敏传感器阵列115、与传感器阵列115耦合的输入/输出(I/O)接口107、与通信网络114耦合的输入/输出(I/O)接口108和用于摇摄和倾斜模块103以及透镜系统102的接口113。照相机模块101的部件107、105、108、113和106—般通过互连的总线104通信并且以本领域技术人员已知的常规的操作模式的方式通信。照相机100被用于捕获表现在照相机100的视场中出现的场景的视觉内容的也称为新输入图像的视频帧。由照相机100捕获的各帧包含一个或更多个视觉元素。视觉元素被定义为图像采样中的区域。图像采样可以是整个视频帧或视频帧的一部分。可等同地在通用的计算机上实施根据本公开的前景/背景分离的方法。根据在通用计算机的处理器上执行的指令处理通过照相机捕获的视频帧,以识别场景的前景和背景区域。在一种布置中,视频照相机与用于处理捕获的帧的通用计算机耦合。通用计算机可以与照相机处于相同位置,或者可远离照相机并且通过通信链接或诸如因特网的网络被耦合。在另一种布置中,视频帧从存储器被检索并且被呈现给用于前景/背景分离的处理器。图6A和图6B示出可在其上实施所述的各种布置的通用计算机系统600。从图6A可以看出,计算机系统600包括计算机模块601;诸如键盘602、鼠标指示器装置603、扫描仪626、照相机627和麦克风680的输入设备;和包含打印机615、显示装置614和扬声器617的输出设备。外部调制器-解调器(调制解调器)收发器装置616可被计算机模块601用于通过连接621向和从通信网络620通信。通信网络620可以是诸如因特网、蜂窝式电信网络或私人WAN的广域网(WAN)。在连接621是电话线的情况下,调制解调器616可以是常规的“拨号”调制解调器。作为替代方案,在连接621是高容量(例如,电缆)连接的情况下,调制解调器616可以是宽带调制解调器。对于与通信网络620的无线连接,也可使用无线调制解调器。计算机模块601—般包含至少一个处理器单元605和存储器单元606。例如,存储器单元606可具有半导体随机存取存储器(RAM)和半导体只读存储器(ROM)。计算机模块601还包含多个输入/输出(I/O)接口,这些输入/输出(I/O)接口包含与视频显示器614、扬声器617和麦克风680耦合的音频视频接口607;与键盘602、鼠标603、扫描仪627、照相机627耦合的I/O接口613;以及任选的游戏杆或其它的人接口设备(未示出);和用于外部调制解调器616和打印机615的接口608。在一些实现中,调制解调器616可被加入计算机模块601内,例如,被加入接口608内。计算机模块601还具有允许计算机系统600通过连接623与称为局域网络(LAN)的局域通信网络622耦合的局域网络接口611。如图6A所示,局域通信网络622也可通过一般包含所谓的“防火墙”装置或具有类似功能的装置的连接624与广域网络620耦合。局域网络接口611可包含Ethernet电路卡、Bluetooth无线布置或IEEE802.11无线布置;但是,对于接口611也可实施多个其它类型的接口。I/O接口608和613可提供串行和并行连接中的任一种或两种,前者一般根据通用串行总线(USB)标准被实现并且具有相应的USB连接器(未示出)。存储设备609被设置并且一般包含硬盘驱动器(HDD)610。也可使用诸如软盘驱动器和磁带驱动器(未示出)的其它的存储设备。光盘驱动器612—般被设置为用作数据的非易失性源。例如,诸如光盘(例如,CD-ROM、DVD、Blu-rayDisc)、USB-RAM、便携式外部硬盘驱动器和软盘的便携式存储设备可被用作系统600的适当的数据源。计算机模块601的部件605613—般通过互连的总线604通信并且以本领域技术人员已知的计算机系统600的常规的操作模式的方式通信。例如,处理器605通过使用连接618与系统总线604耦合。类似地,存储器606和光盘驱动器612通过连接619与系统总线604耦合。其上可实施所描述的布置的计算机的例子包含IBM-PC和兼容机、SunSparcstations、AppleMac或类似的计算机系统。可通过使用计算机系统600实现执行前景/背景分离并检测图像处理中的对象的方法,其中,可作为可在计算机系统600内执行的一个或更多个软件应用程序633实现要描述的图25和图79的处理。特别地,通过在计算机系统600内实施的软件633内的指令631(参见图6B)实现执行输入视频帧上的前景/背景分离的方法的步骤。可作为分别用于执行一个或更多个具体任务的一个或更多个代码模块形成软件指令631a软件也可被分成两个单独的部分,其中,第一部分和相应的代码模块执行前景/背景分离方法,并且,第二部分和相应的代码模块管理第一部分和用户之间的用户接口。软件633—般被存储于HDD610或存储器606中。软件从计算机可读介质被加载到计算机系统600中,并且由计算机系统600执行。因此,例如,软件633可被存储于被光盘驱动器612读取的光学可读盘存储介质(例如,⑶-ROM)625上。上面记录有这样的软件或计算机程序的计算机可读介质是计算机程序产品。计算机系统600中的计算机程序产品的使用优选实现用于执行对输入图像帧的前景/背景分离的装置,并且可被用于例如监视和安全应用中。在一些情况下,应用程序633可被供给到用户、被编码在一个或更多个⑶-ROM625上、并且通过相应的驱动器612被读取,或者,可替代性地被用户从网络620或622读取。并且,软件也可从其它的计算机可读介质被加载到计算机系统600中。计算机可读存储介质指的是向计算机系统600提供用于执行和/或处理的记录的指令和/或数据的任何非易失性的可触知的存储介质。这些存储介质的例子包括软盘、磁带、CD-R0M、DVD、Blu-rayDisc、硬盘驱动器、ROM或集成电路、USB存储器、磁光盘或诸如PCMCIA卡的计算机可读卡等,不管这些设备处于计算机模块601的内部或外部。也可参与向计算机模块601提供软件、应用程序、指令和/或数据的易失性的或不可触知的计算机可读传送介质的例子包含无线电或红外传送信道、以及与另一计算机或联网设备的网络连接,和包含在站点等上记录的电子邮件传送和信息的因特网或内联网。上面提到的应用程序633的第二部分和相应的代码模块可被执行以实现在显示器614上呈现或以其它的方式表现的一个或更多个图形用户界面(⑶I)。典型地通过键盘602和鼠标603的操作,计算机系统600的用户和应用能够以功能可适应(adaptable)的方式操作所述界面以向与GUI相关的应用提供控制命令和/或输入。也可实现其它形式的功能可适应的用户接口,诸如利用通过扬声器617输出的语音提示和通过麦克风680输入的用户声音命令的音频接口。图6B是处理器605和“存储器”634的详细的示意性框图。存储器634表示可由图6A中的计算机模块601访问的所有的存储器模块(包含HDD609和半导体存储器606)的逻辑集合。当计算机模块601初始启动时,执行通电自测试(POST)程序650。POST程序650一般被存储于图6A的半导体存储器606的R0M649中。存储软件的诸如ROM649的硬件设备有时被称为固件。POST程序650检查计算机模块601内的硬件以确保适当的功能,并且,为了正确操作,一般检查处理器605、存储器634(609、606)和一般也存储于ROM649中的基本输入输出系统软件(BIOS)模块651。一旦POST程序650成功运行,BIOS651就激活图6A的硬盘驱动器610。硬盘驱动器610的激活导致通过处理器605执行驻留于硬盘驱动器610上的引导(bootstrap)加载程序652。这将操作系统653加载到RAM存储器606中,此时,操作系统653开始操作。操作系统653是可由处理器605执行以完成包括处理器管理、存储器管理、设备管理、存储管理、软件应用接口和一般的用户接口的各种高级功能的系统级应用。操作系统653管理存储器634(609、606)以确保在计算机模块601上运行的各处理或应用具有足够的存储器来在其中执行,而不与分配给另一处理的存储器冲突。并且,图6A的系统600中的可用的不同类型的存储器必须被适当地使用,使得各处理可有效地运行。因此,集合的存储器634不是要示出如何分配存储器的具体段(除非另外陈述),而是要提供可由计算机系统600访问的存储器的全貌以及如何使用。如图6B所示,处理器605包括包含控制单元639、运算逻辑单元(ALU)640和有时称为高速缓存存储器的局部或内部存储器648的多个功能模块。高速缓存存储器648—般在寄存器段中包含多个存储寄存器644646。一个或更多个内部总线641在功能上互连这些功能模块。处理器605还一般具有用于通过使用连接618经由系统总线604与外部设备通信的一个或更多个接口642。存储器634通过使用连接619与总线604耦合。应用程序633包含可包含条件分支和循环指令的一系列的指令631。程序633还可包含用于程序633的执行的数据632。指令631和数据632分别被存储于存储位置628、629、630和635、636、637中。根据指令631的相对尺寸和存储位置628630,可在由存储位置630所示的指令描述的单个存储位置中存储具体指令。作为替代方案,如存储位置628和629所示的指令段所示的那样,指令可被划分成分别被存储于分开的存储位置中的多个部分。一般地,给予处理器605在其中执行的一组指令。处理器605等待随后的输入,处理器605通过执行另一组指令而对所述随后的输入作出反应。可从多个源中的一个或更多个提供各输入,包括由输入设备602、603中的一个或更多个生成的数据、跨着网络620、602中的一个从外部源接收的数据、从存储装置606、609中的一个检索的数据或从嵌入在相应的读取器612中的存储介质625检索的数据,所有这些均在图6A中被示出。一组指令的执行在一些情况下会导致数据的输出。执行也可包含将数据或变量存储到存储器634。所公开的对象检测布置使用在相应的存储位置655、656、657中被存储于存储器634中的输入变量654。所述对象检测布置生成在相应的存储位置662、663、664中被存储于存储器634中的输出变量661。中间变量658可被存储于存储位置659、660、666和667中。参照图6B的处理器605,寄存器644、645、646、运算逻辑单元(ALU)640和控制单元639—起工作,以对于构成程序633的指令组中的每个指令执行“取得、解码和执行”循环所需要的微操作的序列。各取得、解码和执行循环包含(a)从存储位置628、629、630取得或读取指令631的取得操作;(b)控制单元639确定取得了哪个指令的解码操作;(c)控制单元639和/或ALU640执行指令的执行操作。然后,可以执行下一指令的另一取得、解码和执行循环。类似地,可执行控制单元639将值存储或写入到存储位置632的存储循环。图25和图79的处理中的各步骤或子处理与程序633的一个或更多个段相关,并且由处理器605中的一起工作的寄存器段644、645、647、ALU640和控制单元639执行,以对于程序633中的所述段的指令组中的每个指令进行取得、解码和执行循环。也可替代性地在执行识别模型视觉元素、从元素模型组选择元素模型、确定视觉数据组和输入视觉元素之间的视觉距离、将视觉元素归类为前景和背景中的一个、以及基于输入视觉元素和不同的更新方法更新视觉数据组的功能或子功能的诸如一个或更多个集成电路的专用硬件上实现对输入图像执行前景/背景分离的方法。这种专用硬件可包含图形处理器、数字信号处理器、或者一个或更多个微处理器和相关的存储器。这里公开的是用于对输入图像执行前景/背景分离的计算机实现的方法、系统和计算机程序产品。输入图像可以为例如视频序列的视频帧。输入图像包含多个视觉元素。对于输入图像中的各输入视觉元素,所述方法识别与输入图像相关的场景模型中的相应的模型视觉元素。模型视觉元素与元素模型组相关,其中,各元素模型包含多个视觉数据组。对于多模态场景背景,各元素模型可任选地包含时间数据组,其中,用于元素模型的多个视觉数据组与单个时间数据组相关。然后,根据输入视觉元素和选择的元素模型的视觉数据组之间的视觉距离满足预先确定的准则,所述方法从元素模型组选择元素模型。所述方法然后前进以根据选择的元素模型将输入视觉元素归类为前景和背景中的一个,并然后更新选择的元素模型中的各视觉数据组。视觉数据组的更新依赖于输入视觉元素和更新视觉数据组的至少第一和第二不同的方法。在示例性布置中,视觉元素为通过将运动JPEG帧解码获取的离散余弦变换(DCT)系数的8X8块。在一种布置中,块是不重叠的。在另一种布置中,块重叠。在其它的布置中,视觉元素为诸如红-绿-蓝(RGB)像素的像素;像素组;或诸如在JPEG-2000标准中使用的离散子波变换(DWT)系数的其它的变换系数的块。颜色模型一般为YUV,这里,Y分量表示亮度,U分量和V分量表示色度。在一种布置中,在场景模型中,通过比较捕获的一时间点处的输入视觉元素与相同场所或相应的位置处的相应的视觉元素,实现执行在视频帧中出现的视觉元素的前景/背景分离以识别前景对象和背景的方法。图2表示包含元素模型的场景模型200的框图。在本例子中,场景模型200包含呈现为阵列的一组视觉元素。场景模型的视觉元素可被称为模型视觉元素。场景模型200包含与各视觉元素相关的唯一元素模型组。各元素模型组包含一个或更多个元素模型。在一种布置中,元素模型(也称为模式模型或模式)指的是包含关于区域的视觉以及时间信息的场景的区域的适应性表现形式。元素模型被归类为前景或背景。随着时间的变化,作为前景的元素模型可被重新归类为背景。在图2的例子中,场景模型200包含与场景模型200中的视觉元素相关的元素模型组210。元素模型组210包含至少一个元素模型。在本例子中,元素模型组210包含一组元素模型元素模型I、元素模型2、...元素模型N。在示例性布置中,元素模型1220与第一组视觉数据230、第二组视觉数据240和时间数据组250相关。所述两组视觉数据230、240与相同的时间数据组250相关。在其它的布置中,元素模型可包含与相同的时间数据组250相关的其它的视觉数据组。使至少两组视觉数据与相同的时间数据组耦合允许在包含场景变化复原情景的不同类型的变化期间开发鲁棒的场景模型。第一视觉数据组230和第二视觉数据组240中的每一个包含该场所处的先前看到的视觉元素的视觉表现形式。先前看到的视觉元素可能例如已在前面的视频帧的更早的处理期间中被识别了。在示例性布置中,视觉表现形式包含8个值=YCbCr颜色空间中的8X8像素块内的前6个亮度DCT变换系数、第一色度蓝色DCT变换系数和第一色度红色DCT变换系数。在另一种布置中,视觉表现形式包含诸如傅立叶变换系数或DWT系数的不同的变换系数组。在另一种布置中,视觉表现形式是RGB像素。视觉表现形式内的各单个值可被视为该视觉表现形式的视觉特性。时间数据组250包含与元素模型220有关的时间信息。在一个示例性布置中,时间信息包含“匹配时间”(所述“匹配时间”对应于何时所述模型与输入视觉元素最后匹配)、“创建时间”(所述“创建时间”对应于何时创建所述模型)、“删除时间”(所述“删除时间”对应于何时将删除所述模型)以及“匹配计数”(所述“匹配计数”对应于所述模型已多少次匹配输入视觉元素)。通过包含第二组视觉数据240(所述第二组视觉数据240与第一组视觉数据230耦合到相同的时间数据组250),所述模型对于不同类型的变化更加鲁棒。当正被处理的输入视觉元素存在快速和稳定的变化并且该变化延长时,元素模型220内的第一组视觉数据230能够跟踪所述变化。在真实视频数据中,有时所述输入然后将经历突然复原到先前的稳定状态。在这种情况下第一组视觉数据230将不再代表所述输入视觉元素并且将导致前景对象的错误检测。元素模型220中的比第一组视觉数据230更慢地适应的第二组视觉数据240仍将与所述输入的原始稳定状态类似,由此减少错误检测。使用场景模型200以表示在不同的时间点处捕获的场景内的视觉元素。如上面描述的那样,元素模型组210包含至少一个元素模型,其中,各元素模型被归类为背景元素模型或前景元素模型。与场景模型200内的视觉元素对应的背景元素模型可被用于形成在场景中可见的非瞬时部分的表现形式。因此,背景元素模型描述不包含前景对象的场景。背景元素模型的组合的组可被称为背景模型。在一种布置中,通过使用预先确定的数量的初始图像将场景模型200初始化。在一个具体布置中,初始图像包含来自要被处理的视频序列的一个或更多个初始视频帧。在另一种布置中,单个试验图像被用作初始图像。单个试验图像可例如基于已知或期望的背景O在一种布置中,使用视频序列的第一帧作为背景模型。如果所述帧不包含前景对象,那么该第一帧是用于照相机的场景或视场的准确的背景模型,原因是该第一帧是可在所述场景中看到的非瞬时部分的表现形式。但是,对于场景内的逐渐变化或者对于照明效果,使用第一帧作为背景模型不是鲁棒的。并且,第一帧不包含前景对象的假定一般是不现实的。场景模型200内的前景元素模型形成与当前处于所述场景内或者最近已离开所述场景的前景对象对应的所述场景的瞬时部分的表现形式。图3表示示出使场景模型与新输入帧匹配的方法300的示意性流程图。方法300从接收用于处理的新输入图像的开始步骤360开始。输入图像包含至少一个输入视觉元素。控制转到第一决定步骤305以检查是否所述输入帧中的视觉元素中的任一个还没有与场景模型200中的相应元素模型匹配。如果输入帧中的所有视觉元素均已被匹配并因此不存在没有匹配的元素,即为No,那么,流程从决定步骤305转到连接分量步骤350。根据应用,输入图像的处理可限于输入图像的一个或更多个部分。在这种应用中,不必处理输入图像中的每个视觉元素,并且,只处理关注的部分或区域中的视觉元素以帮助识别前景对象。如果在决定步骤305存在还没有与场景模型200中的相应元素匹配的输入帧中的视觉元素,即为Yes,那么流程继续前进到下一步骤310,步骤310从输入帧选择未匹配的视觉元素。然后,处理320从场景模型200中的相应的场所选择最佳地匹配来自输入帧的选择的未匹配的输入视觉元素的元素模型。选择最佳的匹配元素模型基于元素模型内的视觉数据组。并且,元素模型内的时间数据组可被任选地用于提高匹配的质量。在一种布置中,选择元素模型依赖于正被处理的输入视觉元素和选择的元素模型的视觉数据组之间的视觉距离满足预先确定的准则。在一个实现中,所述准则为,所述视觉距离满足预先确定的阈值。在替代性实现中,所述准则涉及具有到输入视觉元素的视觉距离最小的视觉数据组的元素模型。所述流程从步骤320继续前进到更新由处理320选择的元素模型的模型更新步骤330。更新步骤330更新包含第一组视觉数据230、第二组视觉数据240和时间数据组250的选择的元素模型。当除了时间数据组250以外使用第一视觉数据组230和第二视觉数据组240时,该解决方案也被称为双重解决方案(DualApproach)0一般不更新没被处理320选择的元素模型的视觉数据组和时间数据组。根据具体应用,实施例可利用与各时间数据组相关的多于两个的视觉数据组。在这些实施例中,步骤320更新相关的数据组中的每一个。利用多于两个的视觉数据组允许系统应用不同的水平的粒度来跟踪输入图像的变化。视觉数据组被配置为以不同的比率改变或适应。因此,存在更好的用于向输入图像的改变提供良好的匹配的可能性。在模型更新步骤330之后,背景阈值步骤340确定选择的元素模型是前景模型还是背景模型。背景阈值步骤340使用元素模型220的时间数据组250中的时间特性以确定元素模型是前景模型还是背景模型。在一种布置中,对于背景阈值步骤340使用来自时间特性组的时间特性“元素模型的年龄”。如果元素模型的年龄比预先确定的阈值即背景阈值大,那么,所述方法将元素模型归类为背景元素模型;否则,所述方法将元素模型归类为前景元素模型。在一个例子中,背景阈值被设为120秒。元素模型的年龄是当前时间减去元素模型的创建时间。在一种布置中,使用作为首先创建元素模型的帧的编号的创建帧编号和当前帧编号来计算元素模型的年龄。然后按照帧(比方说三千六百(3600)帧)表示背景阈值。在一种布置中,使用时间特性“命中计数(hitcount)”。命中计数表示在输入图像流中遇到(即匹配)元素模型的次数。如果命中计数大于另一预先确定的阈值(即,命中计数阈值),那么元素模型被视为背景的模型。否则,元素模型被视为前景模型。在一个例子中,命中计数阈值被设为一千八百(1800)。在一种布置中,使用年龄和命中计数两者来将元素模型归类如果年龄超过背景阈值并且命中计数超过命中计数阈值,那么元素模型是背景。控制流程现在从步骤340继续返回到决定步骤305。如果所有的输入视觉元素已被处理并且没有未匹配的视觉元素,即为No,那么流程从步骤305前进到连接分量分析步骤350。连接分量分析步骤350将相邻的匹配的前景元素模型组合成团块(blob),并且,基于团块内的前景元素模型的时间数据组,创建各前景团块的时间统计。各“团块”是一组的前景相邻元素模型。图4详尽说明图3的处理320,并且表示示出选择匹配输入视觉元素的元素模型的方法的示意性流程图。处理320从开始步骤400开始并且前进到第一决定步骤405,第一决定步骤405检查是否所有的元素模型都已与输入视觉元素相比并因此确定是否存在对于正被处理的当前场景元素的任何未处理的元素模型。如果所有的元素模型都已与输入视觉元素相比并且没有剩下的未处理的元素模型,即为No,那么控制转到选择最佳元素模型步骤450。如果在决定步骤405存在要被比较的剩余的未处理的元素模型,即为Yes,那么控制流程从决定步骤405转到选择未处理的元素模型的步骤410。然后,步骤420确定第一视觉数据组到未处理的元素模型的视觉距离分数(VD)。控制从步骤420转到从未处理的元素模型确定第二视觉数据组的VD的步骤430。如下式所示,通过使用输入视觉元素中的各值与视觉组之间的绝对差的加权和来计算视觉组数V的VD:权利要求1.一种对于输入图像执行前景/背景分离的计算机实现的方法,所述方法包括以下的步骤对于所述输入图像中的各输入视觉元素识别与所述输入图像相关的场景模型中的相应的模型视觉元素,所述模型视觉元素与元素模型组相关,各元素模型包含多个视觉数据组,所述多个视觉数据组与单个时间数据组相关;根据满足预先确定的准则的选择的元素模型的视觉数据组和所述输入视觉元素之间的视觉距离,从所述元素模型组选择元素模型;根据选择的元素模型将输入视觉元素归类为前景和背景中的一个;和根据输入视觉元素和用于更新视觉数据组的至少第一和第二不同的方法更新所选择的元素模型中的各视觉数据组。2.根据权利要求I的方法,其中,所述归类依赖于所述时间数据组。3.根据权利要求I的方法,其中,从元素模型组选择元素模型的所述步骤还基于时间数据组。4.根据权利要求I的方法,其中,用于更新视觉数据组的所述第一方法利用低学习率,并且用于更新视觉数据组的所述第二方法利用高学习率。5.根据权利要求I的方法,其中,用于更新视觉数据组的所述第一方法被饱和更新条件封盖。6.根据权利要求I的方法,还包括以下的步骤对于所述元素模型组中的各元素模型确定所述输入视觉元素和所述元素模型中的各视觉数据组之间的视觉距离;其中,所述预先确定的准则涉及具有所确定的视觉距离中的最小值。7.根据权利要求I的方法,其中,所述输入图像包含从由像素、像素组和变换系数块组成的视觉元素的组选择的多个视觉元素。8.根据权利要求I的方法,其中,用于更新视觉数据组的所述第一方法利用第一函数和第一组参数,并且,用于更新视觉数据组的所述第二方法利用所述第一函数和第二组参数,其中,所述第一组参数与所述第二组参数不同。9.根据权利要求I的方法,其中,用于更新视觉数据组的所述第一方法利用第一函数和第一组参数,并且,用于更新视觉数据组的所述第二方法利用第二函数和第二组参数,其中,所述第一函数与所述第二函数不同。10.根据权利要求I的方法,其中,所述更新步骤利用所述多个视觉数据组中的每一个的相应的学习率。11.一种用于存储与输入图像的场景相关的场景模型中的元素模型的计算机实现的方法,所述输入图像具有输入视觉元素,所述方法包括以下的步骤识别与输入视觉元素对应的场景模型中的模型视觉元素,所述模型视觉元素与元素模型组相关,各元素模型包含多个视觉数据组,所述多个视觉数据组与单个时间数据组相关;基于输入视觉元素从所述元素模型组选择元素模型;和通过根据输入视觉元素以相关的更新率更新所选择的元素模型中的各视觉数据组来存储场景模型中的元素模型,其中,所述相关的更新率中的至少两个是不同的。12.一种用于对输入图像执行前景/背景分离的计算机实现的方法,所述方法包括以下的步骤对于所述输入图像中的各输入视觉元素识别与所述输入图像相关的场景模型中的相应的模型视觉元素,所述模型视觉元素与元素模型组相关,各元素模型包含多个视觉数据组,所述多个视觉数据组与单个时间数据组相关;根据满足预先确定的准则的选择的元素模型的视觉数据组和所述输入视觉元素之间的视觉距离,从所述元素模型组选择元素模型;通过基于输入视觉元素添加新的视觉数据组来更新所选择的元素模型,所述新的视觉数据组与选择的元素模型的视觉数据组的时间数据组相关;和根据选择的元素模型将输入视觉元素归类为前景和背景中的一个。13.一种用于存储与输入图像的场景相关的场景模型中的元素模型的计算机实现的方法,所述输入图像具有输入视觉元素,所述方法包括以下的步骤识别与输入视觉元素对应的场景模型中的模型视觉元素,所述模型视觉元素与元素模型组相关,各元素模型包含多个视觉数据组,所述多个视觉数据组与单个时间数据组相关;基于输入视觉元素从所述元素模型组选择元素模型;和通过基于输入视觉元素添加新的视觉数据组而更新所选择的元素模型来存储场景模型中的元素模型,所述新的视觉数据组与选择的元素模型的视觉数据组的时间数据组相关。14.一种用于对输入视频帧执行前景/背景分离的计算机实现的方法,所述方法包括以下的步骤接收与帧相关的场景模型中的元素模型组,其中,元素模型组中的各元素模型包含第一和第二视觉组;对于所述场景模型中的场所处的视觉元素,比较和该视觉元素相关的至少一个元素模型的第一和第二视觉组与对应于所述场所的帧中的视觉元素的视觉组;基于所述比较步骤选择第一和第二视觉组中的一个,第一和第二视觉组中的所述一个到相应元素的视觉组的视觉距离满足预先确定的准则;基于选择的视觉组从元素模型组选择元素模型;基于选择的元素模型将输入视觉元素归类为前景和背景中的一个;通过使用第一方法基于相应元素的视觉组更新所选择的元素模型的第一视觉组;和通过使用与第一方法不同的第二方法基于相应元素的视觉组更新所选择的元素模型的第二视觉组。15.根据权利要求14的方法,其中,从元素模型组选择元素模型的所述步骤还基于时间数据组。16.根据权利要求14的方法,其中,所述归类依赖于时间数据组。17.根据权利要求14的方法,其中,选择视觉数据组的所述步骤选择的视觉数据组到对应于所述场所的帧中的视觉元素的视觉组的视觉距离最小。18.根据权利要求14的方法,其中,所述更新步骤中的所述第一方法是具有第一学习率阈值的近似中值滤波;并且所述更新步骤中的所述第二方法是具有第二学习率阈值的近似中值滤波,所述第二学习率阈值比第一学习率阈值高。19.根据权利要求18的方法,其中,所述第一学习率阈值被饱和更新条件封盖。20.一种对于输入图像执行前景/背景分离的计算机实现的系统,所述系统包括用于执行以下操作的装置对于所述输入图像中的各输入视觉元素识别与所述输入图像相关的场景模型中的相应的模型视觉元素,所述模型视觉元素与元素模型组相关,各元素模型包含多个视觉数据组,所述多个视觉数据组与单个时间数据组相关;根据满足预先确定的准则的选择的元素模型的视觉数据组和所述输入视觉元素之间的视觉距离,从所述元素模型组选择元素模型;根据选择的元素模型将输入视觉元素归类为前景和背景中的一个;和根据输入视觉元素和用于更新视觉数据组的至少第一和第二不同的方法更新所选择的元素模型中的各视觉数据组。21.根据权利要求20的系统,其中,所述归类依赖于时间数据组。22.根据权利要求20的系统,其中,从元素模型组选择元素模型还基于时间数据组。23.根据权利要求20的系统,其中,用于更新视觉数据组的所述第一方法利用低学习率,并且用于更新视觉数据组的所述第二方法利用高学习率。24.根据权利要求20的系统,其中,用于更新视觉数据组的所述第一方法被饱和更新条件封盖。25.根据权利要求20的系统,还包括用于执行以下操作的装置对于所述元素模型组中的各元素模型确定所述输入视觉元素和所述元素模型中的各视觉数据组之间的视觉距离;其中,所述预先确定的准则涉及具有所确定的视觉距离中的最小值。26.根据权利要求20的系统,其中,所述输入图像包含从由像素、像素组和变换系数块组成的视觉元素的组选择的多个视觉元素。27.根据权利要求20的系统,其中,用于更新视觉数据组的所述第一方法利用第一函数和第一组参数,并且,用于更新视觉数据组的所述第二方法利用所述第一函数和第二组参数,其中,所述第一组参数与所述第二组参数不同。28.根据权利要求20的系统,其中,用于更新视觉数据组的所述第一方法利用第一函数和第一组参数,并且,用于更新视觉数据组的所述第二方法利用第二函数和第二组参数,其中,所述第一函数与所述第二函数不同。29.根据权利要求20的系统,其中,所述更新利用所述多个视觉数据组中的每一个的相应的学习率。30.一种用于存储与输入图像的场景相关的场景模型中的元素模型的计算机实现的系统,所述输入图像具有输入视觉元素,所述系统包括用于执行以下操作的装置识别与输入视觉元素对应的场景模型中的模型视觉元素,所述模型视觉元素与元素模型组相关,各元素模型包含多个视觉数据组,所述多个视觉数据组与单个时间数据组相关;基于输入视觉元素从所述元素模型组选择元素模型;和通过根据输入视觉元素以相关的更新率更新所选择的元素模型中的各视觉数据组来存储场景模型中的元素模型,其中,所述相关的更新率中的至少两个是不同的。31.一种用于对输入图像执行前景/背景分离的计算机实现的系统,所述系统包括用于执行以下操作的装置对于所述输入图像中的各输入视觉元素识别与所述输入图像相关的场景模型中的相应的模型视觉元素,所述模型视觉元素与元素模型组相关,各元素模型包含多个视觉数据组,所述多个视觉数据组与单个时间数据组相关;根据满足预先确定的准则的所选择的元素模型的视觉数据组和所述输入视觉元素之间的视觉距离,从所述元素模型组选择元素模型;通过基于输入视觉元素添加新的视觉数据组来更新选择的元素模型,所述新的视觉数据组与选择的元素模型的视觉数据组的时间数据组相关;和根据选择的元素模型将输入视觉元素归类为前景和背景中的一个。32.一种用于存储与输入图像的场景相关的场景模型中的元素模型的计算机实现的系统,所述输入图像具有输入视觉元素,所述系统包括用于执行以下操作的装置识别与输入视觉元素对应的场景模型中的模型视觉元素,所述模型视觉元素与元素模型组相关,各元素模型包含多个视觉数据组,所述多个视觉数据组与单个时间数据组相关;基于输入视觉元素从所述元素模型组选择元素模型;和通过基于输入视觉元素添加新的视觉数据组而更新所选择的元素模型来存储场景模型中的元素模型,所述新的视觉数据组与选择的元素模型的视觉数据组的时间数据组相关。33.一种用于对输入视频帧执行前景/背景分离的计算机实现的系统,所述系统包括用于执行以下操作的装置接收与帧相关的场景模型中的元素模型组,其中,元素模型组中的各元素模型包含第一和第二视觉组;对于所述场景模型中的场所处的视觉元素,比较和该视觉元素相关的至少一个元素模型的第一和第二视觉组与对应于所述场所的帧中的视觉元素的视觉组;基于所述比较选择第一和第二视觉组中的一个,第一和第二视觉组中的所述一个到相应元素的视觉组的视觉距离满足预先确定的准则;基于选择的视觉组从元素模型组选择元素模型;基于选择的元素模型将输入视觉元素归类为前景和背景中的一个;通过使用第一方法基于相应元素的视觉组更新所选择的元素模型的第一视觉组;和通过使用与第一方法不同的第二方法基于相应元素的视觉组更新所选择的元素模型的第二视觉组。34.根据权利要求33的系统,其中,从元素模型组选择元素模型还基于时间数据组。35.根据权利要求33的系统,其中,所述归类依赖于所述时间数据组。36.根据权利要求33的系统,其中,通过选择视觉数据组所选择的视觉数据组到对应于所述场所的帧中的视觉元素的视觉组的视觉距离最小。37.根据权利要求33的系统,其中,所述更新中的所述第一方法是具有第一学习率阈值的近似中值滤波;并且所述更新中的所述第二方法是具有第二学习率阈值的近似中值滤波,所述第二学习率阈值比第一学习率阈值高。38.根据权利要求37的系统,其中,所述第一学习率阈值被饱和更新条件封盖。全文摘要本发明涉及用于视频对象检测的方法和系统。这里公开用于对于输入图像执行前景/背景分离的系统和方法。所述方法对于输入图像中的各输入视觉元素执行以下的步骤。所述方法识别与输入图像相关的场景模型(200)中的相应的模型视觉元素,模型视觉元素与元素模型组(210)相关,各元素模型(220)包含多个视觉数据组(230、240)。所述方法然后根据满足预先确定的准则的输入视觉元素和选择的元素模型(220)的视觉数据组(230、240)之间的视觉距离,从元素模型组(210)选择元素模型(220)。所述方法根据选择的元素模型(220)将输入视觉元素归类为前景和背景中的一个,并然后根据输入视觉元素和更新视觉数据组的至少第一和第二不同的方法更新选择的元素模型(220)中的各视觉数据组(230、240)。文档编号G06K9/00GK102592109SQ20111033265公开日2012年7月18日申请日期2011年10月28日优先权日2010年10月29日发明者A·K·谷帕塔,A·帕尔迪斯,刘新宇申请人:佳能株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1