专利名称:采用视频原语的视频监视系统的制作方法
技术领域:
本发明涉及一种针对采用视频原语的自动视频监视的系统。 参考文献
为了方便读者,下面列出了这里所参考的参考文献。在文中,括 号内的数字表示相应的参考文献。所列出的参考文献在这里合并作为 参考。
下列参考文献描述了运动目标检测
{1} A. Lipton, H. Fujiyoshi and R. S. Patil, "Moving Target Detection and Classification from Real-Time Video," Proceedings of 正EE WACV '98, Princeton, NJ, 1998, pp. 8-14,
{2} W.E丄.Grimson, et al" "Using Adaptive Tracking to Classify and Monitor Activities in a Site", CVPR, pp. 22-29, June 1998.
{3} A丄 Lipton, H. Fujiyoshi, R.S. Patil, "Moving Target Classification and Tracking from Real-time Video," IUW, pp. 129-136, 1998.
{4} TJ. Olson and F.Z. Brill, "Moving Object Detection and Event Recognition Algorithm for Smart Cameras," IUW, pp. 159-175, May 1997.
下列参考文献描述了对人的检测和跟踪
{5} A. J. Lipton, "Local Application of Optical Flow to Analyse Rigid Versus Non- Rigid Motion," International Conference on Computer Vision, Corfu, Greece, September 1999.
{6} F. Bartolini, V. Cappellini, and A. Mecocci, "Counting peoplegetting in and out of a bus by real-time image-sequence processing," IVC, 12(1 ):36-41, January 1994.
{7} M. Rossi and A. Bozzoli, "Tracking and counting moving people," ICIP94, pp. 212- 216, 1994.
{8} CR. Wren, A. Azarbayejani, T. Darrell, and A. Pentland, "Pfmder: Real-time tracking of the human body," Vismod, 1995.
{9} L. Khoudour, L. Duvieubourg, J.P. Deparis, "Real-Time Pedestrian Counting by Active Linear Cameras," JEI, 5(4):452-459, October 1996.
{10} S. Ioffe, D,A. Forsyth, "Probabilistic Methods for Finding People," IJCV, 43(1):45匿68, June 2001.
{11} M. Isard and J. MacCormick, "BraMBLe: A Bayesian Multiple-Blob Tracker," ICCV, 2001.
下列参考文献描述了斑点分析
{12} D.M. Gavrila, "The Visual Analysis of Human Movement: A Survey," CVIU, 73(l):82-98, January 1999.
{13} Niels Haering and Niels da Vitoria Lobo, "Visual Event Detection," Video Computing Series, Editor Mubarak Shah, 2001.
下列参考文献描述了针对卡车、汽车、以及人的斑点分析 {14} Collins, Lipton, Kanade, Fujiyoshi, Duggins, Tsin, Tolliver, Enomoto, and Hasegawa, "A System for Video Surveillance and Monitoring: VSAM Final Report," Technical Report CMU-RI-TR-00- 12, Robotics Institute, Carnegie Mellon University, May 2000.
{15} Lipton, Fujiyoshi, and Patil, "Moving Target Classification and Tracking from Real-time Video," 98 Darpa IUW, Nov. 20-23, 1998.
下列参考文献描述了分析单个人的斑点及其轮廓
{16} CR. Wren, A. Azarbayejani, T. Darrell, and A.P. Pentland.
"Pfmder: Real-Time Tracking of the Human Body," PAMI, vol 19, pp.
780-784, 1997.
以下参考文献描述了斑点的内部运动,包括任何基于运动的分割(segmentation ):
{17} M. Allmen and C. Dyer, "Long-Range Spatiotemporal Motion Understanding Using Spatiotemporal Flow Curves," Proc. IEEE CVPR. Lahaina, Maui, Hawaii, pp. 303-309, 1991,
{18} L. Wixson, "Detecting Salient Motion by Accumulating Directionally Consistent Flow", IEEE Trans. Pattern Anal. Mach. Intell., vol. 22, pp. 774-781 , Aug, 2000.
背景技术:
公共场所的视频监视己经变得非常普遍,并为公众所接收。不幸 的是,传统的视频监视系统产生了大量的数据,以至于在对视频监视 数据进行分析时导致了难以处理的问题。
存在减少视频监视数据量的需要,这样可以实施对视频监视数据 的分析。
存在对视频监视数据进行过滤的需要,以识别出视频监视数据的 期望部分。
发明内容
本发明的目的是减少视频监视数据量,这样可以实施对视频监视 数据的分析。
本发明的目的是对视频监视数据进行过滤,以识别出视频监视数 据的期望部分。
本发明的目的是基于对来自视频监视数据的事件的自动检测而 产生实时警报。
本发明的目的是将来自视频传感器的除了用于改进的搜索能力 的视频以外的数据结合起来。
本发明的目的是将来自视频传感器的除了用于改进的事件检测 能力的视频以外的数据结合起来。
本发明包括用于视频监视的一种产品(article of manufactured方 法、系统以及装置。本发明的产品包括计算机可读介质,该计算机可读介质包括针对 视频监视系统的软件、包括用于基于视频原语来操作该视频监视系统 的代码段。
本发明的产品包括计算机可读介质,该计算机可读介质包括针对 视频监视系统的软件、包括用于访问存档视频原语的代码段,以及用 于从所访问的存档视频原语中提取事件发生。
本发明的系统包括计算机系统,该计算机系统包括具有用以根据 本发明来操作计算机的软件的计算机可读介质。
本发明的装置包括计算机,该计算机包括具有用以根据本发明来 操作计算机的软件的计算机可读介质。
本发明的产品包括具有用以根据本发明来操作计算机的软件的 计算机可读介质。
此外,本发明的上述目的和优点是对本发明所实现的那些方案的 例证,而并非详尽的说明。因此,从这里的描述中,本发明的这些和 其他目的和优点将变得显而易见,对本领域的那些技术人员而言,这 里所体现的本发明的其他目的和优点以及考虑到任何变化对其所作的 更改将变得显而易见。
定义
"视频"表示以模拟和/或数字形式表示的动画。视频的示例包括 电视、电影、来自摄像机或其他观测器的图像序列、计算机所产生的 图像序列。
"帧"表示视频内的特定图像或其他离散单元。
"对象"表示视频中感兴趣的项目。对象的示例包括人、车辆、 动物、以及物理主体。
"活动"表示一个或多个动作和/或一个或多个对象的动作的一种 或多种组合。活动的示例包括进入、退出、停止、移动、提高、降 低、增长、以及收縮。
"位置"表示活动可以发生的空间。例如,位置可以基于场景或基 于图像。基于场景的位置的示例包括公共场所、商店、零售场所、办公室、大商店、旅馆房间、酒店大堂、大厦门厅、娱乐场所、公共 汽车站、火车站、飞机场、码头、公共汽车、火车、飞机以及轮船。 基于图像位置的示例包括视频图像、视频图像中的线、视频图像中 的区域、视频图像中的矩形截面、以及视频图像的多边形截面。
"事件"表示一个或多个对象参与某个行为。事件可以涉及关于位 置和/或时间。
"计算机"表示能够接收结构输入、根据指定规则处理结构输入、 以及产生作为输出的处理结果的任意装置。计算机的示例包括计算 机、通用计算机、超级计算机、大型机、超小型计算机、迷你计算机、 工作站、微型计算机、服务器、交互式电视、计算机和交互式电视的 混合结构、以及模拟计算机的特定应用的硬件和/或软件。计算机可以 具有单个处理器或多个处理器,该处理器可以并行和/或非并行地操 作。计算机还表示通过用于在计算机之间发送或接收信息的网络连接 在一起的两个或多个计算机。这种计算机的示例包括用于通过由网络 所连接的计算机来处理信息的分布式计算机系统。
"计算机可读介质"表示用于存储可由计算机存取的数据的任意存 储设备。计算机可读介质的示例包括磁性硬盘、软盘、诸如CD-ROM 和DVD之类的光盘、磁带、存储芯片、用于携带计算机可读电子数据
的载波,诸如那些用于发送和接收电子邮件或访问网络。
"软件"表示用于操作计算机的指定规则。软件的示例包括软件、 代码段、指令、计算机程序、以及程序逻辑。
"计算机系统"表示具有计算机的系统,其中该计算机包括采用软 件来操作计算机的计算机可读介质。
"网络"表示多个计算机以及通过通信设备所连接的关联设备。网 络包括诸如电缆之类的永久性连接或诸如通过电话或其他通信线路所 构成的暂时连接。网络的示例包括诸如互联网的互联网络(internet)、 内联网、局域网(LAN)、广域网(WAN)以及诸如互联网和内联网 之类的网络的组合。
通过附图,对本发明的实施例进行更详细的说明,在附图中相同 的附图标记表示相同特征。
图1示出了本发明的视频监视系统的平面图。 图2示出了针对本发明的视频监视系统的流程图。 图3示出了用于给视频监视系统分派任务的流程图。 图4示出了用于操作视频监视系统的流程图。
图5示出了用于提取视频监视系统的视频原语的流程图。
图6示出了对视频监视系统采取行动的流程图。
图7示出了针对视频监视系统的半自动校准的流程图。
图8示出了针对视频监视系统的自动校准的流程图。
图9示出了针对本发明的视频监视系统的附加流程图。
图10-15示出了本发明的视频监视系统应用于监视杂货店的示例。
图16a示出了根据本发明的实施例的视频分析子系统的流程图。 图16b示出了根据本发明的实施例的事件发生检测和响应子系统 的流程图。
图17示出了示例性数据库询问。
图18示出了根据本发明的不同实施例的三个示例性活动检测器
检测絆网道口 (图18a)、徘徊(图18b)、盗窃(图18c)。 图19示出了根据本发明的实施例的活动检测器询问。 图20示出了根据本发明的实施例的使用活动检测器和具有修正
符的布尔操作符的示例性询问。
图21a和图21b示出了使用组合操作符、活动检测器、以及特性
询问的多级的示例性询问。
图22示出了根据本发明的实施例的视频监视系统的示例性配置。 图23示出了根据本发明的实施例的视频监视系统的另一示例性配置。
图24示出了根据本发明的实施例的视频监视系统的另一示例性 配置。
图25示出了可以用于本发明的实施例的示例性配置的网络。图26示出了根据本发明的实施例的视频监视系统的示例性配置。 图27示出了根据本发明的实施例的视频监视系统的示例性配置。 图28示出了根据本发明的实施例的视频监视系统的示例性配置。
具体实施例方式
本发明的自动视频监视系统是为了例如市场调查或保安目的而 用于监视位置。该系统可以是具有为特定目的所建造的监视组件的专 用视频监视装置,或者该系统可以是对借用监视视频馈入信号而工作 的现有视频监视设备的改进。该系统能够分析来自实况源或记录介质 的视频数据。该系统能够实时处理视频数据,并存储所提取的视频原 语,以便随后允许非常高速的公开辨识事件的检测。该系统可以对分 析具有指定的响应,诸如记录数据、激活警报机制、或激活另一个传 感器系统。该系统还能够结合其他监视系统组件。例如,可以将该系 统用于产生安全或市场调査报告,该安全或市场调查报告可以根据运 营者(operator)的需要来进行加工,并且作为选择,可以通过基于交 互式网络接口或其他报告机制来呈现。
通过使用事件鉴别器,运营者在配置系统方面具有最大灵活性。 以一个或多个对象(其描述基于视频原语)连同一个或多个可选的空 间属性和/或一个或多个可选的时间属性来识别事件鉴别器。例如,运 营者可以定义事件鉴别器(在这个示例中称为"徘徊"),作为"人物" 对象,其在"自动取款机"空间停留"超过15分钟"以及"在10: 00p.m到6: OOa.m之间"。可以将事件鉴别器与改良后的布尔操作符 相结合以形成更复杂的询问。
尽管本发明的视频监视系统利用来自公共域的公知的计算机视 频技术,本发明的视频监视系统具有若干当前不可用的独特且新颖的 特征。例如,当前视频监视系统使用大量视频图像作为信息交换的初 级产物。本发明的系统使用视频原语作为具有被用作旁证的典型视频 图像的初级产物。还可以校准(手动地、半自动地、或自动地)本发 明的系统,并由此可以自动从视频图像中推断出视频原语。该系统还 可以分析先前已处理的视频,而不需要整个对该视频进行重新处理。通过分析先前已处理的视频,该系统可以基于先前已记录的视频原语 来执行推论分析,从而大大地改进了计算机系统的分析速度。视频原语的使用还可以显著地减少对于视频的存储需要。这是因 为事件检测和响应子系统只使用视频来例证检测。因此,可以以较低 质量来存储该视频。在可能的实施例中,仅在检测到活动时(而非一 直)可以存储视频。在另一个可能的实施例中,所存储的视频的质量 可以取决于是否检测到活动当检测到活动时,可以以较高质量(较 高帧速率和/或比特率)来存储视频。在另一个示例性实施例中,例如 可以由数字录像机(DVR)来对视频存储和数据库进行分别处理,并 且该视频处理子系统可以仅控制是否存储数据以及以什么质量来存 储。在另一实施例中,视频监视系统(或其组件)可以位于集成在诸如数字摄像机、网络视频服务器、DVR、或网络视频记录器(NVR) 之类的视频管理设备上的处理设备(例如通用处理器、DSP、微控制 器、ASIC、 FPGA、或其它设备)上,并且可以由该系统来对流自该 设备的视频的带宽进行调制。当检测到感兴趣的活动时,仅需要通过 IP视频网络传输高质量的视频(高比特率或帧速率)。在本实施例中, 超通过网络将原语从智能启动设备广播至实体上处理不同位置的多个 活动推断应用,以使得单个照相机网络能够通过分散式处理而提供多 目的的应用。图22示出了视频监视系统的实现的一种配置。框221表示原生 (未经压缩的)数字视频输入。例如,该原生数字视频输入可以通过 对模拟视频信号的模数捕捉或对数字视频信号的解码而获得。框222 表示容纳视频监视系统的主要组件的硬件平台(视频内容分析-框225-以及活动推断-框226)。该硬件平台可以包含其它组件,例如操作系 统(框223);视频编码器(框224),用于使用任意可用的压縮方案 (JPEG、 MJPEG、 MPEG1 、 MPEG2 、 MPEG4、 H.263、 H.264、 Wavdet、 或任意其它)来对视频流或存储的原生数字视频进行压縮;存储机制 (框227),用于保存诸如视频、压縮视频、警报、以及视频原语之类 的数据-例如,该存储设备可以是硬盘、集成RAM、集成FLASH存储 器、或其它存储介质;以及通信层(框22S),例如其可以对数据进行分组化和/或数字化,以便通过通信信道传输(框229)。在通信信道229所连接到的其它节点处,可以存在驻留于计算平 台上的其它软件组件。框2210示出了作为用于创建视频监视规则的用 户接口的规则管理工具。框2211示出了用于向用户显示警报和报告的 警报控制台。框2212示出了用于存储警报、原语、及视频以进行进一 步事后处理的存储设备(例如DVR、 NVR、或PC)。硬件平台(框222)上的组件可以实现于任意视频捕捉、处理或 管理设备(例如,摄像机、数字摄像机、IP摄像机、IP视频服务器、 数字视频记录器(DVR)、网络视频记录器(NVR)、 PC、膝上型计算 机、或其它设备)的任意处理硬件(通用处理器、微控制器、DSP、 ASIC、 FPGA、或其它处理设备)上。存在用于此配置的多种不同的 可能操作模式。在一种模式下,将系统程序设计用于寻找特定事件。当那些事件 发生时,通过通信信道(框229)将警报传送至其它系统。在另一模式下,在视频设备对视频数据进行分析的同时,从视频 设备中流出视频。当事件发生时,通过通信信道(框229)来传送警 报。在另一模式下,通过内容分析和活动推断来对视频编码和流化进 行调制。当不存在活动(不产生原语)时,不对视频(或低质量、比 特率、帧速率、分辨率的视频)进行流化。当存在某些活动时(正在 产生原语),则流化较高质量、比特率、帧速率、分辨率的视频。在另一操作模式下,将信息存储在集成存储设备上(框227)。所 存储的数据可以包括数字视频(原生或压縮的)、视频原语、警报或其 它信息。所存储的视频质量还可以由原语或警报的存在来控制。当存 在原语和警报时,可以存储较高质量、比特率、帧速率、分辨率的视 频。图23示出了视频监视系统的实现的另一配置。框231表示原生 (未经压缩的)数字视频输入。例如,该原生数字视频输入可以通过 对模拟视频信号的模数捕捉或对数字视频信号的解码而获得。框232 表示容纳视频监视系统的分析组件的硬件平台(框235)。该硬件平台可以包含其它组件,例如操作系统(框233);视频编码器(框234),为了视频流化或存储而使用任意可用压縮方案(JPEG、 MJPEG、 MPEG1、 MPEG2 、 MPEG4、 H.263、 H.264、 Wavelet、或任意其它) 来对原生数字视频进行压縮;存储机制(框236),用于保存诸如视频、 压縮视频、警报、以及视频原语之类的数据-例如,该存储设备可以是 硬盘、集成RAM、集成FLASH存储器、或其它存储介质;以及通信 层(框237),例如其可以对数据进行分组化和/或数字化,以便通过 通信信道传输(框23S)。在图23所示的本发明的实施例中,在连接 至与通信信道238相连的网络的单独硬件组件(框239)上示出活动 推断组件(框23U)。在该网络的其它节点处,可以存在驻留于计算平台上的其它软件 组件(框239)。框2310示出了作为用于创建视频监视规则的用户接 口的规则管理工具。框2312示出了用于向用户显示警报和报告的警报 控制台。框2313示出了可以在实体上位于同一硬件平台的存储设备 (例如硬盘、软盘、其它磁盘、CD、 DVD、其它光盘、MD或其它磁 光盘、诸如RAM或FLASH RAM之类的固态存储设备、或其它存储 设备),或者可以是独立的存储设备(例如外部磁盘驱动器、PC、膝 上型计算机、DVR、 NVR、或其它存储设备)。硬件平台(框222)上的组件可以在任意视频捕捉、处理或管理 设备(例如,摄像机、数字摄像机、IP摄像机、IP视频服务器、数字 视频记录器(DVR)、网络视频记录器(NVR)、 PC、膝上型计算机、 或其它设备)的任意处理硬件(通用处理器、微控制器、DSP、 ASIC、 FPGA、或其它处理设备)上实现。后端硬件平台上的组件(框239) 可以在任意处理设备(例如,PC、膝上型计算机、集成计算机、DVR、 NVR、视频服务器、网络路由器、手持设备(例如视频电话、寻呼机 或PDA))的任意处理硬件(通用处理器、微控制器、DSP、 FPGA、 ASIC或任意其它设备)上实现。存在用于此配置的多种不同的可能 操作模式。在一种模式下,在后端设备(或连接至后端设备的任意其它设备) 上将系统程序设计用于寻找特定事件。视频处理平台(框232)上的内容分析模块(框235)产生传送至后端处理平台(框239)的原语。 该事件推断模块(2311)确定是否违背了规则,并产生可以在推断控 制台(框2312)上显或可以存储于存储设备(框2313)中用以随后 分析的警报。在另一模式下,可以将视频原语和视频存储在后端平台(2313) 的存储设备中,用以随后分析。在另一模式下,可以通过警报对所存储的视频质量、比特率、帧 速率、分辨率进行调制。当存在警报时,可以以较高的质量、比特率、 帧速率、分辨率来存储视频。在另一模式下,可以经由通信信道将视频原语存储在视频处理设 备上(框232中的框236),用以随后分析。在另一模式下,可以通过原语的存在来调制存储在视频处理设备 (框232中的框236)上的视频的质量。当存在原语(当发生某些事 情时)时,所存储的视频的质量、比特率、帧速率、分辨率可以增大。在另一模式下,可以通过编码器(234)将视频从视频处理器流 出,并经由通信信道238流至网络上的其它设备。在另一模式下,可以通过内容分析模块(235)来对视频质量进 行调制。当不存在原语(没有事情发生)时,不对视频(或较低质量、 比特率、帧速率、分辨率的视频)进行流化。当存在活动时,对较高 质量、比特率、帧速率、分辨率的视频进行流化。在另一模式下,通过警报的存在来调制流化后的视频质量、比特 率、帧速率、分辨率。当后端事件推断模块(框23U)检测到感兴趣 的事件时,其向视频处理组件(框232)发送信号或命令,以请求视 频(或较高质量、比特率、帧速率、分辨率的视频)。当该请求到达时, 视频压縮组件(框234)和通信层(框237)可以改变压縮和流化参数。在另一模式下,可以通过警报的存在来调制在集成的视频处理设 备(框232中的框236)上所存储的视频的质量。当由后端处理器(239) 上的事件推断模块(2311)产生警报时,其可以经由通信信道(框238) 来向视频处理器硬件(框232)发送消息,以增大存储在集成的存储 设备(238)中的质量、比特率、帧速率、及分辨率。图24示出了对图23中所描述的配置的扩展。通过将视频内容分析与后端活动推断功能分开,可以通过对最近应用绑定过程来启动多 目的智能视频监视系统。智能启动摄像机的单一网络可以广播视频原 语的单一流,以便将不同组织部分(不同实体位置)中的后端应用分 开,从而实现多种功能。由于原语流包含关于在场景中进行的每件事物的信息,且不受束于特定应用区域,因此上述情况是可能的。图24 中所描述的示例属于零售环境,但通常仅作为对本原理的例证,并适 用于任意其它应用区域及任意其它监视功能。框241示出了一个或多 个摄像机在一个装置内或多个装置之中的智能启动网络。该内容分析 组件可以驻留在摄像机内部的处理设备、视频服务器、网络路由器、 DVR、 NVR、 PC、膝上型电脑或连接至网络的任意其它视频处理设备 上。根据这些内容分析组件,通过标准网络将原语流广播至驻留于针 对不同目的的实体上的不同区域中的后端处理器(框242-245)上的 活动推断模块。该后端处理器可以位于计算机、膝上型电脑、DVR、 NVR、网络路由器、手持设备(电话、寻呼机、PDA)或其它计算设 备中。这种分散式的一个优点是不需要存在必须被程序设计用以完成 所有可能应用的处理的中央处理应用。另一优点是安全性,因此组织 的一部分可以按照本地存储的规则来执行活动推断,因此网络中没有 另外的部分能够访问该信息。在框242中,针对实体保安应用,对来自智能摄像网络的原语流 进行分析以确定是否存在周边缺口。当然,这些应用仅作为示例, 并且任意其它应用也可以。在框243中,针对损失预防应用,对来自智能摄像网络的原语流 进行分析以监控装载处;注意顾客或雇员偷窃;监控仓库;以及跟 踪库存。当然,这些应用仅作为示例,并且任意其它应用也可以。在框244中,针对公共安全和责任应用,对来自智能摄像网络的 原语流进行分析以监控在停车场中移动过快的人或车辆;注意人滑 倒和摔倒;以及监控设施内和周围的人群。当然,这些应用仅作为示 例,并且任意其它应用也可以。在框245中,针对商业智能应用,对来自智能摄像网络的原语流进行分析以及注意队列的长度;跟踪顾客行为;获悉行为模式;在没有人的时候执行诸如控制照明和加热之类的建筑物管理任务。当然, 这些应用仅作为示例,并且任意其它应用也可以。图25示出了与大量潜在的智能启动设备相连的网络(框251)。 框252是具有能够对网络上的原语进行流化的内容分析组件的IP摄像 机。框253是集成了能够直接使用规则进行程序设计并将直接产生网 络警报的内容分析和活动推断组件的IP摄像机。框254是没有集成智 能组件的标准模拟摄像机;但它连接至执行视频数字化和压缩以及内 容分析及活动推断的IP视频管理平台(框256)。可以使用特定角度 的规则对该IP视频管理平台进行程序设计,并且该IP视频管理平台 能够通过网络来传送原语流和警报。框255是具有能够从其它设备摄 取原语流并产生警报的活动推断组件的DVR。框257是以无线网络通 信启动的手持PDA,其具有集成的活动推断算法并能够从网络接收视 频原语,并显示警报。框258是能够接收模拟或数字视频流、执行内 容分析和活动推断、并在一系列警报控制台上显示警报的完全智能视 频分析系统。图26示出了视频监视系统的实现的另一配置。框2601表示可以 容纳视频监视系统的主要组件以及附加处理和接口组件的硬件平台。 框2602表示容纳视频监视系统的主要组件的硬件子平台(视频内容分 析-框2603-以及活动推断-框2604),并且还可以包括用于与这些组件 进行接口的应用程序接口 (API)(框2605)。例如,可以通过对模拟 视频信号的数字捕捉或对数字视频信号的解码来获得原生(未压缩的) 数字视频输入(框2607)。硬件平台2601可以包含诸如一个或多个 主数字信号处理(DSP)应用之类的其它组件(框2606);视频编码 器,可用于为了视频流化或存储而使用任意可用的压縮方案(JPEG、 MJPEG、 MPEG1、 MPEG2 、 MPEG4、 H.263、 H.264、 Wavelet 、或 任意其它)来对视频流或存储的原生数字视频进行压缩;存储机制(未 示出),用于保存诸如视频、压缩视频、警报、以及视频原语之类的数 据-例如,该存储设备可以是硬盘、集成RAM、集成FLASH存储器、 或其它存储介质;以及通信层(在图26中示为TCP/IP栈2608),例如其可以对数据进行分组化和/或数字化,以便通过通信信道传输。
硬件平台2601可以连接至传感器2610。传感器2610可以以硬件、 固件、软件或其组件实现。传感器2610可以充当硬件平台2601与网 络2611之间的接口。传感器2610可以包括服务层,或服务层可以实 现于别处,例如实现于传感器2610与网络2611之间或作为网络2611
的一部分。
可以存在驻留于网络2611的其它节点处的计算平台上的其它软 件组件。框2612示出了规则管理工具,该规则管理工具再次作为用于 创建视频监视规则的用户接口。框2613示出了用于向用户显示警报和 报告的警报控制台。
硬件平台(2601)上的组件可以在诸如摄像机、数字摄像机、IP 摄像机、IP视频服务器、数字视频记录器(DVR)、或网络视频记录 器(NVR)、 PC、膝上型电脑或其它设备之类的任意视频捕捉、处理 或管理设备上的处理硬件(通用处理器、微处理器、DSP、ASIC、FPGA、 或其它处理设备)上实现。如上述所讨论的,存在针对该配置的多种 不同的可能操作模式。
在图26的配置中,可以在DSP阶段处理警报,并且API框架2605 可以包括警报API支持。这可以支持在设备内针对各种命令和控制功 能的警报的使用。
例如,在本发明的一些实施例中,主DSP应用2606可以获得警 报并将其发送至在硬件平台2601上所运行的另一算法。例如,该算法 可以是要基于所触发的基于人的规则执行的面部识别算法。在这种情 况下,如果该警报包含指示对象类型为人的对象字段,则可以移开。
可以在本发明的一些实施例中实现的另一示例是使用警报来控 制视频压縮和/或流化。例如,这可以是简单的开/关控制、分辨率控 制等;然而,本发明不必局限于这些示例。例如,这种控制可以基于 警报的存在和/或警报的细节。
通常地,警报可用于多种命令和控制功能,该功能包括但不局限 于控制图像增强软件、控制远程遥控旋转台(PTZ)功能、以及控 制其它传感器。图27示出了视频监视系统的实现的又一配置。框2701表示可以 容纳视频监视系统的主要组件以及附加处理和接口组件的硬件平台。 框2702表示容纳视频监视系统的主要组件的硬件子平台(视频内容分 析-框2703-以及活动推断-框2704),并且还可以包括用于与这些组件 进行接口的应用程序接口 (API)(框2705)。例如,可以通过对模拟 视频信号的数字捕捉或对数字视频信号的解码来获得原生(未压縮的) 数字视频输入(框2707)。硬件平台2701可以包含诸如一个或多个 主数字信号处理(DSP)应用之类的其它组件(框2706);视频编码 器,可用于为了视频流化或存储而使用任意可用的压縮方案(JPEG、 MJPEG、 MPEG1、 MPEG2 、 MPEG4、 H.263、 H.264、 Wavelet 、或 任意其它)来对视频流或存储的原生数字视频进行压縮;存储机制(未 示出),用于保存诸如视频、压縮视频、警报、以及视频原语之类的数 据-例如,该存储设备可以是硬盘、集成RAM、集成FLASH存储器、 或其它存储介质;以及通信层(在图27中示为TCP/IP栈2708),例 如其可以对数据进行分组化和/或数字化,以便通过通信信道传输。
硬件平台2701可以连接至传感器2710。传感器2710可以以硬件、 固件、软件或其组件实现。传感器2710可以充当硬件平台2701与网 络2711之间的接口。传感器2710可以包括服务层,或服务层可以实 现于别处,例如实现于传感器2710与网络2711之间或作为网络2711 的一部分。
如上所述,可以存在驻留于网络2711的其它节点处的计算平台上 的其它软件组件。框2715示出了用于向用户显示警报和报告的警报控 制台。框2712示出了伙伴规则用户结果,该接口连接至规则软件开发 工具包(SDK) 2713以及针对SDK 2713的适当传感器支持2714。传 感器支持2714可以移除服务器(如紧接着上一段所讨论的)上的相关 性,因此可以允许单独的SDK能力。
组件2712-2714可用于允许用户或制造商创建针对系统的规则, 如图所示可以将该规则传送至事件推断模块2704。例如,可以在诸如 计算机、膝上型计算机等的远程设备上支持组件2712-2714。
规则SDK 2713实际上可以呈现出至少两种不同的形式。在第一
19种形式中,规则SDK 2713可以向用户完全包络所形成的规则,例如 "人越过绊网"。在这种情况下,用户可以需要在这种规则上创建用户 接口 (UI)。
在第二种形式中,规则SDK 2713可以向用户暴露潜在的规则语 言和/或原语定义。在这种情况下,用户可以创建他的/她的自身规则 元素。例如,可以将这种规则语言和原语定义结合,以定义对象分类 (例如,"卡车"或"动物")、视频絆网的新类型(下面将进一步讨论 视频绊网)、或感兴趣区域的新类型。
硬件平台(2701)上的组件可以在诸如摄像机、数字摄像机、IP 摄像机、IP视频服务器、数字视频记录器(DVR)、或网络视频记录 器(NVR)、 PC、膝上型电脑或其它设备之类的任意视频捕捉、处理 或管理设备上的处理硬件(通用处理器、微处理器、DSP、ASIC、FPGA、 或其它处理设备)上实现。如上述所讨论的,存在针对该配置的多种 不同的可能操作模式。
图28示出了视频监视系统的实现的另一配置。图28中所示的配 置可用于允许系统经由网络与远程设备进行接口。图28中的配置通常 与先前所讨论的配置类似,但有一些修改。框2801表示可以容纳视频 监视系统的主要组件以及附加处理和接口组件的硬件平台。框2802 表示容纳视频监视系统的主要组件的硬件子平台(视频内容分析-框 2803-以及活动推断-框2804),并且还可以包括用于与这些组件进行接 口的应用程序接口 (API)(框2805)。框2802还可以包括允许创建针 对事件推断模块2804的新规则的规则SDK 2806。例如,可以通过对 模拟视频信号的数字捕捉或对数字视频信号的解码来获得原生(未压 缩的)数字视频输入(框2809)。硬件平台2801可以包含诸如一个 或多个主数字信号处理(DSP)应用之类的其它组件(框2807);视 频编码器(2811),可用于为了视频流化或存储而使用任意可用的压縮 方案(JPEG、 MJPEG、 MPEG1、 MPEG2 、 MPEG4、 H.263、 H.264、 Wavelet、或任意其它)来对视频流或存储的原生数字视频进行压缩; 存储机制(未示出),用于保存诸如视频、压缩视频、警报、以及视频 原语之类的数据-例如,该存储设备可以是硬盘、集成RAM、集成FLASH存储器、或其它存储介质;以及通信层(在图28中示为TCP/IP 栈2810),例如其可以对数据进行分组化和/或数字化,以便通过通信 信道传输。在图28的配置中,硬件平台2801还可以包括可用于经由 TCP/IP栈2810来促进与基于互联网的设备的通信的超文本传输通讯 协i义(HTTP) web服务模块2808。
硬件平台(2801)上的组件可以在诸如摄像机、数字摄像机、IP 摄像机、IP视频服务器、数字视频记录器(DVR)、或网络视频记录 器(NVR)、 PC、膝上型电脑或其它设备之类的任意视频捕捉、处理 或管理设备上的处理硬件(通用处理器、微处理器、DSP、ASIC、FPGA、 或其它处理设备)上实现。如上述所讨论的,存在针对该配置的多种 不同的可能操作模式。
如上述所讨论的,将图28的配置设计用于经由互联网允许系统 与远程设备的交互。尽管这种远程设备并不受限于此,图28示出了可 以在这种远程设备上主持的web浏览器2812。通过web浏览器2812, 用户可以与系统进行通信以便使用规则SDK 2806创建新的规则。可 以通过该系统产生警报,并将其发送至一个或多个外部设备(未示出), 并且这可以通过互联网和/或通过一些其它通信网络或信道来进行。
作为另一个示例,本发明的系统提供了独特的系统任务分派法。 通过使用设备控制指示,当前视频系统允许用户决定视频传感器的位 置以及,在一些复杂的传统系统中,允许用户屏蔽感兴趣或不感兴趣 的区域。设备控制指示是用于控制摄像机的位置、方向、以及焦距的 指令。本发明的系统使用基于视频原语的事件鉴别器作为初级任务分 派机制,以代替设备控制指示。通过使用事件鉴别器和视频原语,运 营者在传统的系统上具有更加直观的方法,用以从系统提取有用信息。 可以以人类直觉的方式使用基于视频原语的一个或更多事件鉴别器 (诸如"一个人进入限制区域A")来为本发明的系统分派任务,而不 是使用设备控制指示(诸如"摄像机A向左偏45度")来为系统分派 任务。
将本发明用于市场调査,下列是可以使用本发明来执行的视频监 视类型的示例计算商店里的人数、计算商店的一部分中的人数、计算停留在商店的特定位置的人数、测量人们在商店中所花费的时间、 测量人们在商店的一部分中所花费的时间、以及测量商店中的队伍的 长度。
将本发明用于保安,下列是可以使用本发明来执行的视频监视类 型的示例确定任何一个人进入受限区域的时间并存储关联图像;确 定人们何时以不寻常的次数进入区域;确定在未被授权的情况下货架 和储藏室何时发生变化;确定飞机器上的乘客何时靠近座舱;确定人 们何时通过保安入口;确定机场是否存在无人看管的袋子;以及确定 是否存在对财产的偷窃行为。
示例性应用区域可以是入口控制,这可以包括例如检测人们是 否翻过栅栏或进入禁止区域;检测是否有人在错误的方向上运动(例 如,在机场,通过出口进入保安区域);确定在感兴趣区域检测到的对 象数量是否与基于RFID标签或针对条目的读卡的期望数量不匹配, 从而指示了未授权人员的存在。这还可以用于住宅区应用,其中视频 监视系统能够区分人和宠物的运动,从而消除多数错误的警报。要注 意的是,在许多住宅区应用中,可能涉及到隐私;例如,房主可能不 希望另一个人在远程监视他的住宅并能够看到房屋里有什么以及房屋 里发生了什么。因此,在这种应用所使用的一些实施例中,可以局部 地执行视频处理,并且只在必要的时候(例如,对罪犯行为或其他危 险情况的检测,但不局限于此)将可选的视频或瞬象发送给一个或更 多远端监视站。
另一个示例性应用区域可以是财产监视。这可以表示检测对象是
否从场景中拿走对象,例如,如果将石器从博物馆拿走。在零售环境
中,财产监视可以具有多个方面,并可以包括例如检测是否有人拿
走可疑的大量给定项目;确定是否有人通过入口离开,尤其是是否在 推购物车时做这件事;确定是否有人将不匹配的价格标签贴到项目上,
例如往袋子里装满最贵的咖啡种类,但使用较便宜种类的价格标签; 或者检测是否有人带着具有大箱子的装载支架离开。
另 一个示例性应用区域可以是针对防护目的。例如,这可以包括 检测是否有人滑倒和跌倒,例如在商店或停车场里;检测是否有车辆在停车场中超速驾驶;检测站台上没有火车时是否有人过于靠近火车 或地铁站的站台边缘;检测铁轨上是否有人;检测当火车开始移动时 是否有人夹在火车的门上;或者计算进入和离开该设施的人数,由此 保持准确的总人数,这在紧急情况下非常重要。
另一个示例性应用区域可以是交通监视。这可以包括检测是否有 车辆停止,尤其是在比如桥或隧道这样的地方,或者检测是否有车辆 停放在禁止停车区域。
另一个示例性应用区域可以是防止恐怖行动。除了先前所提到的 应用中的一些以外,这还可以包括检测是否有对象留在机场中央大 厅、是否有对象被栅栏所覆盖、或者是否有对象留在铁路轨道上;检 测是否有人徘徊或者有车辆环绕在重要的基础设施周围;或者检测在 码头或开阔水面上是否有快速移动的小船靠近轮船。
另一个示例性应用区域可以是护理病人和老人,包括在家里。例 如,这可以包括检测是否有人跌倒;或者检测不寻常的行为,比如 有人在延长时间段内不进入厨房。
图1示出了本发明的视频监视系统的平面图。计算机系统11包括 计算机12,计算机12包含用以根据本发明来操作计算机12的软件的 计算机可读介质13。计算机系统11与一个或更多视频传感器14、 一 个或更多视频记录器15、以及一个或更多输入/输出(I/O)设备16相 连。可选地,视频传感器14还可以与视频记录器15相连,以便对视 频监视数据进行直接记录。可选地,该计算机系统与其他传感器17 相连。
视频传感器14向计算机系统11提供源视频。例如,每个视频传 感器14都可以使用直接连接(例如火警线数字摄像机接口 )或网络来 与计算机系统11相连。视频传感器14可以在本发明的安装之前存在, 或者可以被安装作为本发明的一部分。视频传感器14的示例包括摄 像机、数字摄像机、彩色照相机、黑白照相机、照相机、可携式摄像 机、PC照相机、网络摄像机、红外摄像机、以及CCTV摄像机。
视频记录器15从计算机系统11接收视频监视数据用于记录,或 者向计算机系统ll提供源视频。例如,每个视频记录器15都可以使用直接连接或网络来与计算机系统11相连。视频记录器15可以在本 发明的安装之前存在或者被安装为本发明的一部分。计算机系统11 中的视频监视系统可以控制视频记录器15何时以及以什么质量设置 来记录视频。视频记录器15的示例包括录像机、数字录像机、录像 盘、以及计算机可读介质。
I/O设备16向计算机系统11提供输入并接收来自计算机系统11
的输出。I/O设备16可用于给计算机系统11分派任务,并产生来自
计算机系统11的报告。I/O设备16的示例包括键盘、鼠标、输入
笔、监视器、打印机、另一个计算机系统、网络、以及警报。
其他传感器17向计算机系统11提供附加输入。例如,每个其他 传感器17都使用直接连接或网络来与计算机系统11相连。其他传感 器17可以在本发明的安装之前存在或者被安装为本发明的一部分。其 他传感器17的示例包括运动传感器、光絆网、生物传感器、RFID 传感器、以及基于卡或者基于键盘的授权系统,但不局限于此。其他 传感器17的输出可以由计算机系统11、记录设备和/或记录系统来记 录。
图2示出了针对本发明的视频监视系统的流程图。参考图10-15 对本发明的各个方面进行例证,图10-15示出了适于监视杂货店的本 发明的视频监视系统的示例。
在框21中,如图1中所讨论地对视频监视系统进行设置。每个 视频传感器14都朝向视频监视的位置。计算机系统11与来自视频设 备14和15的视频馈入相连。可以使用现有设备或针对该位置最新安 装的设备来实现该视频监视系统。
在框22中,对视频监视系统进行校准。 一旦该视频监视系统由 于框21而位于适当位置,则校准发生。框22的结果是视频监视系统 能够确定由视频传感器所提供的视频图像中的不同位置处的特定对象 (例如人物)的近似绝对大小和速度。可以使用手动校准、半自动校 准、和自动校准来对该系统进行校准。在框24的讨论之后,对校准进 行进一步描述。
在图2的框23中,给视频监视系统分派任务。分派任务发生在框22的校准之后,并且是可选的。给视频监视系统分派任务包括指定 一个或更多事件鉴别器。在没有分派任务的情况下,视频监视系统通 过检测并存档视频原语以及关联视频图像来进行操作,而不采取如图
4中的框45所示的任何行动。
图3示出为了给视频监视系统分派任务而确定事件鉴别器的流程 图。事件鉴别器表示与一个或更多空间属性和/或一个或更多时间属性 可选地互相作用的一个或更多对象。根据视频原语(也称为活动描述
元数据)来描述事件鉴别器。视频原语设计准则中的一些包括下列
被从视频流中实时提取出来的能力;对来自视频的所有相关信息的包 含;以及表示的简明扼要。
希望从视频流中实时提取出视频原语,以使得该系统能够产生实 时警报,这样做的原因是因为视频提供了连续的输入流,从而系统不 会落后。
因为在提取视频原语的时候,用户所定义的规则并不为系统所 知,所以视频原语还应该包含来自视频的所有相关信息。因此,视频 原语应该包含能够用以检测用户所指定的任何事件的信息,而不需要 回到视频并对其进行重新分析。
出于多方面的原因,还希望对原语进行简明扼要的表示。所提出 的发明的一个目标可以是延长监视系统的存储再循环时间。如上述所 讨论的,这可以通过存储活动描述元数据以及其质量取决于活动的存 在的视频来代替始终存储优质视频。因此,视频原语越简明,则可以 存储越多的数据。此外,视频原语的表示越简明,数据存取变得越快, 并且反过来这可以加快辨识(forensic)搜索。
视频原语的准确内容可以依靠应用以及感兴趣的可能事件。下面 对一些示例性实施例进行描述。
视频原语的示例性实施例可以包括描述了全部场景和视频的场 景/视频描述符。通常,这可以包括对场景出现的详细描述,例如天空、 植物、人造对象、水等的位置;和/或气象条件,例如降雨、雾等的存 在/缺乏。例如,针对视频监视应用,全景的改变很重要。示例性描述 符可以描述突然的光线改变;该描述符可以指示摄像机的运动,尤其是摄像机开始或停止运动的事实,以及在后者的情况下,摄像机是否 回到其先前的场景或至少回到先前已知的场景;该描述符可以指示视 频馈入的质量,例如,如果视频馈入突然变得更加嘈杂或变暗,则潜
在地指示正在削弱馈入;或者该描述符可以示出沿着水主体的水线的 改变(为了关于对后者问题的特定方法的更多信息,例如可以参考 2004年10月1日提交的共同未决的美国专利申请No. 10/954,479,其
内容在此合并作为参考)
视频原语的另一个示例性实施例可以包括涉及在视频馈入中所 观察到的对象的显著属性的对象描述符。存储关于对象的什么信息可 以取决于应用区域和可用处理能力。示例性对象描述符可以包括通用 属性,该通用属性包括大小、形状、周长、轨迹、速度和运动方向、 运动前景及其特征、颜色、硬度、质地和/或分类,但不局限于此。对 象描述符还可以包含更多应用和类型的特定信息对于人类,这可以 包括相貌和肤色比、性别和种族信息、描述了人类外形和姿态的一些 人类身体模型;或者对于车辆,这包括类型(例如卡车、SUV、轿车、 自行车等)、制造、型号、牌照号。对象描述符还可以包含活动,该活 动包括携带对象、奔跑、步行、站立、或抬高手臂,但不局限于此。 诸如交谈、打架、或碰撞之类的一些活动也可以涉及其他对象。对象 描述符还可以包含识别信息,该识别信息包括脸或步态,但不局限于 此。
视频原语的另一个示例性实施例可以包括描述视频中的每个区 域的运动的方向的流描述符。例如,可以将这种描述符用于通过检测 禁止方向上的任何运动来检测反传事件(为了得到关于对此后者问题 的特定方法的更多信息,例如可以参考2004年1月30日提交的共同 未决的美国专利申请No.10/766, 949,其内容在此合并作为参考)。
原语也可以来自非视频源,例如音频传感器、热传感器、压力传 感器、读卡机、RFID标签、生物传感器等。
分类指的是对属于特定类别或种类的对象的识别。分类的示例包 括人、狗、车辆、警车、个人、以及特定类型的对象。
大小指的是对象的尺寸属性。大小的示例包括大、中、小、平、高于1英尺、低于1英尺、比3英尺宽、比4英尺薄;关于人类大小; 比一个人大、比一个人小;关于汽车大小;具有近似像素尺寸的图像 中的矩形;以及多个图像像素。
位置指的是对象的空间属性。例如,位置可以是像素坐标中的图 像位置、 一些地球坐标系统中的绝对的真实世界的位置、或相对于地 标或另一个对象的位置。
颜色指的是对象的色彩属性。颜色的示例包括白色、黑色、灰
色、红色、HSV值的范围、YUV值的范围、RGB值的范围、平均RGB 值、平均YUV值、以及RGB值的柱状图。
硬度指的是对象的形状一致性属性。非刚性对象(例如人或动物) 的形状可以从帧到帧地改变,而刚性对象(例如车辆或房屋)可以基 本上保持帧到帧不变(除非可能由于翻转而产生的微小变化)。
质地指的是对象的模式属性。质地特征的示例包括自相似性、 谱功率、线性、以及粗度。
内部运动指的是对象刚性的测量。完全刚性的对象的示例是汽 车,其没有呈现出大量内部运动。完全非刚性对象的示例是具有摆动 的手臂和腿的人,其呈现出了大量的内部运动。运动指的是可以被自动检测到的任意运动。运动的示例包括对
象的出现、对象的消失、对象的垂直运动、对象的水平运动、以及对 象的周期运动。
显著运动指的是可以被自动检测到并且可以在一段时间内跟踪 的任意运动。这种移动着的对象呈现出目的明显的运动。显著运动的
示例包括从一个位置移动到另一个位置;以及移动到与另一个对象
々士入 5口 口 。
显著运动的特征指的是显著运动的特性。显著运动的特征的示例
包括轨迹、象空间中的轨迹的长度、对轨迹在环境的三维表示中的 近似长度、对象在象空间中作为时间函数的位置、对象在环境的三维 表示中作为时间函数的近似位置、轨迹的持续时间、象空间中的速度 (例如速率和方向)、环境的三维表示中的近似速度(例如速率和方 向)、速率的持续时间、象空间中的速率的改变、环境的三维表示中的速度的近似改变、速度的改变的持续时间、运动的中止、以及运动中 止的持续时间。速度指的是对象在特定时刻处的速率和方向。轨迹表 示在可以跟踪对象或者时间段内对象的(位置,速度)对的集合。场景改变指的是可以检测到在一端时间内改变的场景中的任意 区域。场景改变的示例包括离开场景的固定对象;进入场景并变成 固定的对象;在场景中改变位置的对象;以及改变外观的对象(例如, 颜色、形状、或大小)。场景变化的特征指的是场景变化的特性。场景变化的特征的示例 包括象空间中的场景变化的大小、环境的三维表示中的场景变化的近似大小、场景变化发生的时刻、象空间中的场景变化的位置、以及 在环境的三维表示中的场景变化的近似位置。预定模型指的是对象中的先验己知模型。预定模型的示例可以包括成年人、儿童、车辆、以及半拖挂车。图16a示出了根据本发明的实施例的视频监视系统的示例性视频 分析部分。在图16a中,视频传感器(例如视频摄像机,但不局限于 此)1601可以为视频分析子系统1603提供视频流1602。然后,视频 分析子系统1603可以执行对视频流1602的分析以推导出视频原语, 然后可以将该视频原语存储在原语存储器1605中。还可以将原语存储 器1605用于存储非视频原语。视频分析子系统1603还可以控制视频 流1602的全部或部分在视频存储器1604中的存储,例如上述所讨论 的视频质量和/或数量。现在,参照图16b, 一旦视频和非视频(如果存在其他传感器) 原语161可用,则该系统可以检测事件。用户通过定义规则163以及 使用该规则和响应定义接口 162的相应响应164来给系统分派任务。 将该规则翻译成事件鉴别器,然后系统提取相应的事件发生165。所 检测到的事件发生166触发用户所定义的响应167。响应可以包括从 视频存储器168 (可以与图16a中的视频存储器1604相同,也可以不 同)所检测到的事件的视频的快照。视频存储器168可以是视频监视 系统的一部分,或者可以是单独的记录设备15。响应的示例可以包括 激活系统显示上的视觉和/或音频警报;激活某个位置处的视觉和/或音频警报系统;激活无声警报;激活快速响应机制;锁上门;联系保 安服务;通过网络将数据(例如,图像数据、视频数据、视频原语、 和/或分析数据)转发给另一个计算机系统(例如互联网,但不局限于); 将这种数据保存到指定的计算机可读介质中;激活一些其他传感器或 视频系统;给计算机系统11和/或另一个计算机系统分派任务;和/或 控制计算机系统11和/或另一个计算机系统,但不局限于此。可以将原语数据设想为数据库中所存储的数据。为了检测其中的 事件发生,需要有效的询问语言。本发明的系统的实施例可以包括下 面将要描述的活动推断语言。传统的关系数据库询问模式通常遵循布尔二进制树结构,以允许 用户创建关于所存储的各种类型的数据的灵活询问。叶节点通常是"特 性关系值",其中特性是数据(诸如时间或名称)的一些关键特征;关 系通常是数字操作符(">"、"<"、"="等);以及值是该特性的有效 状态。分支节点通常表示诸如"与"、"或"、"非"之类的一元或二元 布尔逻辑操作符。这可以形成本发明的实施例中的活动询问公式模式的基础。在视 频监视系统的情况下,特性可以是在视频流中所检测到的对象的特征, 例如大小、速度、分类(人、车辆),或者特性可以是场景变化特性。 图17给出了使用这种询问的示例。在图17a中,提出了询问"让我 看任何一辆红色车辆"171。可以将此分解成两个"特性关系值"(或 简单地为"特性")询问,以测试对象的分类是否为车辆173,及其颜 色是否主要是红色174。这两个子询问可以与布尔操作符"与"172 组合在一起。类似地,在图17b中,可以将询问"让我看摄像机何时 开始或停止移动"表示成特性子询问("使摄像机幵始移动"177和"使 摄像机停止移动"178)的布尔"或"176组合。本发明的实施例可以将这种类型的数据库询问模式扩展成两种 示例性方式(1)可以使用描述场景内的空间活动的活动检测器来增 加基本的叶节点;以及(2)可以使用指定空间、时间以及对象相互关 系的修正符来增加布尔操作符的分支节点。活动检测器与涉及视频场景的区域的行为相对应。活动检测器描述了对象如何与场景中的位置相互作用。图18示出了三种示例性活动检测器。图18a表示使用虚视频绊网橫在特定方向的周边的行为(为 了得到关于如何实现这种虚视频绊网的更多信息,例如可以参考美国 专利申请No.6, 696, 945)。图18b表示在铁路轨道上徘徊一段时间 的行为。图18c表示从墙截面取走某物的行为(对于如何完成上述的 示例性方法,可以参考2003年1月30日提交的名为"Video Scene Background Maintenance-Change Detection & Classification"的美国专 利申请No. 10/331, 778)。其他示例性活动检测器可以包括检测倒 下的人、检测变化方向或速度的人、检测进入一个区域的人、或检测 沿着错误的方向离开的人。图19示出了如何将活动检测器叶节点(这里,横着的絆网)与 简单的特性询问相结合以检测一辆红色车辆是否越过视频绊网191的 示例。将特性询问172、 173、 174以及活动检测器193与布尔"与" 操作符192进行组合。询问与改进后的布尔操作符的组合(组合操作符)可以增加更多 的灵活性。示例性修正符包括空间、时间、对象以及计数器修正符。空间修正符可以使得布尔操作符只对在场景内最接近/非最接近 的儿童活动起作用(即,布尔操作符的自变量,例如下面图19中所示 的布尔操作符)。例如,可以将"与-50个像素以内"用于表示"与" 只应用于活动之间的距离小于50个像素的情况。时间修正符可以使得布尔操作符只对相互的特定时间段内、这个 时间段外、或次数范围内发生的儿童活动起作用。还可以指定事件的 时间排序。例如,可以将"与-第二的10秒内的第一"用于表示"与" 只应用于在第一儿童活动之后不超过10秒内发生第二儿童活动的情 况。对象修正符可以使得布尔操作符只对所发生的包括相同或不同 对象的儿童活动起作用。例如,可以将"与-包括相同的对象"用于表 示"与"只应用于两个儿童活动包括相同的特定对象的情况。计数器修正符可以使得布尔操作符仅在以预定次数满足条件时 被触发。计数器修正符通常可以包括数字关系,例如"至少n次"、"刚好n次"、"至多n次"等。例如,可以将"或-至少两次"用于表示"或" 操作符的至少两次子询问必须是真实的。此外,可以将计数器修正符 用于实现诸如"如果同一个人从架子上拿走至少五件物品,则警报" 之类的规则。图20示出了使用组合操作符的示例。这里,所需要的活动询问 是"找到进行了违章左转的红色车辆"201。可以通过活动描述符和改 进的布尔操作符的组合来捕捉违章左转。可以使用虚絆网(tripwire)来 检测出了边道的对象193,并且可以使用另一个虚绊网来检测沿着公 路204向左移动的对象205。这些可以由改迸的"与"操作符202来 组合。标准布尔"与"操作符保证必须检测行为193和205。对象修 正符203检查相同的对象越过两个绊网,而时间修正符204检査首先 自下而上地越过绊网193,之后在10秒内自右向左地越过绊网205。这个示例还指示了组合操作符的能力。理论上,可以定义针对左 转的单独活动检测器,而不需要依靠简单的活动检测器和组合操作符。 然而,该检测器将是不可变的,从而很难适应任意旋转角度和方向, 并且针对所有潜在的事件都写单独的描述符也比较麻烦。相比之下, 使用组合操作符和简单的检测器提供极大的灵活性。可以被检测作为较简单的组合的复杂活动的其他示例可以包括 汽车停放、人走出汽车或者多个人形成群、紧跟在前面车辆之后行驶。 这些组合操作符还可以组合不同类型及来源的原语。示例可以包括以 下规则例如"在关灯之前将人领进房间"、"在没有优先磁条卡的情 况下让人进门"、或"示出是否感兴趣区域具有多于RFID标签读卡机 所预期的对象",即区域中没有RFID标签的非法对象。组合操作符可以组合任意数量的子询问,并且组合操作符甚至可 以将其他组合操作符组合成任意深度。图21a和21b中所示出的示例 可以是检测车辆是否左转2101然后右转2104的规则。可以使用方向 性絆网2102和2103来检测左转2101 ,而使用方向性绊网2105和2106 来检测右转2104。通过与具有对象修正符"相同"2117以及时间修正 符"2112在2113之前"的2118 "与"组合操作符2111相结合,可以 将左转表示为分别与絆网2102和2103相对应的絆网活动描述符2112和2113。类似地,通过与结合具有对象修正符"相同"2119以及时间 修正符"2115在2116之前"2120的"与"组合操作符2114,可以将 右转表示为分别与絆网2105和2106相对应的絆网活动描述符2115 和2116。为了检测先左转然后右转的同一对象,左转检测器2111和 右转检测器2114与具有对象修正符"相同"2122和时间修正符"2111 在2114之前"2123的"与"组合操作符2121相结合。最后,为了保 证所检测到的对象为车辆,将布尔"与"操作符2125用于将左右转检 测器2121和特性询问2124进行组合。所有这些检测器可选地与时间属性进行组合。时间属性的示例包 括每15分钟、9: 00pm和6: 30am之间、小于5分钟、超过30秒、 以及超过周末。在图2的框24中,对视频监视系统进行操作。本发明的视频监 视系统自动操作、检测以及归档场景中的对象的视频原语,并使用事 件鉴别器实时检测事件发生。此外,适当地采取实时行动,例如归档 警报、产生报告、以及产生输出。可以将报告和输出显示和/或本地存 储到系统或通过诸如互联网之类的网络存储到别处。图4示出了用于 操作视频监视系统的流程图。在框41中,计算机系统11从视频传感器14和/或视频记录器15 中获得源视频。在框42中,实时从源视频中提取出视频原语。可选地,可以从 一个或更多其他传感器17中获得和/或提取出非视频原语,并且可以 将其用于本发明。视频原语的提取如图5所示。图5示出了用于为视频监视系统提取视频原语的流程图。框51 和52并行操作,并且可以按照任意顺序或同时执行框51和52。在框 51中,通过移动检测对象。可以将以像素等级来检测帧之间的运动的 任意运动检测算法用于此框。作为示例,可以使用{1}中所讨论的三帧 区分技术。将所检测到的对象转发到框53。在框52中,通过变化检测对象。可以将从背景模型中检测变化 的任意变化检测算法用于此框。如果认为帧中的一个或更多像素位于 帧的显著位置,则在此框中检测对象,因为像素不符合帧的背景模型。作为示例,可以使用诸如在{1}中以及2000年12月24日提交的美国 专利申请No.09/694, 712中所描述的动态自适应背景减法之类的随机 背景建模技术。将所检测到的对象转发给框53。
框51中的运动检测技术和框52中的变化检测技术是互补技术, 其中每项技术都有利地提出了另一项技术中的不足。可选地,可以将 另外和/或备选的检测方案用于针对框51和52所讨论的技术。另外和 /或备选的检测方案的示例包括以下如{8}中所述的用于找人的 Pfmder检测方案;肤色检测方案;脸检测方案;以及基于模型的检测 方案。将这种另外和/或备选的检测方案的结果提供给框53。
可选地,如果视频传感器14具有运动(例如扫描、放大和/或平 移的视频摄像机),则可以在框51和52之前插入附加框以便向框51 和52提供为了视频稳定性的输入。可以通过仿射或投射全局运动补偿 来实现视频稳定性。例如,可以将2000年7月3日提交的美国专利申 请No.09/609, 919 (现在为美国专利No.6, 738, 424,其内容在此合 并作为参考)中所描述的图像定位用于获得视频稳定性。
在框53中,产生斑点。通常,斑点是帧中的任一对象。斑点的 示例包括移动中的对象,例如人或车辆;以及消费品,例如一件家 具、成衣制品、或零售货架物品。使用从框32和33中所检测到的对 象来产生斑点。可以将用于产生斑点的任意技术用于此框。用于从运 动检测和变化检测中产生斑点的示例性技术使用连通部件方案。例如, 可以使用{1}中所述的形态学以及连通部件算法。
在框54中,跟踪斑点。可以将用于跟踪斑点的任何技术用于此 框。例如,可以使用Kalman滤波或CONDENSATION算法。作为另 一个示例,可以使用诸如{1}中所述的模板匹配技术。作为又一个示例, 可以使用2000年10月24日所提交的美国专利申请No. 09/694, 712
中所描述的帧到帧跟踪技术。针对以杂货店为地点的示例,可以被跟 踪的对象的示例包括移动中的人、库存物品、以及诸如购物手推车 或推车之类的存货移动装置。
可选地,可以使用对于普通技术人员己知的任意检测和跟踪方案 来取代框51-54。在{11}中描述了这种检测和跟踪方案的示例。在框55中,分析所跟踪的对象的每个轨迹,以确定该轨迹是否 显著。如果该轨迹不显著,则该轨迹表示呈现出不稳定运动的对象, 或表示不稳定大小或颜色的对象,然后拒绝相应的对象,并不再通过 系统对其进行分析。如果该轨迹显著,则该轨迹表示潜在的感兴趣的 对象。通过将显著测量应用于轨迹来确定该轨迹是显著或不显著。在
{13}和{18}中描述了用于确定轨迹显著与否的技术。
在框56中,对每个对象进行分类。将每个对象的通用类型确定 为对象的分类。可以通过多种技术来执行分类,并且这种技术的示例 包括使用神经网络分类器{14}以及使用线性鉴别分类器{14}。分类的 示例与针对框23所讨论的那些相同。
在框57中,通过使用来自框51-56的信息并将其作为必要信息进 行另外处理来识别视频原语。所识别的视频原语的示例与针对框23 所讨论的那些相同。作为示例,针对大小,系统可以使用从框22的校 准中所获得的信息作为视频原语。通过校准,系统具有足够的信息来 确定对象的近似大小。作为另一个示例,系统可以使用从框54中所测 量的速度作为视频原语。
在框43中,对来自框42的视频原语进行存档。可以将视频原语 存档于计算机可读介质13或另一个计算机可读介质中。根据视频原 语,可以将来自源视频的关联帧或视频图像存档。这个存档过程是可 选的;如果只将该系统用于实时事件检测,则可以跳过存档步骤。
在框44中,使用事件鉴别器来从视频原语中提取出事件发生。 在框42中确定视频原语,并在框23中通过给系统分派任务来确定事 件鉴别器。将事件鉴别器用于过滤视频原语,以确定是否有事件发生 出现。例如,事件鉴别器可以寻找由在9: 00a.m到5: OOp.m之间沿 着"错误路线"进入区域的人所定义的"错误路线"事件。事件鉴别 器检査根据图5所产生的所有视频原语,并确定是否存在具有以下特 性的视频原语9: 00a.m到5: OOp.m之间的时间戳、"人"或"人群" 的分类、区域内的位置、以及运动的"错误"方向。事件鉴别器还可 以使用如上面所讨论的其他类型的原语,和/或将来自多个视频源的视 频原语进行组合以检测事件发生。在框45中,针对框44中所提取的每个事件,适当地采取行动。 图6示出了用于对视频监视系统采取行动的流程图。
在框61中,如检测事件发生的事件鉴别器所指定地进行响应。 针对框34中的每个事件鉴别器,识别响应(如果存在的话)。
在框62中,针对所出现的每个事件发生,产生活动记录。该活 动记录包括,例如对象的轨迹的详图、对象的检测时间、对象的检 测位置、以及对所采用的事件鉴别器的描述或定义。活动记录可以包 括事件鉴别器所需要的诸如视频原语之类的信息。活动记录还可以包 括事件发生中所包括的对象和/或区域的典型视频或静止图像。将活动 记录存储在计算机可读介质中。
在框63中,产生输出。该输出基于在框44中所提取的事件产生, 以及来自框41的源视频的直接馈入。将该输出存储在计算机可读介质 中,并将其显示在计算机系统11或另一个计算机系统上,或者转发给 另-一个计算机系统。随着系统操作,收集关于事件发生的信息,并且 运营者可以随时观看该信息,包括实时观看。用于接收该信息的格式 的示例包括在计算机系统的屏幕上的显示;硬拷贝;计算机可读介 质;以及交互式网页。
该输出可以包括来自框41的源视频的直接馈入的显示。例如, 可以将源视频显示在计算机系统的监视器或闭路监视器的窗口上。此 外,该输出可以包括以图形标出的源视频,以便高亮事件发生中所包 括的对象和/区域。如果该系统操作于取证分析模式,则该视频可以来 自视频记录器。
该输出可以包括基于运营者和/或事件发生的需要而针对运营者 的一个或更多报告。报告的示例包括出现事件发生的次数;事件发 生在场景出现的位置;事件发生的出现次数;每个事件发生的典型图 像;每个事件发生的典型视频;原始统计数据;事件发生的统计(例 如,多少、多经常、哪里以及何时);和/或人类可读的图形显示。
图13和图14示出了针对图15中的杂货店中的过道的示例性报 告。在图13和14中,在框22中识别若干区域,并由此在图像中对其 做标记。图13中的区域与图12中的区域相匹配,并且图14中的区域是不同的区域。为该系统分派任务以寻找停留在区域中的人。
在图13中,示例性报告是来自所标出的视频的图像,以包括标 签、图形、统计信息、以及对统计信息的分析。例如,被识别为咖啡 的区域具有统计信息区域中的平均顾客数为每小时2个,并且在该 区域中的平均停留时间为5秒。系统确定这个区域为"冷"区域,表 示这个区域中不存在大量商业行为。作为另一个示例,被识别为苏打 水的区域具有统计信息区域中的平均顾客数为每小时15个,并且在 该区域的平均停留时间为22秒。系统确定这个区域为"热"区域,表 示这个区域中存在大量商业行为。
在图14中,示例性报告是来自所标出的视频的图像,以包括标
签、图像、统计信息、以及对统计信息的分析。例如,过道后面区域
具有每小时14个的平均顾客数,并被确定为具有低业务量。作为另一 个示例,过道前面区域具有每小时83个的平均顾客数,并被确定为具
对于图13或图14,如果运营者希望关于任意特定区域的更多信 息,则点击界面允许运营者对系统已经检测并存档的区域和/或活动的 典型的静止和视频图像进行操纵。
图15示出了针对杂货店中的过道的另一个示例性报告。该示例 性报告包括来自所标出的视频中的图像,以包括标签、轨迹指示、描 述所标出的图像的文本。通过搜索多个区域来给示例中的系统分派任 务对象的轨迹的长度、位置以及时间;对象稳定的时间和位置;轨 迹与运营者所指定的区域的相关性;对并非一个人的对象的分类,一
个人、两个人、以及三个或更多个人。
图15中的视频图像来自记录了轨迹的时段。在三个对象中,两 个对象中的每个都被分类为一个人,而一个对象分类为不是一个人。 给每个对象分配标签,即Person ID 1032、 Person ID 1033以及Object ID 32001。针对Person ID 1032,系统确定在区域中度过52秒的人以 及在由圆圈所指定的位置处度过18秒的人。针对Person ID 1033,系 统确定在区域中度过1分钟零8秒的人以及在由圆圈所指定的位置处 度过12秒的人。针对Person ID 1032和Person ID 1033的轨迹包括在
36所标出的图像中。针对对象ID 32001,系统没有进一步分析对象,并
以x指示该对象的位置。
回到图2中的框22,校准可以是(1)手动的、(2)半自动地使 用来自视频传感器或视频记录器的图像、或(3)自动地使用来自视频 传感器或视频记录器的图像。如果需要图像,则假设将要由计算机系 统11进行分析的源视频来自视频传感器,该视频传感器获得用于校准 的源视频。
针对手动校准,运营者为计算机系统11提供了针对每个视频传感 器14中的定位和内部参数,以及每个视频传感器14相对于该位置的 放置。计算机系统11可以随意保持该位置的映射,并且可以在该映射 上指示该视频传感器14的放置。该映射可以是对环境的二维或三维表 示。此外,手动校准给系统提供了足够的信息以确定对象的近似大小 和相对位置。
可选地,针对手动校准,运营者可以使用表示己知大小的对象(例 如人)的外观的图形来标出来自传感器的视频图像。如果运营者可以 在至少两个不同位置处标出图像,则该系统可以推断出大概的摄像机 校准信息。
针对半自动和自动校准,不需要对摄像机参数或场景几何的知 识。针对半自动和自动校准,产生查找表,以便近似场景中的不同区 域处的对象的大小,或者推断出摄像机的内部和外部摄像机校准参数。
针对半自动校准,使用与来自运营者的输入所组合的视频源来校 准视频监视系统。将单个人置于视频传感器的观看范围内,以便进行 自动校准。计算机系统11接收关于单个人的源视频,并基于此数据自 动推断出人的大小。随着在视频传感器的观看范围内观看到人的位置 数量的增大,以及在视频传感器的观看范围内观看人的时间段的增大, 半自动校准的精确度增大。
图7示出了针对视频监视系统的半自动校准的流程图。框71与 框41相同,除了典型对象以各种轨迹穿过场景。典型对象可以具有不 同轨迹,并且在不同位置处静止。例如,典型对象尽可能地移近视频 传感器,然后又从视频传感器尽可能远地移开。可以根据需要重复典型对象的这个运动。
框72-75分别与框51-54相同。
在框76中,在整个场景中监视典型对象。假设所跟踪的唯一 (或 至少最稳定的)稳定对象是场景中的校准对象(即穿过该场景的典型 对象)。针对场景中观察稳定对象的每个点,收集稳定对象的大小,并 将此信息用于产生校准信息。
在框77中,针对整个场景中的不同区域,识别典型对象的大小。 将典型对象的大小用于确定场景中的各个区域处的相似对象的近似大 小。以此信息,产生与图像中的各个区域中的典型对象的典型外观大 小相匹配的査找表,或者推断出内部和外部摄像机的校准参数。作为 采样输出,图像中的各个区域中的棒状大小的图形的显示指示系统确 定了什么样的适当高度。这种棒状大小的图形如图11所示。
针对自动校准,在计算机系统11确定关于每个视频传感器的观看 范围内的位置的信息处,进行学习阶段。在自动校准期间,计算机系 统11在足以获得对场景而言为典型的对象的统计有效采样的代表时 间段(例如,分钟、小时、或甜)内接收位置的源视频,并由此推断 出典型的外观大小和位置。
图8示出了针对视频监视系统的自动校准的流程图。框81-86与 图7中的框71-76相同。
在框87中,识别出在视频传感器的观看范围内可跟踪的区域。 可跟踪区域指的是在其中可以很容易地和/或准确地跟踪对象的视频 传感器的观看范围内的区域。不可跟踪区域指的是在其中无法容易地 和/或准确地跟踪对象和/或对象很难跟踪的视频传感器的观看范围内 的区域。不可跟踪的区域可以称为不稳定或不显著的区域。对象难以 跟踪是因为对象太小(例如,小于预定阈值),出现时间过短(例如, 小于预定阈值),或者呈现出不显著的运动(例如,没有目的性)。例 如,可以使用{13}中所描述的技术来识别可跟踪的区域。
图10示出了针对杂货店中的过道所确定的可跟踪的区域。将过 道远端的区域确定为不显著,因为在这个区域有太多干扰物。干扰物 指的是视频中混淆跟踪方案的一些东西。干扰物的示例包括刮风、下雨、局部堵塞的对象、出现时间过短而无法精确跟踪的对象。相反 地,将过道前端的区域确定为显著的,因为针对这个区域可以确定良 好的跟踪。
在框88中,针对整个场景中的不同区域识别对象的大小。将对 象的大小用于确定场景中的各个区域处的相似对象的大小。诸如使用 柱状图或统计中值之类的技术用于将对象的典型外观高度和宽度确定 为场景中的位置的函数。在场景中的图像的一部分中,典型对象可以 具有典型的外观高度和宽度。以此信息,产生与图像中的各个区域中 的对象的典型外观大小相匹配的查找表,或者可以推断出内部和外部 摄像机的校准参数。
图11示出了从图10中示出杂货店的过道中的典型对象的典型大 小。假设典型对象为人,并且由此通过标签来识别。人的典型大小通 过在显著区域中所检测到的人的平均高度和平均宽度的图示来确定。
在示例性中,图示A是针对平均一个人的平均高度所确定的,而图示 B是针对一个人、两个人和三个人的平均宽度所确定的。
针对图示A, x轴描绘了像素中的斑点的高度,而y轴描述了所 出现的如x轴所识别的特定高度的实例数。图示A的峰值线与场景中 的指定区域中的斑点的最常规高度相对应,以及针对这个示例,峰值 与位于指定区域中的人的平均高速相对应。
假设人们以松散结合的群行进,则产生针对图示B中的宽度的相 似图示A。针对图示B, x轴描绘了像素中的斑点的宽度,而y轴描 述了所出现的如x轴所识别的特定高度的实例数。图示B的峰值线与 多个斑点的平均宽度相对应。假设大多数群只包含一个人,则最大峰 值与最常规宽度相对应,该最常规宽度与指定区域中的单个人的平均 宽度相对应。类似地,第二最大峰值与指定区域中的两个人的平均宽 度相对应,而第三最大峰值与指定区域中的三个人的平均宽度相对应。
图9示出了针对本发明的视频监视系统的附加流程图。例如,在 这个附加实施例中,系统使用事件鉴别器来分析所存档的视频原语, 以产生附加报告,而不需要再检査整个源视频。在根据本发明对视频 源进行处理之后, 一定要对针对源视频的视频原语进行存档(图4中的框43)。以附加实施例,可以以相对短的时间来对视频内容进行再 次分析,因此仅再检查视频原语,以及因为不对视频源进行重新处理。 这对当前技术系统提供了相当有效的改进,因为处理视频图像数据需 要非常强的计算能力,而对从视频中提取出的小尺寸原语进行分析不 需要很强的计算能力。作为示例,可以产生以下事件鉴别器"最近两 个月内在区域A中停留超过10分钟的人数"。关于附加实施例,不需 要再次检查最近两个月的源视频。取而代之的是,仅需要再次检查最 近两个月的视频原语,这是更加有效的处理。
框91与图2中的框23相同。
在框92中,访问所存档的视频原语。在图4的框43中,将该视 频原语存档。
框93和94与图4中的框44和45相同。
作为示例性应用,可以将本发明用于通过测量零售显示的效力来 分析零售市场的空间。将大量资金投入到零售显示中,努力做到尽可 能地引人注目,以促进对显示物品以及辅助物品的销售。可以将本发 明的视频监视系统配置用于测量这些零售显示的有效性。
针对这个示例性应用,通过将视频传感器的视野朝向期望零售显 示周围的空间来设置视频监视系统。在分派任务期间,运营者选择表 示期望零售显示周围空间的区域。作为鉴别器,运营者定义了他或她 想要监视进入区域并在速度上呈现出可测量的降低、或停留了可测时 间量的人大小的对象。
在运营了一段时间之后,视频监视系统可以为市场分析提供报 告。该报告可以包括..在零售显示周围放慢脚步的人数;在零售显示 处停留的人数;依照时间对对零售显示感兴趣的人进行的细目分类, 诸如多少人对周末感兴趣,以及多少人对晚上感兴趣;以及对零售显 示显示出兴趣的人的视频快照。可以将从视频监视系统中获得的市场 研究信息与来自商店的销售信息以及来自商店的顾客记录进行二进制 组合,以改进对零售显示的效力的分析理解。
这里所讨论的实施例和示例是非限制性示例。
相对于优选实施例对本发明进行了详细描述,并且从前述可知,对于本领域的那些技术人员而言显而易见的是,可以在不偏离本发明 的较广方面的前提下进行改变和修改,并且权利要求中所定义的本发 明旨在覆盖落入本发明的真实精神内的所有这种改变和修改。
权利要求
1.一种视频处理装置,包括视频内容分析模块,用于分析输入视频序列,并导出至少一个视频原语;事件推断模块,与所述视频内容分析模块相连接,用以基于一个或更多个规则来检测至少一个事件;以及应用程序接口API框架,与所述事件推断模块相连接,用以允许用户定义针对所述事件推断模块的规则。
2. 根据权利要求1所述的装置,还包括通信模块,与所述API框架相连接,用于位于所述装置外部的设 备与所述API框架之间的通信。
3. 根据权利要求2所述的装置,其中,所述通信模块适用于经由 互联网的通信。
4. 根据权利要求1所述的装置,其中,所述视频内容分析模块、 所述事件推断模块、以及所述API框架属于处理子系统,所述装置还 包括连接至所述处理子系统的主处理系统,所述主处理系统包括不同于由所述视频内容分析模块、所述事件推断模块、以及所述API框架所提供的应用的至少一个主处理应用;以及通信模块,连接用于位于所述装置外部的设备与所述装置之间的通信。
5. 根据权利要求4所述的装置,其中,所述处理子系统还包括规则软件开发工具包SDK,连接至所述API框架,用以允许用户 创建针对所述事件推断模块的规则。
6. 根据权利要求5所述的装置,其中,所述规则SDK向所述用 户暴露至少一个完全形成的预定规则。
7. 根据权利要求5所述的装置,其中,所述规则SDK向所述用 户暴露规则语言和一个或更多个预定原语定义。
8. 根据权利要求4所述的装置,其中,所述主处理系统还包括连接至所述通信模块的web服务模块。
9. 根据权利要求4所述的装置,其中,所述至少一个主处理应用适用于接收来自所述事件推断模块的警报。
10. 根据权利要求9所述的装置,其中,所述主处理应用适用于 响应于所述警报来控制所述装置的至少一项功能。
11. 根据权利要求4所述的装置,其中,在公共硬件平台上主持 所述主处理系统和所述处理子系统。
12. 根据权利要求4所述的装置,其中,所述主处理系统和所述 处理子系统属于不同的硬件平台。
13. 根据权利要求12所述的装置,其中,所述不同的硬件平台相 互电连接。
14. 一种视频分析系统,包括根据权利要求2所述的装置;以及传感器,与所述通信模块相连接,用以提供与通信网络的接口。
15. 根据权利要求14所述的系统,还包括位于所述装置远程的警报单元,连接至所述网络,以接收由压缩 视频和警报组成的至少一个组。
16. 根据权利要求14所述的系统,还包括规则管理工具,连接至所述网络,用以向所述事件推断模块提供 至少一个规则。
17. 根据权利要求14所述的系统,还包括规则用户接口,用于允许用户开发由所述事件推断模块所使用的规则;以及规则SDK,连接至所述规则用户接口,所述规则SDK包括对经 由所述网络与所述传感器的通信的支持。
18. 根据权利要求17所述的系统,其中,所述规则SDK向所述 用户暴露至少一个完全形成的预定规则。
19. 根据权利要求17所述的系统,其中,所述规则SDK向所述 用户暴露规则语言和一个或更多个预定原语定义。
20. —种视频分析系统,包括 根据权利要求8所述的装置;以及设备,经由互联网连接至所述装置,用以使用户能够创建针对所 述事件推断模块的规则。
21. —种视频处理方法,包括创建用于基于至少一个检测到的视频原语来检测视频序列中的至 少一个活动的至少一个规则;以及基于所述至少一个规则检测所述视频序列中是否存在所述至少一 个活动。
22. 根据权利要求21所述的方法,还包括如果所述检测步骤检测到所述至少一个活动,则产生至少一个警报。
23. 根据权利要求21所述的方法,其中,所述创建步骤包括从用于检测所述至少一个活动的装置外部的设备,将由规则以及 用于创建规则的指令所组成的至少一个组发送至所述装置,以检测所述至少一个活动。
24. —种包含指令的计算机可读介质,在计算机系统上执行所述 指令时,所述指令使所述计算机系统实现如权利要求21所述的方法。
25. —种视频处理系统,包括根据权利要求24所述的计算机可读介质;以及计算机,连接至所述计算机可读介质,用以执行在所述计算机可 读介质上所包含的指令。
全文摘要
对一种视频监视系统进行安装、校准、分派任务以及操作。该系统提取出视频原语,并使用事件鉴别器从该视频原语中提取出事件发生。该系统可以基于所提取的事件发生来进行诸如警报之类的响应。
文档编号G06K9/00GK101310288SQ200680030697
公开日2008年11月19日 申请日期2006年6月27日 优先权日2005年6月28日
发明者安德鲁·J·霍萨克, 尹卫红, 尼尔斯·赫英, 忠 张, 彼特·L·维蒂纳, 盖瑞·W·梅尔斯, 罗伯特·卡庭, 艾伦·J·利普顿, 马休·F·弗拉吉尔 申请人:实物视频影像公司