专利名称:在电视会议和其他应用中预测事件的方法和装置的制作方法
技术领域:
本发明一般涉及视频信号处理领域,更具体地说,涉及预测事件的技术,例如在视听表演中(例如电视会议)预测下一个发言人。
电视会议系统常利用摇俯变焦(pan-tilt-zoom)(PTZ)摄像机来跟踪当前的发言人。通过PTZ摄像机,系统定位并进行光学变焦以完成跟踪任务。最初,电视会议系统中PTZ摄像机的控制系统要求操作者对摄像机作手动调节,才能始终聚焦在当前发言人的身上。但电视会议系统的用户对非手工操作的要求日益强烈,这使得PTZ摄像机的控制必须是全自动的。
人们已提出多种根据音频和视频信息来自动检测人物的方法。音频定位器通常用来处理从话筒阵列中获得的音频信息,以确定发言人的位置。具体地说,当知道各相对的话筒位置时,就可以用众所周知的三角技术来估计距单一源的声波传播时间差,从而测定声源的位置。同理,视频定位器通常定位视频图像中一个或多个关心的对象,例如在电视会议中发言人的头和肩膀。有许多已知的技术可用来检测图像中一个人的位置,例如,在“面部识别从理论到应用”(NATO ASI Series,Springer Verlag,New York,H。Wechsleret al。,editors,1998)中所描述的技术,该文已作为参考包括在本文中。
虽然在电视会议系统中跟踪发言人的传统技术对于许多应用还能令人满意,但它们也受许多限制,如果能加以克服,则可大大扩展这种电视会议系统的利用和性能。具体地说,传统的电视会议系统本质上是反应式的。因此,只有当事件已经发生,注意力才集中在该事件上。例如,一旦另外一个人发言,摄像机在聚焦到他(她)身上之前总会有一点延迟。这样远距的用户就感受不到他们似乎是在同一间屋子里进行很自然的面对面的互动。
在面对面的互动中,人们观察到,当一个人马上就要发言或要接替另一个发言人时,总会出现一些信号。例如可参阅S.Duncan和Niederehe的“该你发言时的信号”,实验社会心理学杂志,Vol.23(2),pp234-247(1972);以及S.Duncan和D.W.Fiske,“面对面的互动”,Lawrence Erlbaum Publishers,Hillsdale,New Jersey,(1977)。例如,当一个人要接替另一人发言时,可以观察到微妙的线索,例如下一个发言人会身体前倾,目光注视当前的发言人或用手臂作手势。
因此在试图建立人机间自然的语言交流时,研究人员已经意识到了一个人在将不同类型的感官信息(线索)与上下文信息和以前获得的知识结合起来的能力方面的复杂程度。需要一种改进的预测事件的技术来将这种线索应用于电视会议系统中。还需要一种方法和装置来分析某些线索,例如面部表情,注视目光和身体姿势,以预测下一个发言人或其他事件。也需要一个发言人探测系统,它能将多种线索结合起来预测谁会是下一个发言者。还需要一种利用每个与会者的特征信息识别与会者发言之前会表现出那些线索来探测发言人的方法和装置。
自适应位置定位器用一种已知的方式处理音频和视频信息来确定某人的位置。另外,本发明提供一种预测发言人识别器,它识别一个或多个音频和视频线索从而确定下一个发言人。该预测发言人识别器接收和处理音频和视频信号,以及面部的识别分析结果,来识别一个或多个声音和视觉线索从而确定下一个发言人。预测发言人识别器产生的发言人预测结果被用来使摄像机聚焦,并获得预测发言人的图像。
预测发言人识别器以一种学习模式工作,根据在有或没有一个或多个预定义的声音和视觉线索的情况下与会者“会发言”或“不会发言”的概念来学习每个与会者的特征信息。然后预测发言人识别器以预测模式将特征信息中嵌入的学习特征与音频和视频信息加以比较,从而预测下一个发言人。
参考以下详细说明和附图,就可获得对本发明,以及对本发明的特性和优点,更完全的理解。
图4是从过程角度说明图3的预测发言人识别器的流程图;图5是说明图4的示范的特征简介的表格。
发明的详细说明
图1示出按本发明的视频处理系统10。本发明处理音频和视频信息来识别某一事件发生前,一个人常表现出来的一个或多个线索,包括(1)声音线索,例如语调类型,音调与音量;(2)视觉线索,例如注视目光,面部姿势,身体姿势,手势,以及面部表情;或(3)上述线索的组合。例如,电视会议与会者开始或结束发言之前。虽然本发明是以电视会议系统探测发言人的变化这一内容来说明,但本发明可适用于检测与人们表现出的声音和视觉线索具有关联的任何事件,这对于本专业的技术人员而言,根据此文的内容,是显而易见的。
如图1所示,系统10包括处理器12,存储器14,输入/输出(I/O)装置15,以及自适应位置定位器300,以下结合图3进一步讨论,所有这些都通过总线17相互连接进行通信。系统10还包括摇俯变焦摄像机18,它连接到自适应位置定位器300,如图所示。系统10中还可另外包括一个或多个广角摄像机(图1中未示出),以下结合图3进一步讨论,以捕捉每个与会者22-1到22-N的视觉线索。例如,可以设置一个摄像机来获得与会者22-N的透视图,以检测他的前倾。
在所示实施例中,在桌子20边坐了与会者22-1到22-N的电视会议应用中采用了PTZ摄像机18。工作时,PTZ摄像机18,按照自适应位置定位器300根据从处理器12接收的指令的指引,跟踪一个关心的对象,在此例中即与会者22-k。另外,如图1所示,视频处理系统10包括话筒阵列16,以已知方式捕捉音频信息。
虽然本发明是以电视会议应用这一内容来说明的,但是,显然,视频处理系统10可以用在需要预测下一个发言人的其他应用中。而且,本发明也可应用在其他类型的电视会议应用中,比如,涉及会议式座位安排的应用,以及圆桌或长方桌安排等。一般来说,系统10的部分24可用在任何应用中,这些应用可以从本文的自适应位置定位器300提供的改进的跟踪功能获益。因此利用系统10的部分24,系统10的部分26就可以用,比如,其他的电视会议安排,或其他任何需跟踪一个或多个发言人的安排来代替。显然,也可不用PTZ摄像机而用其他图像捕捉装置来使用本发明。此处的术语“摄像机”应包括能与本文的自适应位置定位器300结合使用的任何类型的图像捕捉装置。
应当指出,系统10的元件或元件组也可以代表常规台式或便携式电脑的对应元件,以及这些和其他处理装置的部分或组合。而且,在本发明的其他实施例中,处理器12或PTZ摄像机18的部分或全部功能和附加的广角摄像机(图1中未示出)或系统10的其他元件都可以组合成一个单一装置。例如,PTZ摄像机18和附加的广角摄像机的功能可以结合成单一广角摄像机,利用广角图像的图像处理技术获得需要的近距图像。
另外,系统10的一个或多个元件可以用装入电脑,电视,机顶盒或其他处理装置中的专用集成电路(ASIC)或电路卡来实现。此处的术语“处理器”应包括微处理器,中央处理单元,微控制器,或其他可以用在既定数据处理装置中的任何其他数据处理元件。此外,应当指出,存储器14可代表任何电子存储器,光盘或磁盘存储器,磁带存储器,以及这些和其他类型存储装置的部分或组合。
自适应位置跟踪术语图2是说明图1的自适应位置定位器300实现的跟踪和变焦特性的功能框图。如图2所示,跟踪和变焦特性包括检测和跟踪操作32和光学变焦操作34。参阅图像40,42,44来说明这些操作,这些图像是在系统10的部分26中为示范的电视会议应用所产生的图像。操作32和34可以在系统10中,利用存储在存储器14或通过I/O装置15从本地或远程的存储装置接入的一种或多种软件程序,由处理器12和自适应位置定位器300完成。
工作时,PTZ摄像机18产生图像40,它包括关心的对象,例如电视会议与会者22-k,以及另一对象,例如在关心的对象邻近的与会者22-k+1。图像40作为视频输入提供给检测和跟踪操作32,它利用已知的常规检测和跟踪技术检测和跟踪关心的对象。
例如,在电视会议应用中,该关心的对象22-k可能对应于当前的发言人。此时,检测和跟踪操作32利用音频定位来检测和跟踪该关心的对象22-k以确定哪一个与会者是当前发言人,以下要结合图3加以讨论。在另一变型中,也可利用动作检测,手势,摇头,以特殊方式动作或以特殊方式发言等来识别当前发言人。检测和跟踪操作32的输出包括识别具体关心的对象22-k的信息,以在图像42中标以阴影的形式表示。
图2的光学变焦操作34提供足够的变焦量以确保既可获得需要的输出图像质量,同时又允许关心的对象有一定的移动量。光学变焦操作34包括通过全景和倾斜操作调节关心的对象22-k的画面位置的画面位置调节部分和持续利用变焦操作直到满足指定的停止准则的变焦部分。通常,有多种不同类型的停止准则可以采用。在用固定的停止准则方法时,光学变焦继续进行直到关心的对象占据了图像的一定的百分比。例如,在电视会议应用中,光学变焦会继续进行,直到当前发言人的头部占据了图像垂直大小的大约25%到35%之间为止。当然,所用的具体百分比会根据跟踪应用的不同而变化。各具体应用的特定百分比可由本专业的技术人员直接确定。
如图2所示,光学变焦操作34的输出是一个光学变焦的图像44,其中关心的对象22-k近似在图像的中心,占据了按上述准则确定的所需的图像百分比。图像44可以由系统10存储,例如存储在存储器14中,或呈现给用户。
自适应位置定位器图3是图1的系统10中采用的自适应位置定位器300的功能框图。通常,自适应位置定位器300处理音频和视频信息来确定发言人的位置。关于自适应位置定位器300的更详细的讨论,请参阅2000年5月3日登记的美国专利申请,其申请号为09/564016、题目为“在电视会议和其他应用中自适应位置确定的方法和装置”(AttorneyDocket No.700983),该申请已转让给本发明的受让人并作为参考包括在本文中。
此外,根据本发明,自适应位置定位器300包括预测发言人识别器400(以下会结合图4进一步讨论),用以识别一个或多个声音和视觉线索并据此预测下一个发言人。最初,在系统启动时,广角摄像机305和话筒阵列16都工作。广角摄像机305和话筒阵列16产生的信号可以选择在阶段315打上时间戳,以使自适应位置定位器300能判断何时产生的信号。如图3所示,广角摄像机305产生的时间戳信号被传送到面部识别模块320。面部识别模块320包括一个面部检测器,它可确定某一既定的关心部分(窗口)是否可以标记为面部区域。面部识别模块320对一既定的面部分配一个唯一的标识符。
广角摄像机305产生的图像、以及面部识别的结果和它们的位置都存储在画面缓冲器325中。但是,如果面部识别模块320不能对一既定的面部分配一个唯一的标识符,例如,由于发言人和广角摄像机305间的距离问题,那么只有面部检测信息和检测的面部在图像中的相应位置存储在画面缓冲器325中。一些附加的信息,例如与会者的服装颜色,也可存储在画面缓冲器325中。服装颜色特别有用,例如,如果面部识别模块320不能对一既定的面部分配一个唯一的标识符,但当第一与会者离开会议室而另一与会者坐在同一位置时,面部检测仍可继续进行。
面部识别模块320可以利用,例如,美国专利申请,申请号09/449250,1999年11月24日登记、题目为“在电视会议和其他应用中检测移动对象的方法和装置”,以及美国专利申请,申请号09/548734,2000年4月13日登记、题目为“在电视会议和其他应用中利用组合的视频和音频信息跟踪移动对象的方法和装置”(Attorney Docket No.700966)所说明的视频定位系统来实现。此二专利已转让给本发明的受让人,并作为参考包括在本文中。如上述结合图2进行的讨论,视频系统也尽量聚焦(变焦)到面部,使得面部处于正确的显示纵横比的条件下。
同理,如图3所示,话筒阵列16产生的时间戳信号传送到发言人识别模块330和音频定位器360。话筒阵列16产生的音频信号和发言人识别的结果都存储在画面缓冲器325中。此外,音频定位器360获得传送到空间变换模块370的识别与噪声源关联的全景(水平)和倾斜(垂直)角度的方向信息。音频定位器310可以利用例如在美国专利申请、申请号09/548734、2000年4月13日登记、题目为“在电视会议和其他应用中利用组合的视频和音频信息跟踪移动对象的方法和装置”(Attorney Docket No.700966)以及美国专利申请、申请号09/436193、1999年11月8日登记、题目为“改进的信号定位装置”中所说明的音频定位系统来实现,此二专利已转让给本发明的受让人,并作为参考包括在本文中。
在预定的时间间隔内(例如两秒)积累视频和音频信号,以便收集对应于有意义的事件的数据。在此预定时间间隔中产生的视频画面由动作检测器350作相互比较以检测动作。例如,如果一个与会者的手在移动,动作检测器350靠比较连续的视频画面检测到此动作,然后手移动的识别位置被传送到空间变换模块370。
动作检测器模块350可任选地利用动作试探法340来仅仅识别具有显著的移动量的画面部分。这样,动作检测器模块350仅把这种滤波后的信息传送给空间变换模块370。例如,为了检测头的转动,相应的动作试探法能指示需要转动多少才能触发响应。通常,动作试探法340尽量使摄像机18聚焦在当前发言人上,而不管其他的噪声或发言人的动作。换句话说,动作试探法340试图识别并抑制动作检测器350产生的虚假事件。至于动作试探法340中采用的各种策略的详细讨论,请参阅,例如,Ramesh Jain等人的“机器视力”,Mcgraw-Hill,New York(1995),作为参考包括在本文中。
于是,空间变换器370接收来自动作检测器模块350的位置信息和来自音频定位器360的方向信息。然后空间变换器370以已知方式映像位置信息和方向信息,以计算用来使PTZ摄像机18聚焦的边框。
处理声音和视觉线索如图3所示,PTZ摄像机18产生的视频图像,以及画面缓冲器325和发言人识别模块330中的内容都加到预测发言人识别器400上,以下要结合图4进一步讨论。还有,画面缓冲器325的内容包括广角摄像机305产生的广角图像和相应的面部识别结果,以及话筒阵列16产生的音频信息和相应的发言人识别结果。这样,预测发言人识别器400就可从广角图像和音频信息中识别每个未发言与会者22-N的声音和视觉线索。
通常,自适应位置定位器300按上述方式处理音频和视频信息来确定发言人的位置。如图3所示,自适应位置定位器300与预测发言人识别器400相互配合,按本发明预测下一个发言人的身份,以下要结合图4进行讨论。如图3所示,预测发言人识别器400接收来自画面缓冲器325、PTZ摄像机18和发言人识别模块330的音频和视频信息。预测发言人识别器400处理接收的音频和视频信息以识别一个或多个声音和视觉线索并据此预测下一个发言人。如图3所示,预测发言人识别器400产生的发言人预测用来聚焦PTZ摄像机18。
图4是图1系统10采用的预测发言人识别器400的功能框图。如图4所示预测发言人识别器400包括视频线索识别器410和音频线索识别器420。当既定与会者出现在图像中时,其视频信号由视频线索识别器410处理,以识别一个与会者在发言之前通常表现出的一个或多个预定视觉线索,例如面部姿势(头的方向),注视目光(眼睛方向),面部表情,手和身体的姿势等。同理,音频信号由音频线索识别器420处理,以识别一个与会者在发言之前通常表现出的一个或多个预定音频线索,例如语调类型,音调与音量,发言速度,发言人识别和话音识别。可以用来识别下一个发言人身份的具体的声音和视觉线索处理过程在以下题目为“声音和视觉线索”一节中讨论。
学习模式预测发言人识别器400采用一个学习模块450,以学习模式、根据在有或没有一个或多个预定义的声音和视觉线索的情况下与会者“会发言”或“不会发言”的概念来学习每个与会者的特征信息500。
如以下结合图5进行的讨论,每个与会者的声音和视觉线索可以存储在特征信息500中作为属性值的记录。此外,例如从发言人识别,面部识别或其他信息中可获得的与会者的身份也用属性值记录在特征信息500中。
记录中的每个属性可以有许多分立的或象征的值。例如,对于姿势模块,既定的与会者可能会用一些特定的姿势,例如举手要求允许发言,表示想要下一个发言。这些特定的姿势,以及其他线索模块的属性值是靠分析多个电视会议会话以确定与会者在发言前表现的手势、姿势的类型以及其它声音和视觉线索来确定的。
为了对与会者在可能“会发言”或“不会发言”之前通常表现出(和/或不表现)的预定声音和视觉线索进行描绘,学习模块450可以采用判定树(DT),例如在J.R.Quinlan的“学习有效分类过程及其在棋类终结游戏中的应用”,编者R.S.Michalski等人,在“机器学习”(Machine Learning)中的人为途径,Vol.1,Morgan KaufmanPublishers Inc.,Palo Alto,California(1983);或J.R.Quinlan“概率判定树”,编者Y.Kodratoff和R.S.Michalski等人,在“机器学习”(Machine Learning)中的人为途径,Vol.3,Morgan KaufmanPublishers Inc.,Palo Alto,California(1990)中所说明的判定树,均作为参考包括在本文中。在另一种途径中,可以采用Hidden Markov模型(HMMs)对与会者在可能“会发言”或“不会发言”之前通常表现出(和/或不表现)的预定声音和视觉线索进行描绘。
通常,判定树按一个训练组构建,具有节点和树叶,节点对应于需进行的某项测试,树叶对应于类别(即“会发言”或“不会发言”)。判定树可具有的节点数取决于数据的复杂性。在最差的情况时,节点数最多可等于可能的属性值的数。举例来说,从树根到树叶的一条子通路在分解成规则时可以具有以下形式如果姿势=举手,和身体姿势=前倾,和头部姿势=...和面部表情=...和注视目光=朝发言人看和==>“会发言”此例也在图5的特征信息500中出现。注意在上述布尔表达式中字符“?”表示“不介意”条件或通配符。
预测模式同理,预测发言人识别器400采用新发言人预测器470、以预测模式应用在特征信息500中的学习到的特征来预测下一个发言人。
当学习进行了一段足够的时间并建立了判定树后,在预测模式下对该判定树进行语法分析,以确定哪些模块的哪些特征足以确定谁是下一个发言人。这样,在预测模式下,新发言人预测器470所用的判定树引导PTZ摄像机18并确定利用哪些模块来获得谁是下一个发言人的结论。
应当指出,在会话中预测谁是下一个发言人可以看作是一个数据开发/知识发现的问题。在此域中,目的是看能否从数据中找到一种模式。我们想要建立的具体模式就是与会者是否表现出一些线索,预示着他们可能参加对话。专门采用判定树来来学习在数据中含有的同时发生的情况与明显学习到的结果之间的因果关系。例如可以学到以下的规则如果一个与会者举手、身体前倾、而且该规则中其他同时发生的事件为未知,则该与会者可能即将发言(发生的结果)。
为了检测发言人的转换,当判定树在连续窗口给出一个不同与会者的类别(通过面部识别/发言人识别/音频定位),系统就假定不同的发言人开始发言。能用来表示当既定行为足以构成提示下一个发言人的“线索”时的精确阈可以靠经验确定。
如前所述,图4的预测发言人识别器400利用图5所示的特征信息500对某一与会者在可能“会发言”或“不会发言”时通常表现出或不表现的一个或多个预定声音和视觉线索进行描绘。图5是说明特征信息500可能实施的示范表格。如图5所示,特征信息500包括许多记录,例如记录505-515,当分解为规则时,每个都与从判定树树根到树叶的不同通路相关联。对于每条判定树的通路,特征信息500识别定义通路的字段550-565中的属性值对和字段570中的相应概念类别。
这样,当特征信息500中的既定规则提示一个新的与会者即将发言时,预测发言人识别器400可提供一个预测PTZ值给摄像机18,以使摄像机18在该与会者一开始发言时就聚焦在预测发言人上。在一个实施例中,可用另一台PTZ摄像机跟踪预测发言人,当发言人开始发言时可以选择相应的图像作为系统10的输出。
表1
头部姿势/面部姿势头部或面部姿势可以按照以下文章中说明的技术获得,例如Egor Elagin等的“基于群聚图匹配技术的面部自动姿势估计系统”,Proc.of the 3rdInt’l Conf.on Automatic Face and Gesture Recognition(第三届自动面部和姿势识别国际会议文集),Vol.I,136-141,Nara,Japan(1998.4.14-16),已作为参考包括在本文中。
注视目光注视目光以及面部姿势可以按照以下文章中说明的技术获得,例如John Heinzmann和Alexander Zelinsky的“利用增强实时跟踪范例作三维面部姿势和目光注视点估计”,Proc.of the 3rdInt’l Conf.on Automatic Face and Gesture Recognition(第三届自动面部和姿势识别国际会议文集),Vol.I,142-147,Nara,Japan(1998.4.14-16),已作为参考包括在本文中。
手势手势可以按照以下文章中说明的技术获得,例如Ming-HsuanYang和Narenda Ahuja的“利用运动轨迹识别手势”,Proc.of the IEEEComputer Society Conf.on Computer Vision and Pattern Recognition,Vol.I,466-472,Fort Collins,Coloraqdo(1999.6.13-15),已作为参考包括在本文中。
身体姿势身体姿势可以按照以下文章中说明的技术获得,例如RomerRosale和Stan Sclaroff的“不跟踪身体各部分理解身体姿势”,Proc.of the IEEEE Computer Society Conf.on Computer Vision and PatternRecognition,Vol.2,721-727,Hilton Head Island,South Carolina(2000.6.13-15),已作为参考包括在本文中。
同理,音频线索识别器420识别一个与会者更换在发言人改变之前常表现出的一个或多个预定音频线索,例如非话语声音,比如咕隆一声或清清喉咙。音频线索可以按照以下文章中说明的技术识别,例如Frank Dellaert等人的“在话音中识别感情”,Proc.of Int’lConf.on Speech and Language Processing(话音和语言处理国际会议文集)(1996),已作为参考包括在本文中。一旦音频线索源被识别,就可利用发言人识别功能来识别谁在发言。此外,也可利用话音识别技术进一步改进发言人预测。例如,假定某人A在发言,正当他还在讲话时某人B开始说“我不同意你的意见”。如果话音识别系统已经接受过这种句子的训练,那么,在系统能识别该句子的那一刹那就暗示某人B可能是下一个发言人。
发言人的情绪可以从声音和韵律等特性来估计,例如语速,音调与音量,语调,强度等。发言人的情绪常提示发言人即将结束发言。发言人的情绪可以按照以下文章中说明的技术识别,例如FrankDellaert等人的“在话音中情绪”,Proc.of Int’l Conf.on Speech andLanguage Processing(话音和语言处理国际会议文集)(1996),已作为参考包括在本文中。
如前所述,本发明可用来检测与人们表现出的声音和视觉线索有关联的任何事件。除了上面已充分说明的检测更换发言人之外,另外的示范事件和对应线索包括
所以,本发明可以用来预测许多事件并在其之前采取相应的行动。例如,本发明可以用在车辆中检测司机是否快要睡着了,如果检测到此情况,就采取适当的措施。又如,本发明可以用来检测看电视的人是否睡着了,并能采取适当的措施开始录制其余的节目,以及关掉电视,电灯和其它的电器。
显然,以上说明的实施例和各种变型仅是为了说明本发明的原理,在不背离本发明的范围和精神的情况下本专业的技术人员可作各种改动。
权利要求
1.一种利用音频和视频信息中的至少一种信息预测事件的方法,所述方法包括以下步骤建立定义能提示某一既定事件的行为特征的多个线索;以及处理所述音频和视频信息中的至少一种信息来识别一种所述线索(410,420)。
2.如权利要求1所述的方法,其特征在于所述多个线索包括标识一个人通常在发言之前表现出的行为的至少一种线索。
3.如权利要求1所述的方法,其特征在于所述多个线索包括标识一个人通常在结束发言之前表现出的行为的至少一种音频线索。
4.如权利要求1所述的方法,其特征在于还包括获得与所述标识的线索有关联的所述某人的图像的步骤。
5.如权利要求1所述的方法,其特征在于还包括保持至少一个人的简档(500)的步骤,所述简档(500)建立关于所述多个线索中一个或多个线索的阈值。
6.一种在视频处理系统(300)(10)中跟踪发言人(22-k)的方法,所述视频处理系统(300)(10)处理音频和视频信息中至少一种信息,所述方法包括以下步骤处理所述音频和视频信息中至少一种信息、以便识别定义提示一个人即将发言的行为特征的多种线索中至少一种线索;以及获得与所述识别的线索有关联的所述某人的图像。
7.如权利要求6所述的方法,其特征在于至少一台摄像机(18)按照与所述线索有关联的人所关联的全景、倾斜和变焦值来聚焦。
8.如权利要求6所述的方法,其特征在于所述多个线索包括标识一个人通常在发言之前表现出的行为的至少一种音频线索。
9.一种利用音频和视频信息中的至少一种信息来预测事件的系统(300),它包括存储计算机可读代码的存储器;以及工作时连接到所述存储器的处理器;所述处理器配置成建立定义能提示某一既定事件的行为特征的多个线索;以及处理所述音频和视频信息中的至少一种信息来识别一种所述线索。
10.一种用于跟踪视频处理系统(300)(10)中的发言人(22-k)的系统(300),所述视频处理系统(300)(10)处理音频和视频信息中至少一种信息,它包括存储计算机可读代码的存储器;以及工作时连接到所述存储器的处理器;所述处理器配置成处理所述音频和视频信息中至少一种信息、以便识别定义提示一个人即将发言的行为特征的多种线索中至少一种线索;以及获得与所述识别线索有关联的所述某人的图像。
11.一种利用音频和视频信息中至少一种信息来预测事件的制造品,它包括在其上实现计算机可读代码工具(mesns)的计算机可读介质,所述计算机可读程序编码工具包括建立定义能提示某一既定事件的行为特征的多个线索的步骤;以及处理所述音频和视频信息中至少一种信息、以便识别一种所述线索的步骤。
12.一种用于跟踪视频处理系统(300)(10)中的发言人(22-k)的制造品,所述视频处理系统(300)(10)处理音频和视频信息中至少一种信息,它包括在其上实现计算机可读代码工具(mesns)的计算机可读介质,所述计算机可读程序编码工具包括处理所述音频和视频信息中至少一种信息、以便识别定义提示一个人即将发言的行为特征的多种线索中至少一种线索的步骤;以及获得与所述识别线索有关联的所述某人的图像的步骤。
全文摘要
本发明公开了利用声音和视觉线索预测事件的方法和装置。本发明处理音频和视频信息来识别一个或多个(1)声音线索、例如语调类型,音调与音量;(2)视觉线索、例如注视目光、面部姿势、身体姿势、手势以及面部表情;或(3)上述线索的组合;这些线索通常与一个事件相关联,例如电视会议的与会者在发言前表现的行为。这样本发明就能使视频处理系统预测事件,例如识别下一个发言人。预测发言人识别器以一种学习模式工作,根据在有或没有一个或多个预定义的声音或视觉线索的情况下与会者“会发言”或“不会发言”的概念来学习每个与会者的特征信息。预测发言人识别器以预测模式工作,将特征信息中嵌入的学习特征与音频和视频信息加以比较,从而预测下一个发言人。
文档编号H04N7/15GK1422494SQ01807753
公开日2003年6月4日 申请日期2001年12月3日 优先权日2000年12月5日
发明者S·古塔, H·J·斯特鲁贝, A·科梅纳雷滋 申请人:皇家菲利浦电子有限公司