用于音频/图像的说话者检测和定位的方法和装置的制作方法

文档序号：7717229阅读：430来源：国知局

专利名称：用于音频/图像的说话者检测和定位的方法和装置的制作方法
技术领域：
本发明涉及一种用于电视会议系统的方法和装置，其采用包括两个麦克风的阵列和一个静止照相机来自动地找出说话者的位置并电操作视频图像以产生可动的平移-倾斜-缩放(“PTZ”)照相机的效果。
2.相关技术可确定声源相对于基准点的方向的电视会议系统是已知的。电视会议系统是一种视频显示系统，其通常包括一个照相机、多个麦克风和一个显示器。一些电视会议系统还具有将照相机指向说话者并进行适当的拍摄的能力。通常来说，电视会议系统的用户引导照相机的运动以进行适当的拍摄。现有的商用电视会议系统采用麦克风阵列来自动地找出说话者的位置并驱动平移-倾斜-缩放(“PTZ”)摄像机。例如可参见(1)题为“声源的定位”的国际专利申请WO99/60788，以及(2)1998年7月7日颁发给Chu等人的题为“用于声源定位的方法和装置”的美国专利No.5778082，这些文献均通过引用结合于本文中。
令人遗憾的是，采用与一个静止摄像机相结合而起作用的只包括二个麦克风的阵列来准确地检测、定位和追踪说话者存在着问题。因此，需要一种采用包括两个麦克风的阵列来自动地找出说话者的位置并随后采用一个静止摄像机来追踪说话者的用于电视会议系统的方法和装置。
采用计算机视觉算法来检测、定位和追踪处于广角静止摄像机的视场中的人物。采用从只包括两个水平间隔开的麦克风的麦克风阵列中得到的估计声延迟来选择正在说话的人。假定恰好在相同的水平位置处不会存在超过一个的说话者，那么两个麦克风之间的声延迟可提供足够的信息以明确地找出说话者的位置。本发明的系统还可检测任何可能的模糊性，在这种情况下系统可以安全可靠的方式作出响应。例如，它可以缩小以将处于同一水平位置的所有说话者包括在内。
在早期阶段进行音频和视频处理步骤，使得只需两个麦克风和一个静止摄像机来定位和追踪说话者。这种方法减小了对硬件和计算的要求，并提高了整个系统的性能。例如，此方法允许电视会议系统准确地追踪移动的人物，而不管他们是否说话。
在第一普遍的方面，本发明提供了一种电视会议系统，包括用于产生代表了图像的图像信号的摄像装置；用于产生代表了来自声源的声音的音频信号的拾音装置；以及用于处理所述图像信号和所述音频信号以确定声源相对于基准点的方向的多模式集成体系结构系统。
在第二普遍的方面，本发明提供了一种方法，包括步骤在摄像装置处产生代表了图像的图像信号；在拾音装置处产生代表了来自声源的声音的音频信号；处理图像信号和音频信号以确定声源相对于基准点的方向；操作图像信号以产生精确的图像信号；以及输出所述精确的图像信号。
在第三普遍的方面，本发明提供了一种电视会议系统，包括用于产生代表了来自说话者的声音的音频信号的两个麦克风；用于产生代表了视频图像的视频信号的摄像机；用于操作视频图像以产生平移、倾斜和/或缩放的视觉效果的电子平移-倾斜-缩放系统；用于处理视频信号和音频信号以确定说话者相对于基准点的方向并且为电子平移-倾斜-缩放系统提供控制信号以产生包括了摄像机视场中的说话者在内的图像的处理器，所述控制信号基于所确定的说话者的方向来产生；和用于发送电视会议所用的音频和视频信号的发送器。
图2显示了根据本发明实施例的

图1所示电视会议系统的各个功能模块。
本发明的具体介绍本发明公开了一种用于采用了一个拾音装置如包括两个麦克风的麦克风阵列和一个静止的摄像装置如摄像机的电视会议系统的装置及相关方法。本发明的电视会议系统能够采用与一个静止摄像机相结合而起作用的只包括二个麦克风的阵列来准确地检测、定位和追踪说话者。
现在参考附图并从图1开始，其中显示了一个代表性的电视会议系统100。电视会议系统100包括一个静止的摄像机210和一个包括两个麦克风的水平阵列230，其包括第一麦克风231和第二麦克风232，它们相互间隔开预定的距离d并以预定的几何形状来固定。
简短地说，在操作过程中，电视会议系统100接收来自说话者(未示出)的声波，并将声波转换成音频信号。电视会议系统100还通过静止的摄像机210捕捉说话者的视频图像。电视会议系统100采用音频信号和视频图像来确定说话者相对于基准点如摄像机210的位置。根据那个方向，电视会议系统100可随后电控制视频图像以有效地平移、倾斜或缩放来自静止摄像机210的视频图像，从而得到说话者的更佳的图像。
通常来说，说话者相对于摄像机210的位置可由两个值来表征说话者相对于静止摄像机210的方向，其可表示为一个矢量，以及说话者离静止摄像机210的距离。很清楚，通过电模仿静止摄像机210的平移或倾斜操作，可将说话者相对于静止摄像机210的方向用于有效地将静止摄像机210指向说话者，另外，说话者离静止摄像机210的距离可用于电模仿静止摄像机210的缩放操作。
应当注意的是，在电视会议系统100中，构成电视会议系统100的各个部件和电路均容纳于图1所示的集成外壳110中。集成外壳110设计成可容纳电视会议系统100的所有部件和电路。另外，集成外壳110的大小还应适于由人容易地携带。在这样一个实施例中，部件和电路可设计成能承受人的搬运，并还具有“即插即用”的性能，这样电视会议系统可在新的环境下迅速地安装并使用。
图2示意性地显示了图1所示电视会议系统100的功能模块。麦克风231，232和静止摄像机210分别为多模式集成体系结构模块270提供音频信号235和视频信号215。多模式集成体系结构模块270包括声源定位模块240、计算机视觉人物检测模块250和多模式说话者检测模块260。电子平移-倾斜-缩放(EPZT)控制信号从多模式说话者检测模块260中输出，并被提供给电子平移-倾斜-缩放系统模块220。
典型的多模式集成体系结构模块的操作方法及相关结构公开于(1)2000年11月22日提交的题为“候选级多模式集成系统”的美国专利申请09/718255；以及(2)2000年4月13日提交的题为“在电视会议和其它应用中采用复合视频和音频信息来追踪移动物体的方法和装置”的美国专利申请09/548734，这些专利均被转让给本发明的受让人(代理人档案号分别为PHUS000293和PHUS000103)，并且均通过引用结合于本文中。
静止摄像机210不需要与在典型的非静止摄像机或典型的摄像机安装基座上进行的已知的平移、倾斜或缩放操作有关的移动部件。根据需要，通过用电子平移-倾斜-缩放系统模块220来电模仿这些功能，可以实现平移、倾斜或缩放功能。因此，与现有的电视会议系统相比，本发明的电视会议系统100代表了更大程度的简化。
虽然这里为说明目的而介绍了本发明的实施例，但是对本领域的技术人员来说很明显，可以对其进行许多修改和变化。因此，所附权利要求预期包括了属于本发明的精神实质和范围内的所有这些修改和变化。
权利要求
1.一种电视会议系统(100)，包括用于产生代表了图像的图像信号的摄像装置(210)；用于产生代表了来自声源的声音的音频信号的拾音装置(230)；和用于处理所述图像信号和所述音频信号以确定所述声源相对于基准点的方向的多模式集成体系结构系统(270)。
2.根据权利要求1所述的电视会议系统(100)，其特征在于，所述多模式集成体系结构系统(270)还包括声源定位系统(240)；计算机视觉人物检测系统(250)；和多模式说话者检测系统(260)。
3.根据权利要求2所述的电视会议系统(100)，其特征在于，所述系统还包括用于所述集成电视会议系统(100)的集成外壳(110)，其中容纳了所述摄像装置(210)、所述拾音装置(230)和所述多模式集成体系结构系统(270)。
4.根据权利要求3所述的电视会议系统(100)，其特征在于，所述集成外壳(110)的大小适于携带。
5.根据权利要求2所述的电视会议系统(100)，其特征在于，所述系统还包括电子平移-倾斜-缩放系统(220)，用于电操作所述图像信号以有效地提供可调节的平移、倾斜和缩放功能中的至少一项。
6.根据权利要求5所述的电视会议系统(100)，其特征在于，所述摄像装置(210)为静止的照相机(210)。
7.根据权利要求5所述的电视会议系统(100)，其特征在于，所述多模式集成体系结构系统(270)为所述电子平移-倾斜-缩放系统(220)提供控制信号。
8.根据权利要求7所述的电视会议系统(100)，其特征在于，所述声源相对于所述基准点运动，所述声源定位系统(240)检测所述声源的运动，并且所述声源定位系统(240)响应于此运动而使所述摄像装置(210)的视场发生变化。
9.根据权利要求5所述的电视会议系统(100)，其特征在于，所述拾音装置(230)包括具有两个麦克风(231，232)的阵列。
10.一种方法，包括步骤在摄像装置(210)处产生代表了图像的图像信号；在拾音装置(230)处产生代表了来自声源的声音的音频信号；处理所述图像信号和音频信号以确定所述声源相对于基准点的方向；操作所述图像信号以产生精确的图像信号；和输出所述精确的图像信号。
11.根据权利要求10所述的方法，其特征在于，所述方法还包括步骤将所述音频信号施加在声源定位系统(240)上；将所述图像信号施加在计算机视觉人物检测系统(250)上；用多模式说话者检测系统(260)来处理所述音频信号和所述图像信号；根据所确定的所述声源的方向来产生控制信号；将所述控制信号施加在电子平移-倾斜-缩放系统(220)上以模仿可动照相机的至少一项功能的效果，所述功能从包括平移、倾斜和缩放所述可动照相机的组中选择；和提供来自所述电子平移-倾斜-缩放系统(220)的输出。
12.根据权利要求10所述的方法，其特征在于，所述方法还包括响应于所述控制信号而电改变所述摄像装置(210)的视场。
全文摘要
一种用于电视会议系统的方法和装置，其采用包括两个麦克风的阵列和一个静止照相机来自动地找出说话者的位置并电操作视频图像以产生可动的平移－倾斜－缩放(“PTZ”)照相机的效果。采用计算机视觉算法来检测、定位和追踪处于广角的静止照相机的视场中的人物。采用从只包括两个水平间隔开的麦克风的麦克风阵列中得到的估计声延迟来选择正在说话的人。此系统还可检测任何可能的模糊性，在这种情况下系统可以安全可靠的方式作出响应，例如它可以缩小以将处于同一水平位置的所有说话者包括在内。
文档编号H04N7/14GK1460185SQ02800828
公开日2003年12月3日申请日期2002年3月15日优先权日2001年3月30日
发明者A·科尔梅纳雷兹, H·J·斯特鲁贝, S·古塔申请人:皇家菲利浦电子有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：A.科尔梅纳雷兹;H.J.斯特鲁贝;S.古塔
技术所有人：皇家菲利浦电子有限公司
我是此专利的发明人

上一篇：搜索电视节目的改良方法
上一篇：通过名人或使用名人简档推荐电视节目安排的方法与设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。