用于活跃的说话者探测的视频和音频标记的制作方法

文档序号：9221968阅读：440来源：国知局

用于活跃的说话者探测的视频和音频标记的制作方法
【专利说明】
【背景技术】
[0001]视频会议已经变得普遍，并且许多办公室具有特别配置用于视频会议会话的房间。这样的房间通常包含视频会议设备，诸如一个或多个可移动相机和一个或多个话筒，话筒通常放置在房间中用于参与者的桌子周围的位置处。活跃的(active)说话者探测(ASD)经常用于选择相机，或者移动(摇摄和/或倾斜)相机以示出房间中正在说话的人员和/或选择将活跃的话筒。当远程人员在说话时，他们的图像和/或声音从房间中诸如电视机(TV)、监控器或其他类型显示器的音频-视频显示器发出。这可能引起ASD错误地选择关于TV上的正在讲话的远程人员的图像，而不是选择最后的正在讲话的本地人员。
[0002]而且，在多地点视频会议会话中，其中三个或更多个分离的地点处于单个视频会议会话中，则通常将显示数个面板，一个面板比其他面板更大并且示出正在说话的人员，以及其他面板示出来自其他地点处相机的图片。当发生错误的ASD时，如上所提到的，其中人员正在说话的房间中的装备将发送信号至其他地点处的装备，告知在其地点处的人员正在说话，并且因此主显示应当来自其相机。当发生该情形时，较大的面板可能从示出实际上正在说话的人员切换至示出TV屏幕或空座椅的图片。因此，关于ASD的问题在于，如果来自远程视频会议系统的声音被反射或如此响亮以致使其触发了 ASD，则远程声音可能被转发回至远程系统和/或使得本地相机聚焦在空座椅或者示出远程视频会议地点的显示屏上。
[0003]已经用于消除这样的错误ASD选择的一种技术是认出在TV上追踪的图像扫描线以确定声音是来自TV而不是本地人员。然而，高清晰度TV (HDTV)具有高(240Hz或更佳)逐行扫描速率和与相机相等的图像分辨率，因此当牵涉HDTV时图像扫描线追踪的使用受限。额外地，ASD可能常具有房间周围的回声方面的麻烦。诸如窗户或玻璃覆盖的图片的声音反射性表面可以以声音看似源自桌子处的本地人员的方式而反射来自于TV的声音，即便并不实际存在坐在桌子的该位置处的人员。进一步地，如果对视频会议做记录，则其依赖于人记住至少用例如视频会议的日期来对记录进行准确地标注。这常被忘记并且之后完成，有时带有错误或不完整的标注。正是关于这些和其他考虑而呈现本文做出的公开。

【发明内容】

[0004]本文描述用于视频会议系统的技术，其选择活跃的说话者同时避免错误地选择拾取来自于连接的远程信号的音频或视频的话筒或相机。在一个实施方式中，标记被添加至流出的音频和/或视频信号。如果话筒拾取了包含来自远程系统的标记的声音，则忽略该声音并且不实施ASD。如果声音不包含远程标记，则检查来自本地相机的视频。如果其包含远程标记，则不实施ASD。如果任一信号中不存在远程标记，则实施ASD。
[0005]根据本文呈现的一个实施例，用于视频会议系统的发射器系统具有用于产生音频标记或视频标记中的至少一个的标记产生器；用于以下二者中的至少一个的信号组合器:(i)将接收到的音频信号与音频标记组合以产出加标记的音频信号或(ii)将接收到的视频信号与视频标记组合以产出加标记的视频信号；以及发射器，用于发射(i)加标记的音频信号和接收到的视频信号、(ii)接收到的音频信号和加标记的视频信号、或者(iii)加标记的音频信号和加标记的视频信号。然后远程视频会议系统可以使用嵌入的标记来区分本地的声音和图片与远程的声音和图片。
[0006]一种用于操作视频会议系统的发射器的方法包括:接收音频信号，接收视频信号，产生音频标记或视频标记中的至少一个，以下二者中的至少一个:(i)将音频信号与音频标记组合以产出加标记的音频信号或者(ii )将视频信号与视频标记组合以产出加标记的视频信号，以及发射(i)加标记的音频信号和视频信号、(ii)音频信号和加标记的视频信号、或者(iii)加标记的音频信号和加标记的视频信号。
[0007]计算机存储介质具有存储在其上的计算机可执行指令。那些指令使得计算机:产生音频标记或视频标记中的至少一个，以下二者中的至少一个:(i)将接收到的音频信号与音频标记组合以产出加标记的音频信号或(ii)将接收到的视频信号与视频标记组合以产出加标记的视频信号，以及发射⑴加标记的音频信号和接收到的视频信号、(ii)接收到的音频信号和加标记的视频信号或(iii)加标记的音频信号和加标记的视频信号。
[0008]应该领会的是，以上描述的主题也可以被实施为计算机控制的设备、计算机进程、计算系统、或者作为诸如计算机可读介质的制品。从阅读以下的【具体实施方式】并且查看相关附图，这些以及各种其它的特征将是显然的。
[0009]提供该
【发明内容】
部分以简化的形式引入下面在【具体实施方式】中进一步被描述的概念的选择。该
【发明内容】
部分并非意在识别所请求保护主题的关键特征或必要特征，也并非意在该
【发明内容】
部分被用来限制所请求保护主题的范围。此外，请求保护的主题并不限于解决在本公开内容的任何部分中所述的任何或所有缺点的实施方式。
【附图说明】
[0010]图1是视频会议系统的发射器系统的示例性配置。
[0011]图2是示例性视频会议系统环境的图示。
[0012]图3是示出示例性标记探测以及相机和话筒控制技术的流程图。
[0013]图4是示例性信息记录技术的流程图。
[0014]图5是示出用于能够实施本文所呈现的实施例的方面的计算系统的例证性计算机硬件和软件架构的计算机架构图。
【具体实施方式】
[0015]以下详细的描述是针对用于视频会议的技术，其可以正确地选择活跃的说话者而避免错误地选择正在拾取来自于连接的远程信号的音频或视频的话筒或相机。在以下详细的描述中，对附图作出参考，附图形成描述的一部分并且通过图示具体的实施例或者示例的方式被示出。现在参照附图，其中遍及数个附图，相同附图标记表示相同元件，将描述视频会议的计算系统和方法论的方面。
[0016]图1是视频会议系统100的发射器系统105的示例性配置。发射器系统105具有相机和话筒选择及控制系统120、视频标记产生器125、提供视频输出信号135的视频信号组合器130、音频标记产生器140、以及提供音频输出信号150的音频信号组合器145。音频和视频输出信号可以由发射器155广播或发射。控制系统120也可以发送意在用于远程系统的信号，告知其具有应该被给予较大面板的活跃的说话者(如果多个面板用于显示多个地点)。发射器155可以使用任何方便的构件来发送视频和音频输出信号以及任何控制信号至远程地点处的一个或多个接收器系统160。将领会的是，在每个地点处存在发射器系统105和接收器系统160，以及在地点处的发射器系统105和接收器系统160可以组合为单个
目.ο
[0017]一个或多个相机110 (110A-110N)和一个或多个话筒115 (115A-115N)分别提供视频信号和音频信号至发射器系统105，以及更特别地提供至具有用于接收这些信号的输入端的控制系统120。相机和话筒选择及控制系统120可以选择哪个相机110和哪个话筒115将被用于产生本地图片和声音(如果使用多于一个的任一装置的话)，可以控制所选择的相机110的摇摄、缩放和/或倾斜(如果相机可以这样被控制的话)，并且可以产生用于发射至远程系统的控制或其他信号。
[0018]视频标记产生器125和音频标记产生器140分别产生视频和音频标记。视频信号组合器130操纵或修改视频流中的视频像素以添加视频标记并产出加标记的视频信号135。音频信号组合器145操纵或修改音频流中的位以产出加标记的音频信号150。这可以被认为是“标记”信号或者向信号添加标记。标记产生器125和140可以体现在单个装置中，信号组合器130、145可以体现在单个装置中，并且这些部件中的一个至全部可以被体现为控制系统120的一部分。
[0019]优选地，使用多种方式修改视频和/或音频流，或者视频和/或音频流仅被修改至对于人类而言微妙和/或不可探测、但是可以通过对视频或音频流的算法分析而探测的水平。低于预定水平的失真水平对于通常的人类观测者可能是察觉不到的。例如，即便标记是在每个字中，修改数据字中最低有效位一般也将不是引人注目的或者引起反对的。作为另一示例，在消隐间隔或回扫周期期间在视频帧中放置视频标记，或者在显示器底部的角落处放置视频标记可以不是引人注目的或者引起反对的。即便将视频标记放置作为最高有效位也可能不是引人注目或者引起反对的，只要是在帧期间的单个像素上。
[0020]可以例如通过使用一个或多个最低有效位来传送除了初始的音频或视频信号之外的信息而修改视频和/或音频流。可以对每个数据字、每隔一个数据字、每N个数据字、每N毫秒、在同步字或位之前或之后等等完成这样的修改。例如，(多个)合适的数据字的(多个)最后的位可以总

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：W.G.韦泰因;S.莱奥林;
技术所有人：微软技术许可有限责任公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。