控制视频会议的方法

文档序号：2830625阅读：385来源：国知局

专利名称：控制视频会议的方法
技术领域：
本发明涉及一种控制视频会议的方法、视频会议服务器和用于执行所述方法的计算机程序产品。
背景技术：
DE 199 63 102 Al描述一种可视电话设备，该设备包括用于发送和接收音频和视频数据的电话设备、显示设备、图片记录设备、麦克风设备和定位装置。定位装置确定呼叫者所持的麦克风的空间位置。确定的数据用来以捕捉呼叫者的头部这样的方式布置图片记录设备。然后，呼叫者的图片数据与语音数据一起发送到其他呼叫者。从其他呼叫者接收的图片数据显示在显示设备上，优选显示在电视机上。相对于现有技术的可视电话设备而言，这一设备的优点在于无需呼叫者保持于固定位置。
目前，如果在视频会议中有许多参与者，则视频显示器放映发言者和/或具有所有其他参与者的一组较小窗口。由于窗口小(归因于在视频会议中有许多参与者这样的事实)，所以难以评定以下的人的反应，这些人是当前正在进行的话题的利害关系人 (stakeholder)。在公共TV会议期间，若干摄影师可以具体地聚焦于对当前演说的主题进行论述的人。总监告知摄影师显示哪个人。

发明内容
本发明的目的在于提供一种改进的视频会议控制。本发明的目的通过一种控制具有两个或者更多参与者的视频会议的方法来实现，其中该方法包括以下步骤动态确定视频会议的话题；访问参与者数据库，该参与者数据库包括一个或者多个参与者与一个或者多个相应属性的关联；将确定的话题映射到一个或者多个相应属性中的一个或者多个属性；根据所述映射从与一个或者多个相应属性关联的一个或者多个属性中选择与确定的话题关联
的一个或者多个参与者；并且在屏幕上显示所选择的参与者中的一个或者多个参与者。另外，本发明的目的通过一种用于控制具有两个或者更多参与者的视频会议的视频会议服务器来实现，其中该视频会议服务器包括控制单元，该控制单元适合于动态确定视频会议的话题；访问参与者数据库，该参与者数据库包括一个或者多个参与者与一个或者多个相应属性的关联；将确定的话题映射到一个
或者多个相应属性中的一个或者多个属性；根据所述映射从与一个或者多个相应属性关联的一个或者多个属性中选择与确定的话题关
联的一个或者多个参与者；并且控制所选择的参与者中的一个或者多个参与者在屏幕上的显示。另外，本发明的目的通过一种用于控
制具有两个或者更多参与者的视频会议的计算机程序产品来实现，其中该视频会议服务器包括控制单元，其中该算机程序产品在由视频会议服务器执行时实现以下步骤动态确定视频会议的话题；访问参与者数据库，该参与者数据库包括一个或者多个参与者与一个或者多个相应属性的关联；将确定的话题映射到一个或者多个相应属性中的一个或者多个属性；根据所述映射从与一个或者多个相应属性关联的一个或者多个属性中选择与确定的话题关联的一个或者多个参与者；并且触发所选择的参与者中的一个或者多个参与者在屏幕上的显示。
利用新的解决方案，有限数目的参与者显示于屏幕上。当发言者讨论一个主题时，视频会议的参与者可以看见所涉及到的参与者关于他所说内容的面部反应。因此另一参与者立即知道谁是相关利害关系人。
在视频会议期间，参与者的显示在主题改变时改变。视频会议的控制是交互式和动态的。本发明也意味着优化视频会议的资源，因为仅可以以高分辨率看见显示的人。
6本发明将音频过滤和检测能力与屏幕的布局紧密关联，因此提高了视频会议参与者的注意力。屏幕的布局动态改变从而适应^见频会议的当前条件，因此提供对理解视频会议的支持。
本发明提供以下可能性，即在相同屏幕上清晰地看见视频会议的相关参与者并且看见在发言者讨论的当前话题中涉及到的人的反应。因而一见频会议的体验接近于面对面的会议。
更多优点由从属权利要求示出的本发明实施例实现。
各参与者连接到用于视频会议的电信网络。在视频会议期间，各参与者由相机(例如摄像头)成像，由此提供视频数据。一个或者多个参与者在视频会议期间发言，因此提供语音数据。源于参与者的视频数据和语音数据被发送到网络的中心点，即视频会议服务器。视频数据的发送称为视频业务，语音数据的发送称为语音业务。
另外，有可能的是一个或者多个参与者不由相机进行成像，但是那些参与者的视频数据(例如照片)由视频会议服务器或者参与
者的电信终端存储和提供。
根据本发明的一个优选实施例，在视频会议期间在两个或者更多参与者之间交换的语音业务由视频会议服务器监视。视频会议服务器收集来自发言参与者的语音业务并且分析收集的语音业务。优选地，视频会议服务器的控制单元控制语音和视频业务的处理。语音业务包括自然口头语言。视频会议服务器的控制单元借助词法、句法和语义分析来分析从发言参与者接收的语音业务。优选地，控制单元将自然语言的句子解构成词实体序列、按语义分析词实体、丢弃诸如"和"、"我们"、"的"、"因此"等不重要的词、提取诸如"项
目XXX"、"项目WWW"等，并且因此跟踪一见频会议中当前讨i仑的关
键字的改变。因此，控制单元从接收的语音业务提取为了确定话题而必需的信息。
也有可能的是参与者完全意识到视频会议的自动控制。一些关键字如"项目"可能已经预定为公知关键字。因此，参与者有义务对
关键字(比如"项目XXX")进行特别清楚和良好地发音。这简化了控制单元的操作。
也有可能的是控制单元生成持续更新的对被提取关键字的统计。控制单元可以假设最近提取的关键字表征当前讨论的话题。也有可能的是在过去的一段时间段期间(例如在最近的一分钟期间) 最频繁提及的关键字视为相关。根据关键字的动态更新统计，控制单元推断视频会议的话题。
在本发明的一个优选实施例中，通过跟踪视频会议的预定议程来确定当前讨论的视频会议的话题。议程可以表明一见频会议的话题
以及与相应话题关联的开始和/或结束时间。例如，议程可以比如是 9时00分开始、9时03分项目TTT、 9时10分项目WWW、 9时25 分项目XXX、 9时30分项目YYY、 9时35分结束。一见频会议月良务器参考时钟并且确定在各时间步长(例如秒)必须显示哪些参与者。
也有可能的是一个或者多个参与者有可能在视频会议期间动态调节议程(例如如果出现意外延迟)以使议程与实际进度相符。
优选地，视频会议参与者确定视频会议的当前讨论话题的改变并且根据改变来持续地调整一个或者多个所选择的参与者在屏幕上的显示。有可能的是与话题关联的主讲者随着话题改变而改变。也有可能的是与话题相关的参与者随着话题改变而改变。视频会议服务器监视语音数据和/或预定议程并且根据监视结果来确定当前讨论话题。视频会议服务器根据当前讨论的话题来改变向当前相关参与者的屏幕显示。
关于语音识别，句子中与各种属性对应的词序列不应当进行对关联参与者的许多改变。因此，提供一种上下文识别工具，该工具确定参与者关于新话题健谈并且这时切换到新的显示。优选地，对新确定的各屏幕布局施加最少显示时间。这样，例如在讨论话题A 的发言者仅以附属方式提及话题B时，将避免对屏幕布局的不希望的短期改变。
所有参与者与技能和/或任务和/或话题自动或者手工关联。有可能的是视频会议服务器访问如下数据库，其中可以取回参与者与
8属性(例如技能和/或任务和/或话题)的关联。例如，在公司内安排视频会议，其中视频会议的所有参与者属于该公司。视频会议有权访问公司雇员数据库，其中存储公司所有雇员的所有个人数据和属性(例如任务/话题)。在作为参与者的雇员登录到视频会议服务器 (例如雇员使用公司雇员数据库中使用的登录名)时，视频会议服
据接收到参与者数据库中。参与者数据库列举视频会议的参与者和参与者的相应属性。
于各公司保持它的秘密数据无法为第三方所访问，所以视频会议服务器不能接入相应公司中保持的个人数据库。在参与者登录到视频会议服务器时，视频会议服务器要求参与者提供与参与者关联的相关数据并且将提供的相关数据收集到参与者数据库中。
属性、即与参与者关联的相关数据可以是参与者的技能(例如
语言技能或者计算机技能)、参与者的任务和项目、视频会议的议程上的话题、种族背景等。
根据本发明的另一优选实施例，视频会议服务器在屏幕上同时显示视频会议的至少一个发言参与者和所有所选择的参与者(各自在单独窗口中)。例如，屏幕可以在屏幕的右半部分示出当前做报
告的参与者(例如关于项目XXX发言)而在屏幕的左半部分示出参
与到项目xxx中的两个参与者。
还有可能的是一个或者多个预定义属性存储于目录(例如公司雇员数据库或者由负责视频会议的人生成的数据库)中。当视频会
议的参与者通过登录到视频会议服务器来加入^L频会议时，视频会议服务器向加入的参与者呈现选择菜单。选择菜单可以使用GUI或者实施为话音控制的选择过程(GUN图形用户接口 )。选择菜单包括存储于目录中的一个或者多个预定义属性。加入的参与者从目录中选择与加入的参与者关联的一个或者多个预定义属性。视频会议服务器在参与者数据库中生成条目，该条目包括加入的参与者的标识符以及加入的参与者与所选择的一个或者多个属性的关联。

通过阅读与以下附图结合进行的对当前优选示例实施例的下
文具体描述将更好地理解本发明的这些以及更多特征和优点
图1是根据本发明一个实施例的用于控制视频会议的系统的框图。
图2是根据本发明一个实施例的参与者数据库。图3是示出了根据本发明一个实施例的视频会议的过程 (course)动作的消息流示图。
具体实施例方式
图1示出了视频会议系统100,其中各自在不同位置的参与者 1、 2、 3和4经由电信网络7参加一见频会议。各参与者l、 2、 3和4 与经由无线或者有线连接来与连接到电信网络7的相应电信终端 10、 20、 30、 40关联。各电信终端10、 20、 30、 40 (例如计算机工作站或者移动电话)包括相应输入装置ll、 21、 31、 41 (例如键区/ 鼠标和麦克风)、相应输出装置12、 22、 32、 42 (例如视频屏幕和扬声器)以及用于对相应参与者1、 2、 3和4进行照片拍摄的相机 13、 23、 33、 43。
输入装置11、 21、 31、 41从参与者1、 2、 3、 4接收(经由麦克风输入的)语音信号并且生成对应语音输入数据。另外，输入装置ll、 21、 31、 41从参与者1、 2、 3、 4接收(经由麦克风和/或键区/鼠标输入的)控制数据。语音输入数据和控制数据从终端10、 20、 30、 40发送到电信网络7的视频会议服务器70。相机13、 23、 33、 43对各参与者1、 2、 3、 4进行成像，生成对应一见频输入数据。视频输入数据从终端10、 20、 30、 40发送到视频会议服务器70。
另外可能的是一个或者多个参与者不由相机进行成像、但是那些参与者的视频数据(例如照片)由视频会议服务器或者参与者的电信终端存储和提供。
视频会议服务器70连接到可经由电信网络7访问的外部数据库80。视频会议服务器70收集语音输入数据、视频输入数据和控制数据。视频会议服务器70处理接收的输入数据，并且根据输入数据生成将在输出装置12、 22、 32、 42的屏幕上显示的视频输出数据和将在输出装置12、 22、 32、 42的扬声器上输出的语音输出数据。
视频会议服务器70由一个或者数个互连计算机(即硬件平
系统平台执行的数个应用程序组成。通过执行这些应用程序来提供视频会议服务器70的功能性。应用程序或者这些应用程序的被选择的部分构成计算机软件产品，该计算机软件产品在执行于系统平台上时提供如下文所述的视频会议控制。另外，这样的计算机软件产品由存储介质构成，该存储介质存储这些应用程序或者应用程序的所述被选择的部分。从功能的观点来看，视频会议服务器70包括控制单元71和存储器单元72。
当参与者1、 2、 3、 4希望加入视频会议时，他们登录视频会议服务器70。因此，视频会议服务器70的控制单元71从各参与者 1、 2、 3、 4接收用于标识参与者1、 2、 3、 4的标识符。假设所有参与者l、 2、 3、 4属于相同公司。视频会议参与者7访问公司的雇员数据库80、基于参与者l、 2、 3、 4的标识符确定数据库中与参与者 1、 2、 3、 4关联的条目、并且从这一数据库取回与参与者1、 2、 3、 4关联的属性。
根据取回的与参与者l、 2、 3、 4关联的数据，视频会议服务器70的控制单元71生成参与者数据库并且将它存储于存储器单元 72中。作为备选，控制单元71可以在参与者登录时基于参与者为了接收对视频会议的接入而被要求进行的数据输入来生成参与者数据库。
图2示出了前述参与者数据库200,其中四个参与者1、 2、 3、 4中的各参与者与话题和技能关联。以具有列201、 202、 203、 204
ii和行205、 206、 207、 208的表200这一形式代表该关联。第一列201 例如通过列举相应标识符、姓名、电话号码、SIP地址、电子邮件地址、登录名等(SIP—舌路发起协议)来给出视频会议的参与者1、 2、 3、 4。第二列202给出与相应参与者1、 2、 3、 4关联的第一项目。第三列203给出与相应参与者1、 2、 3、 4关联的第二项目。第四列 204给出与相应参与者1、 2、 3、 4关联的技能，具体为语言技能。例如，行207给出关于参与者3的条目。参与者3参与到项目ZZZ 和YYY中并且能说法语。
图3给出了在参与者1、 2、 3、 4之间的视频会议在时间(t= 时间)上的动作过程。假设视频会议的状态如下，其中参与者1发言301，而其他参与者2、 3、 4当前为被动，即收听。参与者1当前关于项目YYY发言301。
来自参与者1的声信号301由其输入装置11的麦克风接收、由麦克风15、 16转换成语音信号并且发送到终端10的控制单元。语音信号在此转换成语音数据并且从终端11发送302到视频会议服务器70。
语音数据在视频会议服务器70处被接收并且在控制单元71中受到处理。对于从参与者1的麦克风接收的语音数据的强度与从其他参与者2、 3、 4的麦克风接收的语音数据的强度进行比较。根据这一比较来推断参与者1为主讲者而其他参与者2、 3、 4为收听者。
接着，对参与者1的语音数据进行语音过滤过程和语音识别过程。语音过滤过程适合于从人类语音中过滤任何乱真声(spurious acoustic)信号，比如业务噪声、机器噪声、背景声音。语音过滤可以基于以下事实不同声音类型如人类语音、业务噪声、背景噪声 (咳嗽、翻页等)在不同频率范围中被发现或者具有不同特性的声音模式。
在语音识别过程303中，控制单元71例如分析语音数据并且提取关4建字，例如词"项目"和随后的项目标识符，即"项目YYY"。在提取的关键字为"项目YYY"时，控制单元71访问存储器单元72中存储的、图2中所示的参与者数据库200,并且查找与当前讨论的"项目YYY"关联的参与者。控制单元71确定305参与者2、 3、 4参与到"项目YYY"中。
基于这一结果，控制单元71控制306将向视频会议的所有参与者1、 2、 3、 4的输出装置12、 22、 32、 42的屏幕发送的屏幕图像的布局307。控制单元71确定306在屏幕的右半部分示出作为主讲者的参与者1而在屏幕的左半部分从上到下依次示出其它参与者 2、 3、 4。
在后面的某个时间，参与者1仍然为主讲者，但是参与者1讨论的项目已经改变成"项目XXX" (311)。类似于上述方式，控制单元71从语音数据提取313关键字"项目XXX"，并且根据参与者数据库200确定315参与者2和4参与到"项目XXX"中。
基于这一结果，控制单元71触发对于将向视频会议的所有参与者1、 2、 3、 4的输出装置12、 22、 32、 42的屏幕发送的屏幕图像的布局317的改变。控制单元71确定316在屏幕的右半部分示出作为主讲者的参与者1而在屏幕的左半部分从上到下依次示出参与者2和4。
权利要求
1.一种控制具有两个或者更多参与者(1，2，3，4)的视频会议的方法，其特征在于所述方法包括以下步骤动态确定所述视频会议的话题；访问参与者数据库(200)，所述参与者数据库包括所述参与者(1，2，3，4)中的一个或者多个参与者与一个或者多个相应属性(202，203，204)的关联；将所确定的话题映射到所述一个或者多个相应属性(202，203，204)中的一个或者多个属性；根据所述映射从与所述一个或者多个相应属性(202，203，204)关联的所述一个或者多个参与者(1，2，3，4)中选择与所确定的话题关联的一个或者多个参与者(1，2，3，4)；以及在屏幕上显示所选择的参与者(1，2，3，4)中的一个或者多个参与者。
2. 根据权利要求1所述的方法，其特征在于所述方法还包括以下步骤监视在所述视频会议期间在所述两个或者更多参与者(1， 2， 3，4)之间交换的语音业务；将所监视的语音业务转换成文本实体序列；并且以及从所述文本实体序列中提取用于确定所述^L频会议的话题的关键字。
3. 根据权利要求2所述的方法，其特征在于所述方法还包括以下步骤建立所述关键字的动态统计；根据所建立的所述关键字的动态统计来推断所述视频会议的话题。
4. 根据权利要求1所述的方法，其特征在于所述方法还包括以下步骤基于所述视频会议的预定议程来确定所述一见频会议的话题。
5. 根据权利要求1所述的方法，其特征在于所述方法还包括以下步骤确定所述视频会议的话题的改变；以及对应于所述改变来持续地调整所选择的参与者(1， 2, 3， 4) 中的所述一个或者多个参与者在所述屏幕上的显示(307, 317 )。
6. 根据权利要求1所述的方法，其特征在于所述方法还包括以下步骤自动和/或手工生成所述参与者数据库(200),所述一个或者多个相应属性(202， 203, 204)涉及相应参与者(1, 2, 3， 4)的技能和/或任务。
7. 根据权利要求1所述的方法，其特征在于所述方法还包括以下步骤在所述屏幕上各自在单独窗口中同时显示所述视频会议的至少一个发言参与者(1, 2, 3， 4)和所有所选择的参与者(1， 2， 3， 4)。
8. 根据权利要求1所述的方法，其特征在于所述方法还包括以下步骤在目录中存储一个或者多个预定义属性(202， 203, 204);在参与者(1， 2， 3， 4)加入所述视频会议时，向所述加入的参与者(l， 2, 3， 4)提供选择菜单，所述选择菜单用于从所述目录选择所述预定义属性中与所述加入的参与者(1, 2, 3, 4)关联的一个或者多个预定义属性；以及在所述参与者数据库(200 )中存储条目，所述条目包括所述加入的参与者(1， 2， 3, 4)与所选择的一个或者多个属性的关联。
9. 一种用于控制具有两个或者更多参与者(1, 2， 3, 4)的视频会议的视频会议服务器(70)，其特征在于所述视频会议服务器(70)包括控制单元(71)，所述控制单元适合于动态确定所述纟见频会议的话题；访问参与者数据库(200),所述参与者数据库包括所述参与者 (1, 2， 3, 4)中的一个或者多个参与者与一个或者多个相应属性 (202， 203， 204)的关联；将所确定的话题映射到所述一个或者多个相应属性(202， 203， 204)中的一个或者多个属性；根据所述映射从与所述一个或者多个相应属性(202, 203, 204) 关联的所述一个或者多个参与者(1， 2, 3, 4)中选择与所确定的话题关联的一个或者多个参与者(1, 2， 3, 4);以及控制所选择的参与者(1， 2， 3， 4)中的一个或者多个参与者在屏幕上的显示。
10. —种用于控制具有两个或者更多参与者(1， 2, 3, 4)的视频会议的计算机程序产品，其特征在于所述计算机程序产品在由视频会议服务器(70)执行时实现以下步骤动态确定所述视频会议的话题；访问参与者数据库(200 ),所述参与者数据库包括所述参与者 (1， 2， 3, 4)中的一个或者多个参与者与一个或者多个相应属性 (202, 203, 204)的关联；将所确定的话题映射到所述一个或者多个相应属性(202, 203, 204)中的一个或者多个属性；根据所述映射从与所述一个或者多个相应属性(202, 203, 204) 关联的所述一个或者多个参与者(1， 2, 3， 4)中选择与所确定的话题关联的一个或者多个参与者(1, 2, 3, 4);以及触发所选择的参与者(1， 2, 3， 4)中的一个或者多个参与者在屏幕上的显示。
全文摘要
本发明涉及一种控制具有两个或者多个参与者(1，2，3，4)的视频会议的方法以及视频会议服务器和用以执行这一方法的计算机程序产品。动态确定(303，313)视频会议的话题。访问(304，314)参与者数据库，该参与者数据库包括一个或者多个参与者(1，2，3，4)与一个或者多个相应属性的关联。将确定的话题映射到所述一个或者多个相应属性中的一个或多个属性。根据所述映射从与一个或者多个相应属性关联的一个或者多个参与者(1，2，3，4)中选择(305，315)与确定的话题关联的一个或者多个参与者(1，2，3，4)。在屏幕上显示(307，317)所选择的一个或者多个参与者(1，2，3，4)。
文档编号G10L15/00GK101689365SQ200780053382
公开日2010年3月31日申请日期2007年9月13日优先权日2007年9月13日
发明者P-B·勒戈夫, Y·布朗夏尔申请人:阿尔卡特朗讯

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：Ｐ－Ｂ.勒戈夫;Ｙ.布朗夏尔
技术所有人：阿尔卡特朗讯
我是此专利的发明人

上一篇：解码装置、解码方法及程序的制作方法
上一篇：基于表演情景来修改卡拉ok系统中的视听输出的制作方法