视频会议系统、视频会议设备以及视频会议方法与流程

文档序号：22887014发布日期：2020-11-10 18:04阅读：177来源：国知局

本发明是有关于一种远端视频技术，且特别是有关于一种视频会议系统、视频会议设备以及视频会议方法。

背景技术：

随着视频会议的需求增加，如何设计一种视频会议装置可适用于各种会议情境皆可提供良好的视频效果是目前视频会议装置重要的研发方向之一。举例而言，当视频会议的一端中具有一个或多个会议成员时，如何自动地追踪一个或多个声音来源来提供相对应的会议画面是目前主要须克服的重要技术课题之一。并且，一般而言，传统的视频会议装置在取得会议影像后，会花费大量的处理器资源的运算量来对于撷取的整个会议影像进行影像分析，以决定特写人脸(说话者)的位置。有鉴于此，如何使视频会议装置可以以较低的影像处理的资料运算量来达成可自动追踪声音来源以及显示合适的会议画面效果，以下将提出几个实施例的解决方案。

本“背景技术”段落只是用来帮助了解本

技术实现要素：
，因此在“背景技术”段落所揭露的内容可能包含一些没有构成所属技术领域中的技术人员所知道的已知技术。在“背景技术”段落所揭露的内容，不代表所述内容或者本发明一个或多个实施例所要解决的问题，在本发明申请前已被所属技术领域中的技术人员所知晓或认知。

发明内容

本发明提供一种视频会议系统、视频会议设备以及视频会议方法可自动地感测声音来源，以提供对应的特写会议画面。

本发明的其他目的和优点可以从本发明所揭露的技术特征中得到进一步的了解。

为达上述之一或部分或全部目的或是其他目的，本发明的视频会议系统包括视频会议设备。视频会议设备包括影像检测装置、音源检测装置以及处理器。影像检测装置用于取得会议空间的会议影像。音源检测装置用于当检测到会议空间的声音来源所产生的声音时，输出定位信号。处理器耦接影像检测装置以及音源检测装置。处理器用于接收定位信号。处理器依据接收定位信号持续的预设时间长短后，再决定处理器依据定位信号来判断在会议影像对应于声音来源的子影像区块中是否存在真实人脸影像，以输出影像信号。显示设备耦接视频会议设备。显示设备用于依据影像信号来显示包括真实人脸影像的特写会议画面。

为达上述之一或部分或全部目的或是其他目的，本发明的视频会议设备包括影像检测装置、音源检测装置以及处理器。影像检测装置用于取得会议空间的会议影像。音源检测装置用于当检测到会议空间的声音来源所产生的声音时，输出定位信号。处理器耦接影像检测装置以及音源检测装置。处理器用于接收定位信号。处理器依据定位信号来判断在会议影像对应于声音来源的子影像区块中是否存在真实人脸影像，以输出影像信号至显示设备，以使显示设备依据影像信号来显示包括真实人脸影像的特写会议画面。

为达上述之一或部分或全部目的或是其他目的，本发明的视频会议方法包括以下步骤：经由影像检测装置取得会议空间的会议影像；当音源检测装置检测到会议空间的声音来源所产生的声音时，经由音源检测装置输出定位信号；经由处理器接收定位信号，以依据定位信号来判断在会议影像对应于声音来源的子影像区块中是否存在真实人脸影像，以输出影像信号；以及经由显示设备依据影像信号来显示包括真实人脸影像的特写会议画面。

基于上述，本发明的实施例至少具有以下其中一个优点或功效。本发明的视频会议系统、视频会议设备以及视频会议方法可经由影像检测装置取得会议空间的会议影像，并且经由音源检测装置检测在会议空间中的声音来源所产生的声音，以判断对应于声音来源的子影像区块中是否存在真实人脸影像，以使显示设备可对应地显示包括此真实人脸影像的特写会议画面。也就是说，本发明的视频会议系统、视频会议设备以及视频会议方法可自动地检测声音来源，并且进行影像辨识，以对应地产生合适的特写会议画面。

为让本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合附图作详细说明如下。

附图说明

图1是依照本发明的一实施例的视频会议系统的装置方块图。

图2是依照本发明的一实施例的视频会议方法的流程图。

图3a是依照本发明的一实施例的视频会议情境的示意图。

图3b是依照本发明的图3a实施例的特写会议画面的示意图。

图4是依照本发明的另一实施例的视频会议方法的流程图。

图5是依照本发明的一实施例的追踪声音来源的流程图。

图6是依照本发明的一实施例的调整会议影像的流程图。

图7是依照本发明的图6实施例的视频会议情境的示意图。

图8是依照本发明的又一实施例的视频会议方法的流程图。

图9a是依照本发明的又一实施例的视频会议情境的示意图。

图9b是依照本发明的图9a实施例的特写会议画面的示意图。

图10是依照本发明的一实施例的视频会议方法的流程图。

具体实施方式

有关本发明之前述及其他技术内容、特点与功效，在以下配合参考附图之一较佳实施例的详细说明中，将可清楚的呈现。以下实施例中所提到的方向用语，例如：上、下、左、右、前或后等，仅是参考附图的方向。因此，使用的方向用语是用来说明并非用来限制本发明。

为了使本发明之内容可以被更容易明了，以下特举实施例作为本发明确实能够据以实施的范例。另外，凡可能之处，在附图及实施方式中使用相同标号的元件/构件/步骤代表相同或类似部件。

图1是依照本发明的一实施例的视频会议系统的装置方块图。参考图1，视频会议系统10包括视频会议设备100以及显示设备200。在本实施例中，视频会议设备100包括处理器110、影像检测装置120、音源检测装置130、输入输出界面140以及储存装置150。处理器110耦接影像检测装置120、音源检测装置130、输入输出界面140以及储存装置150。处理器110经由输入输出界面140耦接显示设备200。显示设备200可例如是投影机(projector)或显示器(display)，本发明并不加以限制。输入输出界面140可以例如但不限定为采用蓝牙(bluetooth)、无线保真(wi-fi)、紫蜂(zigbee)或其它无线传输界面透过网际网络进行传输，亦不限定为采用光纤或其它有线传输界面进行传输。在本实施例中，视频会议设备100可为一个独立且可移动的装置，并且可放置在会议空间中的任何适当位置，例如桌子中央处、会议室的天花板等，以便取得会议空间的会议影像以及检测在会议空间中的声音来源。然而，在另一实施例中，视频会议设备100也可与其他电脑设备或显示设备整合，本发明亦不加以限制。

在本实施例中，处理器110可包括具有影像资料分析以及计算处理功能的中央处理单元(centralprocessingunit,cpu)，或是其他可编程之一般用途或特殊用途的微处理器(microprocessor)、影像处理器(imageprocessingunit,ipu)、图形处理器(graphicsprocessingunit,gpu)、数字信号处理器(digitalsignalprocessor,dsp)、特殊应用集成电路(applicationspecificintegratedcircuits,asic)、可编程逻辑装置(programmablelogicdevice,pld)、其他类似运算电路或这些电路的结合。并且，处理器110耦接储存装置150，以将用于实现本发明的视频会议系统以及视频会议方法所需的相关影像资料、影像分析程序(imageanalysissoftware)以及影像处理程序(imageprocessingsoftware)储存在储存装置150中，以供处理器110读取并执行相关的程序。储存装置150例如是存储器(memory)，可以是可移动随机存取存储器(randomaccessmemory，ram)、只读存储器(read-onlymemory，rom)、快闪存储器(flashmemory)或类似元件或上述元件的组合。

在本实施例中，影像检测装置120可例如是360度全景/全向摄影机(ominidirectionalcamera)。影像检测装置120可用于取得会议空间中的全景会议影像，并输出至处理器110。借由处理器110处理所取得的会议空间中的全景会议影像。在本实施例中，音源检测装置130可例如是麦克风阵列(microphonearray)，并且音源检测装置130借由回报声音来源的方向原理(directionofarrival,doa)可用于检测声音来源的方向，且检测声音来源所产生的声音的方向与强度，而输出对应的定位信号至处理器110。此外，麦克风阵列例如是具有四颗麦克风的排放阵列，可检测约半径5公尺范围内的声音来源。并且，当视频会议系统10开始进行视频会议操作时，处理器110可对影像检测装置120以及音源检测装置130预先进行校准操作，以使影像检测装置120的影像坐标与音源检测装置130的音源坐标具有一致性。也就是处理器110控制影像检测装置120以及音源检测装置130进行预先归零的校准操作。举例而言，处理器110可将音源检测装置130的方位角的0度对应于影像检测装置120所取得的会议影像的基准坐标轴的0度。

在本实施例中，视频会议设备100可与显示设备200位于不同的会议空间中(例如进行远端会议)，因此输入输出界面140可包括有线或无线的通信界面，以使处理器110经由通信界面输出影像信号至显示设备200。换言之，会议成员可分别位于不同会议空间，并且利用两个视频会议设备100分别来进行远端视频会议。然而，在一实施例中，视频会议设备100也可与显示设备200位于相同的会议空间中，例如进行室内演讲，因此输入输出界面140可包括影音界面，以使处理器110经由影音界面输出影像信号至显示设备200。此外，处理器110经由通信界面输出声音信号至显示设备200，其中显示设备200可以具有扩音设备(speaker)。

图2是依照本发明的一实施例的视频会议方法的流程图。参考图1以及图2，图2实施例的视频会议方法可适用于图1实施例的视频会议设备100。在步骤s210中，当进行视频会议时，处理器110经由影像检测装置120取得会议空间的会议影像。在步骤s220中，当音源检测装置130检测到会议空间的声音来源时，音源检测装置130输出定位信号。在本实施例中，音源检测装置130例如是判断声音来源的声音强度是否超过声音强度及声音持续时间的阈值(thresholds)，来决定是否输出定位信号至处理器110。在步骤s230中，处理器110接收定位信号，以依据定位信号来判断在会议影像对应于声音来源的子影像区块中是否存在真实人脸影像，以输出影像信号。在步骤s240中，显示设备200依据影像信号来显示包括真实人脸影像的特写会议画面以及拨放说话者的声音。因此，本实施例的视频会议方法可使视频会议设备100可主动地追踪会议成员的声音，并且可操作显示设备200同步地显示发出声音的会议成员的人脸影像，以提供良好的视频会议效果。

值得注意的是，上述的会议影像例如是全景影像，并且全景影像可划分为多个子影像区块。也就是说，本实施例的处理器110在分析会议影像当中是否存在真实人脸影像时，处理器110无须分析整个会议影像，而只分析对应于定位资料的某一子影像区块来进行人脸影像判断。换言之，本实施例的处理器110可以较低的影像处理的资料运算量，来达成人脸影像判断的功能。另外，本实施例中所述判断子影像区块中是否存在真实人脸影像的方式可例如是对人脸影像进行眨眼检测，以依据人脸影像是否在一预定时间内，发生眨眼、嘴形变化或移动的动作，来判断此人脸影像是否属于真实人脸影像，但本发明并不限于此。在一实施例中，处理器110亦可以依据其他人脸特征判断的方式来判断子影像区块中是否存在真实人脸影像。值得一提的是，前述处理器110可对影像检测装置120以及音源检测装置130预先进行校准操作，以使影像检测装置120的影像坐标与音源检测装置130的音源坐标具有一致性，其中音源检测装置130(麦克风阵列)可接收来自360度的声音，音源检测装置130可精准地检测约20～30度内的声音来源位置，因此可对应到全景影像(具有360度)所区分为12～18个子影像区块。举例而言，当在第一声音区间(0～20度)内有声音产生，处理器110可以针对撷取到的全景影像中对应第一声音区间的第一子影像区块进行分析，也就是处理器110可以依据上述人脸特征判断的方式来判断对应第一声音区间的第一子影像区块中是否存在真实人脸影像。

图3a是依照本发明的一实施例的视频会议情境的示意图。图3b是依照本发明的图3a实施例的特写会议画面的示意图。参考图1、图3a以及图3b，以下举例一个范例实施情境来说明。在视频会议情境30中，假设会议成员301～304围绕地坐在桌子t周围，并且视频会议设备100放置于桌子t上，不限定视频会议设备100放置于桌子t的位置。当视频会议进行时，影像检测装置120将先取得会议空间的会议影像，也就是取得围绕视频会议设备100的360度的影像。接着，当会议成员302说话时，音源检测装置130将检测到会议成员302发出的声音，也就是发出声音的方向，并且输出定位信号，以使视频会议设备100的处理器110分析会议影像的对应的子影像区块中是否存在真实人脸影像，以输出影像信号至显示设备200。在本实施例中，显示设备200可显示如图3b的特写会议画面310。特写会议画面310包括会议成员302的真实人脸影像311。值得注意的是，真实人脸影像311将被维持在特写会议画面310的中央位置。

然而，本发明的特写会议画面的显示方式不限于图3b。在一实施例中，当视频会议设备100的处理器110依据定位信号来判断在会议影像对应于声音来源的子影像区块中存在真实人脸影像时，若处理器110进一步判断在会议影像中的真实人脸影像周围还包括特定物件影像时，处理器110将调整特写会议画面，以使特写会议画面可同时包括真实人脸影像以及特定物件影像，或者是会议成员与特定物件影像同时出现于特写会议画面中。在一实施例中，特定物件影像可例如是触控笔、白板笔、白板或投影屏等，本发明并不加以限制。

图4是依照本发明的另一实施例的视频会议方法的流程图。参考图1以及图4，图4实施例的视频会议方法可适用于图1实施例的视频会议设备100。在步骤s410中，开始会议，视频会议设备100被启动。在步骤s420中，处理器110经由影像检测装置120取得会议影像。在步骤s430中，处理器110经由音源检测装置130判断是否检测到声音来源。若否，则视频会议设备100重新执行步骤s420。若是。则视频会议设备100执行步骤s440。在步骤s440中，音源检测装置130产生对应于声音来源的定位信号，并将定位信号提供至处理器110。在步骤s450中，处理器110依据定位信号判断在会议影像中的对应的子影像区块是否存在真实人脸影像，换句话说，处理器110借由接受定位信号且持续一预设时间长度后，处理器110再判断在会议影像中的对应的子影像区块是否存在真实人脸影像。若否，则视频会议设备100重新执行步骤s420。若是，则视频会议设备100执行步骤s460。在步骤s460中，显示设备200显示包括此真实人脸影像的特写会议画面。接着，视频会议设备100可重新执行步骤s420，以持续更新会议画面。因此，本实施例的视频会议方法可提供良好的视频会议效果。

图5是依照本发明的一实施例的追踪声音来源的流程图。参考图5，参考图1以及图5，图5实施例的追踪声音来源的方式可适用于图1实施例的视频会议设备100。本实施例的步骤s510可例如是接续上述图2的步骤s240或图4的步骤s460。在步骤s510中，处理器110分析对应于真实人脸影像的身体影像，以记录身体影像的身体特征资讯。在步骤s520中，处理器110经由音源检测装置130追踪声音来源，当声音来源移动时，处理器110维持显示真实人脸影像在特写会议画面的中央位置。在步骤s530中，处理器110判断在追踪声音来源的过程中，是否遗失真实人脸影像。若否，则视频会议设备100重新执行步骤s520。若是，则视频会议设备100执行步骤s540。在步骤s540中，处理器110依据身体特征资讯来维持特写会议画面的中央位置对应于声音来源。也就是说，本实施例的视频会议设备100在声音来源发生移动的过程中，仍可持续地追踪声音来源，以使特写会议画面可动态地维持显示声音来源的会议成员的影像。

图6是依照本发明的一实施例的调整会议影像的流程图。图7是依照本发明的图6实施例的视频会议情境的示意图。参考图1、图6以及图7，图6实施例的调整会议影像的方式可适用于图1实施例的视频会议设备100。本实施例的步骤s610可例如是接续上述图2的步骤s240或图4的步骤s460。当声音来源附近包括多名会议成员时(例如多个会议成员以及声音来源相近于预设距离内，预设距离例如为半径1～3公尺范围)，视频会议设备100可执行步骤s610～s630。在步骤s610中，显示设备200显示如上述图3b所示对应于单一声音来源的特写会议画面310，并且处理器110进一步分析会议影像，以判断在会议影像中的多个人脸影像。在步骤s620中，处理器110判断是否检测到会议空间的声音来源产生声音的时间超过预设时间长度为多声音来源状态，或无显著声音来源状态(例如声音音量低于预设音量阈值，判断为杂讯)。若否，则视频会议设备100重新执行步骤s610。若是，则视频会议设备100执行步骤s630。在步骤s630中，处理器110调整特写会议画面310为如图7所示的特写会议画面710，以使特写会议画面710可同时包括多个人脸影像711～713。也就是说，本实施例的视频会议方法可使视频会议设备100在声音来源附近包括多名会议成员时，在特定的预设条件下，可自动地调整特写会议画面，以使特写会议画面可呈现适当的会议视角。

而在其他实施例中，上述的处理器预先分析会议影像，以判断在会议影像中的多个人脸影像。当音源检测装置检测到会议空间中的声音来源产生声音的时间未达到预设时间长度，或同时存在多个声音来源状态且无显著声音来源状态时，处理器将调整特写会议画面，以使特写会议画面涵盖大部分会议成员的人脸影像或显示预设位置的影像，例如白板或者会议主持人的人脸影像。

图8是依照本发明的又一实施例的视频会议方法的流程图。参考图1以及图8，图8实施例的调整会议影像的方式可适用于图1实施例的视频会议设备100。在步骤s810中，当音源检测装置130检测到会议空间的多个声音来源时，音源检测装置130输出多个定位信号至处理器110。在步骤s820中，处理器110依据所述多个定位信号且持续一预设时间长度后，来分别判断在会议影像对应于所述多个声音来源的多个子影像区块中是否存在多个真实人脸影像，以使显示设备200于同一画面中的多个分割画面同时显示包括所述多个真实人脸影像的多个特写会议画面。也就是说，本实施例的视频会议设备100在同时存在多个声音来源的情况下，音源检测装置130可输出多个定位信号至处理器110，并且处理器100可针对对应于所述多个定位信号的多个子影像区块来各别进行如上述各实施例的单一声音来源的影像分析，并且可在同一画面中显示对应于所述多个声音来源的多个分割画面。在本实施例中，所述多个分割画面皆为特写会议画面。因此，本实施例的视频会议方法可使视频会议设备100可提供良好的视频会议效果。

图9a是依照本发明的又一实施例的视频会议情境的示意图。图9b是依照本发明的图9a实施例的特写会议画面的示意图。参考图1、图9a以及图9b，以下举例一个范例实施情境来说明之。在视频会议情境90中，假设会议成员901～904围绕地坐在桌子t周围，并且视频会议设备100放置于桌子t上。当视频会议进行时，影像检测装置120将先取得会议空间的会议影像。接着，当会议成员902、904同时说话时，音源检测装置130将检测到会议成员902、904分别发出的声音，并且输出两个定位信号且持续一预设时间长度后，以使处理器110分析会议影像的对应的两个子影像区块中是否存在真实人脸影像，以输出影像信号至显示设备200。在本实施例中，显示设备200可显示如图9b的会议画面910。会议画面910包括两个特写会议画面911、912(分割画面)。特写会议画面911例如包括会议成员902的人脸影像，并且特写会议画面912例如包括会议成员904的人脸影像。并且，会议成员902、904的人脸影像分别位于特写会议画面911、912的中央位置。

图10是依照本发明的一实施例的视频会议方法的流程图。参考图1以及图10，图10的实施例的调整会议影像的方式可适用于图1实施例的视频会议设备100，并且图10是参照及整合上述部分实施例流程的一个实施例。在步骤s1010中，开始会议，视频会议设备100被启动，并且影像检测装置120取得会议影像。在步骤s1020中，音源检测装置130判断是否检测到声音来源。若否，则视频会议设备100重新执行步骤s1010。若是，则视频会议设备100执行步骤s1030。在步骤s1030中，音源检测装置130产生对应于声音来源的定位信号。在步骤s1040中，处理器110依据定位信号判断在会议影像中是否存在人脸影像。若否，则视频会议设备100重新执行步骤s1010。若是，则视频会议设备100执行步骤s1050。

在步骤s1050中，处理器110依据定位信号判断在会议影像中是否存在多个人脸影像。若否，则视频会议设备100执行步骤s1060。在步骤s1060中，判断人脸影像是否为真实人脸影像。若否，则视频会议设备100重新执行步骤s1010。若是，则视频会议设备100执行步骤s1070。在步骤s1070中，显示设备200显示包括此真实人脸影像的特写会议画面。反之，若处理器110判断在会议影像中存在有多个人脸影像，则视频会议设备100执行步骤s1080。在步骤s1080中，处理器110各别判断所述多个人脸影像是否为真实人脸影像。若否，则视频会议设备100执行步骤s1070。若是，则视频会议设备100执行步骤s1090。在步骤s1090中，显示设备200显示包括多个真实人脸影像的特写会议画面。因此，本实施例的视频会议方法可使视频会议设备100可主动地追踪多个会议成员的声音，并且可操作显示设备200同步地显示发出声音的会议成员的人脸影像，以提供良好的视频会议效果。

另外，关于本实施例的各步骤的实施方式、变化以及其延伸可参照上述图1至图9b实施例的说明而获致足够的教示、建议以及实施说明，因此不再赘述。

综上所述，本发明的实施例至少具有以下其中一个优点或功效。本发明的视频会议系统、视频会议设备以及视频会议方法可经由影像检测装置取得会议空间的会议影像，以及经由音源检测装置检测在会议空间中的声音来源，以较低的影像处理的资料运算量来达成人脸影像判断的功能。并且，本发明的视频会议系统、视频会议设备以及视频会议方法在单一声音来源以及多个声音来源的情境下皆可以提供良好的视频会议效果。此外，本发明的视频会议系统、视频会议设备以及视频会议方法还可搭配例如眨眼检测、特定物件影像判断、身体特征资讯分析以及特写会议画面调整等功能来提供良好且更完善的视频会议功能。再者，本发明可达到视频会议设备不用每次借由影像检测装置扫描所有区域进行真实人脸影像检测，节省视频会议设备的运算资源。

惟以上所述者，仅为本发明之较佳实施例而已，当不能以此限定本发明实施之范围，即所有依本发明权利要求书及发明内容所作之简单的等效变化与修改，皆仍属本发明专利涵盖之范围内。另外本发明的任一实施例或权利要求不须达成本发明所揭露之全部目的或优点或特点。此外，摘要和发明名称仅是用来辅助专利文件检索之用，并非用来限制本发明之权利范围。此外，本说明书或权利要求书中提及的“第一”、“第二”等用语仅用于命名元件(element)的名称或区别不同实施例或范围，而并非用来限制元件数量上的上限或下限。

附图标记说明：

10：会议系统

30、90：视频会议情境

100：会议设备

110：处理器

120：影像检测装置

130：音源检测装置

140：输入输出界面

150：储存装置

200：显示设备

301～304、901～904：会议成员

310、710、910、911、912：会议画面

311、711～713：人脸影像

s210～s240、s410～s460、s510～s540、s610～s630、s810～s820、s1010～s1090：步骤

t：桌子。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：崔源茂;许硕修;李侑城
技术所有人：奥图码科技股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。