一种语音激励控制方法及装置与流程

文档序号：22550671发布日期：2020-10-17 02:26阅读：481来源：国知局

本发明涉及会议电视领域，具体涉及一种语音激励控制方法及装置。

背景技术：

随着电信技术的发展，会议电视业务得到了越来越广泛的应用。在会议电视系统中，需要判断出会议中的多个说话方，并将其声音混合，使与会者感觉更加自然；与此同时，还要将发言人的图像广播给其他与会者。会议电视系统以会议电视多点控制单元(mcu)为核心，负责所有会场终端的图像切换和声音混合处理。由于会议电视的与会者通常为多个，需要对整个会议进行控制管理，即会议控制，例如切换发言人会场，控制混音，发言人选看会场等等。

会议控制模式包括语音激励控制模式，即在同时有多个会场发言时，以声音最大的会场作为广播端，将其声音或者图像广播到其他会场。语音激励的优点包括会议中发言者的视频流会被传送到主屏，mix切换主屏，并同时上报激励流id(显示当前的激励流)；需要改进的地方是背景噪音的剔除或减弱。目前，会议场景中存在的问题包括：没有实现语音激励，通过轮屏的方式，进行视角切换或锁定一个平面，互动性会比较差，当有人发言的时候，很难聚焦发言；语音激励的实现基于理论，未真正运用到产品中；语音激励的算法或解决方案不够优化，导致主屏切换频繁，无法锁定，降低了客户体验。因此，现有技术需要改进。

技术实现要素：

本发明实施例提供一种语音激励控制方法及装置，保证在网络会议的场景中，发言者和主屏图像保持一致。

本发明实施例提供的一种语音激励控制方法，包括：

以预设采样率在预设采样周期内采样每一客户端的语音，以所述采样周期内各采样点中音量的均值作为所述采样周期内对应客户端的音量参考值；

以所述采样周期内的各音量参考值的最大值对应的客户端作为所述采样周期的音量代表终端；

以连续多个采样周期为一采集周期，计算所述采集周期内的每一客户端作为所述音量代表终端的次数；

以所述次数最多的客户端作为当前语音激励终端。

可选的，在本发明的一些实施例中，所述以预设采样率在预设采样周期内采样每一客户端的语音，包括：

所述客户端至少包含两个。

可选的，在本发明的一些实施例中，所述以所述次数最多的客户端作为当前语音激励终端，包括：

所述次数最多的客户端至少包含两个，则比较所述客户端在所述采集周期内对应的采样周期；

以所述对应的采样周期中最后一采样周期对应的客户端作为当前语音激励终端。

可选的，在本发明的一些实施例中，设定一单位时间，所述单位时间内包含连续多个所述采集周期，所述单位时间内的每一采集周期对应的语音激励终端相同，则以所述语音激励终端对应的客户端作为当前发言人终端。

可选的，在本发明的一些实施例中，所述以所述语音激励终端对应的客户端作为当前发言人终端，包括：

传送所述当前发言人终端的视频至每一客户端。

可选的，在本发明的一些实施例中，所述以预设采样率在预设采样周期内采样每一客户端的语音，包括：

根据所述采样率和所述采样周期计算所述采样点的个数；

输出每一采样点对应的音量。

相应的，本发明实施例还提供了一种语音激励控制装置，包括：

采样单元，用于以预设采样率在预设采样周期内采样每一客户端的语音，以所述采样周期内各采样点中音量的均值作为所述采样周期内对应客户端的音量参考值；

比较单元，用于比较各音量参考值的大小，以所述采样周期内的各音量参考值的最大值对应的客户端作为所述采样周期的音量代表终端；

计算单元，用于以连续多个采样周期为一采集周期，计算所述采集周期内的每一客户端作为所述音量代表终端的次数；

语音激励单元，用于以所述次数最多的客户端作为当前语音激励终端。

可选的，在本发明的一些实施例中，所述所述语音激励单元包括：

设定单元，用于设定一单位时间，所述单位时间内包含连续多个所述采集周期；

判断单元，用于判断所述单位时间内的每一采集周期对应的语音激励终端相同，则以所述语音激励终端对应的客户端作为当前发言人终端。

此外，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的语音激励控制方法。

可选的，在本发明的一些实施例中，所述计算机设备包括上述的语音激励控制装置。

本发明实施例公开了一种语音激励控制方法及装置，该语音激励控制方法包括：以预设采样率在预设采样周期内采样每一客户端的语音，以所述采样周期内各采样点中音量的均值作为所述采样周期内对应客户端的音量参考值；以所述采样周期内的各音量参考值的最大值对应的客户端作为所述采样周期的音量代表终端；以连续阈值个采样周期为一采集周期，计算所述采集周期内的每一客户端作为所述音量代表终端的次数；以所述次数最多的客户端作为当前语音激励终端。本方案保证发言人不会因为突发的声音而发生频繁的切换，保证在网络会议的场景中，发言者和主屏图像保持一致，到达声讯一致的目的。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种语音激励控制方法的流程示意图；

图2是本发明一实施例提供的一种语音激励控制方法的工作流程图；

图3是本发明一实施例提供的一种语音激励控制装置的结构示意图；

图4是本发明一实施例提供的终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种语音激励控制方法及装置。该方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台等等。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

一种语音激励控制方法，包括：以预设采样率在预设采样周期内采样每一客户端的语音，以所述采样周期内各采样点中音量的均值作为所述采样周期内对应客户端的音量参考值；以所述采样周期内的各音量参考值的最大值对应的客户端作为所述采样周期的音量代表终端；以连续多个采样周期为一采集周期，计算所述采集周期内的每一客户端作为所述音量代表终端的次数；以所述次数最多的客户端作为当前语音激励终端。

如图1所示，该语音激励控制方法的具体流程可以如下：

101、以预设采样率在预设采样周期内采样每一客户端的语音，以所述采样周期内各采样点中音量的均值作为所述采样周期内对应客户端的音量参考值。

例如，在本发明实施例中，以g.711编码(一种脉冲编码调制的语音编解码标准)的音频为例，设定采样率为8khz，采样周期为1秒。每1秒内每个客户端可得到8000个采样点，输出每一采样点对应的音量。针对每个客户端，取8000个采样点的音量的均值，作为对应客户端在1秒内的音量参考值。

其中，参与会议的客户端至少包含两个。

102、以所述采样周期内的各音量参考值的最大值对应的客户端作为所述采样周期的音量代表终端。

例如，在采样周期内比较每个客户端对应的音量参考值的大小，将音量参考值的最大值对应的客户端作为该采样周期内的音量代表终端。设采样周期为1秒，即在1秒内的最大音量参考值对应的客户端为音量代表终端。

103、以连续多个采样周期为一采集周期，计算所述采集周期内的每一客户端作为所述音量代表终端的次数。

例如，一个采集周期包括多个采样周期，每一个采样周期都对应一音量代表终端，计算在一个采集周期内的每一客户端作为音量代表终端的次数。设定一个采集周期为3秒，即一个采集周期包括3个采样周期，计算3秒内的每一客户端作为音量代表终端的次数。

104、以所述次数最多的客户端作为当前语音激励终端。

例如，在一个采集周期内，某一客户端作为音量代表终端的次数最多时，将该客户端作为当前会议的语音激励终端。以采集周期3秒为例，某一客户端两次都作为音量代表终端，则将该客户端作为当前语音激励终端。

其中，在一个采集周期内，作为音量代表终端的次数最多的客户端至少包括两个，则比较次数最多的客户端对应的采样周期，以对应的采样周期中最后一次的采样周期对应的客户端作为当前的语音激励终端。

可选的，设参与会议的客户端为a，b和c，在第一个采样周期即第1秒内，客户端a，b，c的音量参考值为a1，b1，c1，在第二个采样周期即第2秒内，客户端a，b，c的音量参考值为a2，b2，c2，在第三个采样周期即第3秒内，客户端a，b，c的音量参考值为a3，b3，c3。比较a1，b1，c1的大小，a1为最大值即表示a1对应的客户端a作为第1秒内的音量代表终端，比较a2，b2，c2的大小，a2为最大值即表示a2对应的客户端a作为第2秒内的音量代表终端，比较a3，b3，c3的大小，b2为最大值即表示b2对应的客户端b作为第3秒内的音量代表终端。在一个采集周期3秒内，客户端a作为音量代表终端的次数为2，客户端b作为音量代表终端的次数为1，则将客户端a作为当前语音激励终端。

可选的，设参与会议的客户端为a，b和c，在第一个采样周期即第1秒内，客户端a，b，c的音量参考值为a1，b1，c1，在第二个采样周期即第2秒内，客户端a，b，c的音量参考值为a2，b2，c2，在第三个采样周期即第3秒内，客户端a，b，c的音量参考值为a3，b3，c3。比较a1，b1，c1的大小，a1为最大值即表示a1对应的客户端a作为第1秒内的音量代表终端，比较a2，b2，c2的大小，b2为最大值即表示b2对应的客户端b作为第2秒内的音量代表终端，比较a3，b3，c3的大小，c3为最大值即表示c3对应的客户端c作为第3秒内的音量代表终端。在一个采集周期3秒内，客户端a，b，c作为音量代表终端的次数相同，由于在对应的采样周期中，最后一个采样周期第3秒内的音量代表终端为客户端c，则将客户端c作为当前语音激励终端。

其中，设定一单位时间，单位时间内包含连续多个采集周期，单位时间内的每一采集周期对应的语音激励终端相同，则以当前语音激励终端对应的客户端作为当前发言人终端。该单位时间的设定不作限定，例如可以是30秒，在30秒内的采集周期中，某一客户端均为语音激励终端，则将该语音激励终端作为当前发言人终端。

其中，确定发言人终端后，将发言人终端的视频投放至会议主屏，传送到每一客户端。

如图2所示，本发明实施例提供了一种语音激励控制方法的工作流程图。

请参阅图2，首先设定一采样周期，以采样周期1秒为例，判断参加会议的客户端的个数是否大于1个，如果仅1个客户端则该方法不适用。本发明实施例以3个客户端a，b，c为例，采样每一客户端的语音，设采样4次，则在第1秒内，客户端a，b，c的音量参考值为a1，b1，c1，在第2秒内，客户端a，b，c的音量参考值为a2，b2，c2，在第3秒内，客户端a，b，c的音量参考值为a3，b3，c3，在第4秒内，客户端a，b，c的音量参考值为a4，b4，c4。然后判断每一采样周期内各音量参考值的大小，得到每一采样周期的音量代表终端。

设4秒内，客户端a对应的音量参考值均是最大，即客户端a作为音量代表终端的次数最多，则将客户端a作为当前语音激励终端；设4秒内，前两秒客户端a对应的音量参考值最大，后两秒客户端b对应的音量参考值最大，即存在多个客户端作为音量代表终端的次数相同，则比较这些客户端对应的采样周期，客户端b对应的采样周期是最后一次，则将客户端b作为当前的语音激励终端。

为了更好地实施以上方法，本发明实施例还可以提供一种语音激励控制装置，该语音激励控制装置具体可以集成在网络设备中，该网络设备可以是移动终端等设备。

例如，如图3所示，该语音激励控制装置可以包括采样单元301、比较单元302、计算单元303，语音激励单元304，如下：

(1)采样单元301

采样单元301，用于以预设采样率在预设采样周期内采样每一客户端的语音，以所述采样周期内各采样点中音量的均值作为所述采样周期内对应客户端的音量参考值。

例如，采样单元301根据预设采样率和预设采样周期计算得出采样点的个数，将各采样点中音量的均值作为采样周期内对应客户端的音量参考值。

(2)比较单元302

比较单元302，用于比较各音量参考值的大小，以所述采样周期内的各音量参考值的最大值对应的客户端作为所述采样周期的音量代表终端。

例如，在采样周期内比较每个客户端对应的音量参考值的大小，将音量参考值的最大值对应的客户端作为该采样周期内的音量代表终端。

(3)计算单元303

计算单元303，用于以连续多个采样周期为一采集周期，计算所述采集周期内的每一客户端作为所述音量代表终端的次数。

例如，一个采集周期包括多个采样周期，每一个采样周期都对应一音量代表终端，计算在一个采集周期内的每一客户端作为音量代表终端的次数。

(4)语音激励单元304

语音激励单元304，用于以所述次数最多的客户端作为当前语音激励终端。

例如，在一个采集周期内，某一客户端作为音量代表终端的次数最多时，将该客户端作为当前会议的语音激励终端。

其中，语音激励单元还包括设定单元和判断单元。设定单元，用于设定一单位时间，所述单位时间内包含连续多个所述采集周期；判断单元，用于判断所述单位时间内的每一采集周期对应的语音激励终端相同，则以所述语音激励终端对应的客户端作为当前发言人终端。

相应的，本发明实施例还提供一种移动终端，如图4所示，该移动终端可以包括射频(rf，radiofrequency)电路401、包括有一个或一个以上计算机可读存储介质的存储器402、输入单元403、显示单元404、传感器405、音频电路406、无线保真(wifi，wirelessfidelity)模块407、包括有一个或者一个以上处理核心的处理器408、以及电源409等部件。本领域技术人员可以理解，图4中示出的移动终端结构并不构成对移动终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

rf电路401可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器408处理；另外，将涉及上行的数据发送给基站。通常，rf电路401包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(sim，subscriberidentitymodule)卡、收发信机、耦合器、低噪声放大器(lna，lownoiseamplifier)、双工器等。此外，rf电路401还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(gsm，globalsystemofmobilecommunication)、通用分组无线服务(gprs，generalpacketradioservice)、码分多址(cdma，codedivisionmultipleaccess)、宽带码分多址(wcdma，widebandcodedivisionmultipleaccess)、长期演进(lte，longtermevolution)、电子邮件、短消息服务(sms，shortmessagingservice)等。

存储器402可用于存储软件程序以及模块，处理器408通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据移动移动终端的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器408和输入单元403对存储器402的访问。

输入单元403可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，在一个具体的实施例中，输入单元403可包括触敏表面以及其他输入设备。触敏表面，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器408，并能接收处理器408发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面，输入单元403还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元404可用于显示由用户输入的信息或提供给用户的信息以及移动终端的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元404可包括显示面板，可选的，可以采用液晶显示器(lcd，liquidcrystaldisplay)、有机发光二极管(oled，organiclight-emittingdiode)等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器408以确定触摸事件的类型，随后处理器408根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图4中，触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面与显示面板集成而实现输入和输出功能。

移动终端还可包括至少一种传感器405，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板的亮度，接近传感器可在移动终端移动到耳边时，关闭显示面板和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于移动终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路406、扬声器，传声器可提供用户与移动终端之间的音频接口。音频电路406可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路406接收后转换为音频数据，再将音频数据输出处理器408处理后，经rf电路401以发送给比如另一移动终端，或者将音频数据输出至存储器402以便进一步处理。音频电路406还可能包括耳塞插孔，以提供外设耳机与移动终端的通信。

wifi属于短距离无线传输技术，移动移动终端通过wifi模块407可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图4示出了wifi模块407，但是可以理解的是，其并不属于移动终端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器408是移动终端的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行移动终端的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器408可包括一个或多个处理核心；优选的，处理器408可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器408中。

移动终端还包括给各个部件供电的电源409(比如电池)，优选的，电源可以通过电源管理系统与处理器408逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源409还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，移动终端还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，移动终端中的处理器408会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器408来运行存储在存储器402中的应用程序，从而实现各种功能：

以预设采样率在预设采样周期内采样每一客户端的语音，以所述采样周期内各采样点中音量的均值作为所述采样周期内对应客户端的音量参考值；

以所述采样周期内的各音量参考值的最大值对应的客户端作为所述采样周期的音量代表终端；

以连续多个采样周期为一采集周期，计算所述采集周期内的每一客户端作为所述音量代表终端的次数；

以所述次数最多的客户端作为当前语音激励终端。

以上对本发明实施例所提供的一种语音激励控制方法及装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴伟;张军;肖康
技术所有人：广州科天视畅信息科技有限公司
我是此专利的发明人

上一篇：一种能够自动贴标的搬运机器人的制作方法
上一篇：一种用于工业生产中颗粒状物料的定质量给料设备的制作方法