画面输出控制方法、装置、设备及机器可读存储介质与流程

文档序号：27258340发布日期：2021-11-05 20:42阅读：87来源：国知局

1.本技术涉及画面输出控制技术领域，尤其涉及一种画面输出控制方法、装置、设备及机器可读存储介质。

背景技术：

2.随着互联网技术和视频技术的高速发展，实时视频通讯技术的应用逐渐普及，给人们的工作生活带来了很多便利。
3.作为实时视频通讯技术的主要应用之一，视频会议使与会人员不再局限于固定的物理区域，而是可以远程参与会议，实时获取会场画面以及发言人的发言信息。
4.目前，为了让与会人员更直观地获取发言人的发言，会场通常会部署专门的视频采集设备获取发言人的特写画面，将发言人的特写画面展示在与会人员的显示设备中。当发言人位置发生变化时，会通过控制云台转动，来控制视频采集设备转动，以持续获取发言人的特写画面。
5.实践发现，传统视频会议方案中，云台随着发言人位置变化而转动过程中，与会人员的显示设备中显示的画面会持续发生变化，影响会议画面观看效果，降低用户体验。

技术实现要素：

6.有鉴于此，本技术提供一种画面输出控制方法、装置、设备及机器可读存储介质。
7.根据本技术实施例的第一方面，提供一种画面输出控制方法，包括：
8.当检测到指定目标的位置发生变化，且确定所述指定目标的位置变化满足图像切换条件时，控制切换为输出第一视频画面，并依据所述指定目标的位置变化对第二视频采集设备进行云台控制，所述第一视频画面为第一视频采集设备获取的画面，所述第一视频采集设备用于获取非特写画面，所述第二视频采集设备用于获取所述指定目标的特写画面；
9.当针对所述第二视频采集设备的云台控制停止时，控制切换为输出第二视频画面，所述第二视频画面为所述第二视频采集设备获取的画面。
10.根据本技术实施例的第二方面，提供一种画面输出控制装置，包括：检测单元、确定单元以及控制单元；其中：
11.所述控制单元，用于当所述检测单元检测到指定目标的位置发生变化，且所述确定单元确定所述指定目标的位置变化满足图像切换条件时，控制切换为输出第一视频画面，并依据所述指定目标的位置变化对第二视频采集设备进行云台控制，所述第一视频画面为第一视频采集设备获取的画面，所述第一视频采集设备用于获取非特写画面，所述第二视频采集设备用于获取所述指定目标的特写画面；
12.所述控制单元，还用于当针对所述第二视频采集设备的云台控制停止时，控制切换为输出第二视频画面，所述第二视频画面为所述第二视频采集设备获取的画面。
13.根据本技术实施例的第三方面，提供一种画面输出控制设备，包括：主控制器、第
一摄像头、连接云台的第二摄像头、以及阵列麦克风；其中：
14.所述第一摄像头，用于人员检测；
15.所述第二摄像头，用于获取人员特写画面；
16.所述阵列麦克风，用于通过声源定位算法，确定指定目标的位置；
17.所述主控制器，用于实现第一方面的画面输出控制方法；
18.其中，所述第一视频采集设备为所述第一摄像头，所述第二视频采集设备为所述第二摄像头。
19.根据本技术实施例的第四方面，提供一种电子设备，包括处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，所述处理器用于执行机器可执行指令，以实现第一方面的画面输出控制方法。
20.根据本技术实施例的第五方面，提供一种计算机可读存储介质，计算机可读存储介质内存储有计算机程序，计算机程序被处理器执行时实现第一方面的画面输出控制方法。
21.根据本技术实施例的第六方面，提供一种计算机程序，该计算机程序存储于机器可读存储介质，并且当处理器执行该计算机程序时，促使处理器执行第一方面的画面输出控制方法。
22.本技术实施例的画面输出控制方法，在检测到指定目标的位置发生变化，且确定指定目标的位置变化满足图像切换条件时，控制切换为输出第一视频画面，并依据指定目标的位置变化对第二视频采集设备进行云台控制，避免了由于输出对第二视频采集设备进行云台控制的过程中的第二视频画面导致用户产生眩晕感，且避免了对第二视频采集设备的频繁云台控制，以及输出画面的频繁切换，当针对第二视频采集设备的云台控制停止时，控制切换为输出第二视频画面，使画面内容与指定目标更加匹配，优化了视频画面输出效果。
附图说明
23.图1是本技术实施例提供的一种画面输出控制方法的流程示意图；
24.图2a是本技术实施例提供的一种发言人的状态示意图；
25.图2b是本技术实施例提供的一种状态细化的效果示意图；
26.图3是本技术实施例提供的一种信息采集设备的示意图；
27.图4是本技术实施例提供的一种发言人位置信息获取的流程示意图；
28.图5a是本技术实施例提供的一种非人声排除的示意图；
29.图5b是本技术实施例提供的一种声源定位计算区域的示意图；
30.图6是本技术实施例提供的一种发言人历史信息生成的流程示意图；
31.图7a是本技术实施例提供的一种发言人晃动的示意图；
32.图7b是本技术实施例提供的一种发言人位置矫正的流程示意图；
33.图8是本技术实施例提供的一种画面模式的示意图；
34.图9是本技术实施例提供的一种单次画面切换的流程示意图；
35.图10是本技术实施例提供的一种画面输出控制装置的结构示意图；
36.图11是本技术实施例提供的一种电子设备的硬件结构示意图。
具体实施方式
37.这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
38.在本技术使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本技术。在本技术和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。
39.为了使本领域技术人员更好地理解本技术实施例提供的技术方案，并使本技术实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本技术实施例中技术方案作进一步详细的说明。
40.请参见图1，为本技术实施例提供的一种画面输出控制方法的流程示意图，如图1所示，该画面输出控制方法可以包括：
41.步骤s100、当检测到指定目标的位置发生变化，且确定指定目标的位置变化满足图像切换条件时，控制切换为输出第一视频画面，并依据指定目标的位置变化对第二视频采集设备进行云台控制，该第一视频画面为第一视频采集设备获取的画面，第一视频采集设备用于获取非特写画面，第二视频采集设备用于获取指定目标的特写画面。
42.示例性的，指定目标并不特指某一固定的目标，而是可以指代任一存在指定特征的目标，例如，存在指定行为特征的人员。
43.本技术实施例中，考虑到实时视频画面输出过程中，可能会存在需要输出指定目标的特写画面的需求，例如，针对视频会议场景，当存在人员发言时，会对发言人员(简称发言人，即指定目标为发言人)的特写画面进行输出，因此，在进行系统部署时，可以分别部署用于获取指定目标的特写画面的视频采集设备(本文中称为第二视频采集设备)，以及用于获取非特写画面，如获取场景画面的视频采集设备(本文中称为第一视频采集设备)。
44.其中，第二视频采集设备可以通过云台固定安装，控制设备可以对第二视频采集设备进行ptz(pan/tilt/zoom，全方位移动及镜头变倍、变焦控制)云台控制(本文中可以称为云台控制)。
45.在存在指定目标的情况下，为了避免指定目标的位置发生变化时，出现云台控制过程的图像，导致用户因观察第二视频采集设备在云台控制过程的图像而引起的眩晕感受，当需要对第二视频采集设备进行云台控制时，可以进行输出画面切换，将输出的画面由第二视频采集设备获取的指定目标的特写画面(本文中称为第二视频画面)切换为由第一视频采集设备获取的画面(本文中称为第一视频画面)。
46.再者，考虑到在某些特定场景中，指定目标的位置可能会频繁发生变化，例如，对于视频会议场景，发言人可能会存在身体晃动、来回走动的现象，此时，若依据发言人的实时位置信息对第二视频采集设备进行云台控制以及输出画面切换，会导致云台控制以及输出画面切换过于频繁，进而，导致用户视觉疲劳，影响画面输出效果。
47.基于上述考虑，在本技术实施例中，可以预先设定图像切换条件，当检测到指定目标的位置发生变化时，在对第二视频采集设备进行云台控制，以及控制切换输出画面之前，可以先确定指定目标的位置变化是否满足图像切换条件，并在指定目标的位置变化满足图
像切换条件的情况下，控制切换为输出第一视频画面，并依据指定目标的位置变化对第二视频采集设备进行云台控制，如控制第二视频采集设备上下/左右转动，和/或对第二视频采集设备进行镜头变倍、变焦控制。
48.步骤s110、当针对第二视频采集设备的云台控制停止时，控制切换为输出第二视频画面，第二视频画面为第二视频采集设备获取的画面。
49.本技术实施例中，当针对第二视频采集设备的云台控制停止时，为了使画面内容与指定目标更加匹配，可以控制切换为输出第二视频画面。
50.可见，在图1所示方法流程中，在检测到指定目标的位置发生变化，且确定指定目标的位置变化满足图像切换条件时，控制切换为输出第一视频画面，并依据指定目标的位置变化对第二视频采集设备进行云台控制，避免了由于输出对第二视频采集设备进行云台控制的过程中的第二视频画面导致用户产生眩晕感，且避免了对第二视频采集设备的频繁云台控制，以及输出画面的频繁切换，当针对第二视频采集设备的云台控制停止时，控制切换为输出第二视频画面，使画面内容与指定目标更加匹配，优化了视频画面输出效果。
51.在一些实施例中，指定目标的位置变化满足图像切换条件，可以包括：
52.指定目标的位置偏移超过预设偏移阈值，且指定目标的位置偏移超过预设偏移阈值的持续时间超过第一预设时间阈值。
53.示例性的，考虑到在特定场景中指定目标的频繁位置变化通常具有位置偏移较小，或出现短时间较大位置偏移的特点，因此，可以依据指定目标的位置偏移是否超过预设偏移阈值(可以根据实际场景设定)，以及指定目标的位置偏移超过预设偏移阈值的持续时间是否超过预设时间阈值(本文中称为第一预设时间阈值，可以根据实际场景设定)来确定指定目标的位置变化满足图像切换条件。
54.当指定目标的位置偏移超过预设偏移阈值，且指定目标的位置偏移超过预设偏移阈值的持续时间超过第一预设时间阈值时，可以确定指定目标的位置变化满足图像切换条件。
55.需要说明的是，当指定目标的位置偏移未超过预设偏移阈值，或，指定目标的位置偏移超过预设偏移阈值的持续时间未超过第一预设时间阈值时，可以确定指定目标的位置变化不满足图像切换条件，此时，可以不进行输出画面切换以及针对第二视频采集设备的云台控制。
56.在一个示例中，目标的位置信息包括目标的检测框的坐标信息以及检测框的宽度和高度；目标的位置偏移包括目标的实时位置信息相对目标的历史位置信息的位置偏移；
57.指定目标的位置偏移超过预设偏移阈值包括以下之一或多个：
58.指定目标的检测框的水平位置偏移超过第一预设偏移阈值；
59.指定目标的检测框的竖直位置偏移超过第二预设偏移阈值；
60.指定目标的检测框的宽度偏移超过第三预设偏移阈值；
61.指定目标的检测框的高度偏移超过第四预设偏移阈值。
62.示例性的，考虑到当指定目标左右移动，和/或，远离/靠近视频采集设备时，指定目标的检测框的位置会水平偏移、竖直偏移，和/或高度/宽度发生偏移(放大或缩小)，因此，可以以目标的检测框的坐标信息(在第一视频采集设备的视频坐标系中的坐标)以及检测框的宽度和高度来表征目标的位置。
63.示例性的，可以以目标的实时位置信息相对目标的基准位置信息(也可以称为历史位置信息)的位置偏移，其可以包括但不限于水平位置偏移、竖直位置偏移、宽度偏移，和/或，高度偏移，来表征目标的位置偏移。
64.当指定目标满足以下条件之一或多个时，可以确定指定目标的位置偏移超过预设偏移阈值：
65.指定目标的检测框的水平位置偏移超过第一预设偏移阈值；
66.指定目标的检测框的竖直位置偏移超过第二预设偏移阈值；
67.指定目标的检测框的宽度偏移超过第三预设偏移阈值；
68.指定目标的检测框的高度偏移超过第四预设偏移阈值。
69.示例性的，第一预设偏移阈值、第二预设偏移阈值、第三预设偏移阈值以及第四预设偏移阈值可以均相同，或，均不相同，或，部分相同。
70.示例性的，可以依据指定目标的实时位置信息和历史位置信息，分别确定指定目标的检测框的水平位置偏移、竖直位置偏移、宽度偏移以及高度偏移中的一个或多个，并比较该一个或多个偏移与预设偏移阈值，以确定指定目标的位置变化是否满足图像切换条件。
71.示例性的，指定目标的检测框的水平位置偏移可以为指定目标的检测框的任一角点或中心点的横坐标的偏移(实时位置信息相对历史位置信息的偏移)。
72.指定目标的检测框的竖直位置偏移可以为指定目标的检测框的任一角点或中心点的纵坐标的偏移。
73.举例来说，以检测框的左上角点为例，假设指定目标的实时位置信息对应的检测框的左上角点的坐标为(pos
cx
，pos
cy
)，指定目标的历史位置信息对应的检测框的左上角点的坐标为(pos
hx
，pos
hy
)，则指定目标的检测框的水平位置偏移可以为|pos
cx
‑
pos
hx
|，水平位置偏移可以为|pos
cy
‑
pos
hy
|。
74.假设指定目标的实时位置信息对应的检测框的宽度和高度分别为pos
cw
和pos
ch
，指定目标的历史位置信息对应的检测框的宽度和高度分别为pos
hw
和pos
hh
，则指定目标的检测框的宽度偏移可以为|pos
cw
‑
pos
hw
|，水平位置偏移可以为|pos
ch
‑
pos
hh
|。
75.示例性的，考虑到上述方式确定的指定目标的位置偏移均是指检测框在视频画面中的位置偏移，而检测框大小不同时，检测框在视频画面中的位置偏移对应的实际位置偏移可能不同，因此，为了使确定的位置偏移与实际位置偏移更加匹配，依据指定目标的位置信息确定指定目标的位置偏移时，还可以依据目标框的大小对所确定的偏移进行修正，其具体实现可以在下文中结合具体实例进行说明，本技术实施例在此不做赘述。
76.作为一种示例，上述指定目标为存在声音信号输出的目标。
77.当检测到指定目标的位置发生变化，且指定目标的位置变化满足图像切换条件时，本技术实施例提供的画面输出控制方法还可以包括：
78.将指定目标当前的实时位置信息确定为新的历史位置信息；
79.其中，指定目标的实时位置依据基于深度学习算法的目标检测算法以及声源定位算法确定，指定目标的初始历史位置信息为指定目标首次被检测到的位置信息。
80.示例性的，以指定目标为存在声音信号输出的目标为例，例如，指定目标为视频会议场景中的发言人。
81.为了提高指定目标定位的准确性，可以依据基于深度学习算法的目标检测算法以及声源定位算法确定指定目标的实时位置信息，通过声源定位和视频检测相结合的方式，提高制定目标定位的准确性。
82.示例性的，历史位置信息可以为上一次指定目标稳定时的指定目标的位置信息。
83.其中，指定目标稳定是指依据指定目标的实时位置信息以及历史位置信息确定指定目标的位置变化满足图像切换条件。
84.指定目标的初始历史位置信息为指定目标首次被检测到的位置信息。
85.以指定目标为视频会议场景中的发言人为例，发言人的初始历史位置信息为发言人(处于发言状态或预停止状态下)首次被检测到的位置信息。
86.示例性的，当确定指定目标的位置变化满足图像切换条件时，除了可以按照上述实施例中描述的方式进行输出画面切换以及云台控制之外，还可以将当前的实时位置信息确定为新的历史位置信息，即对历史位置信息进行更新，并依据更新后的历史位置信息继续确定指定目标的位置变化是否满足图像切换条件。
87.在一些实施例中，步骤s100中，当检测到指定目标的位置发生变化，且指定目标的位置变化满足图像切换条件时，控制切换为输出第一视频画面，并依据指定目标的位置变化对第二视频采集设备进行云台控制之前，还可以包括：
88.确定当前时间与上一次控制切换为输出第二视频画面的时间的差值是否超过第二预设时间阈值；
89.若超过第二预设时间阈值，则确定执行上述控制切换为输出第一视频画面，并依据指定目标的位置变化对第二视频采集设备进行云台控制的操作；
90.否则，保持输出第二视频画面，并拒绝对第二视频采集设备进行云台控制。
91.示例性的，考虑到第一视频画面和第二视频画面的切换过于频繁时，也会影响视频画面的输出效果，降低用户体验，为了避免第一视频画面和第二视频画面的切换过于频繁，可以预先设定第二视频画面切换为第一视频画面的最小时间间隔(本文中称为第二预设时间阈值，可以根据实际场景设定)。
92.当检测到指定目标的位置发生变化，且指定目标的位置变化满足图像切换条件时，可以确定当前时间与上一次控制切换为输出第二视频画面的时间的差值是否超过第二预设时间阈值。
93.若当前时间与上一次控制切换为输出第二视频画面的时间的差值超过第二预设时间阈值，则可以按照上述实施例中描述的方式控制切换为输出第一视频画面，并依据指定目标的位置变化对第二视频采集设备进行云台控制。
94.若当前时间与上一次控制切换为输出第二视频画面的时间的差值未超过第二预设时间阈值，则可以保持输出第二视频画面，并拒绝对第二视频采集设备进行云台控制，以避免第一视频画面和第二视频画面切换过于频繁，且避免示出第二视频采集设备在进行云台控制过程中的画面，优化画面输出效果，提高用户体验。
95.需要说明的是，在当前时间与上一次控制切换为输出第二视频画面的时间的差值未超过第二预设时间阈值的情况下，可以继续对指定目标的位置变化进行统计，并当当前时间与上一次控制切换为输出第二视频画面的时间的差值超过第二预设时间阈值，且确定指定目标的位置变化满足图像切换条件时，控制切换为输出第一视频画面，并依据指定目
标的位置变化对第二视频采集设备进行云台控制。
96.在一个示例中，步骤s100中，当针对第二视频采集设备的云台控制停止时，控制切换为输出第二视频画面之前，还可以包括：
97.确定当前时间与上一次控制切换为输出第一视频画面的时间的差值是否超过第三预设时间阈值；
98.若超过第三预设时间阈值，则确定执行上述控制切换为输出第二视频画面的操作；
99.否则，保持输出第一视频画面。
100.示例性的，第三预设时间阈值与第二预设时间阈值可以相同，也可以不同
101.示例性的，为了避免第一视频画面和第二视频画面的切换过于频繁，可以预先设定第一视频画面切换为第二视频画面的最小时间间隔(本文中称为第三预设时间阈值，可以根据实际场景设定)。
102.当针对第二视频采集设备的云台控制停止时，在控制切换为输出第二视频画面之前，还可以确定当前时间与上一次控制切换为输出第一视频画面的时间的差值是否超过第三预设时间阈值。
103.若当前时间与上一次控制切换为输出第一视频画面的时间的差值超过第三预设时间阈值，则可以按照上述实施例中描述的方式控制切换为输出第二视频画面。
104.若当前时间与上一次控制切换为输出第一视频画面的时间的差值未超过第三预设时间阈值，则可以保持输出第一视频画面。
105.需要说明的是，在本技术实施例中，当输出画面为第二视频画面时，即使指定目标的位置发生变化，控制设备也不会对第二视频采集设备进行云台控制，以避免输出第二视频采集设备在云台控制过程中的画面，提高画面稳定性，优化画面输出效果，提高用户体验。
106.在一些实施例中，上述指定目标为处于发言状态或预停止状态的人员。
107.本技术实施例提供的画面输出控制方法还可以包括：
108.对于检测到的任一人员，当该人员未发言，或，该人员当前处于预停止状态，且持续时间达到第四预设时间阈值时，确定该人员进入未发言状态；
109.当该人员当前处于未发言状态，且检测到该人员发言时，确定该人员进入预发言状态；
110.当该人员当前处于预发言状态，并检测到该人员发言，且发言持续时间达到第五预设时间阈值时，确定该人员进入发言状态；
111.当该人员当前处于发言状态，且检测到该人员停止发言时，确定该人员进入预停止状态。
112.示例性的，以指定目标为视频会议场景的发言人为例。
113.考虑到针对视频会议场景，当场景中存在发言人(存在人员正在发言)和场景中不存在发言人(不存在人员正在发言)时，输出画面通常不同。
114.例如，存在发言人时，输出发言人的特写画面(如上述第二视频画面)；不存在发言人时，输出非特写画面，如视频会议场景的场景画面(如上述第一视频画面)。
115.再者，考虑到人员在发言时，通常会在发言过程中习惯性地出现停顿，若按照传统
方案中状态确定机制，即在发言则为发言状态，不在发言则为未发言状态，则发言人在发言过程中可能会频繁地在发言状态和未发言状态之间切换。
116.考虑到上述问题，在本技术实施例中，可以新增两种状态：预发言状态和预停止状态，即发言人的状态可以包括：未发言状态、预发言状态、发言状态和预停止状态，各状态之间的转换可以参见图2a。
117.如图2a所示，对于检测到的任一人员，当该人员未发言(即一直未检测到该人员发过言)，或，该人员当前处于预停止状态，且持续时间达到预设时间阈值(本文中称为第四预设时间阈值，其取值可以根据实际场景设定)时，确定该人员进入未发言状态。
118.当该人员当前处于未发言状态，且检测到该人员发言时，确定该人员进入预发言状态。
119.当该人员当前处于预发言状态，并检测到该人员发言，且发言持续时间达到预设时间阈值(本文中称为第五预设时间阈值，其取值可以根据实际场景设定)，确定该人员进入发言状态。
120.当该人员当前处于发言状态，且检测到该人员停止发言时确定该人员进入预停止状态。
121.通过上述状态细化，增加预停止状态及预发言状态，可以有效过滤发言人的短暂停顿情况，其示意图可以如图2b所示，保证状态的稳定性。
122.在一些实施例中，步骤s100中，当检测到指定目标的位置发生变化，且确定指定目标的位置变化满足图像切换条件时，控制切换为输出第一视频画面之前，还可以包括：
123.确定当前的画面输出模式；
124.依据当前的画面输出模式，以及当前的场景发言状态，确定是否需要输出单人特写画面；
125.当确定需要输出单人特写画面时，确定执行上述当检测到指定目标的位置发生变化，且确定指定目标的位置变化满足图像切换条件时，控制切换为输出第一视频画面的操作。
126.示例性的，以视频会议场景为例，考虑到针对视频会议场景，其可以根据需求配置不同的模式，如单人模式或多人模式，而对于不同模式，其在不同会场发言状态(即场景发言状态，如无人发言、单人发言、双人对话或多人讨论)下对输出画面的需求可能会不同。
127.因此，在进行画面输出控制时，还可以结合模式配置信息(即单人模式或多人模式)，以及会场发言状态(如无人发言、单人发言、双人对话或多人讨论)，确定选择的画面模式，依据所选择的画面模式进行画面输出控制。
128.相应地，在进行画面输出控制时，可以分别确定当前的画面输出模式，以及当前的会场发言状态。
129.示例性的，画面输出模式可以依据接收到的画面输出模式设置指令确定。
130.例如，会场管理人员可以通过访问页面或遥控器的方式，设置画面输出模式。
131.示例性的，会场发言状态可以依据检测到的处于发言状态的人数，以及不同发言人的发言时间特性确定。
132.举例来说，当检测到会话无人发言时，可以确定会场发言状态为无人发言；当检测到单个人处于发言状态时，可以确定会场状态为单人发言状态；当检测到连续预设时长内
存在两个人处于发言状态，且两个人处于发言状态的次数均超过预设次数阈值时，可以确定会场状态为双人发言状态；当检测到存在三个人或更多人处于发言状态，则确定会场状态为多人讨论。
133.示例性的，可以依据当前的画面输出模式，以及当前的场景发言状态，确定是否需要输出单人特写画面。
134.在一个示例中，依据当前的画面输出模式，以及当前的场景发言状态，确定是否需要输出单人特写画面，可以包括：
135.若当前的画面输出模式为单人模式，则当当前的场景发言状态为单人发言或双人对话时，确定需要输出单人特写画面；
136.若当前的画面输出模式为多人模式，则当当前的场景发言状态为单人发言时，确定该需要输出单人特写画面。
137.示例性的，对于单人模式，可以在会场发言状态为单人发言、双人对话或多人讨论时，确定需要输出单人特写画面。
138.示例性的，对于多人模式，可以在会场发言状态为单人发言或双人对话时，确定需要输出单人特写画面。
139.在一个示例中，对于单人模式或双人模式下的双人对话，可以通过画中画的方式输出会场画面，例如，主画面为全会场画面，主画面上可以浮窗的形式输出当前处于发言状态的发言人的特写画面。
140.在一个示例中，对于单人模式下的多人讨论，也可以通过画中画的方式输出会场画面，例如，主画面为全会场画面，主画面上可以浮窗的形式输出当前处于发言状态的发言人的特写画面。
141.需要说明的是，当存在多个人同时发言时，可以将发言声音最大(如检测的声音信号强度最大)的发言人作为主发言人，输出的特写画面为该主发言人的特写画面。
142.示例性的，对于单人模式的无人发言状态、多人模式的无人发言状态或多人讨论，可以输出全会场画面。
143.示例性的，在本技术实施例中，当确定需要输出单人特写画面时，可以按照图1所示方法流程中所描述的方式进行画面输出控制。
144.示例性的，在进行单人特写画面输出时，指定目标为按照上述方式确定的发言人(当存在多个人发言时为主发言人)。
145.为了使本领域技术人员更好地理解本技术实施例提供的技术方案，下面结合具体实例对本技术实施例提供的技术方案进行说明。
146.在该实施例中，以视频会议场景为例，上述指定目标为处于发言状态或预停止状态的人员(可以称为发言人)。
147.请参见图3，为本技术实施例提供的一种信息采集设备的示意图，如图3所示，该信息采集设备可以包括第一摄像头(即上述第一视频采集设备)、第二摄像头(即上述第二视频采集设备)以及阵列麦克风。其中：
148.第一摄像头(可以称为定焦相机)为用于人员检测的摄像机，水平视场角较大。
149.第二摄像头(可以称为云台相机)为用于人员特写的摄像机，支持云台转动及光学变焦(即ptz云台控制)。
150.第一摄像头可以通过深度学习算法，检测视频图像中的目标人员，如对目标人员的头部、脸部和肩部进行检测，并通过检测框进行标识。
151.阵列麦克风用于通过声源定位算法，确定发言人状态及位置。
152.请参见图4，在该实施例中，发言人位置信息获取可以包括以下步骤：
153.4.1、发言人实时检测：发言人状态实时检测，状态包括发言状态信息及位置信息；
154.4.2、生成发言人历史信息：受人员发言的基本习惯(身体晃动、来回走动等)，发言人的实时位置信息需要通过算法处理生成更加稳定的发言人历史信息(即上述历史位置信息)；
155.4.3、云台控制及画面切换：依据历史位置信息进行云台控制及输出画面切换，完成最终的视频画面输出。但过于频繁的云台控制或画面切换，会引起用户的眩晕及视觉疲劳。
156.在该实施例中，通过对发言人检测、历史位置信息生成、云台控制及画面切换等流程进行优化，实现定位更加准确、画面模式更加完整、图像内容更加稳定的画面输出控制效果。
157.下面分别对各流程进行说明。
158.一、发言人检测
159.在发言人检测阶段，通过视频人员检测和声源定位相结合的方式，完成发言人实时检测，生成实时发言人信息，相比于纯音频定位的方式，有以下明显优势：
160.如图5a所示，通过视频人员检测和声源定位相结合的方式，有效对非人声的声源进行排除。
161.如图5b所示，通过视频人员检测，再进行声源定位，可以有效减小声源定位计算区域，提高声源定位的精度。
162.二、历史位置信息生成
163.受人员发言的基本习惯(身体晃动、来回走动)影响，实时位置信息需要通过算法处理生成与实际相匹配的稳定的发言人历史位置信息，进而避免云台控制及画面切换过于频繁，防止用户的视觉疲劳。
164.请参见图6，在获取到视频画面中各人员的实时信息时，可以依据获取到的实时信息确定各人员的状态，对于发言人，可以进行位置矫正，减少发言停顿、人员晃动、来回走动等情况的影响：
165.6.1、获取实时信息，包括：发言人状态、发言人位置等
166.6.2、根据实时信息，细化不同状态，如图2a所示，在发言状态和未发言状态之间增加预发言状态和预停止状态两种过渡状态：
167.6.2.1、当该人员未发言(即一直未检测到该人员发过言)，或，该人员当前处于预停止状态，且持续时间达到预设时间阈值(即第四预设时间阈值)时，确定该人员进入未发言状态；
168.6.2.2、当该人员当前处于未发言状态，且检测到该人员发言时，确定该人员进入预发言状态；
169.6.2.3、当该人员当前处于预发言状态，并检测到该人员发言，且发言持续时间达到预设时间阈值(即第五预设时间阈值)，确定该人员进入发言状态；
170.6.2.4、当该人员当前处于发言状态，且检测到该人员停止发言时确定该人员进入预停止状态。
171.6.3、当发言人进入发言状态或预停止状态时(表明视频会议场景中存在发言人)，对发言人进行位置矫正计算，包括针对人员晃动及人员来回走动情况的矫正，其实现流程可以参见图7a和图7b。
172.如图7a所示，发言人晃动的情况下，发言人历史位置与当前实时位置的偏移很小，若按照当前实时位置进行云台控制，云台位置与调整前偏移量很小，并无必要；而且实际场景中，这种晃动情况很频繁，会随之带来过多的云台控制及画面切换过程。
173.如图7b所示，可以通过以下流程实现位置矫正：
174.7.1、实时位置计算：人员检测的实时位置，通过人员检测和声源定位得到的实时位置信息；
175.7.2、结合历史位置信息进行位置偏移计算：通过式1～4，计算出历史位置信息与当前实时位置信息的偏差，若其中任一偏差大于阈值treshold1(即上述预设偏移阈值)，则进行持续性统计，否则，认为当前发言人位置变化过小，仅属于晃动，无需后续处理；
176.7.3、持续性计算：计算发言人位置偏移超过阈值treshold1的情况下的持续时间，确定其是否超过阈值treshold2(即上述第一预设时间阈值)；若超过，则需要更新历史位置信息(将当前的实时位置信息作为新的历史位置信息)，并通过更新后的历史位置信息进行云台控制及画面切换；否则，认为当前无需后续处理；其中：
177.r
x
＝(|pos
cx
‑
pos
hx
|
‑
(coff*pos
cw
))
ꢀꢀꢀ
式1
178.r
y
＝(|pos
cy
‑
pos
hy
|
‑
(coff*pos
ch
))
ꢀꢀꢀ
式2
179.r
w
＝(|pos
cw
‑
pos
hw
|
‑
(coff*pos
cw
))
ꢀꢀꢀ
式3
180.r
h
＝(|pos
ch
‑
pos
hh
|
‑
(coff*pos
ch
))
ꢀꢀꢀ
式4
181.pos
c
为实时位置信息：
182.pos
cx
、pos
cy
、pos
cw
、pos
ch
：分别为实时检测到的发言人的检测框的左上角横坐标、纵坐标、宽度和高度；
183.pos
h
为历史位置信息：
184.pos
hx
、pos
hy
、pos
hw
、pos
hh
：分别为历史位置信息对应的发言人的检测框的左上角横坐标、纵坐标、宽度和高度。
185.coff为系数(也可以称为修正系数)：表示人员晃动的最大范围，值越大，人员晃动范围越大，反之越小，其取值与检测框的大小相关。
186.三、云台控制及输出画面切换
187.在该实施例中，当按照上述方式更新了历史位置信息时，可以依据更新后的历史位置信息对第二视频采集设备进行云台控制及切换展示给用户的视频画面。
188.如图8所示，可以结合视频会话场景的模式配置(单人模式或多人模式)，生成不同的会场发言状态(无人发言、单人发言、双人对话或多人讨论)，进而选择不同的画面输出模式，根据不同的发言情况，切换输出的视频画面，使输出的视频画面内容与发言人情况更加匹配。
189.如图8所示，对于单人模式下的单人发言或多人讨论，多人模式下的单人发言，可以通过云台相机输出单人特写画面。
190.对于单人模式或多人模式的双人对话，可以通过定焦相机输出全会场画面，通过云台相机以画中画方式输出单人特写画面。
191.对于单人模式下的无人发言、多人模式下的无人发言或多人讨论，可以通过云台相机输出全会场画面。
192.下面以单人模式下单个发言人发言的情况为例，对云台控制以及画面切换流程进行说明。
193.如图9所示，云台控制以及画面切换流程如下：
194.9.1、获取发言人实时位置信息。
195.9.2、当确定发言人位置发生变化时，确定发言人的位置变化是否满足图像切换条件。若是，则转至步骤9.3；否则，转至步骤9.1。
196.示例性的，发言人的位置变化是否满足图像切换条件的实现可以参见上述实施例中的相关说明，本技术实施例在此不做赘述。
197.9.3、控制切换输出第一视频画面。
198.9.4、针对第二摄像头进行云台控制。
199.9.5、确定第二摄像头云台是否稳定。若是，则转至步骤9.6；否则，转至步骤9.5。
200.示例性的，为了避免第一视频画面和第二视频画面切换过于频繁，第一视频画面和第二视频画面之间的切换需要满足最小时间间隔，即在将输出画面切换为输出第一视频画面之后，需要至少间隔该最小时间间隔之后，才能重新切回第二视频画面。
201.9.6、控制切换输出第二视频画面。
202.以上对本技术提供的方法进行了描述。下面对本技术提供的装置进行描述：
203.请参见图10，为本技术实施例提供的一种画面输出控制装置的结构示意图，如图10所示，该画面输出控制装置可以包括：检测单元1010、确定单元1020以及控制单元1030；其中：
204.所述控制单元1030，用于当所述检测单元1010检测到指定目标的位置发生变化，且所述确定单元1020确定所述指定目标的位置变化满足图像切换条件时，控制切换为输出第一视频画面，并依据所述指定目标的位置变化对第二视频采集设备进行云台控制，所述第一视频画面为第一视频采集设备获取的画面，所述第一视频采集设备用于获取非特写画面，所述第二视频采集设备用于获取所述指定目标的特写画面；
205.所述控制单元1030，还用于当针对所述第二视频采集设备的云台控制停止时，控制切换为输出第二视频画面，所述第二视频画面为所述第二视频采集设备获取的画面。
206.在一些实施例中，所述指定目标的位置变化满足图像切换条件，包括：
207.所述指定目标的位置偏移超过预设偏移阈值，且所述指定目标的位置偏移超过所述预设偏移阈值的持续时间超过第一预设时间阈值。
208.在一些实施例中，目标的位置信息包括目标的检测框的坐标信息以及检测框的宽度和高度；目标的位置偏移包括目标的实时位置信息相对目标的历史位置信息的位置偏移；
209.所述指定目标的位置偏移超过预设偏移阈值包括以下之一或多个：
210.所述指定目标的检测框的水平位置偏移超过第一预设偏移阈值；
211.所述指定目标的检测框的竖直位置偏移超过第二预设偏移阈值；
212.所述指定目标的检测框的宽度偏移超过第三预设偏移阈值；
213.所述指定目标的检测框的高度偏移超过第四预设偏移阈值。
214.在一些实施例中，所述指定目标为存在声音信号输出的目标；
215.所述确定单元1020，还用于当所述检测单元1010检测到指定目标的位置发生变化，且所述确定单元1020确定所述指定目标的位置变化满足图像切换条件时，将所述指定目标当前的实时位置信息确定为新的历史位置信息。
216.在一些实施例中，所述指定目标的实时位置依据基于深度学习算法的目标检测算法以及声源定位算法确定，所述指定目标的初始历史位置信息为所述指定目标首次被检测到的位置信息。
217.在一些实施例中，所述确定单元1020，还用于当所述检测单元检测到指定目标的位置发生变化，且所述确定单元确定所述指定目标的位置变化满足图像切换条件时，确定当前时间与上一次控制切换为输出第二视频画面的时间的差值是否超过第二预设时间阈值；
218.所述控制单元1030，具体用于当所述确定单元1020确定当前时间与上一次控制切换为输出第二视频画面的时间的差值超过所述第二预设时间阈值时，控制切换为输出第一视频画面，并依据所述指定目标的位置变化对第二视频采集设备进行云台控制的操作；
219.所述控制单元1030，还用于当所述确定单元1020确定当前时间与上一次控制切换为输出第二视频画面的时间的差值未超过所述第二预设时间阈值时，保持输出第二视频画面，并拒绝对第二视频采集设备进行云台控制。
220.在一些实施例中，所述确定单元1020，还用于当所述控制单元1030针对所述第二视频采集设备的云台控制停止时，确定当前时间与上一次控制切换为输出第一视频画面的时间的差值是否超过第三预设时间阈值；
221.所述控制单元1030，具体用于当所述确定单元1020确定当前时间与上一次控制切换为输出第一视频画面的时间的差值超过所述第三预设时间阈值时，控制切换为输出第二视频画面；
222.所述控制单元1030，还用于当所述确定单元1020确定当前时间与上一次控制切换为输出第一视频画面的时间的差值未超过所述第三预设时间阈值时，保持输出第一视频画面。
223.在一些实施例中，所述指定目标为处于发言状态或预停止状态的人员；
224.所述确定单元1020，还用于对于检测到的任一人员，当该人员未发言，或，该人员当前处于预停止状态，且持续时间达到第四预设时间阈值时，确定该人员进入未发言状态；
225.当该人员当前处于未发言状态，且检测到该人员发言时，确定该人员进入预发言状态；
226.当该人员当前处于预发言状态，并检测到该人员发言，且发言持续时间达到第五预设时间阈值时，确定该人员进入发言状态；
227.当该人员当前处于发言状态，且检测到该人员停止发言时，确定该人员进入预停止状态。
228.在一些实施例中，所述确定单元1020，用于确定当前的画面输出模式；依据所述当前的画面输出模式，以及当前的场景发言状态，确定是否需要输出单人特写画面；
229.所述控制单元1030，具体用于当所述确定单元确定需要输出单人特写画面，并在所述检测单元检测到指定目标的位置发生变化，且所述确定单元确定所述指定目标的位置变化满足图像切换条件时，控制切换为输出第一视频画面的操作。
230.在一些实施例中，所述画面输出模式包括单人模式或多人模式；所述场景的发言状态包括无人发言、单人发言、双人对话或多人讨论；
231.所述确定单元1020依据所述当前的画面输出模式，以及当前的场景发言状态，确定是否需要输出单人特写画面，包括：
232.若所述当前的画面输出模式为单人模式，则当所述当前的场景发言状态为单人发言、双人对话或多人讨论时，确定需要输出单人特写画面；
233.若所述当前的画面输出模式为多人模式，则当所述当前的场景发言状态为单人发言或双人对话时，确定该需要输出单人特写画面。
234.本技术实施例提供一种电子设备，包括处理器和存储器，其中，存储器存储有能够被所述处理器执行的机器可执行指令，处理器用于执行机器可执行指令，以实现上文描述的画面输出控制方法。
235.请参见图11，为本技术实施例提供的一种电子设备的硬件结构示意图。该电子设备可包括处理器1101、存储有机器可执行指令的存储器1102。处理器1101与存储器1102可经由系统总线1103通信。并且，通过读取并执行存储器1102中与画面输出控制逻辑对应的机器可执行指令，处理器1101可执行上文描述的画面输出控制方法。
236.本文中提到的存储器1102可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储介质可以是：ram(radom access memory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合。
237.在一些实施例中，还提供了一种机器可读存储介质，如图11中的存储器1102，该机器可读存储介质内存储有机器可执行指令，所述机器可执行指令被处理器执行时实现上文描述的画面输出控制方法。例如，所述机器可读存储介质可以是rom、ram、cd
‑
rom、磁带、软盘和光数据存储设备等。
238.本技术实施例还提供了一种计算机程序，存储于机器可读存储介质，例如图11中的存储器1102，并且当处理器执行该计算机程序时，促使处理器1101执行上文中描述的画面输出控制方法。
239.本技术实施例还提供了一种画面输出控制设备，包括：主控制器、第一摄像头、连接云台的第二摄像头、以及阵列麦克风；其中：
240.所述第一摄像头，用于人员检测；
241.所述第二摄像头，用于获取人员特写画面；
242.所述阵列麦克风，用于通过声源定位算法，确定指定目标的位置；
243.所述主控制器，用于按照上述方法实施例中描述的方式实现画面输出控制；
244.其中，所述第一视频采集设备为所述第一摄像头，所述第二视频采集设备为所述第二摄像头。
245.需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实
体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
246.以上所述仅为本技术的较佳实施例而已，并不用以限制本技术，凡在本技术的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本技术保护的范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：毛壮;胡春波;李静
技术所有人：杭州海康威视数字技术股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。