视频会议画面调整方法、装置、电子设备和介质与流程

文档序号：35197093发布日期：2023-08-21 20:04阅读：39来源：国知局

导航： X技术> 最新专利>电子通信装置的制造及其应用技术

本技术涉及视频会议的，尤其是涉及一种视频会议画面调整方法、装置、电子设备和介质。

背景技术：

1、视频会议是利用视频技术和设备通过传输信道在两个或多个地点的用户终端之间举行会议，实时传送声音和图像，能够使地理上分散的参会者通过视频、声音信息进行实时信息交流与共享。

2、然而在多人会议时，视频会议画面拍摄会议室，发言人发言时呈现画面过小，参会人员无法快速在视频会议画面中找到发言人，从而不能准确地了解发言人讲话神情状态而准确理解所表达的内容。

技术实现思路

1、为了使视频会议画面锁定于发言人，本技术提供一种视频会议画面调整方法、装置、电子设备和介质。

2、第一方面，本技术提供一种视频会议画面调整方法，采用如下的技术方案：

3、获取视频会议中的声音和声纹信息；

4、若根据所述声纹信息确定所述声音持续时间超过预设时间，则确定所述声音对应的参会人员为主发言人；

5、判断所述主发言人是否为在会议室内参与视频会议；

6、若是，则基于摄像机获取的主发言人的声音位置，将拍摄画面对准主发言人的声音位置；

7、基于ai唇语识别技术和主发言人的声音，在拍摄画面中确定主发言人，将拍摄画面聚焦于所述主发言人，得到主画面；

8、若否，将所述主发言人的视频画面作为主画面。

9、通过采用上述技术方案，电子设备获取视频会议中的声音和声纹信息，根据声纹信息跟踪声音的持续时间，当持续超过第一预设时间，则确定声音对应的参会人员为主发言人，进而判断主发言人在线上还是在会议室参与视频会议，若在会议室，则调整摄像机角度，使拍摄画面对准发言人，并根据唇语识别技术和主发言人的声音进行匹配，在拍摄画面中确定主发言人，将拍摄画面聚焦于主发言人，得到专注于主发言人的主画面；若主发言人在会议室，则将主发言人的视频画面作为主画面。因此实现了对主发言人的画面跟踪，使参会人员能够了解到主发言人的表情和动作等，提高会议效果和效率。

10、进一步地，所述基于ai唇语识别技术和主发言人的声音，在拍摄画面中确定主发言人，包括：

11、获取摄像机面对所述主发言人的声音位置处拍摄到的远景画面；

12、基于ai唇语识别技术获取位于所述远景画面中的各个人脸信息；

13、基于所述人脸信息，将唇部具有动作的人作为候选主发言人；

14、识别候选主发言人的说话内容；

15、将所述说话内容与所述发言内容，若对比一致，则确定对应的候选主发言人为主发言人。

16、通过采用上述技术方案，为了能够准确确定发言人的位置，电子设备首先获取主发言人所在位置的远景画面，进而获取到位于画面中的人脸信息，从而识别出唇部具有动作且说话内容与主发言人的发言内容一致的人，进而确定其为主发言人，能够解决因会议室人太多，不能根据声音位置准确将画面对准主发言人的情况。

17、进一步地，所述将拍摄画面聚焦于所述主发言人，包括：

18、在所述远景画面中确定主发言人的第一位置；

19、使拍摄画面向所述第一位置所在的方向移动，直至所述主发言人位于所述拍摄画面的中央；

20、拉近镜头得到近景画面，重复执行在所述近景画面中确定主发言人的第一位置，调节画面的步骤，直至主发言人位于所述近景画面的中央，且主发言人的轮廓与画面的比例位于预设区间内，得到聚焦于所述主发言人的画面。

21、通过采用上述技术方案，电子设备在远景画面中确定主发言人的第一位置信息，进而使摄像画面向第一位置所在方向移动，使主发言人位于拍摄画面中央，拉近镜头得到近景画面后，经过不断调整，使近景画面主要拍摄主发言人，使画面适中。

22、进一步地，所述方法还包括：

23、当获取到新的声音及声纹信息时，判断所述主发言人是否中断发言；

24、若是，根据新的声纹信息判断所述新的声音持续时间是否超过第一预设时间，若超过第一预设时间，则确定所述新的声音对应的参会人员为新的主发言人；否未超过第一预设时间，则维持主发言人不变；

25、若否，则根据新的声纹信息判断所述新的声音持续时间是否超过第二预设时间；若超过第二预设时间，则将所述画面调节至全景画面；若未超过第二预设时间，则维持主发言人不变。

26、通过采用上述技术方案，当存在其他声音时，电子设备判断主发言人是否中断发言，并在中断发言后确定是否更换主发言人，若未中断发言，则调整主画面，实现智能自动调节主画面。

27、进一步地，在获取主发言人的声音位置，调整会议室内摄像机角度之前，所述方法还包括：

28、根据所述声纹信息判断所述主发言人是否为历史发言人；

29、若是，则调节摄像机至拍摄所述主发言人时的历史摄像参数；判断所述拍摄画面中的人脸信息是否与所述主发言人的保存的人脸信息一致；若一致，则确定拍摄画面为主画面；若不一致，则将拍摄画面对准主发言人的声音位置；

30、否则，将拍摄画面对准主发言人的声音位置。

31、通过采用上述技术方案，电子设备确定主发言人为历史发言人后，根据保存的历史摄像参数，调节摄像画面，并在调节后确认人脸信息是否一致，能够在座位固定的情况下，快速调节拍摄画面。

32、进一步地，所述将拍摄画面聚焦于所述主发言人之后，所述方法还包括：

33、获取所述主发言人的人脸信息、位置信息和摄像机拍摄参数；

34、将所述人脸信息、所述声纹信息、所述位置信息和摄像机拍摄参数对应保存。

35、通过采用上述技术方案，电子设备保存主发言人的人脸信息、位置信息和摄像机拍摄参数，并与声纹信息对应保存，当获取到声纹信息时，则根据对应的摄像机拍摄参数调整摄像机，进而快速调节拍摄画面。

36、进一步地，在获取视频会议中的声音和声纹信息之前，所述方法还包括：

37、响应于参会人员座位固定的指令，生成关于会议室的孪生模型，所述孪生模型中包括摄像机的位置信息以及每个座位信息；

38、获取参会人员的声纹信息和座位信息；

39、根据每个人的座位信息确定在所述孪生模型中的位置；

40、在所述孪生模型中确定摄像机拍摄各个座位时的角度。

41、通过采用上述技术方案，电子设备可以在参会人员的座位固定的情况下，建立关于会议室的孪生模型，并在孪生模型中确定参会人员的位置，进而在孪生模型中确定摄像机拍摄各个位置时的角度，当根据声纹信息确定主发言人后，根据主发言人的位置确定摄像机的拍摄角度，能快速锁定主发言人。

42、第二方面，本技术提供一种视频会议画面调整装置，采用如下的技术方案：

43、声音获取模块，用于获取视频会议中的声音和声纹信息；

44、主发言人确定模块，用于若根据所述声纹信息确定所述声音持续时间超过第一预设时间，则确定所述声音对应的参会人员为主发言人；

45、判断模块，用于判断所述主发言人是否为在会议室内参与视频会议；

46、调节模块，用于在所述判断模块判断为是时，基于摄像机获取的主发言人的声音位置，将拍摄画面对准主发言人的声音位置；

47、主画面第一确定模块，用于基于ai唇语识别技术和主发言人的声音，在拍摄画面中确定主发言人，将拍摄画面聚焦于所述主发言人，得到主画面；

48、主画面第二确定模块，用于在所述调节模块判断为否时，将所述主发言人的视频画面作为主画面。

49、通过采用上述技术方案，声音获取模块获取视频会议中的声音和声纹信息，根据声纹信息跟踪声音的持续时间，当持续超过第一预设时间，主发言人确定模确定声音对应的参会人员为主发言人，进而判断模块判断主发言人在线上还是在会议室参与视频会议，若在会议室，则调节模块调整摄像机角度，使拍摄画面对准发言人，主画面第一确定模块根据唇语识别技术和主发言人的声音进行匹配，在拍摄画面中确定主发言人，将拍摄画面聚焦于主发言人，得到专注于主发言人的主画面；若主发言人在会议室，主画面第二确定模块将主发言人的视频画面作为主画面。因此实现了对主发言人的画面跟踪，使参会人员能够了解到主发言人的表情和动作等，提高会议效果和效率。

50、第三方面，本技术提供一种电子设备，采用如下的技术方案：

51、一种电子设备，包括：

52、至少一个处理器；

53、存储器；

54、至少一个应用程序，其中所述至少一个应用程序被存储在所述存储器中并被配置为由所述至少一个处理器执行，所述至少一个应用程序配置用于：执行如第一方面中任一项所述的一种视频会议画面调整方法。

55、通过采用上述技术方案，处理器执行存储器中的应用程序，获取视频会议中的声音和声纹信息，根据声纹信息跟踪声音的持续时间，当持续超过第一预设时间，则确定声音对应的参会人员为主发言人，进而判断主发言人在线上还是在会议室参与视频会议，若在会议室，则调整摄像机角度，使拍摄画面对准发言人，并根据唇语识别技术和主发言人的声音进行匹配，在拍摄画面中确定主发言人，将拍摄画面聚焦于主发言人，得到专注于主发言人的主画面；若主发言人在会议室，则将主发言人的视频画面作为主画面。因此实现了对主发言人的画面跟踪，使参会人员能够了解到主发言人的表情和动作等，提高会议效果和效率。

56、第四方面，本技术提供一种计算机可读存储介质，采用如下的技术方案：

57、一种计算机可读存储介质，存储有能够被处理器加载并执行如第一方面中任一项所述的一种视频会议画面调整方法的计算机程序。

58、通过采用上述技术方案，处理器执行计算机可读存储介质中的应用程序，获取视频会议中的声音和声纹信息，根据声纹信息跟踪声音的持续时间，当持续超过第一预设时间，则确定声音对应的参会人员为主发言人，进而判断主发言人在线上还是在会议室参与视频会议，若在会议室，则调整摄像机角度，使拍摄画面对准发言人，并根据唇语识别技术和主发言人的声音进行匹配，在拍摄画面中确定主发言人，将拍摄画面聚焦于主发言人，得到专注于主发言人的主画面；若主发言人在会议室，则将主发言人的视频画面作为主画面。因此实现了对主发言人的画面跟踪，使参会人员能够了解到主发言人的表情和动作等，提高会议效果和效率。

59、综上所述，本技术包括以下至少一种有益技术效果：

60、1.电子设备根据声纹信息跟踪声音的持续时间，确定主发言人，若主发言人在会议室，则调整摄像机角度，并根据唇语识别技术和主发言人的声音进行匹配，在拍摄画面中确定主发言人，将拍摄画面聚焦于主发言人，得到专注于主发言人的主画面；若主发言人在会议室，则将主发言人的视频画面作为主画面。因此实现了对主发言人的画面跟踪，使参会人员能够了解到主发言人的表情和动作等，提高会议效果和效率；

61、2.电子设备在远景画面中确定主发言人的第一位置信息，进而使摄像画面向第一位置所在方向移动，使主发言人位于拍摄画面中央，拉近镜头得到近景画面后，经过不断调整，使近景画面主要拍摄主发言人，使画面适中；

62、3.当存在其他声音时，电子设备判断主发言人是否中断发言，并在中断发言后确定是否更换主发言人，若未中断发言，则调整主画面，实现智能自动调节主画面。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：方斌段克马起礼黄伟
技术所有人：北京视通科技有限公司
我是此专利的发明人

上一篇：一种基于智能管理的显示控制系统的制作方法
上一篇：特征图生成方法、目标检测模型的训练方法及装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。