发言人员音频及影像追踪系统的制作方法

文档序号：20644772发布日期：2020-05-07 00:04阅读：438来源：国知局

本实用新型涉及一种发言人员音频及影像追踪系统，尤指一种可清楚辨识会议中发言人的声音以及影像的发言人员音频及影像追踪系统。

背景技术：

传统视频会议系统可利用三个以上的摄影机来拍摄参与会议的人，同时使用麦克风数组来进行发言者的定位，并且将所定位的发言者放大于视频会议影像中，然而，传统作法仅执行声音定位来判断音源位置，并且认为该音源位置即是发言者的位置，进而将该位置的影像放大于视频会议影像中，因此，上述传统方法会因为环境噪音而导致准确度不足，无法精准地判断发言者的位置，又，一般传统式单收音麦克风系统具有下列缺点：

(1)收音方向性限制，讲话的人没有对着麦克风的收音效果很差；

(2)于会议环境使用时，当换人发言时，需将麦克风转交给下一发言人；

(3)于家用智能家电设备使用时，收音效率极低。

而传统式麦克风数组收音会议系统虽然因为采用全向性麦克风数组收音，有效提高了对使用环境内所有发言者的收音质量，但无法鉴别声音源是信号还是噪音，不利于背景噪声源的收音。

技术实现要素：

有鉴于上述的问题，本申请人依据多年来从事会议视讯设备相关行业的经验，针对视讯中发言人的音源及影像定位进行研究及分析；缘此，本实用新型的主要目的在于提供一种可清楚辨识会议中发言人的声音以及影像的发言人员音频及影像追踪系统。

为达上述的目的，本实用新型发言人员音频及影像追踪系统，其主要包括一控制主机、一环景影像获取设备以及一麦克风数组装置，其中，控制主机的一数据库预先加载数笔脸部动作特征信息，当会议室进行会议时，环景影像获取设备可依据数据库的数笔脸部动作信息辨识出会议中正在开口发言的发言者，并分析出该发言者的三维空间地址信息后，透过三维空间地址信息驱动麦克风数组装置进行精准收音及排除噪音，再进一步将发言者的脸部画面特写投影至会议室的一显示屏上，以供其他与会者可清楚得知目前的发言人影像以及其发言内容。

为使贵审查委员得以清楚了解本实用新型的目的、技术特征及其实施后的功效，兹以下列说明搭配图示进行说明，敬请参阅。

附图说明

图1为本实用新型的系统组成示意图；

图2为本实用新型的实施示意图(一)；

图3为本实用新型的实施示意图(二)；

图4为本实用新型的实施示意图(三)；

图5为本实用新型的另一实施例(一)；

图6为本实用新型的实施例(一)实施示意图；

图7为本实用新型的另一实施例(二)；

图8为实施例(二)的实施示意图。

具体实施方式

请参阅「图1」，图中所示为本实用新型的系统组成示意图，如图中所示的发言人员音频及影像追踪系统10，其主要包括一控制主机101、一环景影像获取设备102以及一麦克风数组装置103，其中，控制主机101可例如为一实体服务器或云端主机，且控制主机101具有一中央处理模块1011，所述的中央处理模块1011用以驱动各模块作动，并分别与一数据库1012、一信息接收发送模块1013以及一投影模块1014形成信息链接，且数据库1012中预先储存有数笔脸部动作特征信息f，所述的脸部动作特征信息f可例如为嘴部张开讲话时脸部肌肉的动作信息等，而信息接收发送模块1013用以接收或传送电子信息，且投影模块1014可用以将影像信息投影至一显示屏11(图中未绘示)；环景影像获取设备102主要设置于例如会议室的一开放空间的中，其设有一影像分析模块1021，且影像分析模块1021中具有一脸部辨识单元1022，环景影像获取设备102可例如为环景摄影机或是深度摄影机(depthcamera，亦可称立体摄影机)等，环景影像获取设备102可获取不同方向的影像信息，并且可进一步将各个影像信息合成为环景影像，使环景影像的影像范围可涵盖整个会议环境，且影像分析模块1021的脸部辨识单元1022可依据数据库1012中的数笔脸部动作特征信息f，辨识出开放空间内正在发言的一发言人，并获取及分析出该发言人的一脸部影像信息f1以及一三维空间地址信息f2(例如三维坐标)，所述的脸部影像信息f1主要为该发言人的一脸部特写影像信息，所述的人脸动作辨识作业可透过机器学习或深度学习进行影像比对，例如可基于卷积神经网络(convolutionalneuralnetwork，cnn)进行人脸辨识训练，更进一步例如使用fasterrcnn(fasterregion-basedconvolutionalneuralnetwork)的卷积神经网络进行人脸辨识训练，并且可通过随机梯度下降算法(stochasticgradientdescent，sgd)进行迭代训练，而三维空间地址信息f2为该发言人在开放空间中的三维空间地址信息f2，可定位出发言人的位置，又，为进一步便于环景影像获取设备102进行现场环境的影像获取作业，可进一步在环景影像获取设备102的底部加装一转动基座(例如一万向转动基座，图中未绘示)，便于环景影像获取设备102可以360度取景；麦克风数组装置103，具有一声源过滤模块1031，可设置于例如会议室的开放空间中，其可以为数组式麦克风(arraymicrophone)，所述的麦克风数组装置103具有数个麦克风收音单元，可获取数个不同方向的环境音讯n，所述的环境音讯n中主要为一人声音源信息n1以及一环境噪音信息n2所组成，声源过滤模块1031可预先设定过滤参数，以将环境噪音信息n2过滤后只留下人声音源信息n1；又，环景影像获取设备102及麦克风数组装置103亦可以组设于控制主机101中，使环景影像获取设备102及麦克风数组装置103，同步获取环景影像及声音讯号。

请参阅「图2」，图中所示为本实用新型的实施示意图(一)，请搭配参阅「图1」，本实用新型于实施时，系预先将环景影像获取设备102以及麦克风数组装置103架设于一适当位置，例如一会议室12的一开放空间13中，常态下会议室12中所有与会人员的脸部表情均受到环景影像获取设备102的聚焦监控，当有人进行发言时，例如图中所示的一发言人a，环景影像获取设备102会依据数据库1012中的数笔脸部动作特征信息f，进一步针对发言人a的脸部表情进行辨识，以确定该人员是否正在发言，若是，则获取及分析出该发言人的一脸部影像信息f1以及一三维空间地址信息f2，并进一步传送至控制主机101的数据库1012储存；再请搭配参阅「图3」，图中所示为本实用新型的实施示意图(二)，承「图2」所述，中央处理模块1011系进一步透过信息接收发送模块1013将三维空间地址信息f2传送至麦克风数组装置103，使麦克风数组装置103可依据三维空间地址信息f2屏蔽或关闭其他方向的麦克风收音单元，仅开启该地址方向的麦克风单元，以聚焦接收该方向的环境音讯n，并透过声源过滤模块1031将环境音频n过滤出人声音源信息n1，并进一步传送至控制主机101；再请搭配参阅「图4」，图中所示为本实用新型的实施示意图(三)，承上所述，控制主机101可进一步将发言人a的脸部影像信息f1透过投影模块1014投影至会议室12的显示屏11上，以供会议室12的与会人员可透过投影幕11得知目前发言人的脸部影像，再将人声音源信息n1透过信息接收发送模块1013发送至外部音讯设备，例如喇叭等，藉此，透过本实用新型的实施，可清楚辨识会议中发言人a的声音以及影像，以确保其他与会者可清楚得知目前发言人的影像以及其发言内容。

请参阅「图5」，图中所示为本实用新型的另一实施例(一)，本实用新型可进一步在数据库1012中预先储存有数笔身份辨识信息b，所述的数笔身份辨识信息b可为脸部特征信息、名字等身份信息，而投影模块1014中具有一标注单元1015，所述的标注单元1015可将数笔身份辨识信息b标注于影像中的人物；再请搭配参阅「图6」，图中所示为本实用新型的实施例(一)实施示意图，承「图5」所述，请搭配参阅「图1」，当环景影像获取设备102获取发言人a的脸部影像信息f1并进行影像投放时，环景影像获取设备102亦可进一步将脸部影像信息f1与数据库1012中储存的数笔身份辨识信息b进行比对辨识，以取得对应发言人a的正确身份辨识信息b，而完成比对后，控制主机101即可进一步透过投影模块1014的标注单元1015，将对应于发言人a的正确身份辨识信息b标注于投影幕11的发言人a头部影像上，以供与会人员可得知发言人a的身份。

请参阅「图7」，图中所示为本实用新型的另一实施例(二)，本实用新型亦可进一步搭配视讯设备进行画面连动，如本图所示的控制主机101，其投影模块1014系具有一影像嵌入单元1016；再请搭配参阅「图8」，图中所示为实施例(二)的实施示意图，所述的影像嵌入单元1016可将发言人a的脸部影像信息f1嵌入于一视讯画面c中，使脸部影像信息f1以子画面的形式嵌入于视讯画面c中，藉以让远程参与视讯的相关与会人员可清楚得知视讯画面c中正在发言的人是谁。

由上所述可知，本实用新型的发言人员音频及影像追踪系统，其主要包括一控制主机、一环景影像获取设备以及一麦克风数组装置，其中，控制主机的一数据库系预先加载数笔脸部动作特征信息，当会议室进行会议时，环景影像获取设备可依据数据库的数笔脸部动作信息辨识出会议中正在开口发言的发言者，并分析出该发言者的三维空间地址信息后，透过三维空间地址信息驱动麦克风数组装置进行精准收音及排除噪音，再进一步将发言者的脸部画面特写投影至会议室的一显示屏上，使本实用新型可达到提供其他与会者可清楚得知目前的发言人影像以及其发言内容的目的。

唯，以上所述者，仅为本实用新型的较佳的实施例而已，并非用以限定本实用新型实施的范围；任何熟习此技艺者，在不脱离本实用新型的精神与范围下所作的均等变化与修饰，皆应涵盖于本实用新型的专利范围内。

综上所述，本实用新型的功效，系具有实用新型的「产业可利用性」、「新颖性」与「进步性」等专利要件；申请人根据专利法的规定，向贵局提起新型专利的申请。

【符号说明】

10发言人员音频及影像追踪系统

101控制主机102环景影像获取设备

1011中央处理模块1021影像分析模块

1012数据库1022脸部辨识单元

1013信息接收发送模块

1014投影模块

1015标注单元

1016影像嵌入单元

103麦克风数组装置

1031声源过滤模块

11显示屏

12会议室

13开放空间

a发言人b身份辨识信息

c视讯画面f脸部动作特征信息

f1脸部影像信息f2三维空间地址信息

n环境音频n1人声音源信息

n2环境噪音信息

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：薛乐山
技术所有人：南京深视光点科技有限公司
我是此专利的发明人

上一篇：一种风冷型电动车无线充电装置的制作方法
上一篇：一种化学块状样品用碾碎装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。