专利名称:视频采集控制装置及其方法
技术领域:
本发明涉及智能录播系统,特别涉及视频采集控制装置及其方法。
背景技术:
录播系统用于忠实记录室内的各种多媒体信息的自动记录设备,多用于教学、商 务和政务的会议场合。随着机器视觉技术的发展,智能录播系统成为录播系统的发展方向。 智能录播系统能够对目标人物进行自动跟踪拍摄。现有的智能录播系统包括视频采集单元、人物跟踪单元和录播单元,其中所述视 频采集单元用于获得视频图像,将所述视频图像发送至人物跟踪单元和录播单元。所述录 播单元对视频图像进行记录和/或播放。所述人物跟踪单元对视频图像进行分析,获得目 标人物,以及与目标人物对应的跟踪信息。所述视频采集单元基于跟踪信息对目标人物进 行拍摄。现有的人物跟踪单元基于人脸跟踪技术获得跟踪信息。如专利申请号为为 200810118996. 0的中国专利申请中公开了一种人脸跟踪方法。现有人脸跟踪方法基于人脸 模板对视频信号进行人脸特征提取,因此,人脸需要正对镜头,若人脸侧对或背对镜头,将 丢失目标人物,使得跟踪失效,使得现有的人脸跟踪方法无法有效跟踪目标人物。因此,需要对现有的录播系统、及其跟踪方法进行改进,以解决人脸背对镜头是跟 踪失效的问题,实现对目标人物进行有效的跟踪拍摄。
发明内容
本发明解决的技术问题是提供了视频采集控制装置及方法,将人头跟踪技术、人 脸跟踪技术和运动跟踪技术融合,在目标人物背对镜头时,利用人头跟踪技术和运动跟踪 技术进行跟踪,解决了人脸跟踪失效的问题,实现了对目标人物的有效跟踪。为了解决上述问题,本发明一种视频采集控制装置,包括视频采集单元、人脸跟 踪单元、人头跟踪单元、运动跟踪单元、跟踪融合控制单元,存储单元,其中,所述视频采集单元用于以帧为单位采集视频图像;所述存储单元用于存储人脸模板、人头模板、视频图像的跟踪信息;所述人脸跟踪单元用于对所述视频采集单元采集的当前帧视频图像进行人脸特 征提取,若发现存在与人脸模板匹配的人脸,则输出与所述人脸对应的人脸区域位置信息 至跟踪融合控制单元;所述运动跟踪单元用于对所述视频采集单元采集的当前帧视频图像进行运动特 征提取,若发现存在运动物体,则输出与所述运动物体对应的运动区域位置信息至跟踪融 合控制单元;所述人头跟踪单元用于对所述视频采集单元采集的当前帧视频图像进行人头特 征提取,若发现存在与人头模板匹配的人头,则输出与所述人头对应的人头区域位置信息 至跟踪融合控制单元;
所述跟踪融合控制单元基于所述人脸跟踪单元、运动跟踪单元、人头跟踪单元的 输出结果工作,若存在人脸区域位置信息,则以人脸区域位置信息作为下一帧视频图像的 跟踪信息;若不存在人脸区域位置信息,则判断是否存在运动区域位置信息,若存在运动区 域位置信息,则将所述运动区域位置信息和人头区域位置信息融合,将融合后的区域位置 信息作为下一帧视频图像的跟踪信息;若不存在运动区域位置信息,则以所述存储单元中 的视频图像的跟踪信息作为下一帧视频图像的跟踪信息;所述跟踪融合控制单元将确定的 视频图像的跟踪信息存入所述存储单元;所述跟踪融合控制单元利用跟踪信息控制视频采集单元采集视频图像。可选地,还包括预处理单元,用于对视频采集单元输出的视频图像进行预处理,去 除所述当前帧视频图像中的噪声,将去噪后的视频图像发送至人脸跟踪单元、人头跟踪单 元、运动跟踪单元。可选地,所述跟踪融合控制单元在确定视频图像的跟踪信息后,产生与所述视频 图像的跟踪信息对应的运动指令,并发送至所述视频采集单元;所述视频采集单元包括可运动的机械云台和安装于机械云台上的受控于机械云 台的球机镜头;所述机械云台接收跟踪融合控制单元发送的运动指令,进行与运动指令相 应的运动,带动所述球机镜头运动。本发明还提供一种视频采集控制方法,包括对所获得的当前帧的视频图像进行人脸特提取、运动特征提取、人头特征提取;当人脸特征提取获得与人脸模板匹配的人脸时,以所述人脸对应的人脸区域位置 信息作为跟踪信息;当运动特征提取获得运动物体时,将运动物体所在区域位置信息和人头特征提取 获得的与人头模板匹配的人头位置信息进行融合,将融合后的位置作为跟踪信息;当运动特征提取未获得运动物体时,以前一帧的跟踪信息作为跟踪信息;以所述跟踪信息控制下一帧视频图像的采集。可选地,在对当前帧视频图像进行人脸特提取、运动特征提取、人头特征提取之 前,对当前帧视频图像预处理,去除当前帧视频图像中的噪声。可选地,所述人脸模板、人头模板通过学习获得。可选地,以所述人脸区域位置信息作为跟踪信息包括以所述与人脸模板匹配的人脸的中心为中心,以第一长度为边长确定正方形区 域;将所述正方形区域的位置信息作为跟踪信息。可选地,所述将运动物体所在区域位置信息和人头特征提取获得的与人头模板匹 配的人头位置信息进行融合,将融合后的位置作为跟踪信息包括以运动物体的中心为中心,以第三长度为边长确定正方形区域;以所述人头的中心为中心,以第二长度为边长确定正方形区域;以运动物体和人头中心连线的中点为中心,以第三长度和第二长度中较小的为边 长确定正方形区域;将所述正方形区域的位置信息作为跟踪信息。本发明相应提供一种包括视频采集控制装置的录播系统。
本发明相应提供一种包括视频采集控制方法的录播方法。与现有技术相比,本发明提供人物跟踪单元、运动跟踪单元、人脸跟踪单元、跟踪 融合控制单元,将人物跟踪单元、运动跟踪单元、人脸跟踪单元的输出进行融合,形成跟踪 信息,避免了现有技术利用人脸跟踪技术在人脸背对或侧对镜头时跟踪失效的问题,保证 了录播系统的跟踪效果。
图1是本发明一个实施例的视频采集控制装置结构示意图。图2是本发明一个实施例的视频采集控制装置的工作方法示意图。
具体实施例方式发明人发现,单纯利用人脸跟踪技术进行人物跟踪,需要人脸直接面对镜头的要 求,且会有跟踪失效的问题,而且跟踪结果不稳定。对应地,本发明提供一种视频采集控制装置,包括视频采集控制装置,包括视 频采集单元、人脸跟踪单元、人头跟踪单元、运动跟踪单元、跟踪融合控制单元,存储单元, 其中,所述视频采集单元用于以帧为单位采集视频图像;所述存储单元用于存储人脸模板、人头模板、视频图像的跟踪信息;所述人脸跟踪单元用于对所述视频采集单元采集的当前帧视频图像进行人脸特 征提取,若发现存在与人脸模板匹配的人脸,则输出与所述人脸对应的人脸区域位置信息 至跟踪融合控制单元;所述运动跟踪单元用于对所述视频采集单元采集的当前帧视频图像进行运动特 征提取,若发现存在运动物体,则输出与所述运动物体对应的运动区域位置信息至跟踪融 合控制单元;所述人头跟踪单元用于对所述视频采集单元采集的当前帧视频图像进行人头特 征提取,若发现存在与人头模板匹配的人头,则输出与所述人头对应的人头区域位置信息 至跟踪融合控制单元;所述跟踪融合控制单元基于所述人脸跟踪单元、运动跟踪单元、人头跟踪单元的 输出结果工作,若存在人脸区域位置信息,则以人脸区域位置信息作为下一帧视频图像的 跟踪信息;若不存在人脸区域位置信息,则判断是否存在运动区域位置信息,若存在运动区 域位置信息,则将所述运动区域位置信息和人头区域位置信息融合,将融合后的区域位置 信息作为下一帧视频图像的跟踪信息;若不存在运动区域位置信息,则以所述存储单元中 的视频图像的跟踪信息作为下一帧视频图像的跟踪信息;所述跟踪融合控制单元将确定的 视频图像的跟踪信息存入所述存储单元;所述跟踪融合控制单元利用跟踪信息控制视频采集单元采集视频图像。本发明的视频采集装置可以应用于人物跟踪,例如在应用于课堂教学时对老师进 行跟踪,在应用于会议场合时对与会者进行跟踪。下面以应用于课堂教学,以老师为目标人 物,对老师跟踪的应用进行说明。具体请参考图1,为本发明一个实施例的视频采集控制装置结构示意图。所述视频
6采集控制装置包括视频采集单元101、人脸跟踪单元104、人头跟踪单元105、运动跟踪单 元106、跟踪融合控制单元103、存储单元107。作为本发明的优选实施例,所述视频采集控制装置还包括预处理单元102,用于对 视频采集单元输出的视频图像进行预处理,去除所述当前帧视频图像中的噪声,将去噪后 的视频图像发送至人脸跟踪单元104、人头跟踪单元105、运动跟踪单元106。所述跟踪融合控制单元103用于对控制视频采集单元101、人脸跟踪单元104、人 头跟踪单元105、运动跟踪单元106工作。所述跟踪融合控制单元103包括操作单元,用于 用户开启和关闭跟踪融合控制单元103。用户通过对输入开启操作指令或关闭操作指令至 操作单元,控制所述跟踪融合控制单元103相应地开启或关闭视频采集单元101、人脸跟踪 单元104、人头跟踪单元105、运动跟踪单元106。作为一个实施例,所述跟踪融合控制单元103在确定视频图像的跟踪信息后,产 生与所述视频图像的跟踪信息对应的运动指令,并发送至所述视频采集单元101。本实施例中,所述视频采集单元101包括可运动的机械云台和安装于机械云台上 的受控于机械云台的球机镜头。所述机械云台接收跟踪融合控制单元103发送的运动指 令,进行与运动指令相应的运动,带动所述球机镜头运动。具体地,所述运动指令包括运动 方向、运动速度等信息,例如,所述运动指令可以为机械云台沿水平方向以2厘米每分钟的 速度运动。由于视频采集单元101以帧为单位采集视频图像,与视频图像对应的跟踪信息也 以帧为单位更新,从而所述机械云台接收的运动指令相应以帧为单位更新,这样使得所述 机械云台能够带动球机镜头运动,对目标人物进行跟踪拍摄。本实施例中,所述人脸跟踪单元104用于对所述视频采集单元101采集的视频图 像进行人脸特征提取,若发现存在与人脸模板匹配的人脸,则输出与所述人脸对应的人脸 区域位置信息至跟踪融合控制单元103 ;所述人头跟踪单元105用于对所述视频采集单元 101采集的视频图像进行人头特征提取,若发现存在与人头模板匹配的人头,则输出与所述 人头对应的人头区域位置信息至跟踪融合控制单元103 ;所述运动跟踪单元106用于对所 述视频采集单元采集的视频图像进行运动特征提取,若发现存在运动物体,则输出与所述 运动物体对应的运动区域位置信息至跟踪融合控制单元103。作为本发明的一个实施例,所述人脸位置信息为以人脸中心为中心,以第一长度 为边长的正方形的位置信息(位置坐标)。所述人脸位置信息还可以为以人脸中心为中心, 以第一长度为直径的圆形位置信息或其他形状的区域位置信息。所述第一长度可以根据应 用场合、视频采集单元的球机镜头的分辨率以及跟踪精度要求进行具体设置。由于通常球 机镜头采集的以帧为单位采集的视频图像为多个呈矩阵排布的像素阵列,因此,所述第一 长度可以为所述视频图像中所述若干个像素的距离,从而所述以第一长度为边长的正方形 与所视频图像中的部分区域对应。所述第一长度越小,跟踪精度越高。例如,对于球机镜头 为30万像素的视频采集控制装置,所述第一长度可以为500个像素的距离,从而人脸位置 信息是以人脸中心为中心,以500个像素的距离为边长的正方形区域。所述人头位置信息为以人头中心为中心,以第二长度为边长的正方形的位置信息 (位置坐标)。所述人头位置信息还可以为以人头中心为中心,以第二长度为直径的圆形位 置信息或其他形状的区域位置信息。所述第二长度可以根据应用场合、视频采集单元的球机镜头的分辨率以及跟踪精度要求进行具体设置。所述第二长度的确定方法可以参考第一 长度的确定方法,这里不做赘述。作为一个实施例,对于球机镜头为30万像素的视频采集 控制装置,所述第二长度可以为600个像素的距离,从而人头位置信息是以人头中心为中 心,以600个像素的距离为边长的正方形区域。所述运动区域信息为以运动物体中心为中心,以第三长度为边长的正方形的位置 信息(位置坐标)。所述运动区域信息还可以为以运动物体中心为中心,以第三长度为直径 的圆形位置信息或其他形状的区域位置信息。所述第三长度可以根据应用场合、视频采集 单元的球机镜头的分辨率以及跟踪精度要求进行具体设置。所述第三长度的确定方法可以 参考第一长度的确定方法,这里不做赘述。作为一个实施例,对于球机镜头为30万像素的 视频采集控制装置,所述第三长度可以为800个像素的距离,从而运动区域信息是以运动 物体中心为中心,以800个像素的距离为边长的正方形区域。所述跟踪融合控制单元103用于基于人脸跟踪单元104、人头跟踪单元105、运动 跟踪单元106的输出结果获得跟踪信息。所述跟踪信息作为下一帧视频图像的跟踪信息。 在获得跟踪信息后,所述跟踪融合控制单元103将确定的视频图像的跟踪信息存入所述存 储单元107。由于通常人脸跟踪单元105基于人脸模板进行工作,人头跟踪单元105基于人 头的椭圆轮廓进行识别,运动跟踪单元106基于当前帧视频图像的亮度工作,人脸跟踪单 元105对人物跟踪的可靠性高于运动跟踪单元106的可靠性,运动跟踪单元106的可靠性 高于人头跟踪单元105的可靠性。因此,本发明的跟踪融合控制单元103优先采用人脸跟 踪单元104的输出结果。若人脸跟踪单元104输出有人脸位置信息,则以所述人脸位置信息作为跟踪信 息,若人脸跟踪单元104未输出有位置信息,则判断运动跟踪单元106是否输出有运动区域 信息,若未输出运动区域信息,则说明跟踪目标(本实施例中为老师)为静止状态,则直接 以上一帧视频图像的跟踪信息作为视频图像的跟踪信息;若运动跟踪单元106输出有运动 区域信息,则将运动跟踪单元106的输出的运动区域信息和人头跟踪单元105的运动区域 信息融合,作为跟踪信息。本发明所述的融合为以人头的中心和运动物体中心连线的中心为中心,以第二 长度和第三长度中较小的为边长,获得正方形区域,将所述正方形区域位置信息作为跟踪 信息。在实际中,还可以基于其他的方法进行融合,在此不应过多限制。本发明所述的人脸模板、人头模板、上一帧视频图像可以通过学习获得,所述学习 过程具体包括在视频采集控制装置开启时,跟踪融合控制单元103将视频采集单元101锁定于 预定区域,对预定区域进行以帧为单位的视频图像采集,将每一帧视频图像发送预处理单 元102,经预处理单元102处理后,发送至人脸跟踪单元104、人头跟踪单元105和运动跟踪 单元106 ;人脸跟踪单元104对所述视频图像进行人脸特征提取,获得人脸,将所述人脸作 为目标人物的人脸模板,将人脸模板发送至存储单元107 ;人头跟踪单元105对所述视频图像进行人头特征提取,获得人头,将所述人头作 为目标人物的人头模板,将人头模板发送至存储单元107 ;所述运动跟踪单元106对所述视频图像进行运动特征提取,获得所述视频图像的亮度信息,将所述视频图像的亮度信息发送至存储单元107 ;所述跟踪融合控制单元103在存储单元107获得人脸模板、人头模板后,以人脸跟 踪单元104的人脸模板对应的人脸位置为初始跟踪信息,将视频采集单元101解除锁定,将 所述初始跟踪信息转换为运动指令,使得视频采集单元101对目标人物进行跟踪拍摄。例如,所述预定区域可以为讲台,用户在视频采集装置开启时,站在讲台上,由人 脸跟踪单元102、人头跟踪单元105和运动跟踪单元106进行学习。通常跟踪融合控制单 元103检测所述存储单元107,确定存储单元107获得了人脸模板、人头模板、亮度信息,跟 踪融合控制单元103发送信号至用户,用户可以开始讲课。通常,所述学习持续时间较短, 大约为采集3 5帧视频图像的时间。为了避免人脸跟踪单元104和人头跟踪单元105获 得的人脸模板和人头模板不是同一目标人物的。作为优选的实施例,所述人脸跟踪单元104 先于人头跟踪单元105工作,在人脸跟踪单元104获得跟踪人脸模板后,人头跟踪单元105 基于人脸模板所在位置附近进行人头特征提取,以距离人脸模板所在位置最近处的人头作 为人头模板。本发明还提供一种视频采集控制方法,请参考图2,为本发明的视频采集控制方法 流程示意图。所述方法包括步骤Si,对所获得的当前帧的视频图像进行人脸特提取、运动特征提取、人头特征 提取;步骤S2,当人脸特征提取获得与人脸模板匹配的人脸时,以所述人脸对应的人脸 区域位置信息作为跟踪信息;当运动特征提取获得运动物体时,将运动物体所在区域位置信息和人头特征提取 获得的与人头模板匹配的人头位置信息进行融合,将融合后的位置作为跟踪信息;当运动特征提取未获得运动物体时,以前一帧的跟踪信息作为跟踪信息;步骤S3,以所述跟踪信息控制下一帧视频图像的采集。其中,在对当前帧视频图像进行人脸特提取、运动特征提取、人头特征提取之前, 还可以对当前帧视频图像预处理,去除当前帧视频图像中的噪声,对预处理后的视频图像 进行人脸特征提取、运动特征提取、人头特征提取,提高人脸特征提取、运动特征提取、人头 特征提取的速度。所述的人脸特提取、运动特征提取、人头特征提取可以同时进行,也可以按照一定 次序先后进行。作为本发明的一个实施例,所述人脸模板、人头模板通过学习获得。学习的方法在 视频控制采集单元的工作原理中进行了介绍,在此不做详细说明。所述人脸模板、人头模板 还可以预先存放于存储单元。其中,所述以所述人脸区域位置信息作为跟踪信息包括步骤获得与人脸模板匹配的人脸;以人脸的中心为中心,以第一长度为边长确定正方形区域;将所述正方形区域的位置信息作为跟踪信息;本发明所述将运动物体所在区域位置信息和人头特征提取获得的与人头模板匹 配的人头位置信息进行融合,将融合后的位置作为跟踪信息包括获得运动物体;
9
以运动物体的中心为中心,以第三长度为边长确定正方形区域;获得与人头模板匹配的人头;以所述人头的中心为中心,以第二长度为边长确定正方形区域;以运动物体和人头中心连线的中点为中心,以第三长度和第二长度中较小的为边 长确定正方形区域;将所述正方形区域作为跟踪信息。本发明还提供一种包含所述视频采集控制装置的录播系统,所述录播系统可以用 于教学、会议等场合,可以对教室内的老师或会议的发言者进行跟踪拍摄。本发明还提供了一种包括视频采集控制方法的录播方法。综上,本发明提供的视频采集控制单元及其方法,解决了人物跟踪技术在人脸背 对或侧对镜头时跟踪失效的问题,保证了目标跟踪的跟踪效果。本发明虽然已以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域 技术人员在不脱离本发明的精神和范围内,都可以利用上述揭示的方法和技术内容对本发 明技术方案做出可能的变动和修改,因此,凡是未脱离本发明技术方案的内容,依据本发明 的技术实质对以上实施例所作的任何简单修改、等同变化及修饰,均属于本发明技术方案 的保护范围。
权利要求
一种视频采集控制装置,其特征在于,包括视频采集单元、人脸跟踪单元、人头跟踪单元、运动跟踪单元、跟踪融合控制单元,存储单元,其中,所述视频采集单元用于以帧为单位采集视频图像;所述存储单元用于存储人脸模板、人头模板、视频图像的跟踪信息;所述人脸跟踪单元用于对所述视频采集单元采集的当前帧视频图像进行人脸特征提取,若发现存在与人脸模板匹配的人脸,则输出与所述人脸对应的人脸区域位置信息至跟踪融合控制单元;所述运动跟踪单元用于对所述视频采集单元采集的当前帧视频图像进行运动特征提取,若发现存在运动物体,则输出与所述运动物体对应的运动区域位置信息至跟踪融合控制单元;所述人头跟踪单元用于对所述视频采集单元采集的当前帧视频图像进行人头特征提取,若发现存在与人头模板匹配的人头,则输出与所述人头对应的人头区域位置信息至跟踪融合控制单元;所述跟踪融合控制单元基于所述人脸跟踪单元、运动跟踪单元、人头跟踪单元的输出结果工作,若存在人脸区域位置信息,则以人脸区域位置信息作为下一帧视频图像的跟踪信息;若不存在人脸区域位置信息,则判断是否存在运动区域位置信息,若存在运动区域位置信息,则将所述运动区域位置信息和人头区域位置信息融合,将融合后的区域位置信息作为下一帧视频图像的跟踪信息;若不存在运动区域位置信息,则以所述存储单元中的视频图像的跟踪信息作为下一帧视频图像的跟踪信息;所述跟踪融合控制单元将确定的视频图像的跟踪信息存入所述存储单元;所述跟踪融合控制单元利用跟踪信息控制视频采集单元采集视频图像。
2.如权利要求1所述的视频采集控制装置,其特征在于,还包括预处理单元,用于对视 频采集单元输出的视频图像进行预处理,去除所述当前帧视频图像中的噪声,将去噪后的 视频图像发送至人脸跟踪单元、人头跟踪单元、运动跟踪单元。
3.如权利要求1所述的视频采集控制装置,其特征在于,所述跟踪融合控制单元在确 定视频图像的跟踪信息后,产生与所述视频图像的跟踪信息对应的运动指令,并发送至所 述视频采集单元;所述视频采集单元包括可运动的机械云台和安装于机械云台上的受控于机械云台的 球机镜头;所述机械云台接收跟踪融合控制单元发送的运动指令,进行与运动指令相应的 运动,带动所述球机镜头运动。
4.一种视频采集控制方法,其特征在于,包括对所获得的当前帧的视频图像进行人脸特提取、运动特征提取、人头特征提取;当人脸特征提取获得与人脸模板匹配的人脸时,以所述人脸对应的人脸区域位置信息 作为跟踪信息;当运动特征提取获得运动物体时,将运动物体所在区域位置信息和人头特征提取获得 的与人头模板匹配的人头位置信息进行融合,将融合后的位置作为跟踪信息;当运动特征提取未获得运动物体时,以前一帧的跟踪信息作为跟踪信息;以所述跟踪 信息控制下一帧视频图像的采集。
5.如权利要求4所述的视频采集控制方法,其特征在于,在对当前帧视频图像进行人 脸特提取、运动特征提取、人头特征提取之前,对当前帧视频图像预处理,去除当前帧视频图像中的噪声。
6.如权利要求4所述的视频采集控制装置的工作方法,其特征在于,所述人脸模板、人 头模板通过学习获得。
7.如权利要求4所述的视频采集控制装置的工作方法,其特征在于,以所述人脸区域 位置信息作为跟踪信息包括以所述与人脸模板匹配的人脸的中心为中心,以第一长度为边长确定正方形区域; 将所述正方形区域的位置信息作为跟踪信息。
8.如权利要求4所述的视频采集控制装置的工作方法,其特征在于,所述将运动物体 所在区域位置信息和人头特征提取获得的与人头模板匹配的人头位置信息进行融合,将融 合后的位置作为跟踪信息包括以运动物体的中心为中心,以第三长度为边长确定正方形区域; 以所述人头的中心为中心,以第二长度为边长确定正方形区域; 以运动物体和人头中心连线的中点为中心,以第三长度和第二长度中较小的为边长确 定正方形区域;将所述正方形区域的位置信息作为跟踪信息。
9.一种包括权利要求1所述的视频采集控制装置的录播系统。
10.一种包括权利要求4所述的视频采集控制方法的录播方法。
全文摘要
本发明提供了视频采集控制装置及其方法,将人头跟踪技术、人脸跟踪技术和运动跟踪技术融合,在目标人物背对镜头时,利用人头跟踪技术和运动跟踪技术进行跟踪,解决了人脸跟踪失效的问题,实现了对目标人物的有效跟踪。
文档编号G06T7/20GK101895685SQ201010230030
公开日2010年11月24日 申请日期2010年7月15日 优先权日2010年7月15日
发明者封春日, 汤戈 申请人:杭州华银视讯科技有限公司