专利名称:基于先进音视频编码标准的视频监控方法及系统的制作方法
技术领域:
本发明属于视频监控技术领域,具体为一种基于AVS(先进音视频编码标准)的视频监 控方法及其实现系统。
背景技术:
如今安全问题已经受到广泛关注,涌现了越来越多的视频监控系统,如门禁系统、考 勤系统以及身份识别系统等等。视频监控系统可以让管理人员在控制室中观察到前端防范 区域内所有人员活动情况并做记录,为保安系统提供实时的图像、声音信息。但是,传统 的视频监控系统需要大量的人力资源开销,对监控视频内容的检测、识别和理解完全依靠 人工,降低了视频监控系统的工作效率,安全性与准确性也缺乏保证,而且作为视频监控 系统核心技术的视频压縮标准目前还没有专用的数字视频监控系统视频压縮标准,在网络 传输和系统通用性上造成了比较大的问题。
发明内容
本发明的目的在于提出一种工作效率高、安全性好的视频监控方法及系统。 本发明顺应视频监控发展潮流,将自动化处理和AVS标准引入视频监控,结合背景/ 非背景分类、人脸检测与识别等技术,预先对监控视频通过计算机系统的自动处理,在保 证返回内容的有效性的前提下,反馈给操作人员的信息量将远小于传统监控系统,从而大 大节省了人力资源,同时也提高了视频监控系统的可靠性。首创利用AVS在视频监控技术 方面和专利应用优势,随着国家和地方政府大力支持对AVS的应用推广,本发明在数字监 控、门禁控制以及身份识别等应用领域有一定的应用价值。
本发明首先通过AVS网络摄像机采集按照AVS码流,使用AVS码流解码过程中的压縮 域信息来进行背景和非背景的分类。当分类结果表明当前的帧不是背景时,进行人脸检测。 当检测到人脸时,进行人脸识别,即将人脸数据进行变换后与训练数据进行比较。在识别 结果被反馈给用户之前,先计算置信度t , t表明当前识别结果的可信程度。当置信度t 小于阈值t—min时(tjnin由经验数据统计获得,t—min越高则准确率越高,t_min越低则 査全率越高,通过权衡根据系统实际情况设定一个合适的t—min),我们认为该人脸不属于 当前库中的数据,认定为陌生人,并将这个结果反馈给用户,经用户确认后将此新的人脸 添加进库中。当置信度大于等于阈值t—min时,表明识别结果有较高的可信度,然后记录识别结果并对视频进行标注。图l是本视频监控系统的流程图,其中体现了本发明两个特 点,AVS应用和自动化处理。
具体实现的系统主要由三个部分组成,训练模块、标注模块和检索模块。
训练模块,包括监控环境背景的训练模块和人脸库的训练模块,分别实施对环境背景 训练和对人脸训练,输入为人脸样本库和背景样本库,输出为各人脸特征和背景特征。
标注模块,包括背景检测模块、人脸检测模块、人脸识别模块和索引结构建立部分, 对输入的监控视频进行自动标注。输入为训练模块得到的背景特征、人脸特征和待标注的 监控视频,输出为待标注监控视频的检索索引。
检索模块,是对指定监控视频进行检索,包括图片査询、文本査询和视频查询。输入 为指定监控视频的索引,用户提交的图片、文本或小段视频,得到用户所提交内容在监控 视频中相应的图像内容。图2所示为系统的主要组成模块、工作流程以及各个模块之间的 逻辑关系。如图所示,系统的最初输入是人脸库以及背景样本,经过训练后得到背景模型 以及人脸特征变换矩阵和人脸特征库。然后对监控视频进行标注,标注的过程首先是背景 检测,对不是背景的图像进行人脸检测,对其中出现的人脸进行特征变换并创建索引结构 下的索引。最终用户通过用户界面提交文本,图片或者视频,系统根据用户提交内容的不 同来分别进行处理,最终反馈给用户的是相关信息在监控数据中出现的位置。
下面是系统主要模块的设计
1) 背景训练模块对输入的背景视频样本进行计算,得到背景模型。采用算法是基于 HSV颜色空间,计算各像素属于背景的取值范围。
输入背景视频样本。
输出背景模型,用于背景的比对。
2) 人脸训练模块对人脸库中的人脸进行处理。采用算法是fisher-face。
输入人脸库。
输出由人脸库中人脸数据计算得到的变换矩阵,该矩阵的目的是将输入人脸变换得 到一维向量,用以识别。在得到变换矩阵的同时输出各人脸的中心,用以识别。
3) 背景检测模块将输入帧图像与背景模型进行比对,目的是获知该输入帧是否为 背景,若不是背景,那些区域属于前景范围。
输入背景模型,帧图像。
输出获知该输入帧是否为背景,若不是背景,那些区域属于前景范围。
4) 人脸检测模块对于非背景的帧图像,在其中检测人脸。
输入帧图像。输出检测到的人脸图像。
5) 人脸识别模块对于检测到的人脸图像,使用训练得到的变换矩阵,得到一位向 量,采用欧式距离计算与各中心的相似度,以实现识别的目的。
输入人脸图像,变换矩阵。 输出识别结果。
6) 索引结构模块对输入视频进行标注,依照人脸识别的结果,得到视频索引,并 对索引建立索引结构。
输入监控视频。 输出视频索引。
7) 检索模块用户通过用户界面输入査询内容,检索模块根据用户提交内容格式的 不同进行检索,并通过用户界面反馈信息。
输入用户提交的査询。
输出反馈给用户的视频片断等信息。
本发明有特别针对AVS视频流的预处理,不管是在门禁实时监控还是离线处理存储的
视频,都不对AVS码流进行完全的解码,而是使用AVS的压縮域信息来进行背景/非背景
分类,判断当前图像是否为背景,如果为背景就不进行后续的工作,以此来提高系统的处 理效率。在实时应用中,还可以加入使用硬件处理来加速这一过程。
在AVS的压縮域当中,宏块的运动向量可以反映视频当中物体的运动。在背景片断中,
图像是相对静止的,当有人出现时会使视频中引入更多的运动信息。文献[l]中提出使用
H.264的运动预测技术来进行背景/非背景的分类。本发明将类似的算法用于AVS码流。 设&i为当前图像中的一个宏块的运动向量,巧i = (口A, 口乃),0《i《N - 1。 N为当 前图像中宏块总数。用下式来计算当前图像中的运动强度
其中,Wzft表示第i个宏块的面积。
单纯使用运动强度并不能完全表征当前图像中物体的运动状态,因此引入另一个参数
MS表示图像中运动的范围
<formula>formula see original document page 7</formula>公式(1)<formula>formula see original document page 7</formula>
公式(2)在背景图像序列中,图像中不存在剧烈的运动,运动强度和运动范围都被限制在较小 的数值。设MV的阈值为mv—min, ms的阈值为ms_min, mv—min和ms—min由经验数据统计 获得,mv—min和ms一min越小则背景分辨准确率越高,mv_min和ms_min越大则查全率越高, 通过权衡根据系统实际情况设定一个合适的mv—min和ms—min。当满足下列条件时,判定当
前图像属于背景-
MV<mv_min且MS〈ms一min。
进行背景和非背景分类的意义不仅仅在于提高了系统的效率,另一方面也搜集各监控 点的统计信息,从而推断监控点的环境信息。例如通过统计非背景帧在监控序列当中的分 布,就可以得知该监控点在什么时间段处于人流密集的状态,从而进一步对该监控点做出 适当的部署,例如在人流相对密集的时间段提高录制的帧率,而在人流稀少的时间段降低 录制的帧率等等。
经过背景检测,对判断不为背景的图像进行人脸检测。人脸检测采用AdaBoost算法[2]。 但是为了提高系统的处理效率,我们不进行全局检测,而是进行局部检测。
从人脸检测中,检测出的人脸图像进行尺寸统一縮放后,按照由左至右,由上至下扫 描成样本向量,然后对样本向量进行降维。我们采用经典的PCA与LDA结合的Fisher-Face 算法进行人脸投影特征的抽取^(PCA: Principal Components Analysis,结合主元分析; LDA: Linear Discriminant Analysis,线性鉴别分析)。在使用PCA降维后的空间上使用 LDA,得到所检测人脸的特征向量。特征抽取后采用最小距离分类器与库中的人脸进行比对 与识别。
设人脸f经过Fisher-Face特征抽取后的样本向量为f , , f , = (u0, ul …uk), 然后计算其与训练样本的距离-<formula>formula see original document page 8</formula>公式(3)
其中fi ' =(v0, vl…vk)表示库中的第i个训练样本,k为样本维数。d (f ,, fi ')表示当前待识别样本与库中第i个训练样本的距离。
计算完f'与库中所有样本后,找出距离最小的前5个样本,fil ' ,fi2'…fi5'。 其中多数样本属于类c,类c任指属于同一个人的样本类,数量较多那种即为c类。若5 个样本各属一类,则以与f '距离最小的样本fil '所属类作为c。我们用下列公式计 算识别的置信度t:<formula>formula see original document page 9</formula>公式(4)
当置信度t小于阈值t—min时,说明人脸为陌生人,将结果f反馈给用户,经用户确 认后将此新的人脸添加进库中,否则表示识别结果可靠并记录结果。t—rnin由经验数据统计 获得,t—min越高则准确率越高,t一min越低则查全率越高,通过权衡根据系统实际情况设 定一个合适的t_min。
根据上述内容,概括出本发明提出的基于AVS的视频监控系统及其实现方法的步骤为 1、利用AVS摄像机取得AVS码流;2、对AVS码流进行背景分类、人脸检测、背景训练、 人脸训练;3、对人脸进行比对识别;4、获得查询结果。
图1为本视频监控系统的核心部分流程图。 图2为系统主要模块及工作流程。
图中标号l训练模块;2标注模块;3检索模块;4人脸库;5背景样本库;6背景训 练模块;7人脸训练模块;8背景模型;9人脸特征变换矩阵;10背景检测模块;11人脸 检测模块;12人脸识别模块;13索引结构模块;14监控视频;15检索索引;16检索模块。
具体实施例方式
例如,本发明在门禁系统的应用中,系统可以分成五部分前端摄像机、AVS视频数 据库、视频处理和比对识别、人脸数据库、进入信息查询。在门禁系统中,摄像机位置比 较固定,拍摄的角度和背影都是固定的,而且在写字楼这种室内环境中光线的变化也不是 很剧烈。由于摄像机自带的驱动并不支持分段和远程存储,所以要根据应用要求在摄像头
自带驱动的基础上编写驱动程序,在摄像过程中自动实现视频的分段,并将拍摄所得的AVS 分段视频存储于指定的数据库。同时,实时的顺序对分段的AVS码流进行处理。首先进行 背景分类,如果小段视频均为背影,则不进行下一步处理。经过背景检测,对判断不为背 景的图像进行人脸检测。但是为了提高系统的处理效率,我们不进行全局检测,而是进行 局部检测,检测方法在前文中有详细的阐述,在这就不重复。通过人脸检测当置信度t (计 算方法前文有述)小于阈值t一min (前文有述)时,系统实际实现中可以将t_min设为0. 85, 小于这个值反馈类似"此人脸不在库中,为陌生人"的信息给用户,提醒用户,还可以经 用户确认后将此新的人脸添加进库中,可以将结果存在人脸数据库中。如果大于t—min,表 示识别结果可靠且原人脸数据库中有此人,自动査询并报告此人的姓名,记录其进入的时 间。这是本发明在实际中的一种应用。参考文献 Hui H., Liu H., Wu Y" Liang Y. Video surveillance method based on H. 264 standard[J].
ComputerApplications, 2005, 25(11), 131-133.[惠鑲,刘涵,吴亚丽,梁炎明. 一种基于视
频编码标准H. 264的智能视频监控技术[J].《计算机应用》,2005, 25(11), 131-133] Freund Y" Schapire R. E. A Decision-Theoretic Generalization of Online Learning and an
Application to Boosting. Journal of Computer and System Sciences, 1997, 55(1):119-139 Belhumeur P., Hespanha J. Eigenfaces vs Fisherfaces: recognition using class specific linear
projection[C], 1997, IEEE Transactions on Pattern Analysis and Machine Intelligence, 20(7),
711-720
权利要求
1、一种基于AVS的视频监控方法,其特征在于具体步骤如下首先通过AVS网络摄像机采集按照AVS码流,使用AVS码流解码过程中的压缩域信息来进行背景和非背景的分类。当分类结果表明当前的帧不是背景时,进行人脸检测。当检测到人脸时,进行人脸识别,即将人脸数据进行变换后与训练数据进行比较。在识别结果被反馈给用户之前,先计算置信度t,t表明当前识别结果的可信程度。当置信度t小于阈值t_min时,认为该人脸不属于当前库中的数据,认定为陌生人,并将这个结果反馈给用户,经用户确认后将此新的人脸添加进库中。当置信度大于等于阈值t_min时,表明识别结果有较高的可信度,然后记录识别结果并对视频进行标注;这里AVS是指先进音视频编码标准。2、根据权利要求1所述的方法,其特征在于所述背景分类的方法为设为当前图像中的一个宏块的运动向量,0≤i≤N-1;N为当前图像中宏块总数。用下式来计算当前图像中的运动强度公式(1)其中,sizei表示第i个宏块的面积。参数MS表示图像中运动的范围 公式(2)当满足下列条件时,判定当前图像属于背景MV<mv_min且MS<ms_min。
2、 根据权利要求1所述的方法,其特征在于所述背景分类的方法为设^ i为当前图像 中的一个宏块的运动向量,口义),0《i《N - 1; N为当前图像中宏块总数。 用下式来计算当前图像中的运动强度<formula>formula see original document page 2</formula> 公式(1)其中,表示第i个宏块的面积。 参数MS表示图像中运动的范围<formula>formula see original document page 2</formula> 公式(2)当满足下列条件时,判定当前图像属于背景MV<mv—min且MS<ms—min。
3、根据权利要求1所述的方法,其特征在于所述的人脸识别的方法如下从人脸检 测中,检测出的人脸图像进行尺寸统一缩放后,按照由左至右,由上至下扫描成样本向量,然后对样本向量进行降维;我们采用经典的PCA与LDA结合的Fisher-Face算法进行人脸 投影特征的抽取;设人脸f经过Fisher-Face特征抽取后的样本向量为f ' , f, = (uO, ul …uk),然后计算其与训练样本的距离<formula>formula see original document page 2</formula> 公式(3)其中fi ' =(V0, Vl…Vk)表示库中的第i个训练样本,k为样本维数;d (ffi ')表示当前待识别样本与库中第i个训练样本的距离;计算完f'与库中所有样本后,找出距离最小的前5个样本,fil ' ,fi2'…fi5'; 其中多数样本属于类c,类c任指属于同一个人的样本类,数量较多那种即为c类;若5 个样本各属一类,则以与f '距离最小的样本fil '所属类作为c;我们用下列公式计算识别的置信度t:- 公式(4)当置信度t小于阈值t—min时,说明人脸为陌生人,将结果f反馈给用户,经用户确 认后将此新的人脸添加进库中,否则表示识别结果可靠并记录结果。
4、 一种基于AVS的视频监控系统,其特征在于系统主要由训练模块、标注模块和检 索模块训练模块,包括监控环境背景的训练模块和人脸库的训练模块,分别实施对环境背景 训练和对人脸训练,输入为人脸样本库和背景样本库,输出为各人脸特征和背景特征;标注模块,包括背景检测模块、人脸检测模块、人脸识别模块和索引结构建立部分, 对输入的监控视频进行自动标注;输入为训练模块得到的背景特征、人脸特征和待标注的 监控视频,输出为待标注监控视频的检索索引;检索模块,是对指定监控视频进行检索,包括图片查询、文本查询和视频査询;输入 为指定监控视频的索引,用户提交的图片、文本或小段视频,得到用户所提交内容在监控 视频中相应的图像内容;系统主要模块的设计如下1) 背景训练模块对输入的背景视频样本进行计算,得到背景模型;采用算法是基于 HSV颜色空间,计算各像素属于背景的取值范围;输入背景视频样木;输出背景模型,用于背景的比对;2) 人脸训练模块对人脸库中的人脸进行处理;采用算法是fisher-face;输入人脸库;输出由人脸库中人脸数据计算得到的变换矩阵,该矩阵的目的是将输入人脸变换得 到一维向量,用以识别;在得到变换矩阵的同时输出各人脸的中心,用以识别;3) 背景检测模块将输入帧图像与背景模型进行比对,目的是获知该输入帧是否为 背景,若不是背景,那些区域属于前景范围;输入背景模型,帧图像;输出获知该输入帧是否为背景,若不是背景,那些区域属于前景范围;4) 人脸检测模块对于非背景的帧图像,在其中检测人脸;输入帧图像; 输出检测到的人脸图像;5) 人脸识别模块对于检测到的人脸图像,使用训练得到的变换矩阵,得到一位向 量,采用欧式距离计算与各中心的相似度,以实现识别的目的;输入人脸图像,变换矩阵; 输出识别结果;6) 索引结构模块对输入视频进行标注,依照人脸识别的结果,得到视频索引,并 对索引建立索引结构;输入监控视频; 输出视频索引;7) 检索模块用户通过用户界面输入查询内容,检索模块根据用户提交内容格式的 不同进行检索,并通过用户界面反馈信息;输入用户提交的查询;输出反馈给用户的视频片断信息。
全文摘要
本发明属于视频监控技术领域,具体为一种基于AVS(先进音视频编码标准)的视频监控方法及其实现系统。本发明顺应视频监控发展潮流,将自动化处理和AVS标准引入视频监控,结合背景/非背景分类、人脸检测与识别等技术,预先对监控视频通过计算机系统的自动处理,在保证返回内容的有效性的前提下,反馈给操作人员的信息量将远小于传统监控系统,从而大大节省了人力资源,同时也提高了视频监控系统的可靠性。首创利用AVS在视频监控技术方面和专利应用优势,随着国家和地方政府大力支持对AVS的应用推广,本发明在数字监控、门禁控制以及身份识别等应用领域有一定的应用价值。
文档编号H04N7/18GK101419670SQ20081020320
公开日2009年4月29日 申请日期2008年11月21日 优先权日2008年11月21日
发明者宋元征, 新 王, 红 路, 陈桂财 申请人:复旦大学