本发明涉及多媒体技术领域,尤其涉及一种视频检索方法及系统。
背景技术:
2010年,Google公司的智能电视计划,正式开启了电视的智能化时代,人们对视频的需求也正朝着个性化、人性化的方面发展。
在日常视频搜索中,用户可能只对某个人或某几个人的视频片段感兴趣,而大多数视频资源即使包含感兴趣的视频片段,但视频资源本身通常具有较长时间,因而为查看感兴趣的视频片段不得不查看整个视频资源,或者由于定位不精确错过一些感兴趣的视频片段。由此,造成用户对感兴趣部分的视频查找困难,从而使得用户在对视频进行检索的时间也相对较长,大大降低了用户的观赏体验。
技术实现要素:
针对现有技术中的缺陷,本发明提供一种视频检索方法及系统,以解决现有技术中对感兴趣部分查找困难的问题。
第一方面,本发明提供一种视频检索方法,包括:
在接收到检索关键词时,将待检索视频分割为多个镜头;
提取所述镜头的前N帧图像,并在提取的图像中检测是否存在人脸图像,N为大于等于1的整数;
在前N帧图像存在人脸图像的镜头中检测出所有人脸图像;
根据所述检索关键词,将所述检索关键词对应的样本集与所述人脸图像进行对比,计算各人脸图像与所述样本集的相似度;
将所述相似度大于第一预设值的人脸图像在所属镜头内进行整合,并将整合后的各镜头连接,以得到目标视频。
优选地,所述将待检索视频分割为多个镜头,包括:
提取待检索视频的视觉特征;
根据所述视觉特征度量相邻图像之间的相似度;
在所述相似度小于第二预设值时,将所述相邻图像分割为两个镜头。
优选地,所述在前N帧图像存在人脸图像的镜头中检测出所有人脸图像,包括:
采用级联分类器在所述前N帧图像存在人脸图像的镜头中检测出所有人脸图像。
优选地,所述根据所述检索关键词,将所述检索关键词对应的样本集与所述人脸图像进行对比,计算各人脸图像与所述样本集的相似度,包括:
根据所述检索关键词,在人脸样本数据库中提取与所述检索关键词相关的样本集,所述样本集为同一人物的多个人脸样本图像;
将所述图像表示为将所述人脸样本图像的线性组合;
根据所述线性组合的系数计算该图像与所述样本集的相似度。
优选地,所述将所述相似度大于第一预设值的人脸图像在所属镜头内进行整合,包括:
将所述相似度大于第一预设值的人脸图像在该人脸图像所属的镜头内进行聚类;
将聚类的人脸图像与该人脸图像对应的时间信息和声音信息关联,以生成包括该人脸图像的镜头。
第二方面,本发明提供一种视频检索系统,包括:
视频镜头分割模块,用于在接收到检索关键词时,将待检索视频分割为多个镜头;
镜头检测模块,用于提取所述镜头的前N帧图像,并在提取的图像中检测是否存在人脸图像,N为大于等于1的整数;
人脸图像检测模块,用于在前N帧图像存在人脸图像的镜头中检测出所有人脸图像;
人脸图像检索模块,用于根据所述检索关键词,将所述检索关键词对应的样本集与所述人脸图像进行对比,计算各人脸图像与所述样本集的相似度;
目标视频生成模块,用于将所述相似度大于第一预设值的人脸图像在所属镜头内进行整合,并将整合后的各镜头连接,以得到目标视频。
优选地,所述视频镜头分割模块,具体用于
提取待检索视频的视觉特征;
根据所述视觉特征度量相邻图像之间的相似度;
在所述相似度小于第二预设值时,将所述相邻图像分割为两个镜头。
优选地,所述人脸图像检测模块,具体用于
采用级联分类器在所述前N帧图像存在人脸图像的镜头中检测出所有人脸图像。
优选地,所述人脸图像检索模块,具体用于
根据所述检索关键词,在人脸样本数据库中提取与所述检索关键词相关的样本集,所述样本集为同一人物的多个人脸样本图像;
将所述图像表示为将所述人脸样本图像的线性组合;
根据所述线性组合的系数计算该图像与所述样本集的相似度。
优选地,所述目标视频生成模块,具体用于
将所述相似度大于第一预设值的人脸图像在该人脸图像所属的镜头内进行聚类;
将聚类的人脸图像与该人脸图像对应的时间信息和声音信息关联,以生成包括该人脸图像的镜头。
由上述技术方案可知,本发明的视频检索方法及系统,通过将待检索视频分割为多个镜头,并将前N帧存在人脸图像的镜头进行人脸图像检测,再根据检索关键词,计算与所述检索关键词对应的样本集与人脸图像的相似度,将所述相似度大于第一预设值的人脸图像在该人脸图像所属的镜头内进行整合,最后将整合后的镜头连接,得到目标视频。由此,有效提高了视频检索速度,提升用户的观赏体验。
附图说明
图1为本发明一实施例提供的视频检索方法的流程示意图;
图2为本发明另一实施例提供的视频检索方法的流程示意图;
图3为本发明实施例提供的各类模板的示意图;
图4为本发明一实施例提供的视频检索系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他的实施例,都属于本发明保护的范围。
图1示出了本发明一实施例提供的视频检索方法的流程示意图,如图1所示,本实施例的视频检索方法如下所述。
101、在接收到检索关键词时,将待检索视频分割为多个镜头。
可理解的是,广播视频在制作过程中通常包括多个镜头,每一镜头的场景和内容连续。因此,可通过判断连续图像之间的差异来识别镜头的边界,由此将待检索视频分割为多个独立的镜头。
在实际应用中,上述的步骤101还包括图中未示出的子步骤1011-子步骤1013。
1011、提取待检索视频的视觉特征。
举例来说,可提取待检索视频的颜色直方图或像素作为待检索视频的视觉特征。
1012、根据所述视觉特征度量相邻图像之间的相似度。
举例来说,可以位置的相似度作为相邻图像之间的相似度,位置的相似度可表示为:
其中,(Xi,Yi)表示第i帧图像中的点的坐标,(Xi’,Yi’)表示第i帧图像相信帧图像中的点的坐标,Wi表示该点的权重。
1013、在所述相似度小于第二预设值时,将所述相邻图像分割为两个镜头。
由上述可行,在上述的位置相似度S小于第二预设值时,以该点所在的位置作为镜头分割的位置。上述的第二预设值为一经验值,本实施例不对第二预设值的具体取值进行限定。
采用上述的方式对待检索视频进行遍历,将待检索视频分割为多个镜头。
102、提取所述镜头的前N帧图像,并在提取的图像中检测是否存在人脸图像。
其中,N为大于等于1的整数。广播视频中的图像包括的内容复杂且具有多样性,为提高检索效率,以各镜头的前N帧图像作为该镜头的关键帧进行检测,若前N帧图像中包括人脸图像,则将该镜头保留,作为待检索镜头;若前N帧图像不包括人脸图像,则将该镜头舍弃,不再对该镜头进行进一步检测和检索。
103、在前N帧图像存在人脸图像的镜头中检测出所有人脸图像。
在实际应用中,可采用级联分类器在上述的镜头中检测出该镜头中所有的人脸图像。
具体来说,可将A个弱分类器进行级联,再将B个弱级联分类器级联为一个强分类器,再将C强分类器进行级联得到上述的级联分类器。由上述的级联分类器进行人脸图像帧的检测时,首先将检测图像通过第一个强分类器,若该强分类器判断该检测图像为人脸图像,则将该检测图像再通过第二个强分类器,以此类推,直到通过全部强分类器为止。在检测过程中只要有一个弱分类器判断检测图像为非人脸图像,则不再进行后续的检测过程,并将该检测图像分类为非人脸图像。由此,可排除了大量的非检测目标,滤除大部分非人脸图像帧,大大提高检测速度。
104、根据所述检索关键词,将所述检索关键词对应的样本集与所述人脸图像进行对比,计算各人脸图像与所述样本集的相似度。
应该说明的是,上述的样本集为包括某人物的多个图像的集合,样本集的图像为同一人物在不同光照、不同角度或不同面部表情的人物图像。
在实际应用中,样本集中的图像通常经过去噪处理,且缩放到100×100像素大小,并且可用图像中的人物姓名进行分类。在进行视频检索时,可以人物姓名为检索关键词提取样本集,再计算人脸图像与样本集的相似度。
105、将所述相似度大于第一预设值的人脸图像在所属镜头内进行整合,并将整合后的镜头连接,以得到目标视频片段。
具体来说,上述的步骤105包括图中未示出的子步骤1051和子步骤1052。
1051、将所述相似度大于第一预设值的人脸图像在该人脸图像所属的镜头内进行聚类。
举例来说,可选择适当的阈值,将相似度大于该阈值的人脸图像进行聚类,则一类中包括的人脸图像可为场景相似,内容相近且连续的图像。因此,将上述的人脸图像先进行聚类处理,可有效提高图像整合的效率。
1052、将聚类的人脸图像与该人脸图像对应的时间信息和声音信息关联,以生成包括该人脸图像的镜头。
可理解的是,视频中的各图像都对应着唯一的时间轴上的时间信息和声音信息。因此,将聚类后的图像与该图像对应的时间信息和声音信息并联起来,才能恢复原始视频的各片段相同的视频内容,由此生成镜头再进行连接最终生成只包含与检索关键词相关的目标视频。
本实施例的视频检索方法,通过将待检索视频分割为多个镜头,并将前N帧存在人脸图像的镜头进行人脸图像检测,再根据检索关键词,计算与所述检索关键词对应的样本集与人脸图像的相似度,将所述相似度大于第一预设值的人脸图像在该人脸图像所属的镜头内进行整合,最后将整合后的镜头连接,得到目标视频。由此,有效提高了视频检索速度,提升用户的观赏体验。
图2示出了本发明一实施例提供的视频检索方法的流程示意图,如图2所示,本实施例的视频检索方法如下所述。
201、在接收到检索关键词时,将待检索视频分割为多个镜头。
202、提取所述镜头的前N帧图像,并在提取的图像中检测是否存在人脸图像。
203、采用级联分类器在所述前N帧图像存在人脸图像的镜头中检测出所有人脸图像。
在一种可实施的方式中,本实施例的级联分类器,可采用如下方式进行训练生成。
首先,选取N个图像作为训练样本,经过平滑去噪处理,缩放成24×24大小的图像。然后计算这些样本的人脸特征,构造弱分类器。
具体来说,可采用如图3所示的各类模板获取人脸图像的矩形特征。应该说明的是,上述的模板可伸缩成任意尺寸检测窗口,来获取人脸图像的矩形特征。例如s×t尺度的模板获得的检测窗口个数为:
其中,[]为取整符号;
进一步地,计算各检测窗口的特征值。检测窗口的特征值可为黑色矩形内所包含的所有像素和减去白色矩形内所包含的所有像素和。可采用积分图计算各检测窗口的特征值。
举例来说,若A(m,n)表示积分图像中该点的上方和左方所有像素的累加和,S(m,n)表示行方向的累加和,i(m,n)表示该区域的像素和,则逐行对图像进行扫描,递归计算S(m,n)和A(m,n)可得:
S(m,n)=S(m,n-1)+i(m,n)
A(m,n)=A(m-1,n)+S(m,n)
由此,计算每个检测窗口的特征值。
由于不同的样本Xi(i=1,2…N)在不同的检测窗口Kj(j=1,2…M)中的特征值fj(Xi)(i=1,2,…,Nj=1,2,…,M)不同,在这些特征值中选取合适的阈值,用来判断图像为人脸图像或非人脸图像。
例如,检测窗口Kj对应的弱分类器可为whj(X),
whj(Xi)=1表示该图像为人脸图像,反之,为非人脸图像。p指示不等号的方向,取值为正负1,且当第j个特征在所有样本中的平均值小于阈值θj时,p为-1,否则p为1;θj为所有样本在第j个特征值中的最优阈值。
其中,阈值θj采用如下方法确定:针对每一个特征计算每个样本Xi的特征值fj(Xi),将特征值从小到大进行排序,得到所有人脸样本图像的比例T+及所有非人脸样本图像的比例T-;再计算在fj(Xi)之前的所有人脸样本图像的比例S+及所有非人脸样本图像的比例S-,则当前fj(Xi)的分类错误率e即为:
e=min((S++(T--S-)),(S-+(T+-S+)))
由上得到到使错误率e最小的最优阈值θj、j和fj(Xi)的取值。根据分类错误率e,筛选出分类错误率较小的特征作为弱分类器。
而后,构造人脸检测的强分类器。可将每个样本赋相同的权值,用第一个弱分类器对N个样本分类,将分错的样本增加权重,分对的样本减小权重,在赋新的权重的样本中训练第二个弱分类器,将分错的样本增加权重,分对的样本减小权重,迭代P次后,生成P个弱分类器。
再将P个弱分类器按照一定的权重叠加,得到强分类器;找出若干个强分类器,构成级联分类器,用来检测上述人脸图像帧。
204、根据所述检索关键词,在人脸样本数据库中提取与所述检索关键词相关的样本集。
所述样本集为同一人物的多个人脸样本图像。
在实际应用中,可将人脸样本图像按照人物进行分类。例如,若有k个人物,则可将样本集分类为k类,且每一类的样本集可表示为[d11,d12,d13,...d1n,d21,d22,d23,...d2n,…di1,di2,di3,…din,…dk1,dk2,dk3,...dkn],则每个列向量diji=(1,2,…k),j=(1,2,…n)可表示一个人物的样本集。进一步地,令Di=[di1,di2,di3,…din],则D=(D1,D2,D3…Dk)为k个样本集组成的人脸样本图像数据库。
205、将所述图像表示为将所述人脸样本图像的线性组合。
由上述的样本集可知,上述的每一个图像可表示为样本集中从脸样本图像的线性组合。例如,可采用Y=DA来表示上述的任一图像帧。其中,A为稀疏系数矩阵。在图像为人脸样本图像数据库中的某一人物时,可表示为Y=ai1×di1+ai2×di2+…+ain×din,其中ai1,ai2,…ain,为稀疏系数,是稀疏系数矩阵A的一列值。
206、根据所述线性组合的系数计算该图像与所述样本集的相似度。
具体来说,可采用上述的稀疏系数和ΣAi=ai1+ai2+…+ain表示该图像帧Y与所述样本集的相似度。
207、将所述相似度大于第一预设值的人脸图像在所属镜头内进行整合,并将整合后的各镜头连接,以得到目标视频。
举例来说,若样本集中的人脸样本图像的个数为n个,则在稀疏系数和ΣAi>0.8n时,将该图像作为检索出来的人脸图像。再将得到的人脸图像在该人脸图像所属镜头内进行整合,将整合后的各镜头串连起来,最终得到目标视频。
本实施例的视频检索方法,通过将待检索视频分割为多个镜头,并将前N帧存在人脸图像的镜头进行人脸图像检测,再根据检索关键词,计算与所述检索关键词对应的样本集与人脸图像的相似度,将所述相似度大于第一预设值的人脸图像在该人脸图像所属的镜头内进行整合,最后将整合后的镜头连接,得到目标视频。由此,有效提高了视频检索速度,提升用户的观赏体验。
图4示出了本发明一实施例提供的视频检索系统,如图4所述,本实施例的视频检索系统,包括:视频镜头分割模块41、镜头检测模块42、人脸图像检测模块43、人脸图像检索模块44和目标视频生成模块45。
视频镜头分割模块41,用于在接收到检索关键词时,将待检索视频分割为多个镜头;
镜头检测模块42,用于提取所述镜头的前N帧图像,并在提取的图像中检测是否存在人脸图像,N为大于等于1的整数;
人脸图像检测模块43,用于在前N帧图像存在人脸图像的镜头中检测出所有人脸图像;
人脸图像检索模块44,用于根据所述检索关键词,将所述检索关键词对应的样本集与所述人脸图像进行对比,计算各人脸图像与所述样本集的相似度;
目标视频生成模块45,用于将所述相似度大于第一预设值的人脸图像在所属镜头内进行整合,并将整合后的各镜头连接,以得到目标视频。
优选地,所述视频镜头分割模块41,具体用于提取待检索视频的视觉特征;根据所述视觉特征度量相邻图像之间的相似度;在所述相似度小于第二预设值时,将所述相邻图像分割为两个镜头。
优选地,所述人脸图像检测模块43,具体用于采用级联分类器在所述前N帧图像存在人脸图像的镜头中检测出所有人脸图像。
优选地,所述人脸图像检索模块44,具体用于根据所述检索关键词,在人脸样本数据库中提取与所述检索关键词相关的样本集,所述样本集为同一人物的多个人脸样本图像;将所述图像表示为将所述人脸样本图像的线性组合;根据所述线性组合的系数计算该图像与所述样本集的相似度。
优选地,所述目标视频生成模块45,具体用于将所述相似度大于第一预设值的人脸图像在该人脸图像所属的镜头内进行聚类;将聚类的人脸图像与该人脸图像对应的时间信息和声音信息关联,以生成包括该人脸图像的镜头。
本实施例的视频检索系统,可以用于执行上述图1或图2所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本实施例的视频检索系统,通过将待检索视频分割为多个镜头,并将前N帧存在人脸图像的镜头进行人脸图像检测,再根据检索关键词,计算与所述检索关键词对应的样本集与人脸图像的相似度,将所述相似度大于第一预设值的人脸图像在该人脸图像所属的镜头内进行整合,最后将整合后的镜头连接,得到目标视频。由此,有效提高了视频检索速度,提升用户的观赏体验。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。