视频镜头边界检测处理方法、系统、存储介质及设备

文档序号:32308925发布日期:2022-11-23 10:55阅读:57来源:国知局
视频镜头边界检测处理方法、系统、存储介质及设备

1.本发明涉及图像处理技术领域,具体为视频镜头边界检测处理方法、系统、存储介质及设备。


背景技术:

2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
3.基于视频中的图像进行检索、标注、索引以及摘要等分析技术日益丰富,镜头边界检测技术是视频结构化分析的基础,检测处理的算法直接影响到视频检索等后续工作的性能。
4.传统的镜头边界检测方法如颜色直方图、边缘比较、帧差法虽然能在一定程度上检测出突变镜头,但对于渐变镜头的检测能力不强,且对光照及运动等干扰信息不敏感;基于聚类的镜头边界检测方法需要人工设置聚类数目,在一定程度上限制了算法结果的准确性,增加了一定的随意性;基于子块的镜头边界检测方法相对于一般的方法而言对运动和噪声具有较好的容忍性,但其计算量大,且易受光照的影响。
5.而使用卷积神经网络(convolutional neural networks,cnn)进行镜头检测的方法由于增加的维度使得其准确性和速度超过了已有方法,但也显著增加了计算的复杂度和对计算机硬件的要求。此外,目前镜头边界检测方法中,渐变镜头相邻帧之间特征变化较小因此难以检测到,并且在特征提取时忽略对目标特征关注而产生的错检和漏检情况,这些问题都会使得镜头边界检测处理的结果不理想。


技术实现要素:

6.为了解决上述背景技术中存在的技术问题,本发明提供视频镜头边界检测处理方法、系统、存储介质及设备,针对目前镜头边界检测方法中渐变镜头相邻帧之间特征变化较小难以检测到、以及在特征提取时忽略对目标特征关注而产生的错检和漏检情况,基于全局特征加目标特征的多步帧间差视频镜头边界检测处理方法,首先提取视频帧的rgb颜色直方图特征,并通过混合高斯背景建模(gaussian mixed model,gmm)算法对视频帧进行前景目标检测和提取前景目标的尺度不变特征变换(scale-invariant feature transform,sift)特征,通过权值融合全局特征和目标特征,计算多个相邻视频帧的帧间差,根据突变镜头和渐变镜头的不同帧间差距离图来检测镜头边界。
7.为了实现上述目的,本发明采用如下技术方案:本发明的第一个方面提供视频镜头边界检测处理方法,包括以下步骤:获取视频图像中的rgb颜色直方图特征;基于混合高斯背景模型,提取视频图像中前景目标的尺度不变特征变换特征;特征融合,融合rgb颜色直方图特征和目标的尺度不变特征变换特征;基于融合后的特征,计算设定步长之间的直方图差值,步长为两个视频帧之间的
距离,得到所有可能的步长之和;对突变和渐变分别设置不同的步长,根据设定的步长判断每一帧为突变镜头或渐变镜头。
8.混合高斯背景模型获取每一帧图像中像素点在某时间段内样本值的概率密度,根据统计差分判断各个像素点是否为视频帧的背景内容。
9.混合高斯背景模型的构建过程,具体为:假定视频帧中各个像素点是相互独立的,每个像素点的值经混合分布产生,该分布由k个独立的高斯分布组成,设像素点的值为x,t时刻该像素点值的概率为:;式中,、、分别是t时刻第i个高斯分布的权重、均值和协方差;设像素点的rgb三个通道相互独立并具有相同的方差,则:,若满足,则x
t
和该高斯模型是匹配的;更新各模型的参数,并将权重归一化,根据前b个高斯分布建立背景模型:;其中t为阈值,b指排序后的k个高斯分布中的前b个高斯分布是该背景像素的最佳描述;检测每个像素值都与其得到的前b个高斯分布之间的匹配关系,如果该像素值与前b个高斯分布之一匹配,则该像素点为背景点,否则为前景。
10.提取视频图像中前景目标的尺度不变特征变换特征,包括:进行尺度空间检测初步确定关键点的位置和所在的尺度;拟合三维二次函数,将对比度低的关键点和不稳定的边缘响应点去除,进一步确定关键点的位置和尺度;根据关键点邻域像素梯度方向的分布特性,为每个关键点指定方向参数,完成关键点检测;生成尺度不变特征变换特征向量。
11.提取视频图像中前景目标的尺度不变特征变换特征,还包括:得到尺度不变特征变换特征向量后,每个关键点具有方向、所在尺度以及位置三个方面的信息。
12.基于融合后的特征,计算设定步长之间的直方图差值,步长为两个视频帧之间的距离,得到所有可能的步长之和,具体为:定义两个帧在多步之间的距离为:;式中,sigma(n,l)表示h(n-l,i)与h(n+1+l,i)两帧之间的直方图差异,w和h代表
帧的宽和高。
13.定义mu(n,l)以限制摄像机抖动或摄像机运动,具体为:;式中,l是sigma(k,l)中使用的最大步长,所有可能的步长之和为:,式中,l是最大步长,eta(n,l,l)表示sigma(n,l)与限制物体运动或摄像机运动而引起的时间局部均值mu(n,l)之差。
14.本发明的第二个方面提供实现上述方法所需的系统,包括:全局特征提取模块,被配置为:获取视频图像中的rgb颜色直方图特征;sift特征提取模块,被配置为:基于混合高斯背景模型,提取视频图像中前景目标的尺度不变特征变换特征;特征融合模块,被配置为:融合rgb颜色直方图特征和目标的尺度不变特征变换特征;帧间差分析模块,被配置为:基于融合后的特征,计算设定步长之间的直方图差值,步长为两个视频帧之间的距离,得到每一帧所有可能的步长之和;镜头检测模块,被配置为:对突变和渐变分别设置不同的步长,根据设定的步长判断每一帧为突变镜头或渐变镜头。
15.本发明的第三个方面提供一种计算机可读存储介质。
16.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的视频镜头边界检测处理方法中的步骤。
17.本发明的第四个方面提供一种计算机设备。
18.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的视频镜头边界检测处理方法中的步骤。
19.与现有技术相比,以上一个或多个技术方案存在以下有益效果:1、通过混合高斯背景建模算法对视频帧进行前景目标检测和提取前景目标的尺度不变特征变换特征,通过权值融合全局特征和目标特征,计算多个相邻视频帧的帧间差,根据突变镜头和渐变镜头的不同帧间差距离图来检测镜头边界,可以较好的对视频中的运动目标进行检测,当视频帧发生突变或渐变时,运动目标的特征会发生较大的变化,因此不易产生错检和漏检的情况。
20.2、通过融合全局特征加目标特征的多步帧间差视频镜头边界检测处理方法,提取视频帧的rgb颜色直方图全局特征与前景目标的尺度不变特征变换(scale-invariant feature transform,sift)目标特征,既可以弥补只提取全局特征而忽略细节特征而产生的镜头边界检测的错检漏检情况,也可以弥补只提取局部特征而忽略全局变化而产生的镜头边界检测的错检漏检情况。
21.3、融合后的特征通过计算多个步骤的视频帧之间的差异,生成一个帧间差距离图,通过分析帧间差模式距离图中的不同模式来检测它们的变化,进而判断某一帧为渐变镜头或突变镜头。
22.4、视频图像处理过程中,利用时间局部均值来限制摄像机抖动或摄像机运动引起的误差。
附图说明
23.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
24.图1是本发明一个或多个实施例提供的针对渐变镜头生成的帧间差距离示意图;图2是本发明一个或多个实施例提供的针对突变镜头生成的帧间差距离示意图;图3是本发明一个或多个实施例提供的视频镜头边界检测处理过程的流程示意图;图4是本发明一个或多个实施例提供的各类方法得到镜头检测结果的对比柱状图。
具体实施方式
25.下面结合附图与实施例对本发明作进一步说明。
26.应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
27.需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
28.视频由连续变化的图像构成,一段视频中的两个镜头发生转换时,视频中的画面会产生变化,例如镜头相邻帧之间的内容出现了某种变化,即镜头边界反映的视频内容出现了不连续性,镜头边界检测的就是这部分变化。
29.正如背景技术中所描述的,现有技术使用卷积神经网络(convolutional neural networks,cnn)进行镜头检测的方法由于增加的维度使得其准确性和速度超过了已有方法,但也显著增加了计算的复杂度和对计算机硬件的要求。此外,目前镜头边界检测方法中,渐变镜头相邻帧之间特征变化较小因此难以检测到,并且在特征提取时忽略对目标特征关注而产生的错检和漏检情况,这些问题都会使得镜头边界检测处理的结果不理想。
30.因此以下实施例给出视频镜头边界检测处理方法、系统、存储介质及设备,针对目前镜头边界检测方法中渐变镜头相邻帧之间特征变化较小难以检测到、以及在特征提取时忽略对目标特征关注而产生的错检和漏检情况,基于全局特征加目标特征的多步帧间差视频镜头边界检测处理方法,首先提取视频帧的rgb颜色直方图特征,并通过混合高斯背景建模(gaussian mixed model,gmm)算法对视频帧进行前景目标检测和提取前景目标的尺度不变特征变换(scale-invariant feature transform,sift)特征,通过权值融合全局特征和目标特征,计算多个相邻视频帧的帧间差,根据突变镜头和渐变镜头的不同帧间差距离图来检测镜头边界。
31.实施例一:
如图1-图3所示,视频镜头边界检测处理方法,包括以下步骤:分别提取rgb颜色直方图特征和对背景建模后的视频帧提取sift特征并进行权值融合得到每张视频帧的融合特征。
32.计算设定步长之间的直方图差值,根据定义的公式计算所有可能的步长之和。
33.对突变和渐变分别设置不同的步长,根据公式来进一步判断突变镜头和渐变镜头。
34.具体的:如图3所示,步骤s1,提取视频帧的全局特征:rgb颜色直方图特征。
35.rgb颜色直方图特征是一种简单有效的基于统计特性的特征描述子,本实施例首先对视频中的每一帧图像提取其颜色直方图特征,对r、g、b三个颜色通道依次使用8个bin进行量化便得到每个通道的8维直方图特征。因此每一帧图像都可以由三个通道量化后得到的512维特征向量来进行描述。
36.本实施例用公式r(n,i),0≤i≤m-1来表示第n帧的颜色直方图,其中n表示视频序列中的帧号,i分别表示视频帧直方图中的bin数,并且m=512。
37.步骤s2,混合高斯背景建模(gaussian mixed model,gmm)并提取前景目标的尺度不变特征变换(scale-invariant feature transform,sift)特征。
38.混合高斯背景建模(gaussian mixed model,gmm),具体如下:混合高斯背景建模(gaussian mixed model,gmm)适用于对背景比较复杂的视频进行建模,其主要用于目标检测。利用混合高斯模型检测运动物体,通过计算出每一帧图像中像素点在某时间段内样本值的概率密度,然后根据统计差分中的常见原则来判定各个像素点是否为视频帧的背景内容。
39.对视频帧进行基于混合高斯模型的背景建模的具体过程如下:首先假定视频帧中各个像素点是相互独立的,则每个像素点的值可以由混合分布产生,该分布由k个独立的高斯分布组成,本实施例中k取值为5,设像素点的值为x,t时刻该像素点值的概率为:;式中,、、分别是t时刻第i个高斯分布的权重、均值和协方差。
40.假设像素点的rgb三个通道相互独立并具有相同的方差,则:;若满足;则说明x
t
和该高斯模型是匹配的,随后更新各模型的参数,并将权重进行归一化。上式中,i为三维单位矩阵,指系数例如其取值为2.5,指与当前模型的均值偏差在内,为方差,x
t
为该像素点。
41.采用前b个高斯分布建立背景模型:;其中t为阈值,本实施例取t值为0.7,b指排序后的k个高斯分布中的前b个高斯分
布是该背景像素的最佳描述。
42.检测每个像素值都与其得到的前b个高斯分布的匹配关系,如果该像素值与前b个高斯分布之一匹配,则该像素点为背景点,否则为前景。
43.提取前景目标的尺度不变特征变换(scale-invariant feature transform,sift)特征,具体如下:sift特征对于亮度变化、旋转、尺度缩放等具有保持不变性的特点,是一种稳定的局部特征。本实施例中对包含运动目标的视频帧提取sift特征,sift特征点提取算法中所用尺度空间的获取需要高斯模糊来实现,二维高斯模糊函数的定义如下:;式中:表示正态分布的标准差,(x,y)为空间坐标。
44.由此可得一幅图像在不同尺度下的尺度空间表示,可由图像与高斯卷积核得到。
45.sift特征点提取算法在图像二维平面空间和高斯函数(difference of gaussian,dog)尺度空间中同时检测局部极值作为特征点,dog算子如下所示:本实施例中一幅图像sift特征向量的生成总体包括以下步骤:(1)进行尺度空间检测来初步确定关键点的位置和所在的尺度。
46.(2)为精确确定关键点的位置和尺度,对三维二次函数进行拟合,将对比度低的关键点和不稳定的边缘响应点去除。
47.(3)使用关键点邻域像素梯度方向的分布特性为每个关键点指定方向参数,至此,关键点检测完毕。
48.(4)生成sift特征向量。通过上述3步,每个关键点就具有了方向、所在尺度以及位置三个方面的信息。对每个关键点使用标准设置4
×
4的子区域,每个子区域使用8个小区间的方向直方图,此时一个关键点就产生128个特征数据,即形成128维的sift特征向量。
49.特征融合,计算帧间差,生成帧间差距离图。图1和图2分别展示,基于出现渐变镜头和突变镜头时的视频帧,得到的帧间差距离示意图。
50.步骤s3,特征融合。
51.本实施例将rgb颜色直方图提取的特征中每张图片每个通道的8个bin进行量化后得到的512维特征向量与sift提取的每张图片中运动目标的每个关键点量化后的128维特征向量融合。
52.步骤s4:计算帧间差,生成帧间差距离图。
53.本实施例的视频镜头边界检测处理方法中,首先设置一个步长l,其中l指的是两个帧之间的距离。分别比较n-l与n+1+l两帧之间的颜色直方图差异,当l等于0的时候表示的是相邻两帧之间的差异,随着l的增加检测到长时间渐进过度的渐变镜头的可能性越大,但是l的也不能无限扩大,根据稍后提到的实验例表明,l取值超过一定范围之后,其错误检测的可能性将会增加,因此在本实施例中设置l的范围为:0≤l≤10。
54.根据上述描述,定义两个帧在多步之间的距离为:
;式中,sigma(n,l)表示h(n-l,i)与h(n+1+l,i)两帧之间的直方图差异,w和h代表帧的宽和高,h代表视频帧的直方图,n代表视频帧的序列号。
55.上述基于融合特征的多步帧差镜头边界检测方法通过计算多个步骤的视频帧之间的差异,生成一个帧间差距离图,通过分析帧间差模式距离图中的不同模式来检测它们的变化。渐变镜头、突变镜头的帧间差距离图分别如图1和图2所示。
56.为限制摄像机抖动或摄像机运动,定义mu(n,l):;式中l是sigma(k,l)中使用的最大步长,所有可能的步长之和可以描述为:;式中,其中l是最大步长,eta(n,l,l)表示sigma(n,l)与限制物体运动或摄像机运动而引起的时间局部均值mu(n,l)之差。
57.步骤s4,如果帧号k为潜在峰值起始点,并且检测起点满足:;检测终点满足:;则潜在峰区视频帧数最大值可定义为:phi(k
max
(l,i),l)=max(phi(k
start
(l,i),l),...,phi(k
end
(l,i),l));式中k
start
(l,i)表示起始点的帧数,k
end
(l,i)表示端点,k
max
(l,i)是最大帧号。
58.步骤s5,镜头检测。
59.突变镜头检测,本实施例将突变检测模块的最大步长l设置为4,经实施例验证最大步长l设置为4,对于突变镜头的检测效果最佳。
60.如果;那么将k
max
(4,i)将被保留为一个突变镜头检测结果,式中q指突变镜头检测阈值。
61.渐变镜头检测,本实施例将渐变检测模块的最大步长l设置为10,经实施例验证最大步长l设置为10,对于渐变镜头的检测效果最佳。
62.如果;那么从k
start
(10,i)到k
end
(10,i)被保留为一个渐变镜头检测结果。式中j指渐变镜头检测阈值。
63.本实施例在rai数据集、open-source video数据集和多段体育运动类视频中做了测试(rai数据集和open-source video数据集均为公开的用于视频镜头边界检测的标准数据集),对数据集的检测结果选取的评价准则为查全率、查准率以及综合指标f1,实验例如下:重点对rai数据集和多段体育运动类视频进行了验证,结果表明本实施例的算法
对体育运动类视频及rai数据集的第6个视频、第7个视频和运动类视频的检测结果更为理想,因此本实施例提出的方法中,背景建模算法的融入使得对包含运动目标的运动类视频的检测效果相比于其他方法有更好的提高。
64.为了验证本实施例方法的有效性,将本实施例的方法与基于遗传和模糊逻辑方法的镜头边界检测算法、利用视频相邻帧的视觉相似性检测突变和渐变的方法以及与只提取rgb颜色直方图特征的方法做比较,结果如表1所示。
65.表1:各方法对比结果为使对比结果更为直观,将表1中四种方法对镜头边界检测的检测结果作成图4所示柱状图。
66.可以理解的是,在本实施例中,本实验对rai数据集的第5、8、9、10个视频的检测结果也较好,其主要原因是本实施例提出的融合方法中,混合高斯背景建模可以较好的对视频中的运动目标进行检测,当视频帧发生突变或渐变时,运动目标的特征会发生较大的变化,因此不易产生错检和漏检的情况。
67.本实施例提出的基于全局特征加目标特征的多步帧间差视频镜头边界检测处理方法查全率和查准率相比于其他方法有2%左右的提高,且对于镜头边界检测方法中渐变镜头相邻帧之间由于特征变化较小难以检测到、尤其是因为在特征提取时因忽略对目标特征关注而产生的错检漏检情况得到了关注和改善。
68.上述方法通过混合高斯背景建模算法对视频帧进行前景目标检测和提取前景目标的尺度不变特征变换特征,通过权值融合全局特征和目标特征,计算多个相邻视频帧的帧间差,根据突变镜头和渐变镜头的不同帧间差距离图来检测镜头边界,可以较好的对视频中的运动目标进行检测,当视频帧发生突变或渐变时,运动目标的特征会发生较大的变化,因此不易产生错检和漏检的情况。
69.通过融合全局特征加目标特征的多步帧间差视频镜头边界检测处理方法,提取视频帧的rgb颜色直方图全局特征与前景目标的尺度不变特征变换(scale-invariant feature transform,sift)目标特征,既可以弥补只提取全局特征而忽略细节特征而产生的镜头边界检测的错检漏检情况,也可以弥补只提取局部特征而忽略全局变化而产生的镜头边界检测的错检漏检情况。
70.融合后的特征通过计算多个步骤的视频帧之间的差异,生成一个帧间差距离图,通过分析帧间差模式距离图中的不同模式来检测它们的变化,进而判断某一帧为渐变镜头或突变镜头。
71.在视频图像处理过程中,利用时间局部均值来限制摄像机抖动或摄像机运动引起的误差。
72.实施例二:
实现上述方法的系统,包括:全局特征提取模块,被配置为:获取视频图像中的rgb颜色直方图特征;sift特征提取模块,被配置为:基于混合高斯背景模型,提取视频图像中前景目标的尺度不变特征变换特征;特征融合模块,被配置为:融合rgb颜色直方图特征和目标的尺度不变特征变换特征;帧间差分析模块,被配置为:基于融合后的特征,计算设定步长之间的直方图差值,步长为两个视频帧之间的距离,得到每一帧所有可能的步长之和;镜头检测模块,被配置为:对突变和渐变分别设置不同的步长,根据设定的步长判断每一帧为突变镜头或渐变镜头。
73.上述系统通过混合高斯背景建模算法对视频帧进行前景目标检测和提取前景目标的尺度不变特征变换特征,通过权值融合全局特征和目标特征,计算多个相邻视频帧的帧间差,根据突变镜头和渐变镜头的不同帧间差距离图来检测镜头边界,可以较好的对视频中的运动目标进行检测,当视频帧发生突变或渐变时,运动目标的特征会发生较大的变化,因此不易产生错检和漏检的情况。
74.通过融合全局特征加目标特征的多步帧间差视频镜头边界检测处理方法,提取视频帧的rgb颜色直方图全局特征与前景目标的尺度不变特征变换(scale-invariant feature transform,sift)目标特征,既可以弥补只提取全局特征而忽略细节特征而产生的镜头边界检测的错检漏检情况,也可以弥补只提取局部特征而忽略全局变化而产生的镜头边界检测的错检漏检情况。
75.实施例三:本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例一所述的视频镜头边界检测处理方法中的步骤。
76.上述方法通过混合高斯背景建模算法对视频帧进行前景目标检测和提取前景目标的尺度不变特征变换特征,通过权值融合全局特征和目标特征,计算多个相邻视频帧的帧间差,根据突变镜头和渐变镜头的不同帧间差距离图来检测镜头边界,可以较好的对视频中的运动目标进行检测,当视频帧发生突变或渐变时,运动目标的特征会发生较大的变化,因此不易产生错检和漏检的情况。
77.通过融合全局特征加目标特征的多步帧间差视频镜头边界检测处理方法,提取视频帧的rgb颜色直方图全局特征与前景目标的尺度不变特征变换(scale-invariant feature transform,sift)目标特征,既可以弥补只提取全局特征而忽略细节特征而产生的镜头边界检测的错检漏检情况,也可以弥补只提取局部特征而忽略全局变化而产生的镜头边界检测的错检漏检情况。
78.实施例四:本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述实施例一所述的视频镜头边界检测处理方法中的步骤。
79.上述方法通过混合高斯背景建模算法对视频帧进行前景目标检测和提取前景目标的尺度不变特征变换特征,通过权值融合全局特征和目标特征,计算多个相邻视频帧的
帧间差,根据突变镜头和渐变镜头的不同帧间差距离图来检测镜头边界,可以较好的对视频中的运动目标进行检测,当视频帧发生突变或渐变时,运动目标的特征会发生较大的变化,因此不易产生错检和漏检的情况。
80.以上实施例二至四中涉及的各步骤或模块与实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。
81.以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1