一种基于SVM的实时视频目标动态分类方法与流程

文档序号:23717429发布日期:2021-01-24 06:09阅读:81来源:国知局
一种基于SVM的实时视频目标动态分类方法与流程
一种基于svm的实时视频目标动态分类方法
技术领域
[0001]
本发明涉及一种基于支持向量机的多类分类方法。


背景技术:

[0002]
经过多年的发展,视觉领域的模式识别技术已经成为解决各种静态物体分类问题的重要方法。但在一些实际应用中,视频中的运动目标需要实时识别和分类,这些情况下无法及时获得足够的训练样本,数据类别的维数可能很大,这些问题给大多数模式识别算法带来了很大的障碍。在这种情况下,基于支持向量机的图像和视频分类算法成为一种潜在的选择,因为它即使在训练样本数不足的情况下也能获得更好的分类能力,而且对分类数据的维数不敏感。为了解决多类分类问题,基于支持向量机的算法需要构造多类分类器。然而,基本分类器构造中的一个局限性是分类类别必须是预先确定的,因此这种算法一般针对的是将对象分类到已知类别的应用。但对于一些基于实时视频的对象分类应用,其目标类别是未知或不确定的,如一些实时交通对象识别和分类应用,这就需要进一步改进基于支持向量机的基于确定类别的多类分类算法。


技术实现要素:

[0003]
本发明针对实时视频中运动目标的分类问题,考虑到基于支持向量机的多类分类算法依赖于已确定类别的局限性,提供了一种基于svm的实时视频目标动态分类方法。
[0004]
本发明的目的是通过以下技术方案实现的:
[0005]
一种基于svm的实时视频目标动态分类方法,包括如下步骤:
[0006]
步骤一、选定三个基础类别模型,并通过训练数据的训练得到三个对应的svm分类器;
[0007]
步骤二、对于第j个待分类视频目标,得到其图像签名特征曲线curve
j

[0008]
步骤三、将步骤二得到的曲线特征向量curve
j
作为输入,分别通过三个svm分类器,从而得到三个归属度结果,其中:
[0009][0010][0011]
式中,f
k
为归属度,curve
j
为图像签名特征曲线,y

i
为对应于样本i的类别属性,α
i*
为拉格朗日乘子,为核函数,b
k*
为超平面截距(分类阈值);
[0012]
步骤四、将步骤三得到的归属度结果组合成三元组d
j
,并规范化到区间[0,1],有d
j
=(d
1
,d
2
,d
3
),其中0≤d
1
≤1,0≤d
2
≤1,0≤d
3
≤1;
[0013]
步骤五、将三元组d
j
=(d
1
,d
2
,d
3
)依据下式进行加权计算:
[0014]
s=0.299d
1
+0.587d
2
+0.114d
3

[0015]
步骤六、根据步骤五计算得到的加权结果s确定类别归属编号,并保存有关信息。
[0016]
相比于现有技术,本发明具有如下优点:
[0017]
1、本发明的方法用多元群表示目标类别,并参照颜色表示系统实现分类,解决了类别不确定情况下的多类别分类问题。
[0018]
2、基于一系列交通视频的实验表明,本发明的方法能够在准确度范围内对交通对象进行动态分类。
附图说明
[0019]
图1为基于icm图像签名的例子,(a)原始目标图像,(b)对应的图像签名,(c)对应的一系列icm递归结果;
[0020]
图2为典型轮廓的截取曲线;
[0021]
图3为icm与sric结合的图像签名效果;
[0022]
图4为全部目标类别分布图。
具体实施方式
[0023]
下面结合附图对本发明的技术方案作进一步的说明,但并不局限于此,凡是对本发明技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,均应涵盖在本发明的保护范围中。
[0024]
本发明提供了一种基于svm的实时视频目标动态分类方法,所述方法如下:
[0025]
一、原理
[0026]
该方法首先将3个相互差异较大的常见类别定义为基本类别,并在这3个基本类别的基础上构造出3个相应的“一对多”分类器。当每个svm由对应类别的数据样本训练时,结果为正,而由其余类别的数据样本训练时,结果为负。给定m个数据样本:(x
1
,y
1
),(x
2
,y
2
),

,(x
m
,y
m
),x
i
∈r
n
,r
n
代表n维实数空间,i=1,

,m,y
j
∈{1,2,3}是x
j
的对应类别,于是第k个svm对应解决以下相应问题:
[0027][0028][0029][0030][0031]
式中,ω
k
为超平面的法向量(映射变换参数),b
k
为第k个svm的分类阈值;ζ
k
为对应第k个svm的松弛因子;φ为将x
j
映射到高维特征空间的映射函数;c为监督系数,c>0。
[0032]
引入松弛因子的目的是允许误分类样本的存在,从而在经验风险和泛化性能之间取得一定的平衡。如果对应变换φ的核函数是k(x
i
,x
j
),则上述方程(1)-(4)的对偶问题是:
[0033]
[0034][0035]
式中,y
i

为对应于样本i的类别属性,α
i
为拉格朗日乘子,k(x
i
,x
j
)为核函数。
[0036]
通过公式(5)和(6),可以得到最优解:α
*
=(α
1*
,


l*
)
t
。其中,对应的α
i*
不等于零的样本为支持向量。然后,选取α
*
的一个正分量α
j*
,0<α
j*
<c,通过计算可得到:
[0037][0038]
式中,b
k*
为超平面截距(第k个svm的分类阈值)。
[0039]
于是,最终可得到3个归属度函数:
[0040][0041][0042][0043]
式中,f
i
为第i个归属度函数,b
i*
为超平面截距(第i个svm的分类阈值),k(x,x
i
)为核函数。
[0044]
公式(7)-(10)各自对应于一个一对多支持向量机分类器。由上述训练算法过程可见,每个svm分类器都使用全部的数据样本进行训练,总共需要解决三个二次规划问题,因此训练时间会更长。但由于svm分类器是预先生成的,因此不会影响分类算法的执行速度。
[0045]
将待分类视频目标的特征向量通过公式(7)-(10)的计算,可以得到其对应于每个一对多svm分类器的归属度。在分类算法执行过程中,分别将这三个归属度归一化到[0,1]区间后,组成三元组d=(d
1
,d
2
,d
3
),作为当前待分类目标的类别信息。其中,d
k
是第k个svm分类器输出的归属度结果,且d
k
∈[0,1]。要实现多类非预知类别目标的分类,首先需要解决三元组之间的比较问题。对于这个问题,通常能够想到的办法就是求取d中元素的加权和:
[0046]
s=w
1
d
1
+w
2
d
2
+w
3
d
3
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11);
[0047]
其中,w
k
是权值,且有w
1
+w
2
+w
3
=1。在这种方法中,权值的选择是成功的关键,通常可以依据三个基础模型的普遍程度,以及实际应用情况等因素进行设置,但如果设置的不合适,会不同程度地恶化三元组的原始区分性能,导致目标误分类。例如,将w
1
、w
2
、w
3
三个权值设置成几乎相等的数值时,将导致如下三元组:d
1
=(d,0,0)、d
2
=(0,d,0)、d
3
=(0,0,d)经加权求和运算后,取得同样的结果,从而被归为同一类别。考虑到在成熟的颜色表示体系中,24位真彩色可以由rgb三元数据组表示,而由24位真彩色转换为256级灰度的过程就是一个由三元数据到一元数据的转换过程,且转换得到的一元灰度值图像在丧失了颜色的情况下,依然能够不失真地准确显现与彩色图像同样的细节特征,并使得许多图像处理算法都建立在分析灰度图像的基础上。因此,在通过对具体情况的分析获得最优化权值之前,不妨使用颜色表示体系的权值来计算加权和,实现目标的类别划分。rgb转灰度的计算公式为:
[0048]
gray=0.299r+0.587g+0.114b
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(12);
[0049]
式中,r、g、b分别代表彩色像素值的三个分量。于是设对应权值w
1
=0.299,w
2
=0.587,w
3
=0.114,有:
[0050]
s=0.299d
1
+0.587d
2
+0.114d
3
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(13)。
[0051]
但需要说明的是,rgb-to-gray方程中的系数是由颜色场中的因素如人类对颜色亮度的敏感性来定义的,因此对于某些特定的分类应用,所提出的权重设置可能不是最佳选择,需要进一步优化。
[0052]
二、基于icm的图像签名
[0053]
将基于icm(intersecting cortexal model)的图像签名作为支持向量机的输入特征向量。基于icm的目标识别方法源于对哺乳动物视觉神经元目标识别机制的研究,其重要特点是能够提取图像对象的基本信息,不需要大量的图像训练和样本调整过程。该算法经过多次迭代运算,可以提取出图像目标的基本信息。这大大简化了图像处理过程,有利于图像和计算机视觉领域的实际应用。图像签名的思想来源于mcclurken等人的生物学研究。对小型哺乳动物大脑活动的研究表明,图像信息被转换成小幅度的一维信号。由于该信号是由输入激励形状决定的,因此数据量大大减小,从而使后续的处理更加容易。因此,通过模拟视觉皮层系统的icm,可以获得图像对象唯一的视觉标记,即图像签名。它属于图像对象的整体特征。
[0054]
本发明所基于的核心技术之一是一种将icm与sric相结合而改进实现的图像签名方案。icm是由ekblad和kinser提出的脉冲耦合神经网络(pcnn)的简化方程组。原始图像签名是所有pcnn迭代运算的脉冲输出之和,基于pcnn的图像签名算法可以得到很好的特征提取效果,但该算法需要大量的pcnn迭代运算,导致算法效率低下,限制了图像签名的实用性。icm作为pcnn的一个浓缩版本,在图像处理应用方面也具有优势,其计算复杂度远低于pcnn,因此icm的性能更优。
[0055]
图1(a)所示为原始对象图像,图1(b)为相应的基于icm的图像签名的效果;签名长度为256。由于icm的脉冲性和自波性,icm图像特征曲线呈现出振荡和衰减的特征。图1(c)显示了与原始图像相对应的几个选定的脉冲图像,其中n表示icm迭代的次数。由此可以看出,随着迭代的进行,对象的轮廓等特征会周期性地显现出来,并且随着迭代运算量的增加,对象的细节呈现出由粗到细的趋势。
[0056]
由公式(12)得到的基于pcnn/icm的图像特征是每次迭代过程中脉冲神经元的整合。但是图像对象的形状信息不能包含在区域中,因此不同形状的图像对象具有相同的图像特征的概率是存在的。为了克服上述缺点,同时保持图像特征的先进性,附加特征应具有结构简单、分辨率高、算法清晰的特点。另外,由于图像签名的长度是固定的(等于icm迭代运算的总和),为了保持这一特征,采用基于sric(剪影旋转截取曲线)的表示方法作为图像签名的附加特征信息。
[0057]
一般来说,所谓的投影曲线是将图像对象轮廓的灰度值每1
°
旋转投影到一条预定的直线上,并将这些投影值在1
°
~360
°
范围内累加而成的序列。因此曲线只包含图像对象的轮廓信息。与之不同的是,sric是通过记录每个旋转角度下物体轮廓与水平轴的交点坐标来制作的。sric的长度间接地取决于旋转角度的阶跃值,小阶跃值具有更长的长度和更精确的描述。一些常见多边形的sric如图2所示。其中横坐标表示图像旋转的角度(0
°

359
°
),纵坐标表示截取值.签名。
[0058]
由于sric具有一维、定长和包含图像对象所有轮廓信息的特点,适合作为附加信息,并与icm图像签名相结合,形成性能更好的新图像签名。
[0059]
基于颜色信息的icm图像签名具有旋转、变形、平移和尺度变化等不变性。其缺点是不同的目标图像产生相同的图像签名的概率很小。为了克服这个问题,还应该包含其他附加的特性信息。由于目标图像的sric是一种结构简单、生成算法简洁、长度固定的特征,因此将其作为基于颜色的图像签名的附加信息。改进后的图像签名在保留了基于颜色的icm图像签名优点的基础上,达到了提高识别率和增强实用性的目的。具体算法如下:
[0060]
步骤一:对于需要提取图像特征的图像对象,将其调整到预先定义的大小,以保证提取参考的一致性。
[0061]
步骤二:通过icm迭代运算得到基于颜色信息的icm图像签名。
[0062]
步骤三:对归一化后的目标图像进行二值化、边缘提取和边界跟踪等图像预处理,得到sric(剪影旋转截取曲线)。
[0063]
步骤四:对sric进行去噪处理,并附加结合到相应的基于颜色信息的icm图像签名中。
[0064]
本发明将icm与sric相结合,实现了一种改进的图像签名方案。由于icm图像签名的长度与迭代操作的和有关,而sric的长度与旋转的步进角有关(当步长为1
°
时,长度为360),因此该图像签名的长度是固定的。图3显示了与图1对应的图像对象的icm和sric相结合的图像签名。
[0065]
三、方法过程
[0066]
在方法的准备阶段,选定三个基础类别模型(比如圆形、三角形、矩形等图形),并通过训练数据的训练得到三个对应的svm分类器。当方法执行时,简要步骤如下:
[0067]
(1)对于第j个待分类视频目标,得到其图像签名特征曲线为curve
j

[0068]
(2)将曲线特征向量curve
j
作为输入,分别通过三个svm分类器,从而得到三个归属度结果,其中:
[0069][0070]
(3)将结果组合成三元组d
j
,并规范化到区间[0,1],有d
j
=(d
1
,d
2
,d
3
),其中0≤d
1
≤1,0≤d
2
≤1,0≤d
3
≤1;
[0071]
(4)将三元组d
j
=(d
1
,d
2
,d
3
)依据式(13)进行加权计算;
[0072]
(5)根据加权结果s确定类别归属编号,并保存有关信息。
[0073]
对于预知类别的svm多类分类算法而言,其分类器由已知类别的数据训练得到,针对的是每个svm分类器所代表的具体类别,因此只能依照判别函数将目标划分为svm分类器对应的已知类别。对于所提出的非预知类别svm多类分类算法而言,尽管所包含的3个分类器同样由已知类别的数据训练得到,但算法不针对svm分类器所代表的具体类别,而是将各分类器输出归属度的加权和作为分类依据,因而最后得出的类别结果是不可预先描述的。本发明的方法可划分的类别数,即类别空间范围,主要取决于所要求的类别划分精度,以及所选取的3个类别参照模型。研究表明,类别划分精度要求越高,则类别空间变得越小,参照模型之间区分度越大,则类别空间越大。对svm输出归属度的加权和进行整数量化后,类别
内目标之间的平均特征相似程度,取决于所定义的类间差别值。差别值越大,则程度越高,否则越低。
[0074]
四、实验及结果
[0075]
在本发明所提出的非预知类别的svm多类分类方法中,从多个连续的交通视频中获取所有原始目标图像,并选择径向基函数作为svm的核心函数:
[0076][0077]
式中,σ为尺度参数。
[0078]
之所以作上述选择,是因为该核函数对应无穷维特征空间,有限的数据样本在该特征空间中一定线性可分。随后,将椭圆形、三角形、矩形作为三个基础类别图形模型,并各自对应生成50个不同比例、大小的图像,将其作为训练数据,通过训练得到对应三种形状的三个svm分类器。由于被测试方法针对的是不确定类别目标分类,因此只需要预先完成上述基础类别模型的训练,而不包含对待分类类别的训练过程。
[0079]
对于所提取的每个待分类目标图像签名向量,将其分别通过三个基础模型svm分类器,并归一化归属度结果到[0,1]区间,可得到对应的类别信息三元组。对三元组进行加权求和操作后,即得到最终的类别值,显示在v1对应列中。此时的类别值介于[0,1]区间。为便于类别划分,将该值映射至区间[0,255],精度取小数点后一位,以尽量提高划分类别的精度。映射结果显示在v2对应列中。
[0080]
表1所示为从391个测试图像目标中随机抽取的7对目标图像,以及两个单独目标图像的计算结果。前7行中,每行的两个目标图像对应的是同一现实目标。从表1可以看出,对于同类目标图像的类别数据,其差值范围基本在1之内,因而可以利用类别数据,将各个类别区分开来。
[0081]
表1目标图像处理结果
[0082][0083]
对于类别匹配失败的个别图像目标,分析其中间数据结果后,得知失败的主要原因,是由于前期预处理及目标提取结果较差。
[0084]
图4所示为全部目标图像的分布情况统计,即分类值在[0,255]之间的分布图。由图4可以得出结论,分布情况是均匀的,适用于不确定类别情况的多类分类应用。
[0085]
另外,在精确分类意义下,对于对应同一目标类别的图像目标,当它们的类别值之差小于1时,定义为正确归类:
[0086]
|g
j-g
i
|<1,图像目标i,j对应同一目标类别
ꢀꢀꢀꢀꢀ
(16);
[0087]
式中,g
i
为待分类图像目标i的类别值。
[0088]
对上述计算及分类结果的统计数据如表2所示。表2中,后三项数据是对表示同一实体目标类别的目标图像,即各组同类目标所进行的误差统计。其中,最小同类目标距离的计算公式为:
[0089][0090]
式中,为对应图像目标的类别值;为对应图像目标的类别值。
[0091]
属于同一目标类别o
j
。最大同类目标距离的计算公式为:
[0092][0093]
平均同类目标距离的计算公式为:
[0094]
[0095]
式中,m为组合的总数。
[0096]
可以看出,本发明方法的分类正确率基本可以满足实际应用的需要。
[0097]
表2类别计算结果统计
[0098]
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1