一种整合特征字典结构与视觉特征编码的图像分类方法
【专利摘要】本发明公开了一种整合特征字典结构与视觉特征编码的图像分类方法,包含如下步骤:视觉特征提取;特征字典学习;视觉特征编码;特征编码的空间汇合;训练与分类。本发明能获取更为准确的图像特征表示,提升图像分类的准确率。此外,通过将特征字典中的结构信息整合到视觉特征编码过程,得到更有判别性的图像特征表示,因此使得对图像的分类更加有效。本发明实现了高效、准确的图像分类,因此具有较高的使用价值。
【专利说明】一种整合特征字典结构与视觉特征编码的图像分类方法
【技术领域】
[0001] 本发明涉及图像分类领域,特别是基于码书模型(Bag-of-Words,BoW)的一种整 合特征字典结构与视觉特征编码的图像分类方法
【背景技术】
[0002] 随着信息技术的不断飞速发展,各个领域每天都在以惊人的速度产生各种类型的 数据,包括文字、图像、视频、音乐等。在丰富多彩的数据信息中,图像因其表现直观生动、内 容丰富、信息量大,以及存储与传输方便,备受青睐,并已经成为二十一世纪最重要的信息 载体之一。特别是随着照相机、手机、平板等具有拍照功能的移动设备的日益普及,以及社 交网络的兴起,人们获取图像的方式越来越多,也进一步促使图像数据急剧增长,快速准确 地查找所需图像和高效地管理却因此变得越来越困难。人们迫切希望计算机能帮助人类, 对互联网中海量图像所蕴含的语义进行分析,并充分理解图像所表达的内容,从而更有效 地对图像进行管理、分类标注,或检索感兴趣的图像。
[0003] 图像分类作为计算机理解图像最主要的基础技术之一,已经受到了学术界和工业 界各研究机构的广泛研究,并在国内外各权威期刊和重要学术会议上作为重要主题,是计 算机视觉领域一个极重要的研究课题。图像分类是指按照一定的分类准则将图像智能化地 分到一组已有定义类别中的过程,包括物体识别、场景语义分类、行为识别等。图像分类已 经成为研究图像语义理解的重要技术手段。科学研究人员已经渐渐意识到以上问题的重要 性并不断深入分析。近几年,码书模型为图像高层语义表示带来新的启发,以码书模型为关 键技术的图像分类已取得了一定成果,但是仍有许多研究点尚未涉及,仍有巨大的突破空 间。基于码书模型的图像分类方法的研究,已经成为当前人工智能、计算机视觉、机器学习 和数据挖掘等诸多交叉领域中前沿性的热点,对积极推进社会信息化起到重要作用。在创 造了无可替代的社会价值的同时,该领域仍有许多关键技术问题尚未解决,仍有许多功能 实现需要进一步完善,因此,如何利用码书模型,更有效地理解和描述图像高层语义,以更 灵活地实现图像分类的研究,具有深远的意义。
【发明内容】
[0004] 发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种整合特 征字典结构与视觉特征编码的图像分类方法,利用特征字典中视觉单词的分布信息辅助视 觉特征编码,以使编码结果更具有判别性,从而提高图像分类的准确率。
[0005] 为了解决上述技术问题,本发明公开了一种整合特征字典结构与视觉特征编码的 图像分类方法,包含如下步骤:
[0006] 步骤1,提取图像的视觉特征:对每幅图像进行局部采样,得到一组区域块,提取 每块区域的视觉特征,得到每幅图像对应的视觉特征集合,称所有图像的视觉特征集合的 整体为所有图像的视觉特征集,记为集合X ;
[0007] 步骤2,特征字典学习:以集合X为输入,使用特征字典学习方法,得到由一组具有 代表性的视觉单词组成的特征字典;
[0008] 步骤3,视觉特征编码:将每幅图像的每个视觉特征表示成视觉单词的线性组合, 每个视觉单词对应一个系数,称这组系数为视觉特征的编码;
[0009] 步骤4,视觉特征编码的空间汇合:以每幅图像的所有视觉特征的编码为输入,使 用统计方法,将每幅图像表示为一个向量,该向量就是对应图像的图像特征表示;
[0010] 步骤5,将步骤4得到的每幅图像的编码作为输入,使用分类模型进行训练和分 类,得到分类结果。
[0011] 步骤1具体包括如下步骤:
[0012] 对每幅图像I进行局部采样,采用等步长的方式做密集采样,得到若干大小相 同的区域块,对每个区域块提取一个视觉特征,使用视觉特征提取方法得到表示该局部 块一个视觉特征,视觉特征提取方法包括:方向梯度直方图(Histogram of Oriented Gradient, H0G),尺度不变特征变换(Scale-invariant feature transform,SIFT)等。得 到图像I的视觉特征集合LFS1,最终得到所有图像的视觉特征集合的整体X = [Xl,X2,… ,xN] GRdXN,其中,d表示视觉特征的维度,其大小由视觉特征提取技术决定,N表示所有图像 的视觉特征的总数,Xi表示第i个视觉特征,i取值1?N。
[0013] 步骤2具体包括如下步骤:
[0014] 以集合X为输入,使用特征字典学习方法,得到一组具有代表性的视觉单词组成 的特征字典,将该特征字典记为:B= [bi,b2,…,bM] ERdXM,其中M为视觉单词的个数;bj 是一个维度d的列向量,表示第j个视觉单词,j取值1?M。常用的特征字典学习方法包 括:k-means,K-SVD 等。
[0015] 步骤3具体包括如下步骤:
[0016] 本步骤逐一对集合X中的每个视觉特征编码,对于视觉特征Xi,其编码过程如下:
[0017] 首先,从特征字典B中选出Xi的?个最近邻的视觉单词,即与视觉特征Xi的距离最 小的P个视觉单词,记这P个视觉单词组成的特征字典为Bi, p取值1?M,i取值1?N,。
[0018] 其次,求出特征字典Bi中各视觉单词之间的距离所表示的矩阵Di和计算视觉特 征Xi到特征字典Bi的各视觉单词的距离表示的列向量屯,i取值1?N。矩阵Di的第m 行s列的元素为Bi中对应视觉单词之间的距离,m,s = 1,2,…,p 的第n个分量din表示视觉特征Xi与Bi中第n个视觉单词之间的距离,n = 1,2,…,p。距离计算公式为:
【权利要求】
1. 一种整合特征字典结构与视觉特征编码的图像分类方法,其特征在于,包括如下步 骤: 步骤1,提取图像的视觉特征:对每幅图像进行局部采样,得到一组区域块,提取每块 区域的视觉特征,得到每幅图像对应的视觉特征集合,称所有图像的视觉特征集合的整体 为所有图像的视觉特征集,记为集合X; 步骤2,特征字典学习:以集合X为输入,使用特征字典学习方法,得到由一组具有代表 性的视觉单词组成的特征字典; 步骤3,视觉特征编码:将每幅图像的每个视觉特征表示成视觉单词的线性组合,每个 视觉单词对应一个系数,称这组系数为视觉特征的编码; 步骤4,视觉特征编码的空间汇合:以每幅图像的所有视觉特征的编码为输入,使用统 计方法,将每幅图像表示为一个向量,该向量就是对应图像的图像特征表示; 步骤5,将步骤4得到的每幅图像的编码作为输入,使用分类模型进行训练和分类,得 到分类结果。
2. 根据权利要求1所述的方法,其特征在于,步骤1包括如下步骤: 对于图像I进行局部采样,每次采样得到一个区域块,每个区域块提取一个视觉特 征,得到图像I的视觉特征集合LFS1,最终得到所有图像的视觉特征集合X= [Xl,x2^- ,xN] e RdXN,其中,d表示视觉特征的维度,N表示所有图像的视觉特征的总数,Xi表示第i个 视觉特征,i取值1?N。
3. 根据权利要求2所述的方法,其特征在于,步骤2包括如下步骤: 以集合X为输入,使用特征字典学习方法,得到由一组具有代表性的视觉单词组成的 特征字典,将该特征字典记为:B= [bi,b2,…,bM] ERdXM,其中M为视觉单词的个数;卜是 一个维度d的列向量,表不第j个视觉单词,j取值1?M。
4. 根据权利要求3所述的方法,其特征在于,步骤3包括如下步骤: 针对视觉特征Xi,选取视觉特征Xi的由步骤2得到的特征字典B中的p个最近邻的视 觉单词,即与视觉特征Xi的距离最小的P个视觉单词,P取值1?M,记这p个视觉单词组成 的特征字典为Bi, i取值1?N,求出特征字典Bi中各视觉单词之间的距离所表示的矩阵Di, 矩阵Di的第m行s列的元素为特征字典Bi中对应视觉单词之间的距离,m,s = 1,2,…,p ; 再计算视觉特征Xi到特征字典Bi的各视觉单词的距离表示的列向量屯,Cli的第n个分量 din表示视觉特征Xi与Bi中第n个视觉单词之间的距离,n = 1,2,…,p,以Xi, (Ii, Di, Bi和 两个参数入与P为输入,入,P彡〇,最小化下式,得到\在Bi上的编码 |x厂 B,'zf,+ ? zf L + /?/* D,'zf ,约束条件:f z/' = 1 其中?表示点积,即两个向量对应的分量相乘得到一个新向量;求解得到Xi在这p个 视觉单词的编码结果 < ;最后对编码rf中的分量排序,得到k个最大的编码系数zf及其对 应的k个视觉单词构成的特征字典? k = 1,2,…,p,则视觉特征Xi的编码Zi是一个M维 的向量,向量中与Bf对应的分量为zf,其余分量都置为0。
5. 根据权利要求4所述的方法,其特征在于,步骤5包括如下步骤:采用空间金字塔匹 配模型,将每幅图像的所有视觉特征的编码汇合成一个向量作为该图像的图像特征表示。
6.根据权利要求5所述方法,其特征在于,步骤6包括如下步骤:得到所有图像的图像 特征表示所构成的集合后,将该集合分为训练集和测试集两部分,训练集用于训练分类模 型,用训练好的模型对测试集分类。
【文档编号】G06K9/66GK104331717SQ201410693888
【公开日】2015年2月4日 申请日期:2014年11月26日 优先权日:2014年11月26日
【发明者】杨育彬, 朱启海 申请人:南京大学