一种词袋图像分类方法
【技术领域】
[0001 ] 本发明的技术方案涉及应用电子设备进行识别图形的方法,具体地说是一种词袋 图像分类方法。
【背景技术】
[0002] 随着人类进入信息化社会,国际互联网的快速发展使得信息量以指数化的速度增 长,互联网上大量未被分类的数字图像作为一个巨大的挑战摆在了人们面前,传统的人工 手动标注和分类不仅在时间上而且在效率上都不再能够适应要求,这就需要自动的图像类 别标注和分类方法来应对这一挑战。
[0003] 近年来,词袋算法在图像分类领域取得了巨大的成就,现有的词袋算法首先对图 像中的局部兴趣点(特征点)进行提取SIFT特征,根据聚类映射到"视觉单词词汇表"的 某一个"视觉单词"中,统计"视觉单词"个数作为图像的统计直方图,经过训练学习,用分 类器完成图像的分类。
[0004] 现有方法中,提取SIFT特征需要构建尺度空间,运算耗时并且得到的兴趣点数目 有限,研究人员在传统的词袋算法上进行了改进。2004年美国卡内基美隆大学的Ke针对 SIFT维数较高的问题,利用主成分分析方法(PCA)和SIFT相结合提出基于PCA-SIFT方法 的词袋算法,将局部兴趣点的特征维数从128维降低到36维,降低了时间复杂度,但是维数 降低使得所用的训练图像需要具有较强的代表性才会得到较好的效果,且时间复杂度仍然 较高。2008年Bay等人提出了 SURF特征描述子,词袋算法利用SURF提取特征,大大的降低 了时间复杂度,但是该描述子在图像尺度和旋转变化时表现不如SIFT描述子。法国里昂中 央理工大学的Zhu等人在2011年提取图像特征时采用一种新的快速局部描述子DAISY,建 模中仍然使用词袋算法,对于同样的识别率,DAISY的时间上要比SIFT快12倍,但是DAISY 描述子的特征维数仍然很高,缺乏更紧凑和多信息的特征表示。
[0005] 在获取图像的特征后需要把获得到的众多局部特征点分配到"视觉单词词汇表" 中的某一个"视觉单词",现有的主流方法是在特征空间中计算待分配的局部特征点即"视 觉单词"与"视觉词汇表"中每个"视觉单词"间的欧几里得距离,计算"视觉单词"的出现 频次。该词频-逆文档频率TF-IDF算法用来评估一个字词的重要程度,有较高的召回率, 但是没有考虑特征项在类间、类内和不完全分类的分布信息这些情况,使得在权重分配阶 段得到的直方图信息有一定局限性。
[0006] CN201210043064. 0公开了一种基于多特征融合的遥感图像分类方法,应用遥感图 像的SIFT特征、颜色直方图特征和纹理特征作为词袋模型的局部特征,得到三个分类器并 对待测图像进行分类预测,将预测结果加权得到最终结果,该方法在待分配"视觉单词"的 权值分配阶段采用TF-IDF方法,得到的图像直方图具有局限性,在表示信息时致使分类结 果产生较大误差。
[0007] 目前图像分类在特征提取上仍然存在单一的特征不能完全代表图像的信息的问 题,在"视觉单词"的权值分配中硬分配的思想忽略了待分配"视觉单词"对其他词汇的贡 献,加上词袋算法中图像直方图区分效果不佳,导致图像分类存在准确率不高的缺陷。
【发明内容】
[0008] 本发明所要解决的技术问题是:提供一种词袋图像分类方法,是一种基于距离次 序的视觉单词权重分配的词袋图像分类方法,克服了现有图像分类技术存在单一的特征不 能完全代表图像的信息和图像分类存在准确率不高的缺陷。
[0009] 本发明解决该技术问题所采用的技术方案是:一种词袋图像分类方法,是一种基 于距离次序的视觉单词权重分配的词袋图像分类方法,步骤如下:
[0010] 第一步,对图像进行分块并提取特征:
[0011] (1)图像采集与预处理:
[0012] 用图像采集设备采集彩色图像,将其输入到计算机中,对获得的彩色图像从RGB 空间转换到灰度空间,采用以下公式:
[0013] I = 0. 299R+0. 587G+0. 114B (1),
[0014] 其中,R、G、B分别代表RGB彩色图像在R、G、B三个通道中的值,I代表灰度图像, 由此完成图像采集与预处理;
[0015] (2)图像分块:
[0016] 设上述(1)步中得到的图像的宽为W像素,高为V像素,对图像进行部分重叠分 块,块大小为P XP像素,由于图像的尺寸各异,会存在图像块的边缘得不到P XP块的可能, 故分别按照公式(2)和公式(3)计算图像块在图像的水平和垂直方向上的第一块图像的起 始坐标wl和vl,
[0019] 其中,mod代表取余运算,floor为向上取整运算,s为移动步长像素,根据获得的 起始坐标按照先自上到下之后从左向右的顺序根据块的大小PXp像素和移动步长s像素 对整幅图像进行部分重叠分块,即:在位置为上下关系的图像块中,上图像块的下半部分和 下图像块中的上半部分重叠,在位置为左右关系的图像块中,左图像块的右半部分和右图 像块中的左半部分重叠,得到的每一幅具体图像的块数记作Q,由此完成图像分块;
[0020] (3)提取特征并融合特征:
[0021] 分别提取从上述(2)步中得到的每一个图像块的单尺度SIFT特征和方向梯度直 方图特征,并对两种特征进行串联,其中SIFT特征维数为128维,方向梯度直方图特征设置 为8方向,这样串联后的每一个图像块的最终特征向量维数为128+8 = 136维;
[0022] 第二步,对获得的特征进行聚类生成"视觉单词词汇表":
[0023] 把第一步获得的特征视为"视觉单词",采用K-means均值聚类算法对其进行聚 类,从而获得"视觉单词"数量为M的"视觉单词词汇表",在聚类算法中迭代收敛的阈值设 置为(λ 0093 ;
[0024] 第三步,计算待分配"视觉单词"的权重:
[0025] 计算上述第二步得到的"视觉单词词汇表"中的"视觉单词"和待分配的"视觉单 词"之间的欧氏距离,取距离最近的前N个"视觉单词词汇表"中的"视觉单词",N < Μ,按 照公式(4)计算这N个"视觉单词"中每个单词所占的权重,
[0027] 其中δ 1= 1/2 \其中i = 1,2, ...,N,备代表序数为i的"视觉单词"在N个待 分配的"视觉单词"中分配到的归一化的权重;
[0028] 第四步,结合空间金字塔理论获得每幅图像的最终直方图表示:
[0029] 利用空间金字塔模型对上述第一步图像采集到的一幅整幅图像进行不同层次的 分层处理,统计每层中图像直方图表示信息,然后针对不同层的直方图表示信息分配不同 的权值得到该层的最终直方图表示,最后把不同层的直方图表示按照层数顺序连接成该幅 图像最终的表示信息,将其作为该幅图像的直方图表示,其具体的步骤如下:
[0030] (1)对第一步中得到的灰度图像进行分层处理:
[0031] 确定第一步中一幅整幅灰度图像在I空间金字塔中的层次数目为L,并将该幅灰 度图像进行分层处理,用1代表图像在空间金字塔中的具体层次,1 = 〇, 1,…,L-1,其中1 =0表示原图像,在1层把该幅灰度图像均匀分为不重叠的S1XS1块子图像;
[0032] (2)统计不同层次图像中不同子块的图像直方图表示:
[0033] 对第I = 0层图像即原图像,统计由第三步的方法获得的所在块图像的待分配"视 觉单词"分配到"视觉单词词汇表"的权重,进而获得上述(1)中所述的整幅灰度图像的直 方图表示,其中直方图的横坐标为M个视觉单词字典的序数,纵坐标为在所在图像中对应 "视觉单词词汇表"中相应"视觉单词"出现的频次,最终得到一个IXM的向量来表征该幅 图像的第〇层特征,将其记作H。,
[0034] 对于上述⑴步中在1层把该幅灰度图像均匀分为不重叠的S1XS1块子的图像, 从左上角的第一个小块图像开始,自上而下而后自左向右分别记作第k块,k = 1,..., 21 X 21,逐块统计由第三步获得的所在块图像中待分配的"视觉单词"分配到"视觉单词词 汇表"的权重,进而获得该层图像的直方图表示,其中直方图的横坐标为M个视觉单词字典 的序数,纵坐标为在所在图像块中
[0035] 对应"视觉单词词汇表"中相应"视觉单词"出现的频次,利用得到的2^21个IXM 的向量来表征该幅图像的第1层特征,将S1XS1个向量按照顺序连接记作H1,由此完成统 计不同层次图像中不同子块的图像直方图表示;
[0036] (3)计算图像的直方图表示:
[0037] 对不同层次的金字塔图像表示分配不同的权重,并且将不同层次的图像表征特征 串联成一个直方图表示,对于不同层次的金字塔图像表示按照公式(5)分配权重:
[0038] ω1= 1/2' (1+1) (5),
[0039] 式中Co1代表第1层金字塔图像中直方图表示获得的未归一化权重,对所得权重 按照公式(6)进行归一化处理:
[0041] 分别将不同层金字塔图像获得的权重归一化和对应层获得的图像直方图表征 向量H1相乘,得到每一层金字塔图像的最终直方图表示H' i,并将不同层的H' 1连接成这 幅图像在不同层金字塔最终的表示H,H的计算方法按照下式(7)和(8)计算:
[0045] 由此完成结合空间金字塔理论获得每幅图像的最