一种词袋图像分类方法_2

文档序号：9547574阅读：来源：国知局

终直方图表示；
[0046] 第五步，利用支持向量机对待测图像进行分类，最后输出图像类别：
[0047] 使用支持向量机SVM对训练图像进行学习，采用直方图相交核函数Histogram Intersection Kernel，训练集和测试集均为随机选取，对于其他待分类图像同样进行前四个步骤的处理，获得待分类图像的直方图表示，在分类器学习完毕后对待分类图像进行分类处理，最后输出图像类别。
[0048] 上述一种词袋图像分类方法，所述块大小为pXp像素中p = 16,移动步长s像素中 s = 8〇
[0049] 上述一种词袋图像分类方法，所述取距离最近的前N个属于"视觉单词词汇表"中的"视觉单词"，其中N= 3。
[0050] 上述一种词袋图像分类方法，所述确定第一步中一幅整幅灰度图像在I空间金字塔中的层次数目为L = 3。
[0051 ] 上述一种词袋图像分类方法，所述采用直方图相交核函数Histogram Intersection Kernel，其中参数c的值设置为200,参数g的值设置为8。
[0052] 本发明的有益效果是：与现有技术相比，本发明的突出的实质性特点和显著性如下：
[0053] (1)本发明方法是在提取图像的分块融合特征后，对其聚类形成"视觉单词词汇表"，在待分配的"视觉单词"的分配权重阶段采用一种与距离次序有关的权重分配方法并结合空间金字塔模型完成对图像的表示，将得到的图像表示数据输入到SVM训练分类器中完成对待测图像的分类，该方法由于采用了分块融合特征和新的权值分配技术，大大提升了图像分类的准确率。
[0054] (2)本发明方法提取单尺度特征，并将方向梯度直方图特征和SIFT特征融合在一起，更好地表征了图像信息；这就在特征提取上克服了现有技术的提取尺度不变特征需要构建尺度空间，浪费时间的缺陷。
[0055] (3)本发明方法在"视觉单词"分配权重阶段，不再单纯的把"视觉单词"全部的权重分配给"视觉单词词汇表"中的某一个"视觉单词"，而是根据距离的次序信息把一个"视觉单词"按照不同的权重分配到"视觉单词词汇表"中的N个单词中，从而避免了现有技术中采用近似同类的词汇被硬性分配到"视觉单词词汇表"中不同的"视觉单词"的方法所造成的缺陷。
[0056] (4)本发明方法在生成图像的表示阶段，采用基于距离次序的权重分配方法和空间金字塔模型相结合，并以直方图相交核函数的支持向量机对训练图像进行学习，提高了图像分类的效果。
【附图说明】
[0057] 下面结合附图和实施例对本发明进一步说明。
[0058] 图1是本发明一种词袋图像分类方法的流程示意框图。
[0059] 图2(a)为现有词袋图像分类方法在"视觉单词"分配权重阶段的示意图。
[0060] 图2(b)为本发明一种词袋图像分类方法在"视觉单词"分配权重阶段的示意图。
【具体实施方式】
[0061] 图1所示实施例表明，本发明一种词袋图像分类方法的流程是：对图像进行分块并提取特征一对获得的特征进行聚类生成"视觉单词词汇表"一计算待分配"视觉单词"的权重一结合空间金字塔理论获得每幅图像的最终直方图表示一利用支持向量机对待测图像进行分类，最后输出图像类别。
[0062] 图2 (a)和图2(b)图中：A、B、C为"视觉单词词汇表"中的"视觉单词"，a、b、c、d 为待分配到"视觉单词词汇表"中的"视觉单词"，m、n、1代表在特征空间中AB、AC、BC的中垂线。
[0063] 图2 (a)显示现有词袋图像分类方法在"视觉单词"分配权重阶段的情况。根据a、 b、c、d距离A、B、C的欧几里得距离的远近，将a、b、c、d分别完全分配到其中的某一个单词中，即a分配给A，b和c分配给B，d分给配C，由此在图像的直方图表示中，A、B、C的出现频次分别增加1、2、1次，但是从图中可以看出在特征空间完全按照以上方法分配是不合理的，a距离A实际上只比距离B近一点，却被分配到了 A中，忽略了 a和B的相似性，这一过程忽视了 a对B的贡献，同理b、c被分给了 B，忽视了其和其他"视觉单词"的相似性，d被分到了 C，也完全忽视了其和其他"视觉单词"的相似性。
[0064] 图2(b)显示本发明一种词袋图像分类方法在"视觉单词"分配权重阶段的情况。图中的a、b、c、d不再单纯的只分配到A、B、C中的某一个，而是将其中每一个"视觉单词词汇表"中的"视觉单词"都按照不同的权重分到A、B、C中，用实线箭头和不同的虚线箭头表示分配到不同"视觉词汇"的过程，实线表示距离最近的"视觉词汇"，虚线表示次最近距离的"视觉词汇"，也就是说每个待分配的"视觉单词词汇表"中的"视觉单词"对于相似的"视觉单词"都是有贡献的。本发明一种词袋图像分类方法根据待分配的"视觉单词"和"视觉单词词汇表"中的"视觉单词"距离的远近把每个待分配的"视觉单词"分配给距离最近的前N个"视觉单词"，这样就克服了现有方法存在的缺陷。
[0065] 实施例
[0066] 本实施例的一种词袋图像分类方法，是一种基于距离次序的视觉单词权重分配的词袋图像分类方法，步骤如下：
[0067] 第一步，对图像进行分块并提取特征：
[0068] (1)图像采集与预处理：
[0069] 用图像采集设备采集彩色图像，将其输入到计算机中，对获得的彩色图像由RGB 空间转换到灰度空间，采用以下公式：
[0070] I = 0. 299R+0. 587G+0. 114B (1)，
[0071] 其中，R、G、B分别代表RGB彩色图像在R、G、B三个通道中的值，I代表灰度图像，由此完成图像采集与预处理；
[0072] (2)图像分块：
[0073] 设上述（1)步中得到的图像的宽为W像素，高为V像素，对图像进行部分重叠分块，块大小为PXp像素，其中P = 16,由于图像的尺寸各异，会存在图像块的边缘得不到 PXp块的可能，故分别按照公式（2)和公式（3)计算图像块在图像的水平和垂直方向上的第一块图像的起始坐标wl和vl，
[0076] 其中，mod代表取余运算，floor为向上取整运算，s为移动步长像素，s = 8,根据获得的起始坐标按照先自上到下之后从左向右的顺序根据块的大小PXp像素和移动步长 S像素对整幅图像进行部分重叠分块，即：在位置为上下关系的图像块中，上图像块的下半部分和下图像块中的上半部分重叠，在位置为左右关系的图像块中，左图像块的右半部分和右图像块中的左半部分重叠，得到的每一幅具体图像的块数记作Q，由此完成图像分块；
[0077] (3)提取特征并融合特征：
[0078] 分别提取从上述（2)步中得到的每一个图像块的单尺度SIFT特征和方向梯度直方图特征，并对两种特征进行串联，其中SIFT特征维数为128维，方向梯度直方图特征设置为8方向，这样串联后的每一个图像块的最终特征向量维数为128+8 = 136维；
[0079] 第二步，对获得的特征进行聚类生成"视觉单词词汇表"：
[0080] 把第一步获得的特征视为"视觉单词"，采用K-means均值聚类算法对其进行聚类，从而获得"视觉单词"数量为M的"视觉单词词汇表"，在聚类算法中迭代收敛的阈值设置为(λ 0093 ;
[0081] 第三步，计算待分配"视觉单词"的权重：
[0082] 计算上述第二步得到的"视觉单词词汇表"中的"视觉单词"和待分配的"视觉单词"之间的欧氏距离，取距离最近的前N个"视觉单词词汇表"中的"视觉单词"，N = 3,按照公式（4)计算这N个待分配的"视觉单词"中的权重，
[0084] 其中δ 1= 1/2 \其中i = 1，2, 3, if代表序数为i的"视觉单词"在3个待分配的 "视觉单词"中分配到的归一化的权重；
[0085] 第四步，结合空间金字塔理论获得每幅图像的最终直方图表示：
[0086] 利用空间金字塔模型对上述第一步图像采集到的一幅整幅图像进行不同层次的分层处理，统计每层中图像直方图表示信息，然后针对不同层的直方图表示信息分配不同的权值得到该层的最终直方图表示，最后把不同层的直方图表示按照层数顺序连接成该幅图像最终的表示信息，将其作为该幅图像的直方图表示，其具体的步骤如下：
[0087] (1)对第一步中得到的灰度图像进行分层处理：
[0088] 确定第一步中一幅整幅灰度图像在I空间金字塔中的层次数目为L = 3,并将该幅灰度图像进行分层处理，用1代表图像在空间金字塔中的具体层次，1 = 〇, 1，…，L-1，其中 I = 0表示原图像，在1层把该幅灰度图像均匀分为不重叠的S1XS1块子图像；
[0089] (2)统计不同层次图像中不同子块的图像直方图表示：
[0090] 对第1 = 0层图像即原图像，统计由第三步的方法获得的所在块图像的待分配"视觉单词"分配到"视觉单词词汇表"的权重，进而获得上述（1)中所述的整幅灰度图像的直方图表示，其中直方图的横坐标为M个视觉单词字典的序数，纵坐标为在所在图像中对应 "视觉单词词汇表"中相应"视觉单词"出现的频次，最终得到一个IX

完整全部详细技术资料下载

当前第2页1 2 3