基于改进的潜在狄利克雷分配的自然图像分类方法

文档序号：6539966阅读：258来源：国知局

基于改进的潜在狄利克雷分配的自然图像分类方法
【专利摘要】本发明公开了一种基于改进的潜在狄利克雷分配的自然图像分类方法，主要解决现有全监督自然图像分类方法分类时间较长以及在缩短了分类时间的前提下分类精度下降的问题。其实现步骤为：对每幅自然图像进行网格稠密采样，得到其网格采样点；对每个网格采样点提取其SIFT特征；对SIFT特征进行K聚类，生成视觉词典；用视觉词典将自然图像量化为视觉文档；对每篇视觉文档构建二层空间金字塔，得到五篇视觉文档；将每幅自然图像的五篇视觉文档输入给LDA模型得到五个潜在语义主题分布；将所有自然图像的潜在语义主题分布顺次相连后输入给SVM分类器进行分类，得到分类结果。本发明与经典分类方法相比，在缩短了平均分类时间的同时提高了分类精度，可用于目标识别。
【专利说明】基于改进的潜在狄利克雷分配的自然图像分类方法
【技术领域】
[0001]本发明属于图像处理【技术领域】，涉及一种对自然图像的分类方法，可用于目标识别。
【背景技术】
[0002]近年来，图像数量的大量激增给图像识别、检索以及分类等问题带来了巨大的挑战。如何在浩瀚的数据中准确获得用户所需信息并进行处理，成为该领域亟待解决的问题之一。自然图像分类的目的是根据图像中所包含的内容将图像划分为不同的类别，供后续处理或便于管理。经典的自然图像分类方法包括:
[0003]基于词袋模型的自然图像分类方法。该方法是由Csurka G等人将词袋BoW模型的思想移植到图像处理领域，见 Csurka G, Dance C, Fan L, et al.Visual Categorizationwith Bags of Keypoints.Workshop on statistical learning in compute vision,ECCV.2004,1:22.，其主要思想是通过对图像进行特征提取和描述，得到大量特征进行处理，从而得到用来表示图像的关键词，并在此基础上构建视觉词典，然后对待分类图像采用相同的处理方法，将结果代入到训练的分类器中进行分类。然而，词袋模型在计算机视觉领域的应用的缺陷是在应用于图像分类时分类精度不够高，且分类时间较长。
[0004]基于潜在狄利克雷分配的自然图像分类方法。该方法是由David M.Blei等人在pLSA模型的基础上进行扩展，提出了潜在狄利克雷分配LDA，对于像语料库这样的离散数据的收集建立了概率模型，见Blei，D.Μ.，Ng, A.Y.，Jordan, Μ.1.LatentDirichlet Allocation.Journal of Machine Learning Research3:993-1022，2003。随后Fei Fei Li等人将该模型应用于自然场景分类,见Fe1-Fei L, Perona P.A bayesianhierarchical model for learning natural scene categories.Computer Visionand Pattern Recognition,2005.CVPR2005.1EEE Computer Society Conferenceon.1EEE, 2005, 2:524-531。该方法相较于词袋模型方法虽然大大缩短了分类时间，但却降低了分类精度。

【发明内容】

[0005]本发明的目的在于针对已有技术的不足，提出一种基于改进的潜在狄利克雷分配的自然图像分类方法，以提高分类效果。
[0006]为实现上述目的，本发明包括如下步骤:
[0007]1、一种基于改进的潜在狄利克雷分配的自然图像分类方法，包括如下步骤:
[0008](I)采用网格分块方法对每一幅自然图像进行网格稠密采样，得到每幅自然图像相应的网格采样点；
[0009](2)对每一个网格采样点提取其周围区域的尺度不变特征转换SIFT特征；
[0010](3)对所有自然图像提取出来的SIFT特征进行K聚类，K聚类生成的η个聚类中心即η个视觉单词，η个视觉单词构成一个视觉词典；[0011](4)用每幅自然图像中网格采样点的SIFT特征分别与视觉词典中的每个视觉单词进行比较，找出与每幅自然图像中网格采样点的SIFT特征最相近的视觉单词来代替该SIFT特征，使得每幅自然图像均由η个视觉单词表示，即用量化后的每幅自然图像作为由η个视觉单词构成的视觉文档；
[0012](5)根据空间金字塔匹配SPM对每篇视觉文档构建二层空间金字塔，第一层空间金字塔中为原视觉文档，第二层空间金字塔中为经过平均划分后得到的四个视觉子文档，则每篇视觉文档经过空间金字塔匹配后可以得到五篇视觉文档；
[0013](6)将每幅自然图像对应的五篇视觉文档分别输入给潜在狄利克雷分配LDA模型进行若干次Gibbs采样迭代，得到每幅自然图像的五个潜在语义主题分布；
[0014](7)将每幅自然图像的五个潜在语义主题分布顺次相连后输入给支持向量机SVM分类器进行分类，选择所有自然图像的一半的图像作为训练样本，另一半的图像作为测试样本，得到分类结果。
[0015]本发明与现有的技术相比具有以下优点:
[0016]1.本发明在提取自然图像的SIFT时，考虑的是自然图像在多个尺度下的SIFT特征，因而特征信息提取更完整；
[0017]2.本发明由于在LDA模型中引入空间金字塔匹配模型，考虑了自然图像特征之间的空间信息，因而与现有技术相比，提高了平均分类精度；
【专利附图】

【附图说明】
[0018]图1是本发明的总流程图。
【具体实施方式】
[0019]参照图1，本发明的具体实现步骤如下:
[0020]步骤1，采用网格分块方法对每一幅自然图像进行网格稠密采样，得到每幅自然图像相应的网格采样点。
[0021]对每幅自然图像进行网格稠密采样，是用水平和竖直的线均匀地分割每幅自然图像得到每一幅自然图像的每一个网格采样点。
[0022]步骤2，对每一个网格采样点使用尺度不变特征转换(SIFT)算法提取其尺度不变特征转换(SIFT)特征。
[0023](2a)将自然图像中的每一个网格采样点作为生成SIFT特征的关键点；
[0024](2b)在以关键点为中心的NXN的邻域窗口内采样，并用直方图统计邻域像素的梯度方向的幅值，N为不小于2的偶数；
[0025]优选地，N=4；
[0026](2c)计算8个梯度方向的累加值，得到每个关键点的NX N的邻域上8个梯度方向的幅值的累加值，这样就对每个关键点均生成了一个NXNX8维的SIFT特征向量。
[0027]步骤3，对所有自然图像的SIFT特征进行K聚类，生成视觉词典。
[0028]K聚类的特点是各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开，所以经过K聚类得到的η个聚类中心符合视觉词典中对视觉单词的要求，即每一个视觉单词可以代表许多相似的局部区域，而各个视觉单词之间又相互区分，因而选用K聚类生成视觉词典，其实现步骤如下:
[0029](3a)对所有自然图像提取出来的SIFT特征进行K聚类，每次K聚类生成η个聚类中心；
[0030](3b)将每次K聚类生成的η个聚类中心与视觉词典中的η个视觉单词相对应，生成一个均由η个视觉单词构成的视觉词典。
[0031 ] 步骤4，量化每幅自然图像为视觉文档。
[0032]用每幅自然图像中网格采样点的SIFT特征分别与视觉词典中的每个视觉单词进行比较，找出与每幅自然图像中网格采样点的SIFT特征最相近的视觉单词来代替该SIFT特征，使得每幅自然图像均由η个视觉单词表示，即用量化后的每幅自然图像作为由η个视觉单词构成的视觉文档。
[0033]步骤5，根据空间金字塔匹配SPM对每篇视觉文档构建二层空间金字塔。
[0034]所构建的二层空间金字塔中，第一层空间金字塔中为原视觉文档，第二层空间金字塔中为经过平均划分后得到的四个视觉子文档，则每篇视觉文档经过空间金字塔匹配后可以得到五篇视觉文档。
[0035]该步骤在具体软件实现时，将一篇视觉文档表现为一个向量，平均划分就是说比如一个长为240的向量，经过四等分的划分之后即可得到四个长为60的向量。
[0036]步骤6，将每幅自然图像对应的五篇视觉文档分别输入给潜在狄利克雷分配LDA模型进行若干次吉布斯(Gibbs)采样迭代，得到每幅自然图像的五个潜在语义主题分布。
[0037](6a)对于每篇视觉文档中的每一个视觉单词Wi,随机设定该视觉单词所属的主题Zi，令Izi = {l，2，...，T}，i = 1，...，Μ}，其中M为视觉文档的视觉单词总数，T为主题个数，该状态即为Markov链的初始状态；
[0038](6b)根据下式将每篇视觉文档中的视觉单词分配给某个主题，获取Markov链的下一个状态，
【权利要求】
1.一种基于改进的潜在狄利克雷分配的自然图像分类方法，包括如下步骤: (1)采用网格分块方法对每一幅自然图像进行网格稠密采样，得到每幅自然图像相应的网格采样点； (2)对每一个网格采样点提取其周围区域的尺度不变特征转换SIFT特征； (3)对所有自然图像提取出来的SIFT特征进行K聚类，K聚类生成的η个聚类中心即η个视觉单词，η个视觉单词构成一个视觉词典； (4)用每幅自然图像中网格采样点的SIFT特征分别与视觉词典中的每个视觉单词进行比较，找出与每幅自然图像中网格采样点的SIFT特征最相近的视觉单词来代替该SIFT特征，使得每幅自然图像均由η个视觉单词表示，即量化每幅自然图像为由η个视觉单词构成的视觉文档； (5)根据空间金字塔匹配SPM对每篇视觉文档构建二层空间金字塔，第一层空间金字塔中为原视觉文档，第二层空间金字塔中为经过平均划分后得到的四个视觉子文档，则每篇视觉文档经过空间金字塔匹配后可以得到五篇视觉文档； (6)将每幅自然图像对应的五篇视觉文档分别输入给潜在狄利克雷分配LDA模型进行若干次吉布斯Gibbs采样迭代，得到每幅自然图像的五个潜在语义主题分布； (7)将每幅自然图像的五个潜在语义主题分布顺次相连后输入给支持向量机SVM分类器进行分类，选择所有自然图像的一半的图像作为训练样本，另一半的图像作为测试样本，得到分类结果。
2.根据权利要求书I所述的基于改进的潜在狄利克雷分配的自然图像分类方法，其中，步骤(1)所述的采用网格分块方法对每一幅自然图像进行网格稠密采样，得到每幅自然图像相应的网格采样点，是将每幅自然图像用水平和竖直的线均匀地分割，从而得到每一幅自然图像的网格采样点。
3.根据权利要求书I所述的基于改进的潜在狄利克雷分配的自然图像分类方法，其中，步骤(6)所述的将每幅自然图像对应的五篇视觉文档分别输入给潜在狄利克雷分配LDA模型进行若干次Gibbs采样迭代，得到每幅自然图像的五个潜在语义主题分布，按如下步骤进行: (6a)对于每篇视觉文档中的每一个视觉单词Wi,随机设定该视觉单词所属的主题Zi，令Izi = {l，2，...，T}，i = 1，...，M}，其中M为视觉文档的视觉单词总数，T为主题个数，该状态即为Markov链的初始状态； (6b)根据下式将每篇视觉文档中的视觉单词分配给某个主题，获取Markov链的下一个状态，
4.根据权利要求书I所述的基于改进的潜在狄利克雷分配的自然图像分类方法，其中，所述步骤(7)的将每幅自然图像的五个潜在语义主题分布顺次相连后输入给支持向量机SVM分类器进行分类，按如下步骤进行: (7a)选择径向基RBF核函数作为SVM分类器的核函数； (7b)对所有自然图像经过顺次相连的五个潜在语义主题分布采用M折交叉验证，选择出径向基RBF的核函数参数c和g的最佳值，即c=16，g=4，其中c是RBF核函数中的损失函数，g是RBF核函数中的gamma函数； (7c)随机选择所有自然图像中的一半作为训练样本，另一半图像作为测试样本，采用核函数为RBF核函数的SVM分类器对训练样本进行训练，得到训练模型，并用该训练模型对测试样本进行分类，得到分类结果。
5.根据权利要求书I所述的基于改进的潜在狄利克雷分配的自然图像分类方法，其中，M=10。
【文档编号】G06K9/46GK103870840SQ201410085860
【公开日】2014年6月18日申请日期:2014年3月11日优先权日:2014年3月11日
【发明者】焦李成, 刘芳, 韩冰, 马文萍, 王爽, 马晶晶, 侯彪, 白静申请人:西安电子科技大学

完整全部详细技术资料下载

上一篇：一种基于gpu的城市雾霾天气的可视化绘制方法
上一篇：一种生成浏览器测试脚本的方法及装置制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。