一种基于主题模型的动态场景分类方法
【专利摘要】本发明公开了一种基于主题模型的动态场景分类方法,其特征在于,包括以下步骤:( 1 )利用 SIFT 特征对图像进行局部描述,生成原始图像对应的 SIFT 特征图,经过时间的变化,原始图像对应的特征之间就会有相对位置上的变化,这种变化构成了流场,形成了动态视频 SIFT 流;( 2 )对动态视频 SIFT 流场图像进行均匀分块,分为 网格对每一个分块按 SIFT 流的方向量化为 8 个柄的直方图,形成 72 维特征矢量,利用 K-mean 聚类形成为视觉单词;( 3 )引入单词先验信息扩展原始 TMBP 模型,并将原始 TMBP 模型和 Konwledge-TMBP 模型利用量化后的视觉单词建模,得到场景分类的结果。利用 SIFT 流信息 描述动态场景中的动态信息生成视觉单词,并考虑视觉单词对表达主题是否有意义的问题,在主题模型的推理中加入视觉单词的权重,从而达到提高动态场景的分类速度与精度的目的。
【专利说明】一种基于主题模型的动态场景分类方法
【技术领域】
[0001] 本发明涉及一种视频处理技术,具体涉及一种基于主题模型的动态场景分类方 法。
【背景技术】
[0002] 随着科学技术的发展,图像数据的规模变得越来越大,数字图像更是成为信息传 播的重要媒体,特别是动态的数字图像。如何快速地对动态图像进行分类管理,这就需要对 动态的场景进行分类。互联网上的大量视频信息,对这些数据的智能管理的要求也越来越 高。通过对视频场景的自动分类,有助于人们在查找自己感兴趣的数字视频内容时,能够准 确、快速定位。例如,若想获取某次森林火灾的视频,我们可以先利用场景分类,先对可以搜 寻的视频进行分类,然后在森林火灾这一类场景的视频片段当中寻找特定的目标物体,以 达到搜索的目的。
[0003] 所谓场景分类,即根据图像场景的语义内容对图像进行分类,这不仅包含了人们 对一幅图像总体上的认识,而且也提供了图像中出现目标的上下文信息。动态场景分类是 指在大量的视频库中,根据视频的语义内容对视频进行分类,进而为图像检索、目标识别的 研究提供强有力的基础。
[0004] 由上述的例子可知,对视频中动态图像的检索依赖于对动态场景的分类,所以对 动态场景的分类是基础性的工作,因此动态场景分类也是图像理解与机器视觉中最为基础 和关键的研究内容之一。
[0005] 目前,智能的场景的分类主要有以下几种应用:
[0006] 1、辅助人工标注。如果大量的数字图像、视频数据能够被自动地分成不同场景类 另IJ,人工标注的工作就得到了大大的简化。监控者只要通过观察自动分类后的不同图像场 景类型截图,就可以较为清楚地了解容易发生异常事件的场景类型,从而可以更多地关注 这个特定的场景类型。这样不仅能够减少人工的工作量,也可以提高监控的准确率。例如, 在交通十字路口或高速公路这类人流多、车辆多且复杂的场景里,人流、车流的突然聚拢或 者分散情况是一种特殊的场景类型,它们相对于正常的单向人流前进或其他自然场景来 说,发生异常事件的概率要高的多。因此,通过智能的对图像、视频场景分类后,监控人员可 以更多的专注此类易发生异常事件的数字图像数据。
[0007] 2、管理数字图像数据。近年来数字图像视频数据的迅猛增长,对这些数据的智能 管理的要求也越来越高。通过对图像、视频场景的自动分类,有助于人们在查找自己感兴趣 的数字视频内容时,能够准确、快速定位。同时,通过给同一个数字视频源不同的场景片段 标注标签,在以后的搜索和回顾过程中会更加方便快捷,查找视频序列中的固定事件也会 变得更加简单。通过对数字视频的场景类别分类,从而实现对这些不同的视频文件的分类 管理。
[0008] 3、为更深层次的数字图像、视频分析提供支持。在计算机视觉领域,场景分类只是 众多智能图像、视频分析算法中最为基础和简单的一步,为了对图像、视频场景进行分类, 往往需要提取并分析其中的不同特征,这些特征对于后续的视频分析往往是有用的。场景 分类也为目标识别与跟踪、行为检测、视频理解之类的计算机视觉任务提供有效的相关信 息。例如,当有一个明确的检索目标时,可以先利用场景分类,先对图像或者视频进行分类, 然后在同一场景的图像或视频片段当中寻找特定的目标物体,这就使得目标检索变得简 化。如果用户没有明确的检索目标,需要根据条件寻找某类图像、视频的结果时,场景分类 就显得更为重要,用户可以浏览这一场景的所有图像或者视频,然后再在其中选择需要寻 找的结果。
[0009] 4、为人工智能等其他计算机研究方向提供支持。例如机器人视觉的训练,机器人 的智能行走需要给它安装一双"眼睛"。如果能快速对图像场景进行识别,就相当于将外部 的环境信息知识提供给了机器人,它就能够利用获取的外部信息快速响应,并自动完成工 作。
[0010] 除了以上这些应用方面外,场景分类正在被越来越多的人关注而且被运用到工业 设计的各个方面。通过对场景分类的不断研究,人们在智能分析的领域就能得到更大的进 步,而这正是场景理解与分析算法的研究目的所在。
[0011] 目前,对于动态场景分类的研究方法主要可分为两类。第一类是传统的基于跟踪 的动态场景分类方法。这类方法的基本思想是对动态场景内的运动物体进行跟踪,得到它 的运动轨迹,通过对运动轨迹的分析实现动态场景分类的目标。首先,对视频进行目标检测 与跟踪,检测的结果触发跟踪,再根据跟踪的轨迹强制检测,随着时间的推移,有效地更新 跟踪路线,以提高检测的结果。接着通过对运动轨迹的分析来实现动态场景的分类。但是, 当动态场景中运动的物体比较多时,需要跟踪的目标量就会迅猛增长,计算复杂度也直线 上升,而且运动目标之间会存在重叠、遮挡的情况,这时的检测效果以及跟踪的效果就会比 较差。
[0012] 针对第一类方法存在的问题,就有研究者提出了第二类动态场景分类的方法,即 基于特征提取的动态场景分类算法。在特征提取的策略方面,又分为两个层次,利用低层视 觉特征的场景分类与利用中层语义的场景分类。利用低层视觉特征的场景分类首先会提取 动态场景中的底层特征,如:色彩、纹理和形状等,然后将这些特征与有监督的训练方法结 合起来,实现场景的分类。提取场景的低层特征对于简单场景的分类是十分有效的,但当场 景较为复杂时,分类的效果并不理想。利用中层语义的场景分类是对场景进行语义建模,填 补图像低层特征与高层语义之间的鸿沟,从而解决场景分类的问题。总的来说,第二类动态 场景分类的方法在提取场景特征后,将量化后的特征作为概率统计模型的输入,完成动态 场景的分类,常用的概率统计模型有LDA、HDP等。
[0013] 主题模型(topic models)是一种分析大规模数据的统计模型,近年来,主题模型 在文本处理领域得到了广泛的应用。在该领域中,主题模型建模过程是将训练数据看作 包含各个主题的混合物,利用主题模型模拟文档的生成过程,再通过参数估计获得各个文 档的主题。在预测未知数据时,主题模型通过单词在文档中共现的词频数抽取语义相关 的主题集合,将单词空间的文档转换到主题空间,学习到测试文档集在低维空间表达。常 用的主题模型有 PLSA(Probabilistic Latent Semantic Analysis,PLSA),LDA(Latent Dirichelet Allocation,LDA),TMBP(Topic Model of Belief Propagation,TMBP)等。图 像与文本类似,也是人们对客观世界的描述,而且相对于文本来说,图像的描述更加形象、 具体,许多研究者也将主题模型引入到图像的分析与理解的领域。2005年,Fei-fei Li等 人将LDA模型引入到图像的主题分类的领域,提取图像灰度特征与SIFT特征两种方法描 述图像,再利用K-means聚类算法将视觉特征聚类为相应的视觉单词,完成单词与图像的 对应,最后利用文本分析中的LDA模型发现图像的潜在语义,从而完成静态图像的场景分 类。2008年,Bosch等人利用潜在语义分析(PLSA)模型,用尺度不变特征SIFT描述图像, 利用该特征生成视觉单词词典,分析图像的语义内容,实现了静态图像的场景分类。
[0014] 客观世界普遍存在的是复杂背景和成像条件动态改变的复杂动态自然场景。如摇 摆的树叶、密集人群、鸟群、流水、波浪、下雪、下雨和烟雾等环境。动态场景与静态场景相 t匕,包含更多的动态信息与时序信息,并不能直接利用静态场景中主题模型的分类方法。在 主题模型推理中,传统主题模型(PLSA、LDA)在动态场景分类中并没有对视觉单词的重要 性加以区分,没有考虑视觉单词对表达主题是否有意义的问题。同时,传统主题模型对于图 像数据训练时间较长、分类精度也有待进一步提高。尽管目前国内外的众多学者已经提出 了很多新颖的方法,但是算法往往具有很强的针对性和局限性,而且准确性和速度依然有 待提高,所以动态场景的分类仍然是一个未成熟的研究领域,还有许多问题有待解决。
【发明内容】
[0015] 本发明目的是:针对传统主题模型在动态场景分类的过程中对于图像数据训练 时间较长、分类精度不高的问题,利用SIFT流信息描述动态场景中的动态信息生成视觉单 词,并考虑视觉单词对表达主题是否有意义的问题,在主题模型的推理中加入视觉单词的 权重,从而达到提高动态场景的分类速度与精度的目的。
[0016] 本发明的技术方案是:一种基于主题模型的动态场景分类方法,其特征在于,包括 以下步骤:
[0017] (1)利用SIFT特征对图像进行局部描述,生成原始图像对应的SIFT特征图,经过 时间的变化,原始图像对应的特征之间就会有相对位置上的变化,这种变化构成了流场,形 成了动态视频SIFT流;
[0018] (2)对动态视频SIFT流特征量化,并聚类形成视觉单词;
[0019] (3)利用量化后的视觉单词建模,得到场景分类的结果。
[0020] 优选的,本发明采用的SIFT流的方式提取动态图像的特征,并将其按SIFT流的大 小和方向量化为视觉单词。通过对利用图像的SIFT特征的局部描述,生成原始图像对应 的SIFT特征图,经过时间的变化,对应的特征之间就会有相对位置上的变化,这种变化构 成了流场,形成SIFT流。提取动态视频SIFT流的基本步骤如下:
[0021] 1、将视频处理为图像序列。
[0022] 对于输入的视频,首先要将其处理为单帧的图片序列。一方面是为了减少数据量, 方便后期的计算;另一方面,如果两帧之间差异较小,运动就过于微小,运动信息就有可能 提取不到,所以关键帧的选取也有助于提取到两帧之间运动信息。选取关键帧的方法有很 多,常见的有直接在视频时间序列中固定间隔η帧选取一帧的做法,也有其他自适应的关 键帧提取方法等。通过关键帧提取,输入的视频就转变为了带有时间序列的图像。
[0023] 2、构建图像稠密的SIFT特征描述
[0024] SIFT描述子是一个稀疏的特征描述,它包括特征的提取和检测。在这里只用到特 征的提取。稠密SIFT特征的提取主要分为两个步骤:
[0025] (1)计算单一像素点导数值与导数方向。
[0026] 对图像中每一个像素点,按照式(1)与(2)计算其导数值m与导数方向Θ。
[0027]
【权利要求】
1. 一种基于主题模型的动态场景分类方法,其特征在于,包括以下步骤: (1) 利用SIFT特征对图像进行局部描述,生成原始图像对应的SIFT特征图,经过时间 的变化,原始图像对应的特征之间就会有相对位置上的变化,这种变化构成了流场,形成了 动态视频SIFT流; (2) 对动态视频SIFT流特征量化,并聚类形成为视觉单词; (3) 利用量化后的视觉单词建模,得到场景分类的结果。
2. 根据权利要求1所述的基于主题模型的动态场景分类方法,其特征在于,所述步骤 (1) 具体为: (1) 将视频处理为图像序列; (2) 构建图像稠密的SIFT特征描述; (3) 匹配SIFT特征; (4) 计算SIFT流的运动场。
3. 根据权利要求1所述的基于主题模型的动态场景分类方法,其特征 在于,所述步骤(2)具体为:对动态视频SIFT流场图像进行均匀分块,分为 ]X]网格对每一个分块按SIFT流的方向量化为8个柄的直方图,形成72维特征矢量,利用 K-means聚类形成为视觉单词。
4. 根据权利要求1所述的基于主题模型的动态场景分类方法,其特征在于,所述步骤 (2) 和步骤(3)之间还包括以下步骤:按照视频文件统计视觉单词的频率。
5. 根据权利要求1或4所述的基于主题模型的动态场景分类方法,其特征在于, 所述步骤(3)具体为:引入单词先验信息扩展原始TMBP模型,并将原始TMBP模型和 Knowledge-TMBP模型利用量化后的视觉单词建模,根据模型输出的每个测试数据对于各个 主题的概率分布,选择概率最大的的主题作为该动态场景的主题类别。
6. 根据权利要求2所述的基于主题模型的动态场景分类方法,其特征在于,所述步骤 (2)稠密SIFT特征的提取主要分为两个步骤: (1) 计算单一像素点导数值与导数方向; (2) 统计点像素的邻域,形成直方图,这样每个描述子就形成了特征向量,对于每一幅 图像,都得到了它们稠密的SIFT描述。
【文档编号】G06K9/62GK104268546SQ201410229426
【公开日】2015年1月7日 申请日期:2014年5月28日 优先权日:2014年5月28日
【发明者】刘纯平, 林卉, 陈宁强, 吴扬, 季怡, 龚声蓉 申请人:苏州大学