基于视觉属性的社会事件识别方法
【专利摘要】本发明公开了一种基于视觉属性的社会事件识别方法,该方法包括:步骤101,从训练事件视频集中的视频中提取视觉属性,所述视觉属性用于描述与视频对应的事件相关的属性;其中,所述训练事件视频中的每个视频对应一个已知事件类别;步骤102,基于提升的迭代模型,训练得到视觉属性分类器,并利用所述视觉属性分类器训练得到多个事件弱分类器;步骤103,基于上述得到的视觉属性分类器以及多个事件弱分类器对待分类事件视频进行分类。本发明针对传统的基于属性的视频事件识别方法中需要大量人工给定的语义标签问题,提出了自动的视觉属性挖掘方法;另外针对视频事件识别中视觉属性复杂多变的问题,本发明对同一种视觉属性建立了多种特征表示。
【专利说明】基于视觉属性的社会事件识别方法
【技术领域】
[0001] 本发明属于社会媒体(social media)挖掘和视频分析领域,具体涉及基于图像分 享网站和视频分享网站的视觉属性的社会事件的识别方法。
【背景技术】
[0002] 随着手机、数字摄像头以及Flickr、Youtube等社交媒体的不断普及,人们变得更 容易从网络上获取和分享信息。这使得发生在人们周围的社会事件以更快的速度传播并随 之产生了大量与事件相关的不同模态的媒体数据,例如图像、文本和视频。根据大量多媒体 数据来理解特定社会事件可以更好地帮助人们浏览、搜索和监控社会事件。但由于社会事 件的复杂多变,如何有效地挖掘媒体数据来理解社会事件仍然是一个难题。
[0003] 近年来,已有大量利用各种媒体数据的社会事件识别和检测的方法被提出。针对 MediaEval公布的多媒体事件检测问题,图像的文本描述,标签、地理位置以及时间标记等 数据被广泛用于事件的理解与检测。这些方法所关注的社会事件是发生在特定时间、地点 的一类事件,例如"发生在西班牙巴塞罗拉和意大利罗马的所有足球事件"。还有一些方法 借助社交网站、博客、维基以及搜索引擎中的大量文本信息来挖掘更为抽象的社会事件,例 如"拉里?佩奇和谢尔盖·布林在1998年创立了谷歌公司"。除此之外,还有大量的方法被 提出用于检测和识别视频中的事件。例如在多媒体事件检测(MED)数据集中,视频事件主 要是关于"生日聚会","做蛋糕"以及"攀岩"等。由于包含在图像和视频中的视觉语义信 息不易被提取和利用,目前的事件识别方法难以在视频事件中获得好的效果。为了改进对 视频的社会事件的理解和识别,目前有大量的方法依赖于属性来描述视频中的事件。
[0004] 目前基于属性的视频事件识别方法可以分为三个主要步骤。(1)人工标定视觉样 本(图像或视频)的属性,这些属性是人为选定的最能体现事件特征的语义信息。(2)利用 包含属性标记的视频或图像样本训练属性分类器。(3)利用属性分类器进一步得到视频的 属性描述特征向量。最终将根据视频的属性描述特征向量来进行事件分类。尽管目前基于 属性的方法可以得到好的效果,但仍然存在大量问题。一方面是标定属性需要耗费大量人 力成本。另一方面是给定属性对应的单个分类器不足以描述事件对应的复杂多变的视觉外 观。
【发明内容】
[0005] 本发明的目的是通过自动挖掘视觉属性,得到对视频中的事件更有效的特征描述 方式,进而可以得到更好的分类效果。针对事件复杂多变的视觉外观,用多种特征来描述给 定的视觉属性,可以更全面的表达事件的视觉外观。
[0006] 为实现上述目的,本发明提供一种基于视觉属性的社会事件识别方法,该方法包 括以下步骤:
[0007] 步骤101,从训练事件视频集中的视频中提取视觉属性,所述视觉属性用于描述与 视频对应的事件相关的属性;其中,所述训练事件视频中的每个视频对应一个已知事件类 别;
[0008] 步骤102,基于提升的迭代模型,训练得到视觉属性分类器,并利用所述视觉属性 分类器训练得到多个事件弱分类器;
[0009] 步骤103,基于上述得到的视觉属性分类器以及多个事件弱分类器对待分类事件 视频进行分类。
[0010] 本发明的有益效果:本发明通过自动挖掘视觉属性,减少了传统基于视觉属性的 事件识别方法中需要人工标定属性的耗费。基于提升的多特征属性表示方法可以有效地表 示视频事件中复杂多变的视觉外观。
【专利附图】
【附图说明】
[0011] 图1是本发明基于视觉属性的社会事件识别方法的流程图;
【具体实施方式】
[0012] 为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照 附图,对本发明进一步详细说明。
[0013] 图1为本发明提出的基于视觉属性的社会事件识别方法的流程图,所述方法通过 自动挖掘视觉属性得到可以识别社会事件的关键视觉属性,这些视觉属性被进一步提升来 更好地表示社会事件,最终视频事件被表示为视觉属性的特征向量。如图1所示,所述方法 包括三个部分:1)视觉属性提取,2)视觉属性提升,3)基于视觉属性的社会事件识别。具 体来说,所述方法包括以下步骤:
[0014] 步骤101,视觉语义属性提取,所述视觉语义属性表示描述特定事件相关的物体, 场景,行为等视觉语义;物体可以是人、车或者动物等;场景可能是体育场、教堂等,行为主 要是人的行为活动,比如拥抱、握手等。
[0015] 所述步骤101进一步包括以下步骤:
[0016] 步骤1011,从训练事件视频集中的每一个事件视频的文本描述中提取语义单词和 词组;其中,所述训练事件视频集中的每一个事件视频对应一个特定的社会事件,即每个事 件视频具有一个事件类别;所述训练事件视频集中的所有事件视频对应预定数目个社会事 件,所述预定数目小于训练视频集中的视频个数。
[0017] 设
【权利要求】
1. 一种基于视觉属性的社会事件识别方法,其特征在于,该方法包括以下步骤: 步骤101,从训练事件视频集中的视频中提取视觉属性,所述视觉属性用于描述与视频 对应的事件相关的属性;其中,所述训练事件视频中的每个视频对应一个已知事件类别; 步骤102,基于提升的迭代模型,训练得到视觉属性分类器,并利用所述视觉属性分类 器训练得到多个事件弱分类器; 步骤103,基于上述得到的视觉属性分类器以及多个事件弱分类器对待分类事件视频 进行分类。
2. 根据权利要求1所述的方法,其特征在于,所述步骤101进一步包括以下步骤: 步骤1011,从所述训练事件视频集中每个视频的文本描述中提取语义单词和词组; 步骤1012,收集所述语义单词和词组对应的图像,根据视觉信息计算语义单词和词组 的视觉表示力,结合语义单词或词组的语义粘滞性,从语义单词和词组中选出多个视觉属 性。
3. 根据权利要求2所述的方法,其特征在于,设
为一个视频的文本描述,1?被分割 为多个语义或者词组单元
其中sei表示一个语义单元;视频的 文本描述分割问题可以进一步表示为一个优化问题
这里
其中Stc表示衡量分割词组粘滞性的函数。
4. 根据权利要求2所述的方法,其特征在于,一个分割词组se被选为视觉属性的概率 是由se的语义粘滞性和视觉表示力共同决定的: Score (se) = Stc (se) Vflickr (se) 这里Vflidff是se的视觉表示力,是通过收集得到的与其对应的图像集的视觉相似性来 计算得到:
其中,1%是当se作为检索词时,从图像共享网站搜索得到的图像集;Cent (U表示1% 的重心;sim()表示图像的相似度。
5. 根据权利要求1所述的方法,其特征在于,步骤102具体通过迭代执行以下三个步 骤: 步骤1021 :学习领域适应的共有特征表示,该步骤中利用权重分布采样所有视频对应 的图像帧集合和辅助图像集中的图像;并利用去噪自编码器学习所采样的样本图像的共有 特征表示;其中,所述辅助图像集是利用所述训练事件视频集中所有视频对应的已知事件 类别名称作为关键词从图像共享网站检索得到; 步骤1022 :利用所学习得到的领域适应的共有特征表示,训练得到与所述视觉属性对 应的多个属性分类器,并利用所述属性分类器更新所述视频集中所有视频对应的图像帧以 及辅助图像集中图像的权重; 步骤1023 :利用所有视觉属性分类器对训练视频集中的每个视频进行描述以构造每 个视频的视觉属性特征向量,然后利用视觉属性特征向量训练得到事件视频弱分类器;, 训练得到事件视频弱分类器,并利用所述事件视频弱分类器进一步更新训练视频集中所有 视频对应的图像帧的权重。
6. 如权利要求5所述的方法,其特征在于,步骤1021中,去噪自编码器利用加了噪声后 的特征恢复得到原来的特征,其重构误差如下表示:
其中,
是指去噪自编码器的重构误差,w表示将所述训练视频集中所有视频对应 的图像帧和辅助图像集中的图像帧映射成共有特征表示的映射矩阵;s表示采样得到的样 本个数,r表示对每个样本加噪声的次数;Xi是第i个样本的原始特征,
是对第i个样本 的原始特征第j次加噪声以后的特征; 通过上述重构误差方程可以求得映射矩阵W的解析解,具体如下表示:
其中,X = [Xl,. . .,xs]表示采样得到的样本集合,
另外是由
加噪声
后的特征向量组成;E表示期望。
7. 如权利要求6所述的方法,其特征在于,步骤1022中,属性分类器的分类误差如下表 示:
其中,
表示分类误差,I表示符号函数,如果括弧中的条件满足,则函数值为1,否则函 数值为0 ;Xi表示第i个样本的特征,即
中的第i个样本的特征向量;g(Xi)表 示将Xi的特征映射为共有特征表示后的特征;flgUi))表示第c个属性分类器; 利用训练得到的分类器如下更新视频集和辅助图像集中图像的权重:
其中,屯表示第i个图像的权重,image (c)表示第c个属性分类器对应的视频包含的 所有帧图像;α ^表示权重更新率。
8. 如权利要求7所述的方法,其特征在于,步骤1023中每个视频的所述视觉属性特征 向量如下构建: 利用所有属性分类器对所述训练视频集中每个视频对应的图像帧得到分类输出值,这 些分类输出值构成图像帧的视觉属性特征向量,将一个视频对应的所有帧图像对应的视觉 属性特征向量进行池化得到该视频的视觉属性特征向量。
9. 如权利要求5所述的方法,其特征在于,步骤1023中,事件视频弱分类器的分类误差 和权重如下计算:
其中,e表示事件视频弱分类器的分类误差,'表示第j个视频,h表示训练事件视频集 中第j个视频的事件类别;h(vP表示对视频'训练得到的事件视频弱分类器,α表示事 件视频弱分类器h(\)的权重
表示第j个视频的权重,K表示事件类别的个数。
10.如权利要求8所述的方法,其特征在于,步骤103具体包括: 对于待识别视频,利用映射矩阵W计算其对应的图像帧的特征表示; 将所述特征表示作为所述属性分类器的输入,进而得到待识别视频的视觉属性特征向 量; 将所述待识别视频的视觉属性特征向量作为所有事件视频弱分类器的输入,对所述待 识别视频进行分类。
【文档编号】G06F17/30GK104142995SQ201410370304
【公开日】2014年11月12日 申请日期:2014年7月30日 优先权日:2014年7月30日
【发明者】徐常胜, 杨小汕, 张天柱 申请人:中国科学院自动化研究所