基于视觉属性的社会事件识别方法

文档序号：6621967阅读：765来源：国知局

基于视觉属性的社会事件识别方法
【专利摘要】本发明公开了一种基于视觉属性的社会事件识别方法，该方法包括：步骤101，从训练事件视频集中的视频中提取视觉属性，所述视觉属性用于描述与视频对应的事件相关的属性；其中，所述训练事件视频中的每个视频对应一个已知事件类别；步骤102，基于提升的迭代模型，训练得到视觉属性分类器，并利用所述视觉属性分类器训练得到多个事件弱分类器；步骤103，基于上述得到的视觉属性分类器以及多个事件弱分类器对待分类事件视频进行分类。本发明针对传统的基于属性的视频事件识别方法中需要大量人工给定的语义标签问题，提出了自动的视觉属性挖掘方法；另外针对视频事件识别中视觉属性复杂多变的问题，本发明对同一种视觉属性建立了多种特征表示。
【专利说明】基于视觉属性的社会事件识别方法

【技术领域】
[0001] 本发明属于社会媒体（social media)挖掘和视频分析领域，具体涉及基于图像分享网站和视频分享网站的视觉属性的社会事件的识别方法。

【背景技术】
[0002] 随着手机、数字摄像头以及Flickr、Youtube等社交媒体的不断普及，人们变得更容易从网络上获取和分享信息。这使得发生在人们周围的社会事件以更快的速度传播并随之产生了大量与事件相关的不同模态的媒体数据，例如图像、文本和视频。根据大量多媒体数据来理解特定社会事件可以更好地帮助人们浏览、搜索和监控社会事件。但由于社会事件的复杂多变，如何有效地挖掘媒体数据来理解社会事件仍然是一个难题。
[0003] 近年来，已有大量利用各种媒体数据的社会事件识别和检测的方法被提出。针对 MediaEval公布的多媒体事件检测问题，图像的文本描述，标签、地理位置以及时间标记等数据被广泛用于事件的理解与检测。这些方法所关注的社会事件是发生在特定时间、地点的一类事件，例如"发生在西班牙巴塞罗拉和意大利罗马的所有足球事件"。还有一些方法借助社交网站、博客、维基以及搜索引擎中的大量文本信息来挖掘更为抽象的社会事件，例如"拉里?佩奇和谢尔盖·布林在1998年创立了谷歌公司"。除此之外，还有大量的方法被提出用于检测和识别视频中的事件。例如在多媒体事件检测（MED)数据集中，视频事件主要是关于"生日聚会"，"做蛋糕"以及"攀岩"等。由于包含在图像和视频中的视觉语义信息不易被提取和利用，目前的事件识别方法难以在视频事件中获得好的效果。为了改进对视频的社会事件的理解和识别，目前有大量的方法依赖于属性来描述视频中的事件。
[0004] 目前基于属性的视频事件识别方法可以分为三个主要步骤。（1)人工标定视觉样本（图像或视频）的属性，这些属性是人为选定的最能体现事件特征的语义信息。（2)利用包含属性标记的视频或图像样本训练属性分类器。（3)利用属性分类器进一步得到视频的属性描述特征向量。最终将根据视频的属性描述特征向量来进行事件分类。尽管目前基于属性的方法可以得到好的效果，但仍然存在大量问题。一方面是标定属性需要耗费大量人力成本。另一方面是给定属性对应的单个分类器不足以描述事件对应的复杂多变的视觉外观。

【发明内容】

[0005] 本发明的目的是通过自动挖掘视觉属性，得到对视频中的事件更有效的特征描述方式，进而可以得到更好的分类效果。针对事件复杂多变的视觉外观，用多种特征来描述给定的视觉属性，可以更全面的表达事件的视觉外观。
[0006] 为实现上述目的，本发明提供一种基于视觉属性的社会事件识别方法，该方法包括以下步骤：
[0007] 步骤101，从训练事件视频集中的视频中提取视觉属性，所述视觉属性用于描述与视频对应的事件相关的属性；其中，所述训练事件视频中的每个视频对应一个已知事件类别；
[0008] 步骤102,基于提升的迭代模型，训练得到视觉属性分类器，并利用所述视觉属性分类器训练得到多个事件弱分类器；
[0009] 步骤103,基于上述得到的视觉属性分类器以及多个事件弱分类器对待分类事件视频进行分类。
[0010] 本发明的有益效果：本发明通过自动挖掘视觉属性，减少了传统基于视觉属性的事件识别方法中需要人工标定属性的耗费。基于提升的多特征属性表示方法可以有效地表示视频事件中复杂多变的视觉外观。

【专利附图】

【附图说明】
[0011] 图1是本发明基于视觉属性的社会事件识别方法的流程图；

【具体实施方式】
[0012] 为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。
[0013] 图1为本发明提出的基于视觉属性的社会事件识别方法的流程图，所述方法通过自动挖掘视觉属性得到可以识别社会事件的关键视觉属性，这些视觉属性被进一步提升来更好地表示社会事件，最终视频事件被表示为视觉属性的特征向量。如图1所示，所述方法包括三个部分：1)视觉属性提取，2)视觉属性提升，3)基于视觉属性的社会事件识别。具体来说，所述方法包括以下步骤：
[0014] 步骤101，视觉语义属性提取，所述视觉语义属性表示描述特定事件相关的物体，场景，行为等视觉语义；物体可以是人、车或者动物等；场景可能是体育场、教堂等，行为主要是人的行为活动，比如拥抱、握手等。
[0015] 所述步骤101进一步包括以下步骤：
[0016] 步骤1011，从训练事件视频集中的每一个事件视频的文本描述中提取语义单词和词组；其中，所述训练事件视频集中的每一个事件视频对应一个特定的社会事件，即每个事件视频具有一个事件类别；所述训练事件视频集中的所有事件视频对应预定数目个社会事件，所述预定数目小于训练视频集中的视频个数。
[0017] 设

【权利要求】
1. 一种基于视觉属性的社会事件识别方法，其特征在于，该方法包括以下步骤：步骤101，从训练事件视频集中的视频中提取视觉属性，所述视觉属性用于描述与视频对应的事件相关的属性；其中，所述训练事件视频中的每个视频对应一个已知事件类别；步骤102,基于提升的迭代模型，训练得到视觉属性分类器，并利用所述视觉属性分类器训练得到多个事件弱分类器；步骤103,基于上述得到的视觉属性分类器以及多个事件弱分类器对待分类事件视频进行分类。
2. 根据权利要求1所述的方法，其特征在于，所述步骤101进一步包括以下步骤：步骤1011，从所述训练事件视频集中每个视频的文本描述中提取语义单词和词组；步骤1012,收集所述语义单词和词组对应的图像，根据视觉信息计算语义单词和词组的视觉表示力，结合语义单词或词组的语义粘滞性，从语义单词和词组中选出多个视觉属性。
3. 根据权利要求2所述的方法，其特征在于，设
为一个视频的文本描述，1?被分割为多个语义或者词组单元
其中sei表示一个语义单元；视频的文本描述分割问题可以进一步表示为一个优化问题
这里
其中Stc表示衡量分割词组粘滞性的函数。
4. 根据权利要求2所述的方法，其特征在于，一个分割词组se被选为视觉属性的概率是由se的语义粘滞性和视觉表示力共同决定的： Score (se) = Stc (se) Vflickr (se) 这里Vflidff是se的视觉表示力，是通过收集得到的与其对应的图像集的视觉相似性来计算得到：
其中，1%是当se作为检索词时，从图像共享网站搜索得到的图像集；Cent (U表示1% 的重心；sim()表示图像的相似度。
5. 根据权利要求1所述的方法，其特征在于，步骤102具体通过迭代执行以下三个步骤：步骤1021 :学习领域适应的共有特征表示，该步骤中利用权重分布采样所有视频对应的图像帧集合和辅助图像集中的图像；并利用去噪自编码器学习所采样的样本图像的共有特征表示；其中，所述辅助图像集是利用所述训练事件视频集中所有视频对应的已知事件类别名称作为关键词从图像共享网站检索得到；步骤1022 :利用所学习得到的领域适应的共有特征表示，训练得到与所述视觉属性对应的多个属性分类器，并利用所述属性分类器更新所述视频集中所有视频对应的图像帧以及辅助图像集中图像的权重；步骤1023 :利用所有视觉属性分类器对训练视频集中的每个视频进行描述以构造每个视频的视觉属性特征向量，然后利用视觉属性特征向量训练得到事件视频弱分类器；，训练得到事件视频弱分类器，并利用所述事件视频弱分类器进一步更新训练视频集中所有视频对应的图像帧的权重。
6. 如权利要求5所述的方法，其特征在于，步骤1021中，去噪自编码器利用加了噪声后的特征恢复得到原来的特征，其重构误差如下表示：
其中，
是指去噪自编码器的重构误差，w表示将所述训练视频集中所有视频对应的图像帧和辅助图像集中的图像帧映射成共有特征表示的映射矩阵；s表示采样得到的样本个数，r表示对每个样本加噪声的次数；Xi是第i个样本的原始特征，
是对第i个样本的原始特征第j次加噪声以后的特征；通过上述重构误差方程可以求得映射矩阵W的解析解，具体如下表示：
其中，X = [Xl，. . .，xs]表示采样得到的样本集合，
另外是由
加噪声
后的特征向量组成；E表示期望。
7. 如权利要求6所述的方法，其特征在于，步骤1022中，属性分类器的分类误差如下表示：
其中，
表示分类误差，I表示符号函数，如果括弧中的条件满足，则函数值为1，否则函数值为0 ;Xi表示第i个样本的特征，即
中的第i个样本的特征向量；g(Xi)表示将Xi的特征映射为共有特征表示后的特征；flgUi))表示第c个属性分类器；利用训练得到的分类器如下更新视频集和辅助图像集中图像的权重：
其中，屯表示第i个图像的权重，image (c)表示第c个属性分类器对应的视频包含的所有帧图像；α ^表示权重更新率。
8. 如权利要求7所述的方法，其特征在于，步骤1023中每个视频的所述视觉属性特征向量如下构建：利用所有属性分类器对所述训练视频集中每个视频对应的图像帧得到分类输出值，这些分类输出值构成图像帧的视觉属性特征向量，将一个视频对应的所有帧图像对应的视觉属性特征向量进行池化得到该视频的视觉属性特征向量。
9. 如权利要求5所述的方法，其特征在于，步骤1023中，事件视频弱分类器的分类误差和权重如下计算：
其中，e表示事件视频弱分类器的分类误差，'表示第j个视频，h表示训练事件视频集中第j个视频的事件类别；h(vP表示对视频'训练得到的事件视频弱分类器，α表示事件视频弱分类器h(\)的权重
表示第j个视频的权重，K表示事件类别的个数。
10.如权利要求8所述的方法，其特征在于，步骤103具体包括：对于待识别视频，利用映射矩阵W计算其对应的图像帧的特征表示；将所述特征表示作为所述属性分类器的输入，进而得到待识别视频的视觉属性特征向量；将所述待识别视频的视觉属性特征向量作为所有事件视频弱分类器的输入，对所述待识别视频进行分类。
【文档编号】G06F17/30GK104142995SQ201410370304
【公开日】2014年11月12日申请日期:2014年7月30日优先权日:2014年7月30日
【发明者】徐常胜, 杨小汕, 张天柱申请人:中国科学院自动化研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐常胜;杨小汕;张天柱
技术所有人：中国科学院自动化研究所
我是此专利的发明人

上一篇：一种基于商标密度的个性化商标匹配识别方法
上一篇：一种以好中差评价而支付不同价格的电子商务方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。