一种基于连续的多实例学习的视频中动作识别的方法

文档序号:9417785阅读:454来源:国知局
一种基于连续的多实例学习的视频中动作识别的方法
【技术领域】
[0001] 本发明属于识别与检测领域,涉及一种基于连续的多实例学习的视频中动作识别 的方法,一种利用弱标记的训练数据,从视频中识别与检测人的动作的方法。
【背景技术】
[0002] 近年来,人的动作识别在很多计算机视觉应用上面体现着越来越重要的作用。例 如视频监控,基于内容的视频检索,标记和视觉交互。如何解决人的动作识别这一实用价值 高,但又富有挑战性的任务成为现阶段各视频网站花费大笔财力人力关注的问题。
[0003] -般的动作识别系统将该任务看作分类或检测问题。利用全标记的训练数据来训 练一个有效的分类器或者检测器是目前常用的方法,它们利用准确的时间戳将一段视频分 割为多个片段。但是想要获得全标记的训练数据是非常费时费力的,这也是目前实际应用 所遇到的最大问题。
[0004] 为了解决标记的费时费力问题,可以利用弱标记的视频训练动作分类器。比如视 频字幕中的时间戳和剧本中的动作描述可以用作视频级别的弱标记。然而,由于弱标记的 不准确性和动作视频中的一些转折帧,弱标记的训练数据有一定的二义性,可以利用多实 例学习来解决这一问题。多实例学习是有监督学习的一个变种,它的训练数据是以"包"的 形式提供的,标签也是"包"级别的。多实例学习可以通过判断正样本包中的实例是否真的 是正样本来解决二义性问题。但是,普通的多实例学习并不适用于视频数据,因为视频数据 带有时间维度的信息。
[0005] 连续的多实例学习与普通多实例学习的不同之处是,连续的多实例学习根据视频 时间连续性的特点,加入了时间连续的约束项,通过该项的约束,相邻的视频帧应该尽可能 属于同一个动作类别,因为视频是时间上连续的,动作类别的变化不应过于频繁。通过加入 该项约束,可以较好的解决弱标记及转折帧所引起的二义性。

【发明内容】

[0006] 本发明的目的在于针对现有技术的不足,提供一种基于连续的多实例学习的视频 中动作识别的方法。
[0007] 本发明解决其技术问题所采用的技术方案包括如下步骤:
[0008] 为实现上述目的,本发明所述的基于连续的多实例学习的视频中动作识别的方法 包括如下步骤:
[0009] 步骤1、从视频网站上收集电影数据作为训练数据样本集,同时从网站上收集字幕 和剧本,对字幕和剧本进行预处理,将剧本中的动作描述作为训练数据的视频级别的弱标 记;
[0010] 步骤2、通过弱标记将视频切分成多个视频片段,每个视频片段由一个动作组成。 对于每个动作,利用视频片段训练基于连续的多实例学习的动作分类器;
[0011] 步骤3、用户将待识别视频输入至训练好的多个动作分类器,计算待识别视频的每 一帧属于该动作的概率;
[0012] 步骤4、利用所述步骤3)得到的概率,利用视频切割模型,得到每一帧的动作类 另IJ,将动作类别结果返回给用户。
[0013] 所述的训练数据样本集包含由14个动作组成的937个视频,每个视频由2到11 个动作组成。所述的14个动作为打电话、开车、吃、打人、握手、拥抱、亲吻、打开车门、开门、 跑、坐下、端坐、起立和威胁。
[0014] 所述的字幕和剧本的预处理如下:利用动态时间规整算法对字幕和剧本中的对话 进行对齐,通过对齐将剧本和视频进行同步;对于同步后的剧本,将其中的动作描述作为视 频对应片段的弱标记。
[0015] 所述的视频片段定义为
> 其中Ck包含^帧
·其中f?是视频 片段第k帧的特征,使用ImageNet数据集预训练的深度卷积网络的第六层节点值作为特征 f?; if = 1表示该动作中的这一帧是正样本,反之#二一1表示该动作中的这一帧是负 样本。
[0016] 所述的动作分类器的定义如公式(1):
[0017]
公式(1)
[0018] 式中:第一项是经典的支持向量机,w是权值向量,最小化该项能够找到两类的最 大分类间隔;第二项中的L是标签与预测结果的经验损失函数,b是函数的偏置,γ是第二 项的权重;第三项中Y k是视频级别的标签,I是指示函数,当等式为真的时候,其值为1,反 之为〇,第三项是帧标签与视频标签不同时的惩罚项,γ ρ是第三项的权重;第四项是保证视 频时间连续性的约束项,N是视频中相邻帧的集合,丫"是第四项的权重。所述的对于用户 输入的待识别视频
利用训练得到的动作分类器,计算待识别视频的每一帧属于 某一动作的概率p(ym= l|Fm):
[0019]
公式(2)
[0020] 其中g(x)是训练分类器得到的支持向量机的决策函数。PDiB(g)表示以D和B为 参数的函数;D和B是两个参数,其最优值通过下面的公式求解: CN 105138953 A 抓 h门-p 3/5 页
[0021]
公式(3)
[0022] 所述的公式(3)参看文献:Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods〇
[0023] 所述的利用动作分类器得到的概率,通过视频切割模型,即可识别出每一帧的动 作类别,该动作类别限于训练数据所包含的14种常见的动作类别。
[0024] 所述的视频切割模型是基于马尔科夫随机场的视频切割模型:
[0025]
[0026] 其中,P(AlJFni)的值等于公式⑵所得的结果p(yni= I IFni),λ为第一项的权重, U ({AJ)的定义如下:
[0027]
[0028]
[0029] 该视频切割模型的输出Ani即为每一帧的动作识别结果。
[0030] 本发明的有益效果如下:
[0031] 本发明方法是一种基于连续的多实例学习的视频中动作识别的方法,该方法利用 弱标记的视频片段作为输入,训练多个基于连续的多实例学习的动作分类器,该分类器可 以减少由于弱标记及转折帧引起的二义性。对于用户给定的视频,利用训练得到的分类器 计算每一帧属于某一动作的概率,最后用视频切割模型来检测视频帧最终的动作类别。由 于该方法解决了二义性的问题,在很大程度上提高了最终检测结果的准确性。
[0032] 与传统方法相比,本发明通过使用视频的字幕和剧本作为弱标记,减少了人工标 记的费时费力问题,使该方法的实际应用价值提高。同时,本发明通过使用连续的多实例学 习方法,减少了弱标记和转折帧带来的二义性问题,并且使该模型适用于视频这种带有时 间维度的数据。
【附图说明】
[0033] 图1是本发明方法的流程示意图。
【具体实施方式】
[0034] 下面将结附图对本发明作进一步描述。
[0035] 本发明提出了一种基于连续的多实例学习的视频中动作识别的方法。该方法首先 从视频网站上收集电影数据作为训练数据,同时从网站上面收集字幕和剧本,通过字幕和 剧本中的对话匹配,将字幕和剧本进行同步,并利用剧本中的动作描述作为对应视频片段 的弱标记。通过视频级别的弱标记,训练数据中的每个视频被切分成若干视频片段。然后, 对于每一种标记,训练一个基于连续的多实例学习的动作分类器。在测试的过程中,首先利 用训练好的动作分类器计算用户输入的视频的每一帧属于该动作的概率。然后,每一帧的 识别最终结果通过视频切割模型得到。
[0036] 如图1所示,本发明基于连续的多实例学习的视频中动作识别的方法,包括以下 步骤:
[0037] 步骤1、从视频网站上收集电影数据作为训练数据样本集,同时从网站上收集字幕 和剧本,对字幕和剧本进行预处理,将剧本中的动作描述作为训练数据的视频级别的弱标 记;
[0038] 所述的训练数据样本集包含由14个动作组成的937个视频,每个视频由2到
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1