一种基于深度学习的视频摘要在线生成方法

文档序号:6619692阅读:1106来源:国知局
一种基于深度学习的视频摘要在线生成方法
【专利摘要】本发明涉及一种基于深度学习的视频摘要在线生成方法。本发明对原始视频做如下操作:1)将视频均匀切分成一组小帧块,提取各帧图像的统计特征,形成相应的向量化表示;2)预训练视频帧多层深度网络,获得各帧的非线性表示;3)选取前m帧块为初始精简视频,并通过组稀疏编码算法对其进行重构,获得初始词典和重构系数;4)根据下一帧块更新深度网络参数,并对该帧块进行重构和计算重构误差,若误差大于设定阈值,则将其加入精简视频中并更新词典;5)按照步骤4)依次在线处理新的帧块直到结束,更新的精简视频即为生成的视频摘要。本发明能够深度挖掘视频的潜在高层语义信息,快速地在线生成视频摘要,节省了用户时间,提升了视觉体验。
【专利说明】一种基于深度学习的视频摘要在线生成方法

【技术领域】
[0001] 本发明属于视频摘要生成的【技术领域】,特别是基于深度学习的视频摘要在线生成 方法。

【背景技术】
[0002] 近年来,随着数字摄像机、智能手机、掌上电脑等便携式设备的日益普及,各类视 频的数量呈井喷式增长。例如,在智能交通、安防监控、公安布防等社会重要领域的视频采 集设备在一个中型城市中高达几万路,这些设备产生的视频数据达PB级。为了锁定目标人 物或车辆,公安交警等人员需要耗费大量的时间调看冗长乏味监控的视频流,这极大地影 响了办事效率,不利于平安城市的创建。因此,从冗长的视频流中有效地选取包含关键信息 的视频帧,即视频摘要技术,受到了学术界和工业界的广泛关注。
[0003] 传统的视频摘要技术主要针对编辑过的结构化视频,如一部电影可分为多个场 景,每个场景由同一地点发生的多个情节组成,每个情节又由一系列光滑连续的视频帧构 成。不同于传统的电影、电视剧、新闻报道等结构化视频,监控视频一般是未经剪辑的非结 构化视频,这为视频摘要技术的应用带来较大挑战。
[0004] 目前,主要的视频摘要领域有基于关键帧方法、创建新图像、视频帧块、转自然语 言处理等技术。基于关键帧的方法包括情节边缘检测、视频帧聚类、颜色直方图、动作稳定 性等策略;创建新图像利用包含重要内容的一些连续帧生成,该方法容易受到不同帧之间 的模糊因素影响;视频帧块方法利用结构化视频中的场景边缘检测、对话分析等技术对原 始进行裁剪,形成短小的主题电影;转自然语言处理是指利用视频中的字幕和语音信息将 视频摘要转化为文本摘要的技术,该技术不适合处理无字幕或声音的监控视频。
[0005] 针对智能交通、安防布控等重要领域源源不断地产生大量非结构化视频,传统的 视频摘要方法不能满足在线处理流式视频的应用要求。为此,迫切需要既能在线处理视频 流,又能高效准确选取包含关键内容的视频摘要方法。


【发明内容】

[0006] 为了高效准确地在线浓缩和精简冗长乏味的视频流,以节省用户时间并增强视频 内容的视觉效果,本发明提出了一种基于深度学习的视频摘要在线生成方法,该方法包括 以下步骤:
[0007] 1、获取原始视频数据后,进行以下操作:
[0008] 1)将视频均匀切分为一组小帧块,每个帧块包含多帧,提取各帧图像的统计特征, 形成相应的向量化表示;
[0009] 2)预训练视频帧多层深度网络,获得各帧的非线性表示;
[0010] 3)选取前m帧块为初始精简视频,并通过组稀疏编码算法对其进行重构,获得初 始词典和重构系数;
[0011] 4)根据下一帧块更新深度网络参数,同时对该帧块进行重构并计算重构误差,若 误差大于设定阈值,则将该帧块加入精简视频中并更新词典;
[0012] 5)按照步骤4)依次在线处理新的帧块直到结束,更新的精简视频即为生成的视 频摘要。
[0013] 进一步,所述的步骤1)中所述的提取各帧图像的统计特征形成相应向量化表示, 具体是:
[0014] 1)设原始视频均匀分为η个帧块,S丨

【权利要求】
1. 一种基于深度学习的视频摘要在线生成方法,该方法的特征在于获得原始视频后, 进行如下操作: 1) 将视频均匀切分为一组小帧块,每个帧块包含多帧,提取各帧图像的统计特征,形成 相应的向量化表示; 2) 预训练视频帧多层深度网络,获得各帧的非线性表示; 3) 选取前m帧块为初始精简视频,并通过组稀疏编码算法对其进行重构,获得初始词 典和重构系数; 4) 根据下一帧块更新深度网络参数,同时对该帧块进行重构并计算重构误差,若误差 大于设定阈值,则将该帧块加入精简视频中并更新词典; 5) 按照步骤4)依次在线处理新的帧块直到结束,更新的精简视频即为生成的视频摘 要。
2. 如权利要求1所述的基于深度学习的视频摘要在线生成方法,其特征在于:所述的 步骤1)中的提取各帧图像的统计特征形成相应向量化表示,具体步骤是: 1. 1)设原始视频均匀分为η个帧块,S卩
,每个帧块包含t帧图像,将 各帧图像缩放成统一像素大小并保持原始的纵横比例; 1. 2)提取各帧图像的全局特征和局部特征; 所述全局特征包括颜色直方图、颜色矩、边缘方向直方图、Gabor小波变换、局部二值模 式; 所述局部特征包括:尺度不变特征变换SIFT、加速鲁棒特征SURF ; 1. 3)顺序联接各帧的上述图像特征,形成维度为nf的向量化表示。
3. 如权利要求1所述的基于深度学习的视频摘要在线生成方法,其特征在于:所述的 步骤2)中的预训练视频帧多层深度网络获得各帧的非线性表示,具体是利用堆叠去噪自 编码器SDA预训练多层深度网络,包括 : A、 在每一层对各帧图像进行如下操作:首先,通过添加高斯噪声或者随机设输入变量 为任意值生成各帧噪声图像;然后,噪声图像通过自编码器AE进行映射得到其非线性表 示; B、 利用随机梯度下降算法对深度网络的各层参数进行调整更新。
4. 如权利要求1所述的基于深度学习的视频摘要在线生成方法,其特征在于:所述的 步骤3)中的通过组稀疏编码算法对初始精简视频进行重构,具体步骤是: 3. 1)初始精简视频由原始视频的前m个帧块组成,即心,=沐,,Z",},共 有ninit = mX t帧图像,Xk对应第k个原始帧块;通过预训练深度网络得到相应的非线性表 示为3L ={H"_,V··,U,Yk对应第k个帧块的非线性表示; 3. 2)设初始词典D由nd个原子组成,即D = {劣}^,(^对应第j个原子;设重构系数为 C,其元素个数对应帧数目,其维度对应词典的原子数目,即C = {q }么,Ck对应第k个帧块系 数,对应第i帧图像; 3. 3)利用乘子交替方向方法优化正则化词典的组稀疏编码目标函数,可以分别得到初 始词典D和重构系数C,即求解
其中,符号11 · 112表示变量的h范式,正则化参数λ为大于ο的实数,多元函数 F(Yk,Ck,D)的具体表达为:
其中,参数Y为大于〇的实数,符号IMg中的数学式子表示使用词典D对第i帧图像 进行重构;这里的乘子交替方向方法具体为:先固定参数D,使上述目标函数变成针对参数 C的凸函数;然后固定参数C,使上述目标函数变成针对参数D的凸函数,迭代交替更新两个 参数。
5. 如权利要求1所述的基于深度学习的视频摘要在线生成方法,其特征在于:所述的 步骤4)中的根据下一帧块更新深度网络参数并对该帧块进行重构和计算重构误差,具体 步骤是: 4. 1)对该帧块的各帧图像依次做如下操作: 4. 1. 1)利用在线梯度下降算法更新深度神经网络中最后一层的参数,即权重W和偏移 量b ; 4. 1. 2)利用后向传播算法更新深度神经网络中其他层的参数; 4. 2)根据新的参数更新各帧图像的非线性表示; 4.3)基于现有词典D,利用组稀疏编码对当前帧块进行重构并计算误差ε,即对当前 帧块Xk的非线性表示Yk进行重构,具体为:先最小化多元函数F(Yk,C k,D)得到最优重构系 数<,然后带入的第一项||·|中并计算其值即为当前重构误差ε。
6. 如权利要求1所述的基于深度学习的视频摘要在线生成方法,其特征在于:所述的 步骤4)中若误差大于设定阈值则将当前帧块加入精简视频中并更新词典,具体是: 1) 若对当前帧块Xk的非线件表示Yk计算得到的重构误差ε大于设定阈值Θ,则将当 前帧块加入精简视频中,即
2) 若当前精简视频
中含有q个帧块,则更新词典的帧图像非线性表示集合)IP么 使用
更新词典D即求解目标函数

其中,参数λ为大于0的实数,用于调节正则化项的影响。
【文档编号】G06F17/30GK104113789SQ201410326406
【公开日】2014年10月22日 申请日期:2014年7月10日 优先权日:2014年7月10日
【发明者】李平, 俞俊, 李黎, 徐向华 申请人:杭州电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1