一种基于自动编码器的视频分类方法及装置的制造方法

文档序号:8543794阅读:272来源:国知局
一种基于自动编码器的视频分类方法及装置的制造方法
【技术领域】
[0001] 本发明设及视频处理技术领域,特别是设及一种基于自动编码器的视频分类方法 及装置。
【背景技术】
[0002] 为了对视频的存储、推荐、检索等进行服务,存在对大规模的视频数据进行分类处 理的需求。其中,视频的类别通常包括;军事、体育、综艺、健康、生活等;并且,视频通常包 括图像、音频和文本=种模态数据。
[0003] 由于每一种模态数据均为判断视频的所属类别提供了有价值的信息,因此,为了 提取各种模态数据对视频分类的有价值信息,如何结合视频的=种模态数据对视频进行分 类W保证分类结果的准确性,是一个亟待解决的问题。

【发明内容】

[0004] 本发明实施例的目的在于提供一种基于自动编码器的视频分类方法及装置,W结 合视频的=种模态数据对视频进行分类从而保证分类结果的准确性。具体技术方案如下:
[0005] 第一方面,本发明实施例提供了一种基于自动编码器的视频分类方法,包括:
[0006] 获得目标视频的每一种模态数据的低级表示内容;其中,所述目标视频具有=种 模态数据;
[0007] 将所述每一种模态数据的低级表示内容分别作为输入内容输入至预设的堆叠的 自动编码器组处理,W获得所述目标视频的每一种模态数据的高级表示内容;其中,所述堆 叠的自动编码器组由至少=个自动编码器顺序相接构成,所述至少=个自动编码器中的第 一个自动编码器的输入内容为所述堆叠自动编码器组的输入内容,其余自动编码器的输入 内容为前一自动编码器隐藏层的输出内容,最后一个自动编码器隐藏层的输出内容为所述 堆叠自动编码器组的输出内容,所述堆叠自动编码器组的输出内容为所输入的相应模态数 据的高级表示内容;
[000引将所述目标视频的每两种模态数据的高级表示内容的组合结果分别作为输入内 容输入至双模态融合器处理,W获得所述目标视频的相应两种模态数据的双模态公共表示 内容;其中,所述双模态融合器为自动编码器,所述自动编码器隐藏层的输出内容为所述双 模态融合器的输出内容;
[0009] 将所述目标视频的所述双模态公共表示内容的组合结果作为输入内容输入至= 模态融合器处理,W获得所述目标视频的=模态公共表示内容;其中,所述=模态融合器为 自动编码器,所述自动编码器隐藏层的输出内容为所述=模态融合器的输出内容;
[0010] 将所述=模态公共表示内容作为输入内容输入至预设的有监督分类模型处理,W 获得所述目标视频的各个视频类别的类别标签;其中,所述预设的有监督分类模型为基于 N个样本视频所对应的=模态公共表示内容作为输入内容而相应视频样本的各个视频类别 的类别标签作为输出内容所训练学习的模型;
[0011] 基于所获得的所述目标视频的各个视频类别的类别标签,确定所述目标视频所对 应的视频类别。
[0012] 可选的,所述有监督分类模型的构建过程包括:
[0013] 获得所述N个样本视频的每一种模态数据的低级表示内容;其中,所述样本视频 具有=种模态数据且对应有视频类别的类别标签;
[0014] 将所述N个样本视频的每一种模态数据的低级表示内容分别作为输入内容输入 至所述堆叠的自动编码器组处理,W获得所述N个样本视频的每一种模态数据的高级表示 内容;
[0015] 将所述N个样本视频中每一样本视频的每两种模态数据的高级表示内容的组合 结果分别作为输入内容输入至所述双模态融合器处理,W获得所述N个样本视频中每一样 本视频的相应两种模态数据的双模态公共表示内容;
[0016] 将所述N个样本视频中每一样本视频的双模态公共表示内容的组合结果分别作 为输入内容输入至所述=模态融合器处理,W获得所述N个样本视频中每一样本视频的= 模态公共表示内容;
[0017] 基于所述N个样本视频中每一样本视频的=模态公共表示内容和相应的视频类 别的类别标签,利用有监督学习方式,训练得到有监督分类模型。
[0018] 可选的,所述目标视频的图像模态数据的低级表示内容包括;色彩直方图内容、纹 理特征内容和边缘特征内容中的至少一种;
[0019] 所述目标视频的音频模态数据的低级表示内容包括;MFCC特征内容,其中,MFCC 为Mel频率倒谱系数;
[0020] 所述目标视频的文本模态数据的低级表示内容包括;TF-IDF特征内容,其中,所 述TF-IDF为词频-逆向文档频率。
[002U 可选的,所述有监督学习方式,包括:基于Softmax分类器的学习方式。
[0022] 第二方面,本发明实施例提供了一种基于自动编码器的视频分类装置,包括:
[0023] 低级表示内容获得模块,用于获得目标视频的每一种模态数据的低级表示内容; 其中,所述目标视频具有=种模态数据;
[0024] 高级表示内容获得模块,用于将所述每一种模态数据的低级表示内容分别作为输 入内容输入至预设的堆叠自动编码器组处理,W获得所述目标视频的每一种模态数据的高 级表示内容;其中,所述堆叠的自动编码器组由至少=个自动编码器顺序相接构成,所述至 少=个自动编码器中的第一个自动编码器的输入内容为所述堆叠自动编码器组的输入内 容,其余自动编码器的输入内容为前一自动编码器隐藏层的输出内容,最后一个自动编码 器隐藏层的输出内容为所述堆叠的自动编码器组的输出内容,所述堆叠的自动编码器组的 输出内容为所输入的相应模态数据的高级表示内容;
[0025] 双模态公共表示内容获得模块,用于将所述目标视频的每两种模态数据的高级表 示内容的组合结果分别作为输入内容输入至双模态融合器处理,W获得所述目标视频的相 应两种模态数据的双模态公共表示内容;其中,所述双模态融合器为自动编码器,所述自动 编码器隐藏层的输出内容为所述双模态融合器的输出内容;
[0026] =模态公共表示内容获得模块,用于将所述目标视频的所述双模态公共表示内容 的组合结果作为输入内容输入至=模态融合器处理,W获得所述目标视频的=模态公共表 示内容;其中,所述=模态融合器为自动编码器,所述自动编码器的隐藏层的输出内容为所 述=模态融合器的输出内容;
[0027]类别标签获得模块,用于将所述=模态公共表示内容作为输入内容输入至预设的 有监督分类模型处理,W获得所述目标视频的视频类别的类别标签;其中,所述预设的有监 督分类模型为基于N个样本视频所对应的=模态公共表示内容作为输入内容而相应视频 样本的视频类别的类别标签作为输出内容所训练学习的模型;
[002引视频类别确定模块,用于基于所获得的所述目标视频的视频类别的类别标签,确 定所述目标视频所对应的视频类别。
[0029] 可选的,所述有监督分类模型通过分类模型构建模块构建;
[0030] 其中,所述分类模型构建模块包括:
[0031] 低级表示内容获得单元,用于获得所述N个样本视频的每一种模态数据的低级表 示内容;其中,所述样本视频具有=种模态数据且对应有视频类别的类别标签;
[0032] 高级表示内容获得单元,用于将所述N个样本视频的每一种模态数据的低级表示 内容分别作为输入内容输入至所述堆叠的自动编码器组处理,W获得所述N个样本视频的 每一种板态数据的局级表不内容;
[0033] 双模态公共表示内容获得单元,用于将所述N个样本视频中每一样本视频的每两 种模态数据的高级表示内容的组合结果分别作为输入内容输入至所述双模态融合器处理, W获得所述N个样本视频中每一样本视频的相应两种模态数据的双模态公共表示内容;
[0034]=模态公共表示内容获得单元,用于将所述N个样本视频中每一样本视频的双模 态公共表示内容的组合结果分别作为输入内容输入至所述=模态融合器处理,W获得所述 N个样本视频中每一样本视频的=模态公共表示内容;
[0035] 模型训练单元,用于基于所述N个样本视频中每一样本视频的=模态公共表示内 容和相应的视频类别的类别标签,利用有监督学习方式,训练得到有监督分类模型。
[0036] 可选的,所述目标视频的图像模态数据的低级表示内容包括;色彩直方图内容、纹 理特征内容和边缘特征内容中的至少一种;
[0037] 所述目标视频的音频模态数据的低级表示内容包括;MFCC特征内容,其中,MFCC 为Mel频率倒谱系数;
[0038] 所述目标视频的文本模态数据的低级表示内容包括;TF-IDF特征内容,其中,所 述TF-IDF为词频-逆向文档频率。
[0039] 可选的,所述有监督学习方式,包括:基于Softmax分类器的学习方式。
[0040]本发明实施例中,获得具有=种模态数据的目标视频的每一种模态数据的低级表 示内容;将每一种模态数据的低级表示内容分别作为输入内容输入至预设的堆叠自动编码 器组处理,W获得目标视频的每一种模态数据的高级表示内容;将目标视频的每两种模态 数据的高级表示内容的组合结果分别作为输入内容输入至双模态融合器处理,W获得目标 视频的相应两种模态数据的双模态公共表示内容;将目标视频的双模态公共表示内容的组 合结果作为输入内容输入至=模态融合器处理,W获得目标视频的=模态公共表示内容; 将=模态公共表示内容作为输入内容输入至预设的有监督分类模型处理,W获得目标视频 的各个视频类别的类别标签;基于所获得的目标视频的各个视频类别的类别标签,确定目 标视频所对应的视频类别。可见,本方案结合了视频的=种模态数据对视频进行分类,从而 能够保证分类结果的准确性。
【附图说明】
[0041] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可W 根据该些附图获得其他的附图。
[0042] 图1为本发明实施例所利用的自动编码器的数据处理示意图;
[0043] 图2为本发明实施例所利用的堆叠的自动编码器组的数据处理示意图;
[0044] 图3为本发明实施例所提供的一种基于自动编码器的视频分类方法的流程图;
[0045] 图4为高级表示内容与双模态融合器、S模态融合器的关系示意图;
[
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1