一种基于自动编码器的视频分类方法及装置的制造方法

文档序号：8543794阅读：272来源：国知局

一种基于自动编码器的视频分类方法及装置的制造方法
【技术领域】
[0001] 本发明设及视频处理技术领域，特别是设及一种基于自动编码器的视频分类方法及装置。
【背景技术】
[0002] 为了对视频的存储、推荐、检索等进行服务，存在对大规模的视频数据进行分类处理的需求。其中，视频的类别通常包括；军事、体育、综艺、健康、生活等；并且，视频通常包括图像、音频和文本=种模态数据。
[0003] 由于每一种模态数据均为判断视频的所属类别提供了有价值的信息，因此，为了提取各种模态数据对视频分类的有价值信息，如何结合视频的=种模态数据对视频进行分类W保证分类结果的准确性，是一个亟待解决的问题。

【发明内容】

[0004] 本发明实施例的目的在于提供一种基于自动编码器的视频分类方法及装置，W结合视频的=种模态数据对视频进行分类从而保证分类结果的准确性。具体技术方案如下：
[0005] 第一方面，本发明实施例提供了一种基于自动编码器的视频分类方法，包括：
[0006] 获得目标视频的每一种模态数据的低级表示内容；其中，所述目标视频具有=种模态数据；
[0007] 将所述每一种模态数据的低级表示内容分别作为输入内容输入至预设的堆叠的自动编码器组处理，W获得所述目标视频的每一种模态数据的高级表示内容；其中，所述堆叠的自动编码器组由至少=个自动编码器顺序相接构成，所述至少=个自动编码器中的第一个自动编码器的输入内容为所述堆叠自动编码器组的输入内容，其余自动编码器的输入内容为前一自动编码器隐藏层的输出内容，最后一个自动编码器隐藏层的输出内容为所述堆叠自动编码器组的输出内容，所述堆叠自动编码器组的输出内容为所输入的相应模态数据的高级表示内容；
[000引将所述目标视频的每两种模态数据的高级表示内容的组合结果分别作为输入内容输入至双模态融合器处理，W获得所述目标视频的相应两种模态数据的双模态公共表示内容；其中，所述双模态融合器为自动编码器，所述自动编码器隐藏层的输出内容为所述双模态融合器的输出内容；
[0009] 将所述目标视频的所述双模态公共表示内容的组合结果作为输入内容输入至= 模态融合器处理，W获得所述目标视频的=模态公共表示内容；其中，所述=模态融合器为自动编码器，所述自动编码器隐藏层的输出内容为所述=模态融合器的输出内容；
[0010] 将所述=模态公共表示内容作为输入内容输入至预设的有监督分类模型处理，W 获得所述目标视频的各个视频类别的类别标签；其中，所述预设的有监督分类模型为基于 N个样本视频所对应的=模态公共表示内容作为输入内容而相应视频样本的各个视频类别的类别标签作为输出内容所训练学习的模型；
[0011] 基于所获得的所述目标视频的各个视频类别的类别标签，确定所述目标视频所对应的视频类别。
[0012] 可选的，所述有监督分类模型的构建过程包括：
[0013] 获得所述N个样本视频的每一种模态数据的低级表示内容；其中，所述样本视频具有=种模态数据且对应有视频类别的类别标签；
[0014] 将所述N个样本视频的每一种模态数据的低级表示内容分别作为输入内容输入至所述堆叠的自动编码器组处理，W获得所述N个样本视频的每一种模态数据的高级表示内容；
[0015] 将所述N个样本视频中每一样本视频的每两种模态数据的高级表示内容的组合结果分别作为输入内容输入至所述双模态融合器处理，W获得所述N个样本视频中每一样本视频的相应两种模态数据的双模态公共表示内容；
[0016] 将所述N个样本视频中每一样本视频的双模态公共表示内容的组合结果分别作为输入内容输入至所述=模态融合器处理，W获得所述N个样本视频中每一样本视频的= 模态公共表示内容；
[0017] 基于所述N个样本视频中每一样本视频的=模态公共表示内容和相应的视频类别的类别标签，利用有监督学习方式，训练得到有监督分类模型。
[0018] 可选的，所述目标视频的图像模态数据的低级表示内容包括；色彩直方图内容、纹理特征内容和边缘特征内容中的至少一种；
[0019] 所述目标视频的音频模态数据的低级表示内容包括;MFCC特征内容，其中，MFCC 为Mel频率倒谱系数；
[0020] 所述目标视频的文本模态数据的低级表示内容包括；TF-IDF特征内容，其中，所述TF-IDF为词频-逆向文档频率。
[002U 可选的，所述有监督学习方式，包括：基于Softmax分类器的学习方式。
[0022] 第二方面，本发明实施例提供了一种基于自动编码器的视频分类装置，包括：
[0023] 低级表示内容获得模块，用于获得目标视频的每一种模态数据的低级表示内容；其中，所述目标视频具有=种模态数据；
[0024] 高级表示内容获得模块，用于将所述每一种模态数据的低级表示内容分别作为输入内容输入至预设的堆叠自动编码器组处理，W获得所述目标视频的每一种模态数据的高级表示内容；其中，所述堆叠的自动编码器组由至少=个自动编码器顺序相接构成，所述至少=个自动编码器中的第一个自动编码器的输入内容为所述堆叠自动编码器组的输入内容，其余自动编码器的输入内容为前一自动编码器隐藏层的输出内容，最后一个自动编码器隐藏层的输出内容为所述堆叠的自动编码器组的输出内容，所述堆叠的自动编码器组的输出内容为所输入的相应模态数据的高级表示内容；
[0025] 双模态公共表示内容获得模块，用于将所述目标视频的每两种模态数据的高级表示内容的组合结果分别作为输入内容输入至双模态融合器处理，W获得所述目标视频的相应两种模态数据的双模态公共表示内容；其中，所述双模态融合器为自动编码器，所述自动编码器隐藏层的输出内容为所述双模态融合器的输出内容；
[0026] =模态公共表示内容获得模块，用于将所述目标视频的所述双模态公共表示内容的组合结果作为输入内容输入至=模态融合器处理，W获得所述目标视频的=模态公共表示内容；其中，所述=模态融合器为自动编码器，所述自动编码器的隐藏层的输出内容为所述=模态融合器的输出内容；
[0027]类别标签获得模块，用于将所述=模态公共表示内容作为输入内容输入至预设的有监督分类模型处理，W获得所述目标视频的视频类别的类别标签；其中，所述预设的有监督分类模型为基于N个样本视频所对应的=模态公共表示内容作为输入内容而相应视频样本的视频类别的类别标签作为输出内容所训练学习的模型；
[002引视频类别确定模块，用于基于所获得的所述目标视频的视频类别的类别标签，确定所述目标视频所对应的视频类别。
[0029] 可选的，所述有监督分类模型通过分类模型构建模块构建；
[0030] 其中，所述分类模型构建模块包括：
[0031] 低级表示内容获得单元，用于获得所述N个样本视频的每一种模态数据的低级表示内容；其中，所述样本视频具有=种模态数据且对应有视频类别的类别标签；
[0032] 高级表示内容获得单元，用于将所述N个样本视频的每一种模态数据的低级表示内容分别作为输入内容输入至所述堆叠的自动编码器组处理，W获得所述N个样本视频的每一种板态数据的局级表不内容；
[0033] 双模态公共表示内容获得单元，用于将所述N个样本视频中每一样本视频的每两种模态数据的高级表示内容的组合结果分别作为输入内容输入至所述双模态融合器处理， W获得所述N个样本视频中每一样本视频的相应两种模态数据的双模态公共表示内容；
[0034]=模态公共表示内容获得单元，用于将所述N个样本视频中每一样本视频的双模态公共表示内容的组合结果分别作为输入内容输入至所述=模态融合器处理，W获得所述 N个样本视频中每一样本视频的=模态公共表示内容；
[0035] 模型训练单元，用于基于所述N个样本视频中每一样本视频的=模态公共表示内容和相应的视频类别的类别标签，利用有监督学习方式，训练得到有监督分类模型。
[0036] 可选的，所述目标视频的图像模态数据的低级表示内容包括；色彩直方图内容、纹理特征内容和边缘特征内容中的至少一种；
[0037] 所述目标视频的音频模态数据的低级表示内容包括;MFCC特征内容，其中，MFCC 为Mel频率倒谱系数；
[0038] 所述目标视频的文本模态数据的低级表示内容包括；TF-IDF特征内容，其中，所述TF-IDF为词频-逆向文档频率。
[0039] 可选的，所述有监督学习方式，包括：基于Softmax分类器的学习方式。
[0040]本发明实施例中，获得具有=种模态数据的目标视频的每一种模态数据的低级表示内容；将每一种模态数据的低级表示内容分别作为输入内容输入至预设的堆叠自动编码器组处理，W获得目标视频的每一种模态数据的高级表示内容；将目标视频的每两种模态数据的高级表示内容的组合结果分别作为输入内容输入至双模态融合器处理，W获得目标视频的相应两种模态数据的双模态公共表示内容；将目标视频的双模态公共表示内容的组合结果作为输入内容输入至=模态融合器处理，W获得目标视频的=模态公共表示内容；将=模态公共表示内容作为输入内容输入至预设的有监督分类模型处理，W获得目标视频的各个视频类别的类别标签；基于所获得的目标视频的各个视频类别的类别标签，确定目标视频所对应的视频类别。可见，本方案结合了视频的=种模态数据对视频进行分类，从而能够保证分类结果的准确性。
【附图说明】
[0041] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可W 根据该些附图获得其他的附图。
[0042] 图1为本发明实施例所利用的自动编码器的数据处理示意图；
[0043] 图2为本发明实施例所利用的堆叠的自动编码器组的数据处理示意图；
[0044] 图3为本发明实施例所提供的一种基于自动编码器的视频分类方法的流程图；
[0045] 图4为高级表示内容与双模态融合器、S模态融合器的关系示意图；
[

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李睿凡;鲁鹏;芦效峰;周延泉;李蕾;袁彩霞;刘咏彬;
技术所有人：北京邮电大学;
我是此专利的发明人

上一篇：数据库访问请求的分析方法和装置的制造方法
上一篇：对关系数据库脚本加入事务控制的方法及装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。