视频分类方法、装置、存储介质及终端设备与流程

文档序号：25635753发布日期：2021-06-25 16:42阅读：127来源：国知局

1.本公开涉及图像处理技术领域，尤其涉及一种视频分类方法、装置、存储介质及终端设备。

背景技术：

2.随着网络多媒体技术的飞速发展，各式各样的多媒体信息不断涌现。越来越多的用户习惯于在网络上观看视频，为了使用户能够从大量的视频中选择自己想观看的内容，通常会对视频进行分类，因此，视频分类对于实现视频的管理以及兴趣推荐具有十分重要的作用，此外，视频分类的结果在监控、检索以及人机交互等领域也被广泛应用。
3.相关技术中，可以获取视频的图像特征和音频特征，并将该图像特征和音频特征输入到循环神经网络(recurrent neural network，rnn)中，将rnn输出的结果输入到逻辑回归(logistic regression，lr)中得到视频的类型。但是，这种视频分类方式只是根据单独的图像特征和音频特征对视频进行分类，无法提取更具表达能力的深层次特征，导致视频分类的准确率较低。

技术实现要素：

4.为克服相关技术中存在的问题，本公开提供一种视频分类方法、装置、存储介质及终端设备。
5.根据本公开实施例的第一方面，提供一种视频分类方法，包括：通过终端获取目标视频；获取所述目标视频对应的图像特征向量、音频特征向量以及文本特征向量；将所述图像特征向量、所述音频特征向量以及所述文本特征向量按照第一预设拼接顺序进行拼接，得到所述目标视频对应的第一特征向量；通过预先训练的特征融合模型，将所述图像特征向量、所述音频特征向量以及所述文本特征向量进行融合，得到所述目标视频对应的第二特征向量；将所述第一特征向量和所述第二特征向量按照第二预设拼接顺序进行拼接，得到所述目标视频对应的第三特征向量；根据所述第三特征向量和预先训练的视频分类模型，确定所述目标视频对应的类别。
6.可选地，所述获取所述目标视频对应的图像特征向量、音频特征向量以及文本特征向量包括：根据所述目标视频对应的播放时长，确定所述目标视频对应的预设抽帧间隔；按照所述预设抽帧间隔，从所述目标视频中抽取所述目标视频对应的多个目标图像和多个目标音频；根据多个所述目标图像，获取所述目标视频对应的图像特征向量；根据多个所述目标音频，获取所述目标视频对应的音频特征向量；根据所述目标视频对应的文本描述信息，生成所述目标视频对应的文本特征向量。
7.可选地，所述根据多个所述目标图像，获取所述目标视频对应的图像特征向量包括：将多个所述目标图像输入预先训练的图像特征获取模型，得到所述目标视频对应的多个局部图像特征向量；将多个所述局部图像特征向量输入预先训练的特征聚合模型，得到所述目标视频对应的所述图像特征向量；所述根据多个所述目标音频，获取所述目标视频
对应的音频特征向量包括：将多个所述目标音频输入预先训练的音频特征获取模型，得到所述目标视频对应的多个局部音频特征向量；将多个所述局部音频特征向量输入所述特征聚合模型，得到所述目标视频对应的所述音频特征向量。
8.可选地，所述根据所述第三特征向量和预先训练的视频分类模型，确定所述目标视频对应的类别包括：将所述第三特征向量作为所述视频分类模型的输入，得到所述目标视频对应的类别。
9.可选地，所述根据所述第三特征向量和预先训练的视频分类模型，确定所述目标视频对应的类别包括：将所述第三特征向量作为所述视频分类模型的输入，得到所述目标视频对应的每个预设类别的概率；将概率最高的所述预设类别作为所述目标视频对应的类别并输出。
10.可选地，所述视频分类模型通过以下方式训练得到：获取多个样本视频；针对多个所述样本视频中的每个样本视频，获取该样本视频对应的样本图像特征向量、样本音频特征向量以及样本文本特征向量；将所述样本图像特征向量、所述样本音频特征向量以及所述样本文本特征向量按照所述第一预设拼接顺序进行拼接，得到该样本视频对应的第一样本特征向量；通过预先训练的特征融合模型，将所述样本图像特征向量、所述样本音频特征向量以及所述样本文本特征向量进行融合，得到该样本视频对应的第二样本特征向量；将所述第一样本特征向量和所述样本第二特征向量按照所述第二预设拼接顺序进行拼接，得到该样本视频对应的第三样本特征向量；根据多个所述样本视频对应的第三样本特征向量对目标神经网络模型进行训练，得到所述视频分类模型。
11.根据本公开实施例的第二方面，提供一种视频分类装置，包括：视频获取模块，被配置为通过终端获取目标视频；特征向量获取模块，被配置为获取所述目标视频对应的图像特征向量、音频特征向量以及文本特征向量；第一特征向量拼接模块，被配置为将所述图像特征向量、所述音频特征向量以及所述文本特征向量按照第一预设拼接顺序进行拼接，得到所述目标视频对应的第一特征向量；特征向量融合模块，被配置为通过预先训练的特征融合模型，将所述图像特征向量、所述音频特征向量以及所述文本特征向量进行融合，得到所述目标视频对应的第二特征向量；第二特征向量拼接模块，被配置为将所述第一特征向量和所述第二特征向量按照第二预设拼接顺序进行拼接，得到所述目标视频对应的第三特征向量；类别确定模块，被配置为根据所述第三特征向量和预先训练的视频分类模型，确定所述目标视频对应的类别。
12.可选地，所述特征向量获取模块包括：间隔获取子模块，被配置为根据所述目标视频对应的播放时长，确定所述目标视频对应的预设抽帧间隔；抽取子模块，被配置为按照所述预设抽帧间隔，从所述目标视频中抽取所述目标视频对应的多个目标图像和多个目标音频；图像特征向量获取子模块，被配置为根据多个所述目标图像，获取所述目标视频对应的图像特征向量；音频特征向量获取子模块，被配置为根据多个所述目标音频，获取所述目标视频对应的音频特征向量；文本特征向量获取子模块，被配置为根据所述目标视频对应的文本描述信息，生成所述目标视频对应的文本特征向量。
13.可选地，所述图像特征向量获取子模块，还被配置为：将多个所述目标图像输入预先训练的图像特征获取模型，得到所述目标视频对应的多个局部图像特征向量；将多个所述局部图像特征向量输入预先训练的特征聚合模型，得到所述目标视频对应的所述图像特
征向量；所述音频特征向量获取子模块，还被配置为：将多个所述目标音频输入预先训练的音频特征获取模型，得到所述目标视频对应的多个局部音频特征向量；将多个所述局部音频特征向量输入所述特征聚合模型，得到所述目标视频对应的所述音频特征向量。
14.可选地，所述类别确定模块还包括：第一类别确定子模块，被配置为将所述第三特征向量作为所述视频分类模型的输入，得到所述目标视频对应的类别。
15.可选地，所述类别确定模块包括：概率获取子模块，被配置为将所述第三特征向量作为所述视频分类模型的输入，得到所述目标视频对应的每个预设类别的概率；第二类别确定子模块，被配置为将概率最高的所述预设类别作为所述目标视频对应的类别并输出。
16.可选地，所述视频分类模型通过以下方式训练得到：获取多个样本视频；针对多个所述样本视频中的每个样本视频，获取该样本视频对应的样本图像特征向量、样本音频特征向量以及样本文本特征向量；将所述样本图像特征向量、所述样本音频特征向量以及所述样本文本特征向量按照所述第一预设拼接顺序进行拼接，得到该样本视频对应的第一样本特征向量；通过预先训练的特征融合模型，将所述样本图像特征向量、所述样本音频特征向量以及所述样本文本特征向量进行融合，得到该样本视频对应的第二样本特征向量；将所述第一样本特征向量和所述样本第二特征向量按照所述第二预设拼接顺序进行拼接，得到该样本视频对应的第三样本特征向量；根据多个所述样本视频对应的第三样本特征向量对目标神经网络模型进行训练，得到所述视频分类模型。
17.根据本公开实施例的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现本公开第一方面所提供的视频分类方法的步骤。
18.根据本公开实施例的第四方面，提供一种终端设备，包括：存储器，其上存储有计算机程序；处理器，用于执行所述存储器中的所述计算机程序，以实现本公开第一方面所提到的视频分类方法的步骤。
19.本公开的实施例提供的技术方案可以包括以下有益效果：通过终端获取目标视频；获取所述目标视频对应的图像特征向量、音频特征向量以及文本特征向量；将所述图像特征向量、所述音频特征向量以及所述文本特征向量按照第一预设拼接顺序进行拼接，得到所述目标视频对应的第一特征向量；通过预先训练的特征融合模型，将所述图像特征向量、所述音频特征向量以及所述文本特征向量进行融合，得到所述目标视频对应的第二特征向量；将所述第一特征向量和所述第二特征向量按照第二预设拼接顺序进行拼接，得到所述目标视频对应的第三特征向量；根据所述第三特征向量和预先训练的视频分类模型，确定所述目标视频对应的类别。也就是说，本公开可以将该目标视频对应的图像特征向量、音频特征向量以及文本特征向量按照第一预设拼接顺序进行拼接得到该目标视频对应的第一特征向量，将该图像特征向量、该音频特征向量以及该文本特征向量进行融合，得到该目标视频对应的第二特征向量，并将该第一特征向量和该第二特征向量按照第二预设拼接顺序进行拼接得到该目标视频对应的第三特征向量，相比独立的第一特征向量或第二特征向量，该第三特征向量既包括该目标视频的原始特征，也包括将该目标视频的图像特征向量、音频特征向量以及文本特征向量进行充分交互后的更深层次的融合特征向量，这样，可以防止目标视频中信息的丢失，从而提高了视频分类的准确率。
20.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不
能限制本公开。
附图说明
21.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。
22.图1是根据一示例性实施例示出的一种视频分类方法的流程图；
23.图2是根据一示例性实施例示出的另一种视频分类方法的流程图；
24.图3是根据一示例性实施例示出的nextvlad模型的结构示意图；
25.图4是根据一示例性实施例示出的一种神经网络模型的示意图；
26.图5是根据一示例性实施例示出的一种视频分类装置的结构示意图；
27.图6是根据一示例性实施例示出的一种终端设备的框图。
具体实施方式
28.这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
29.首先，对本公开的应用场景进行说明。在越来越多的用户开始自己拍摄视频，视频的数量越来越多，而且视频的内容越来越丰富的情况下，对视频分类的效率和准确率的要求也越来越高。相关技术中，可以获取视频的图像特征和音频特征，并将该图像特征和该音频特征进行拼接，根据拼接后的特征对视频进行分类，虽然这种方式提高了视频分类的效率，但是，这种视频分类方式只是对视频的图像特征和音频特征进行了简单拼接，拼接后的特征不能体现图像特征和音频特征之间的交互，无法表达更深层次的特征，导致视频分类的准确率较低。
30.为了解决上述问题，本公开提供一种视频分类方法、装置、存储介质及终端设备，可以将该目标视频对应的图像特征向量、音频特征向量以及文本特征向量按照第一预设拼接顺序进行拼接得到该目标视频对应的第一特征向量，将该图像特征向量、该音频特征向量以及该文本特征向量进行融合，得到该目标视频对应的第二特征向量，并将该第一特征向量和该第二特征向量按照第二预设拼接顺序进行拼接得到该目标视频对应的第三特征向量，相比独立的第一特征向量或第二特征向量，该第三特征向量是将图像特征向量、音频特征向量以及文本特征向量进行充分交互后的更深层次的融合特征向量，这样，可以防止目标视频中信息的丢失，从而提高了视频分类的准确率。
31.下面结合具体实施例对本公开进行说明。
32.图1是根据一示例性实施例示出的一种视频分类方法的流程图，如图1所示，该方法包括：
33.s101、通过终端获取目标视频。
34.其中，该终端可以包括移动设备、可穿戴设备、家用电器等，例如：手机、平板电脑、笔记本电脑、智能手表、智能电视等设备，本公开对此不作限定。
35.s102、获取该目标视频对应的图像特征向量、音频特征向量以及文本特征向量。
36.需要说明的是，在获取该目标视频后，可以先获取该目标视频对应的图像、音频以及文本描述信息，该文本描述信息可以是该目标视频的标题，也可以是通过ocr(optical character recognition，光学字符识别)技术从该目标视频的字幕中获取的信息，本公开对此不作限定。
37.在本步骤中，在获取该目标视频对应的图像、音频以及文本描述信息后，可以将该目标视频对应的图像输入efficientnet
‑
b7模型，得到该目标视频对应的图像特征向量，将该目标视频对应的音频输入vggish模型，得到该目标视频对应的音频特征向量，将该目标视频对应的文本描述信息输入bert模型，得到该目标视频对应的文本特征向量。上述获取该目标视频对应的图像特征向量、音频特征向量以及文本特征向量的模型只是举例说明，也可以通过相关技术的其他模型获取该目标视频的图像特征向量、音频特征向量以及文本特征向量，本公开对此不作限定。
38.s103、将该图像特征向量、该音频特征向量以及该文本特征向量按照第一预设拼接顺序进行拼接，得到该目标视频对应的第一特征向量。
39.其中，该第一预设拼接顺序可以是该图像特征向量、该音频特征向量、该文本特征向量的顺序，也可以是该音频特征向量、该图像特征向量、该文本特征向量的顺序，本公开对此不作限定。
40.在本步骤中，在得到该目标视频对应的图像特征向量、该音频特征向量以及该文本特征向量后，可以通过concat算法，将该图像特征向量、该音频特征向量以及该文本特征向量按照该第一预设拼接顺序进行拼接，得到该目标视频对应的第一特征向量。
41.s104、通过预先训练的特征融合模型，将该图像特征向量、该音频特征向量以及该文本特征向量进行融合，得到该目标视频对应的第二特征向量。
42.在本步骤中，在得到该目标视频对应的图像特征向量、该音频特征向量以及该文本特征向量后，可以将该图像特征向量、该音频特征向量以及该文本特征向量作为该特征融合模型的输入，得到该目标视频对应的第二特征向量。
43.s105、将该第一特征向量和该第二特征向量按照第二预设拼接顺序进行拼接，得到该目标视频对应的第三特征向量。
44.其中，该第二预设拼接顺序可以是该第一特征向量、第二特征向量的顺序，也可以是该第二特征向量、该第一特征向量的顺序，本公开对此不作限定。
45.在本步骤中，在得到该第一特征向量和该第二特征向量后，可以通过concat算法，将该第一特征向量和该第二特征向量按照该第二预设拼接顺序进行拼接，得到该目标视频对应的第三特征向量。
46.s106、根据该第三特征向量和预先训练的视频分类模型，确定该目标视频对应的类别。
47.在本步骤中，在得到该目标视频对应的第三特征向量后，可以将该第三特征向量作为该视频分类模型的输入，得到该目标视频对应的类别。
48.采用上述方法，可以将该目标视频对应的图像特征向量、音频特征向量以及文本特征向量按照第一预设拼接顺序进行拼接得到该目标视频对应的第一特征向量，将该图像特征向量、该音频特征向量以及该文本特征向量进行融合，得到该目标视频对应的第二特征向量，并将该第一特征向量和该第二特征向量按照第二预设拼接顺序进行拼接得到该目
标视频对应的第三特征向量，相比独立的第一特征向量或第二特征向量，该第三特征向量是将图像特征向量、音频特征向量以及文本特征向量进行充分交互后的更深层次的特征向量，这样，可以防止目标视频中信息的丢失，从而提高了视频分类的准确率。
49.图2是根据一示例性实施例示出的另一种视频分类方法的流程图，如图2所示，该方法包括：
50.s201、通过终端获取目标视频。
51.s202、根据该目标视频对应的播放时长，确定该目标视频对应的预设抽帧间隔。
52.在本步骤中，在得到该目标视频后，可以获取该目标视频对应的播放时长，通过预先设置的抽帧间隔关联关系，确定该播放时长对应的预设抽帧间隔，该抽帧间隔关联关系可以包括不同的播放时长与预设抽帧间隔的对应关系。示例地，针对播放时长较长的目标视频，可以设置较大的预设抽帧间隔，例如，该预设抽帧间隔可以设置为2s，针对播放时长较短的目标视频，可以设置较小的预设抽帧间隔，例如，该预设抽帧间隔可以设置为500ms，本公开对该预设抽帧间隔的设置方式不作限定。
53.需要说明的是，考虑到不同类型的目标视频的图像变化情况和音频变化情况不同，该预设抽帧间隔可以包括预设图像抽帧间隔和预设音频抽帧间隔，按照该预设图像抽帧间隔从该目标视频中抽取多个目标图像，按照该预设音频抽帧间隔从该目标视频中抽取多个目标音频。示例地，针对风景类型的目标视频，图像变化较小，而音频变化较大，可以设置较大的预设图像抽帧间隔，设置较小的预设音频抽帧间隔。
54.s203、按照该预设抽帧间隔，从该目标视频中抽取该目标视频对应的多个目标图像和多个目标音频。
55.在本步骤中，在获取该预设抽帧间隔后，可以按照该预设抽帧间隔，从该目标视频中抽取该目标视频对应的多个目标图像和多个目标音频，示例地，在该预设抽帧间隔为1s的情况下，可以每隔1s从该目标视频中采集一个目标图像和一个目标音频。在该预设抽帧间隔包括预设图像抽帧间隔和预设音频抽帧间隔的情况下，可以按照该预设图像抽帧间隔从该目标视频中抽取多个目标图像，按照该预设音频抽帧间隔从该目标视频中抽取多个目标音频，示例地，在该预设图像抽帧间隔为2s，该预设音频抽帧间隔为1s的情况下，可以每隔2s从该目标视频中采集一个目标图像，每隔1s从该目标视频中采集一个目标音频。
56.204、根据多个目标图像，获取该目标视频对应的图像特征向量。
57.在本步骤中，在采集到该目标视频对应的多个目标图像后，可以将该多个目标图像输入预先训练的图像特征获取模型，得到该目标视频对应的多个局部图像特征向量，该多个局部图像特征向量表征该目标视频的原始图像特征。其中，该图像特征获取模型可以是基于efficientnet
‑
b7模型训练的模型，也可以是基于其它相关技术的模型训练得到的模型，本公开对此不作限定。
58.进一步地，在得到该目标视频对应的多个局部图像特征向量后，可以将该多个局部图像特征向量输入预先训练的特征聚合模型，得到该目标视频对应的该图像特征向量。其中，该特征聚合模型可以是基于nextvlad模型训练的模型，也可以是基于其它相关技术的模型训练得到的模型，本公开对此不作限定。图3是根据一示例性实施例示出的nextvlad模型的结构示意图，如图3所示，x为输入该nextvlad模型的局部特征向量，golobal feature为该nextvlad模型输出的全局特征向量，示例地，将该目标视频对应的局部图像特
征向量输入该nextvlad模型后，可以得到该目标视频对应的图像特征向量。
59.需要说明的是，该图像特征获取模型和该特征聚合模型的训练方式可以参考相关技术的模型训练方式，此处不再赘述了。
60.s205、根据多个目标音频，获取该目标视频对应的音频特征向量。
61.在本步骤中，在采集到该目标视频对应的多个目标音频后，可以将该多个目标音频输入预先训练的音频特征获取模型，得到该目标视频对应的多个局部音频特征向量，该多个局部音频特征向量表征该目标视频的原始音频特征，并将该多个局部音频特征向量输入该特征聚合模型，得到该目标视频对应的该音频特征向量。示例地，该音频特征获取模型可以是基于vggish模型训练的，也可以是基于其它相关技术的模型训练得到的模型，本公开对此不作限定，该音频特征获取模型的训练方式可以参考相关技术的模型训练方法，此处不再赘述了。
62.s206、根据该目标视频对应的文本描述信息，生成该目标视频对应的文本特征向量。
63.其中，该文本描述信息可以是该目标视频的标题，也可以是通过ocr技术从该目标视频的字幕中获取的信息，本公开对此不作限定。
64.在本步骤中，可以将该目标视频对应的文本描述信息输入预先训练的文本特征获取模型，得到该目标视频对应的文本特征向量。其中，该文本特征获取模型可以是基于bert模型训练的，也可以是基于其它相关技术的模型训练得到的模型，本公开对此不作限定，该文本特征获取模型的训练方式可以参考相关技术的模型训练方法，此处不再赘述了。
65.s207、将该图像特征向量、该音频特征向量以及该文本特征向量按照第一预设拼接顺序进行拼接，得到该目标视频对应的第一特征向量。
66.其中，该第一预设拼接顺序可以是该图像特征向量、该音频特征向量、该文本特征向量的顺序，也可以是该音频特征向量、该图像特征向量、该文本特征向量的顺序，本公开对此不作限定。
67.在本步骤中，在得到该目标视频对应的该图像特征向量、该音频特征向量以及该文本特征向量后，可以通过concat算法，按照该第一预设拼接顺序将该图像特征向量、该音频特征向量以及该文本特征向量进行拼接。
68.需要说明的是，也可以通过相关技术的其它拼接算法，将该图像特征向量、该音频特征向量以及该文本特征向量按照该第一预设拼接顺序进行拼接，得到该目标视频对应的第一特征向量，本公开对此不作限定。
69.s208、通过预先训练的特征融合模型，将该图像特征向量、该音频特征向量以及该文本特征向量进行融合，得到该目标视频对应的第二特征向量。
70.在本步骤中，在得到该目标视频对应的该图像特征向量、该音频特征向量以及该文本特征向量后，可以将该图像特征向量、该音频特征向量以及该文本特征向量作为该特征融合模型的输入，得到该目标视频对应的第二特征向量。其中，该特征融合模型可以是基于mutan模型训练得到的，也可以是基于其它相关技术的模型训练得到的模型，本公开对此不作限定，该特征融合模型的训练方式可以参考相关技术的模型训练方法，此处不再赘述了。
71.s209、将该第一特征向量和该第二特征向量按照第二预设拼接顺序进行拼接，得
到该目标视频对应的第三特征向量。
72.其中，该第二预设拼接顺序可以是该第一特征向量、该第二特征向量的顺序，也可以是该第二特征向量、该第一特征向量的顺序，本公开对此不作限定
73.在本步骤中，在得到该第一特征向量和该第二特征向量后，可以通过concat算法，将该第一特征向量和该第二特征向量按照该第二预设拼接顺序进行拼接，得到该目标视频对应的第三特征向量。
74.需要说明的是，也可以通过相关技术的其它拼接算法，将该第一特征向量和该第二特征向量按照该第二预设拼接顺序进行拼接，得到该目标视频对应的第三特征向量，本公开对此不作限定。
75.s210、将该第三特征向量作为该视频分类模型的输入，得到该目标视频对应的每个预设类别的概率。
76.其中，该预设类别可以包括教育、娱乐、新闻以及餐饮，也可以包括其它类别，本公开对此不作限定。
77.在本步骤中，由于该预设类别可以包括多个，在得到该目标视频对应的第三特征向量后，可以将该第三特征向量输入该视频分类模型，得到该目标视频对应的每个预设类别的概率。示例地，若该预设类别包括教育、娱乐以及新闻，则将该第三特征向量输入该视频分类模型后，可以得到该目标视频是教育类别的概率a，该目标视频是娱乐类别的概率b，该目标视频是新闻类别的概率c。
78.该视频分类模型可以通过以下方式训练得到：
79.s1、获取多个样本视频；
80.s2、针对该多个样本视频中的每个样本视频，获取该样本视频对应的样本图像特征向量、样本音频特征向量以及样本文本特征向量；
81.s3、将该样本图像特征向量、该样本音频特征向量以及该样本文本特征向量按照第一预设拼接顺序进行拼接，得到该样本视频对应的第一样本特征向量；
82.s4、通过预先训练的特征融合模型，将该样本图像特征向量、该样本音频特征向量以及该样本文本特征向量进行融合，得到该样本视频对应的第二样本特征向量；
83.s5、将该第一样本特征向量和该样本第二特征向量按照第二预设拼接顺序进行拼接，得到该样本视频对应的第三样本特征向量；
84.需要说明的是，上述步骤s2～步骤s5获取该样本视频对应的第三样本特征向量的方法可以参考上述步骤s202～步骤s209获取目标视频对应的第三特征向量的方法，此处不再赘述了。
85.s6、根据多个样本视频对应的第三样本特征向量对目标神经网络模型进行训练，得到该视频分类模型。
86.在得到该多个样本视频对应的第三样本特征向量后，可以按照预设比例将该多个样本视频划分为训练集和测试集，该预设比例可以是8:2，也可以是其它比例，本公开对此不作限定。示例地，在该样本视频为100个的情况下，可以将该样本视频中的80个样本视频作为训练集，将该样本视频中的其它20个样本视频作为验证集。之后，可以将该训练集的样本视频对应的第三样本特征向量和该训练集的样本视频对应的标签，输入该目标神经网络模型，该标签可以是该样本视频的类别。
87.进一步地，可以根据该目标神经网络模型的损失函数调整该目标神经网络模型的参数，并通过验证集的样本视频对该目标神经网络模型进行验证，示例地，可以将验证集的样本视频对应的第三样本特征向量输入该目标神经网络模型，获取该目标神经网络模型的f1值，在该f1值达到最大时，表示该目标神经网络模型是最优模型，可以将该最优的目标神经网络模型作为该视频分类模型。
88.需要说明的是，该视频分类模型可以包括全连接层(fc)、se context gating以及逻辑分类器(logistic classifier)，在训练该视频分类模型过程中，可以同时对该fc、se context gating以及逻辑分类器进行训练。
89.s211、将概率最高的预设类别作为该目标视频对应的类别并输出。
90.在本步骤中，在得到该目标视频对应的每个预设类别的概率后，可以对比每个预设类别的概率，将概率最高的该预设类别作为该目标视频对应的类别。继续以步骤s210中的示例进行说明，若概率a为20％，概率b为2％，概率c为78％，则可以确定概率c对应的新闻类别为该目标视频对应的类别。
91.上述步骤s210～步骤s211是先得到该目标视频对应的每个预设类别的概率后，再根据该概率确定该目标视频的类别，本公开也可以将该目标视频对应的第三特征向量输入该视频分类模型，直接得到该目标视频对应的类别。
92.需要说明的是，图2所示的实施例中使用了多种神经网络模型，图4是根据一示例性实施例示出的一种神经网络模型的示意图，如图4所示，该图像特征获取模型为efficientnet
‑
b7模型、该音频特征获取模型为vggish模型、该文本特征获取模型为bert模型、特征聚合模型为nextvlad模型、拼接方式为concat、特征融合模型为mutan模型、视频分类模型包括fc、se context gating、逻辑分类器。
93.上述步骤s210公开了视频分类模型的训练方法，这里，也可以参考该视频分类模型的训练方法对图4所示实施例中的其它模型进行训练，示例地，可以在获取样本视频对应的目标样本图像、目标样本音频以及样本描述信息后，按照图4所示实施例的流程，将该目标样本图像输入该efficientnet
‑
b7模型，将该目标样本音频输入该vggish模型，将该样本描述信息输入该bert模型，在最终通过逻辑分类器输出该样本视频对应的类别后，通过交叉熵损失函数对上述所有模型进行优化，也可以对上述部分模型进行优化，本公开对此不作限定。
94.需要说明的是，在使用该视频分类模型时的第一预设拼接顺序和第二预设拼接顺序，与训练该视频分类模型时的第一预设拼接顺序和第二预设拼接顺序相同，示例地，若训练该视频分类模型时的第一预设拼接顺序为图像特征向量、音频特征向量、文本特征向量，该第二预设拼接顺序为第一特征向量、第二特征向量，则使用该视频分类模型时的第一预设拼接顺序也是图像特征向量、音频特征向量、文本特征向量，该第二预设拼接顺序也是第一特征向量、第二特征向量。这样，输入该视频分类模型的第三特征向量与训练该视频分类模型时第三样本特征向量的类型相同，从而可以更进一步提高视频分类的准确率。
95.采用上述方法，可以先获取该目标视频对应的第一特征向量和第二特征向量，该第一特征向量为该目标视频的原始特征向量，该第二特征向量为该目标视频的融合特征向量，之后，再将该第一特征向量和该第二特征向量按照第二预设拼接顺序进行拼接得到该目标视频对应的第三特征向量，该第三特征向量既包括该目标视频的原始特征，也包括该
目标视频的融合特征，这样，在根据该第三特征向量获取该目标视频的类别时，可以防止该目标视频中信息的丢失，从而提高了视频分类的准确率。
96.图5是根据一示例性实施例示出的一种视频分类装置的结构示意图，如图5所示，该装置包括：
97.视频获取模块501，被配置为通过终端获取目标视频；
98.特征向量获取模块502，被配置为获取该目标视频对应的图像特征向量、音频特征向量以及文本特征向量；
99.第一特征向量拼接模块503，被配置为将该图像特征向量、该音频特征向量以及该文本特征向量按照第一预设拼接顺序进行拼接，得到该目标视频对应的第一特征向量；
100.特征向量融合模块504，被配置为通过预先训练的特征融合模型，将该图像特征向量、该音频特征向量以及该文本特征向量进行融合，得到该目标视频对应的第二特征向量；
101.第二特征向量拼接模块505，被配置为将该第一特征向量和该第二特征向量按照第二预设拼接顺序进行拼接，得到该目标视频对应的第三特征向量；
102.类别确定模块506，被配置为根据该第三特征向量和预先训练的视频分类模型，确定该目标视频对应的类别。
103.可选地，该特征向量获取模块502包括：
104.间隔获取子模块，被配置为根据该目标视频对应的播放时长，确定该目标视频对应的预设抽帧间隔；
105.抽取子模块，被配置为按照该预设抽帧间隔，从该目标视频中抽取该目标视频对应的多个目标图像和多个目标音频；
106.图像特征向量获取子模块，被配置为根据多个该目标图像，获取该目标视频对应的图像特征向量；
107.音频特征向量获取子模块，被配置为根据多个该目标音频，获取该目标视频对应的音频特征向量；
108.文本特征向量获取子模块，被配置为根据该目标视频对应的文本描述信息，生成该目标视频对应的文本特征向量。
109.可选地，该图像特征向量获取子模块，还被配置为：将多个该目标图像输入预先训练的图像特征获取模型，得到该目标视频对应的多个局部图像特征向量；将多个该局部图像特征向量输入预先训练的特征聚合模型，得到该目标视频对应的该图像特征向量；该音频特征向量获取子模块，还被配置为：将多个该目标音频输入预先训练的音频特征获取模型，得到该目标视频对应的多个局部音频特征向量；将多个该局部音频特征向量输入该特征聚合模型，得到该目标视频对应的该音频特征向量。
110.可选地，该类别确定模块506还包括：
111.第一类别确定子模块，被配置为将该第三特征向量作为该视频分类模型的输入，得到该目标视频对应的类别。
112.可选地，该类别确定模块506包括：
113.概率获取子模块，被配置为将该第三特征向量作为该视频分类模型的输入，得到该目标视频对应的每个预设类别的概率；
114.第二类别确定子模块，被配置为将概率最高的该预设类别作为该目标视频对应的
类别并输出。可选地，该视频分类模型通过以下方式训练得到：获取多个样本视频；针对多个所述样本视频中的每个样本视频，获取该样本视频对应的样本图像特征向量、样本音频特征向量以及样本文本特征向量；将所述样本图像特征向量、所述样本音频特征向量以及所述样本文本特征向量按照第一预设拼接顺序进行拼接，得到该样本视频对应的第一样本特征向量；通过预先训练的特征融合模型，将所述样本图像特征向量、所述样本音频特征向量以及所述样本文本特征向量进行融合，得到该样本视频对应的第二样本特征向量；将所述第一样本特征向量和所述样本第二特征向量按照第二预设拼接顺序进行拼接，得到该样本视频对应的第三样本特征向量；根据多个所述样本视频对应的第三样本特征向量对目标神经网络模型进行训练，得到所述视频分类模型。
115.通过上述装置，可以将该目标视频对应的图像特征向量、音频特征向量以及文本特征向量按照第一预设拼接顺序进行拼接，得到该目标视频对应的第一特征向量，将该图像特征向量、该音频特征向量以及该文本特征向量进行融合，得到该目标视频对应的第二特征向量，并将该第一特征向量和该第二特征向量按照第二预设拼接顺序进行拼接，得到该目标视频对应的第三特征向量，相比独立的第一特征向量或第二特征向量，该第三特征向量是将图像特征向量、音频特征向量以及文本特征向量进行充分交互后的更深层次的特征向量，这样，可以防止目标视频中信息的丢失，从而提高了视频分类的准确率。
116.关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。
117.本公开还提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现本公开提供的视频分类的方法的步骤。
118.图6是根据一示例性实施例示出的一种终端设备600的框图。例如，终端设备600可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。
119.参照图6，终端设备600可以包括以下一个或多个组件：处理组件602，存储器604，电力组件606，多媒体组件608，音频组件610，输入/输出(i/o)的接口612，传感器组件614，以及通信组件616。
120.处理组件602通常控制终端设备600的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令，以完成上述的视频分类的方法的全部或部分步骤。此外，处理组件602可以包括一个或多个模块，便于处理组件602和其他组件之间的交互。例如，处理组件602可以包括多媒体模块，以方便多媒体组件608和处理组件602之间的交互。
121.存储器604被配置为存储各种类型的数据以支持在终端设备600的操作。这些数据的示例包括用于在终端设备600上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。
122.电力组件606为终端设备600的各种组件提供电力。电力组件606可以包括电源管理系统，一个或多个电源，及其他与为终端设备600生成、管理和分配电力相关联的组件。
123.多媒体组件608包括在所述终端设备600和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件608包括一个前置摄像头和/或后置摄像头。当终端设备600处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
124.音频组件610被配置为输出和/或输入音频信号。例如，音频组件610包括一个麦克风(mic)，当终端设备600处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中，音频组件610还包括一个扬声器，用于输出音频信号。
125.i/o接口612为处理组件602和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。
126.传感器组件614包括一个或多个传感器，用于为终端设备600提供各个方面的状态评估。例如，传感器组件614可以检测到终端设备600的打开/关闭状态，组件的相对定位，例如所述组件为终端设备600的显示器和小键盘，传感器组件614还可以检测终端设备600或终端设备600一个组件的位置改变，用户与终端设备600接触的存在或不存在，终端设备600方位或加速/减速和终端设备600的温度变化。传感器组件614可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器，如cmos或ccd图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件614还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。
127.通信组件616被配置为便于终端设备600和其他设备之间有线或无线方式的通信。终端设备600可以接入基于通信标准的无线网络，如wifi，2g或3g，或它们的组合。在一个示例性实施例中，通信组件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件616还包括近场通信(nfc)模块，以促进短程通信。例如，在nfc模块可基于射频识别(rfid)技术，红外数据协会(irda)技术，超宽带(uwb)技术，蓝牙(bt)技术和其他技术来实现。
128.在示例性实施例中，终端设备600可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述视频分类方法。
129.在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器604，上述指令可由终端设备600的处理器620执行以完成上述视频分类的方法。例如，所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd
‑
rom、磁带、软盘和光数据存储设备等。
130.在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述视频分类方法的代码部分。
131.本领域技术人员在考虑说明书及实践本公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。
132.应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王栋
技术所有人：北京小米松果电子有限公司
我是此专利的发明人

上一篇：一种绕线机纱线长度计量装置的制作方法
上一篇：一种玻璃钢管道检测用湿热老化箱的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。