视频分类方法、装置、设备及存储介质与流程

文档序号：22547525发布日期：2020-10-17 02:18阅读：156来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本公开涉及计算机视觉技术，尤其涉及一种视频分类方法、装置、设备及存储介质。

背景技术：

随着视频的生产手段的丰富，视频创作门槛的降低，视频作品的数量以及视频文件的大小都在激增，对视频的分析、归类、利用成为了一个难题。

视频的分类，是视频分析及利用的基础。目前对视频的分类还是以人工为主，或者局限于体育视频或新闻视频等简单场景。如何对视频进行高效、准确的分类，成为亟待解决的问题。

技术实现要素：

本公开实施例提供了一种视频分类方案。

根据本公开的一方面，提供一种视频分类方法，所述方法包括：获取待处理视频流对应的多个图像；通过对所述多个图像中每个图像进行处理，得到所述每个图像的掩膜图像，其中，所述掩膜图像包括主体掩膜、前景图像、背景图像中的至少一种，所述主体掩膜包含指示所述图像的多个像素中每个像素为前景的概率的指示信息；根据所述多个图像以及所述多个图像中每个图像的掩膜图像，得到所述待处理视频流在所述目标类别上的镜头分类结果。

结合本公开提供的任一实施方式，所述目标类别包括景别；所述根据所述多个图像以及所述多个图像中每个图像的掩膜图像，得到所述待处理视频流在所述目标类别上的镜头分类结果，包括：根据所述多个图像以及所述多个图像中每个图像的前景图像，得到所述待处理视频流在景别上的镜头分类结果。

结合本公开提供的任一实施方式所述目标类别包括镜头运动方式；所述根据所述多个图像以及所述多个图像分别对应的主体掩膜，得到所述待处理视频流在所述目标类别上的镜头分类结果，包括：根据所述多个图像以及所述多个图像中每个图像的背景图像，得到所述待处理视频流在镜头运动方式上的镜头分类结果。

结合本公开提供的任一实施方式，所述根据所述多个图像以及所述多个图像中每个图像的背景图像，得到所述待处理视频流在镜头运动方式上的镜头分类结果，包括：基于所述多个图像中每个图像以及所述每个图像的背景图像，获得所述多个图像的背景差异信息；根据所述背景差异信息，确定所述待处理视频在镜头运动状态上的分类结果。

结合本公开提供的任一实施方式，所述多个图像对应于所述待处理视频流的多个视频片段，每个视频片段对应所述多个图像中至少一个图像；所述基于所述多个图像中每个图像以及所述每个图像的背景图像，获得所述多个图像的背景差异信息，包括：基于所述多个图像中每个图像以及所述每个图像的背景图像，得到所述每个图像的背景特征信息；根据所述多个视频片段中不同视频片段对应的图像的背景特征信息之间的差异，获得所述多个视频片段之间的背景差异信息。

结合本公开提供的任一实施方式，所述根据所述多个图像以及所述多个图像中每个图像的掩膜图像，得到所述待处理视频流在所述目标类别上的镜头分类结果，包括：将所述多个图像以及所述多个图像的掩膜图像输入至镜头分类网络进行处理，输出所述待处理视频流在所述目标类别上的镜头分类结果。

结合本公开提供的任一实施方式，所述根据所述多个图像以及所述多个图像中每个图像的掩膜图像，得到所述待处理视频流在所述目标类别上的镜头分类结果，包括：对所述多个图像中每个图像进行特征提取处理，得到第一特征信息，并对所述每个图像的掩膜图像到进行特征提取处理，得到第二特征信息；对所述多个图像中每个图像的所述第一特征信息和所述第二特征信息进行处理，得到所述待处理视频流在所述目标类别上的镜头分类结果。

结合本公开提供的任一实施方式，所述第一特征信息和所述第二特征信息均包括n阶特征信息；所述对所述多个图像中每个图像进行特征提取处理，得到第一特征信息，包括：针对所述多个图像中的每个图像，对所述图像的所述第一特征信息中的第i-1阶特征信息进行特征提取，得到所述图像的第i阶初始特征信息；将所述图像的第i阶初始特征信息与所述第二特征信息中的第i阶特征信息进行融合处理，得到所述第一特征信息中的第i阶特征信息。

结合本公开提供的任一实施方式，对每个图像的所述第一特征信息和所述第二特征信息进行连接处理，得到连接特征信息；基于所述多个图像中每个图像的连接特征信息，确定所述待处理视频在所述目标类别上的分类结果

结合本公开提供的任一实施方式，所述待处理视频流对应的多个图像包括：所述待处理视频流中的多个视频帧图像的至少一部分，或者所述待处理视频流对应的多个光流图像；和/或所述目标分类包括下列中的至少一种：景别和镜头运动方式。

结合本公开提供的任一实施方式，所述通过对所述多个图像中每个图像进行处理，得到所述每个图像的掩膜图像，包括：利用主体掩膜生成网络对所述多个图像中每个图像进行主体掩膜提取处理，输出所述每个图像的主体掩膜。

结合本公开提供的任一实施方式，所述主体掩膜生成网络的网络层数低于第一数值；和/或所述主体掩膜生成网络是基于预先训练好的教师网络进行训练得到的，其中，所述主体掩膜生成网络所包含的网络层的数目小于所述教师网络包含的网络层的数目。

结合本公开提供的任一实施方式，所述主体掩膜生成网络是利用生成对抗网络gan训练得到的，其中，所述gan包括所述主体掩膜生成网络和鉴别网络，所述训练的网络损失包括：第一损失，用于指示通过所述主体掩膜生成网络对图像样本进行处理生成的第一样本主体掩膜与所述图像样本的标注信息之间的差异；第二损失，用于指示所述鉴别网络对于所述鉴别网络的输入样本进行处理得到的分类结果与所述输入样本的标注之间的差异，其中，所述输入样本包括所述第一样本主体掩膜和所述教师网络对所述图像样本进行处理得到的第二主体掩膜，所述第一样本主体掩膜的标注信息指示生成图像，所述第二样本主体掩膜的标注信息指示真实图像。

结合本公开提供的任一实施方式，所述方法还包括：基于所述待处理视频流在所述目标类别上的镜头分类结果，对所述待处理视频流进行视频剪辑处理，得到视频剪辑结果。

结合本公开提供的任一实施方式，所述方法还包括：基于所述待处理视频流在所述目标类别上的镜头分类结果，对所述待处理视频流中的前景图像进行视频合成处理，得到视频剪辑结果。

根据本公开的一方面，提出一种视频分类装置，所述装置包括：图像获取单元，用于获取待处理视频流对应的多个图像；掩膜获取单元，用于通过对所述多个图像中每个图像进行处理，得到所述每个图像的掩膜图像，其中，所述掩膜图像包括主体掩膜、前景图像、背景图像中的至少一种，所述主体掩膜包含指示所述图像的多个像素中每个像素为前景的概率的指示信息；分类单元，用于根据所述多个图像以及所述多个图像中每个图像的掩膜图像，得到所述待处理视频流在所述目标类别上的镜头分类结果。

结合本公开提供的任一实施方式，所述目标类别包括景别；所述分类单元具体用于：根据所述多个图像以及所述多个图像中每个图像的前景图像，得到所述待处理视频流在景别上的镜头分类结果。

结合本公开提供的任一实施方式，所述目标类别包括镜头运动方式；所述分类单元具体用于：根据所述多个图像以及所述多个图像中每个图像的背景图像，得到所述待处理视频流在镜头运动方式上的镜头分类结果。

结合本公开提供的任一实施方式，所述分类单元具体用于：基于所述多个图像中每个图像以及所述每个图像的背景图像，获得所述多个图像的背景差异信息；根据所述背景差异信息，确定所述待处理视频在镜头运动状态上的分类结果。

结合本公开提供的任一实施方式，所述多个图像对应于所述待处理视频流的多个视频片段，每个视频片段对应所述多个图像中至少一个图像；所述分类单元在基于所述多个图像中每个图像以及所述每个图像的背景图像，获得所述多个图像的背景差异信息时，具体用于：基于所述多个图像中每个图像以及所述每个图像的背景图像，得到所述每个图像的背景特征信息；根据所述多个视频片段中不同视频片段对应的多个图像的背景特征信息之间的差异，获得所述多个视频片段之间的背景差异信息。

结合本公开提供的任一实施方式，所述分类单元具体用于：将所述多个图像以及所述多个图像的掩膜图像输入至镜头分类网络进行处理，输出所述待处理视频流在所述目标类别上的镜头分类结果。

结合本公开提供的任一实施方式，所述镜头分类网络包含：具有并列的第一分支和第二分支的特征提取网络以及分类器；所述分类单元在用于将所述多个图像以及所述多个图像的掩膜图像输入至镜头分类网络，输出所述待处理视频流在所述目标类别上的镜头分类结果时，具体用于：利用所述第一分支对所述多个图像中每个图像进行特征提取处理，得到第一特征信息，并利用所述第二分支对所述每个图像的掩膜图像到进行特征提取处理，得到第二特征信息；利用所述分类器对所述多个图像的所述第一特征信息和所述第二特征信息进行处理，得到所述待处理视频流在所述目标类别上的镜头分类结果。

结合本公开提供的任一实施方式，所述分类单元在用于根据所述多个图像以及所述多个图像中每个图像的掩膜图像，得到所述待处理视频流在所述目标类别上的镜头分类结果时，具体用于：对所述多个图像中每个图像进行特征提取处理，得到第一特征信息，并对所述每个图像的掩膜图像到进行特征提取处理，得到第二特征信息；对所述多个图像中每个图像的所述第一特征信息和所述第二特征信息进行处理，得到所述待处理视频流在所述目标类别上的镜头分类结果。

结合本公开提供的任一实施方式，所述第一特征信息和所述第二特征信息均包括n阶特征信息；所述分类单元在用于对所述多个图像中每个图像进行特征提取处理，得到第一特征信息时，具体用于：针对所述多个图像中的每个图像，对所述图像的所述第一特征信息中的第i-1阶特征信息进行特征提取，得到所述图像的第i阶初始特征信息；将所述图像的第i阶初始特征信息与所述第二特征信息中的第i阶特征信息进行融合处理，得到所述第一特征信息中的第i阶特征信息。

结合本公开提供的任一实施方式，所述装置还包括第一剪辑单元，用于基于所述待处理视频流在所述目标类别上的镜头分类结果，对所述待处理视频流进行视频剪辑处理，得到视频剪辑结果。

结合本公开提供的任一实施方式，所述装置还包括第二剪辑单元，用于基于所述待处理视频流在所述目标类别上的镜头分类结果，对所述待处理视频流中的前景图像进行视频合成处理，得到视频剪辑结果。

根据本公开的一方面，提供一种视频分类设备，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现任一实施方式所述的方法。

根据本公开的一方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现任一实施方式所述的方法。

根据本公开的一方面，提供一种计算机程序产品，包括计算机程序，所述程序被处理器执行时实现任一实施方式所述的方法。

本公开一个或多个实施例的视频分类方法、装置、设备及可读存储介质，通过对待处理视频流对应的多个图像进行处理，得到每张图像的掩膜图像，所述掩膜图像包括主体掩膜、前景图像、背景图像中的至少一种，并根据所述多个图像以及所述多个图像中每个图像的掩膜图像，得到所述待处理视频流在所述目标类别上的镜头分类结果，能够获得更准确的镜头分类结果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本说明书的实施例，并与说明书一起用于解释本说明书的原理。

图1是本公开至少一个实施例提出的一种视频分类方法的流程图；

图2是本公开至少一个实施例提出的视频分类方法的示意图；

图3a～3e是本公开至少一个实施例提出的视频分类方法中景别标注的示意图；

图4为本公开至少一个实施例提出的视频分类方法中所生成的主体掩膜与利用相关技术生成的主体掩膜的对比示意图；

图5a～5d为本公开至少一个实施例提出的视频分类方法中各种镜头运动方式对应的变换特征信息示意图；

图6为本公开至少一个实施例提出的视频剪辑方法的流程图；

图7a和图7b分别示出了根据一种剪辑策略进行剪辑的原始图像和目标图像集合；

图8a和图8b分别示出了根据另一种剪辑策略进行剪辑的原始图像和目标图像集合；

图9为本公开至少一个实施例提出的视频剪辑方法的示意图；

图10为本公开至少一个实施例提出的视频分类装置的结构示意图；

图11为本公开至少一个实施例提出的视频分类设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1示出了本公开一些实施例提出的视频分类方法，该方法可以包括步骤101～103。

在步骤101中，获取待处理视频流对应的多个图像。

其中，所述待处理视频流可以包括一个或多个镜头，其中，所述镜头可以是由多个连续的视频帧图像组成的一个视频片段。在本公开实施例中，可以对其中一个镜头或对多个镜头中的每个镜头进行分类，得到镜头分类结果，其中，该待处理视频流可以包括一个镜头的多个视频帧图像，该多个视频帧图像可以为镜头中的全部或一部分视频帧图像，本公开实施例对此不做限定。

在一些实施例中，待处理视频流对应的多个图像可以包括所述待处理视频流中的多个视频帧图像的至少一部分。例如，可以将所述待处理视频分为多个视频片段，并从每个视频片段中获取一张或多张视频帧图像，以使所述待处理视频流对应的多张图像分布在整个待处理视频流中。

在一个示例中，可以在所述待处理视频流所包含的视频帧图像中，利用设定的步长进行取样，从而获得所述待处理视频流对应的多个图像。

在另一些实施例中，所述待处理视频流对应的多个图像包括所述待处理视频流对应的多个光流图像。其中，该多个光流图像可以是从其他设备处获取的，例如，服务器从数据库或者终端设备获取的，或者是用户上传的，或者是通过对待处理视频流中的多个视频帧图像进行处理得到的，本公开实施例对此不做限定。

在步骤102中，通过对所述多个图像中每个图像进行处理，得到所述每个图像的掩膜图像，其中，所述掩膜图像包括主体掩膜(subjectmap)、前景图像、背景图像中的至少一种。

所述主体掩膜包含指示所述图像的多个像素中每个像素为前景的概率的指示信息，其中，所述概率的数值范围在[0,1]之间。作为一个例子，主体掩膜中的各个像素点的值表示该像素点属于前景的概率，相应地，前景区域的像素点在主体掩膜中对应的像素点的概率值较高，而背景区域的像素点在主体掩膜中对应的像素点的概率值较低。在一些实施例中，所述主体掩膜可以与所述图像具有相同的宽和高，所述主体掩膜可以为显著性特征图(saliencymap)，但本公开实施例对此不做限定。

所述前景图像可以为前景区域的图像，所述背景图像可以为背景区域的图像。前景图像和背景图像可选地可以与所述图像具有相同的尺寸，但本公开实施例不限于此。

在一些实施例中，可以首先对所述图像进行处理，得到所述主体掩膜，例如，将所述图像输入到主体掩膜提取模型进行处理，输出所述主体掩膜的信息，然后，基于所述主体掩膜得到所述前景图像和背景图像。作为一个例子，所述前景图像是所述图像中被确定为前景的像素所形成的图像，其中，一个像素属于前景还是背景可以根据所述主体掩膜所包含的指示信息进行确定。例如，可以将所述主体掩膜中指示所述像素为前景的概率与设定概率阈值进行比较，并将概率高于所述设定概率阈值的像素确定为前景像素，并将概率低于所述设定概率阈值的像素确定为背景像素。在另一个例子中，可以将所述主体掩膜与所述图像进行逐像素相乘，得到前景图像，并通过从所述图像中减去所述前景图像，获得所述图像对应的背景图像，但本公开实施例不限于此。

在另一些实施例中，可以直接对所述图像进行前背景分割处理，得到前景图像和背景图像，例如，将所述图像输入前背景分割模型进行处理，输出所述图像的前景图像和背景图像的信息，本公开实施例对获得所述掩膜图像的方式不做限定。

在步骤103中，根据所述多个图像以及所述多个图像中每个图像的掩膜图像，得到所述待处理视频流在所述目标类别上的镜头分类结果。

在一些实施例中，根据所述多个图像以及所述多个图像中每个图像的掩膜图像，可以获得所述多个图像中与前景相关的特征，和/或，与背景相关的特征，从而可以到所述待处理视频流在所述目标类别上的镜头分类结果。

在本公开实施例中，通过对待处理视频流对应的多个图像进行处理，得到每张图像的掩膜图像，所述掩膜图像包括主体掩膜、前景图像、背景图像中的至少一种，并根据所述多个图像以及所述多个图像中每个图像的掩膜图像，得到所述待处理视频流在所述目标类别上的镜头分类结果，能够获得更准确的视频分类结果。

以所述目标类别包含景别(scaletype)和/或镜头运动方式(movementtype，又称运镜)为例，根据所述多个图像以及所述多个图像中每个图像的掩膜图像，可以得到所述待处理视频流在景别和/或镜头运动方式的镜头分类结果。

景别是指由于摄像机与被摄主体的距离不同，而造成被摄主体在画面中所呈现的范围大小的不同。在一个示例中，景别可以分为五种：特写、近景、中景、全景、远景，或者景别也可以具有其他的划分方式。

镜头运动方式是指拍摄所述视频的摄像头自身的运动状态，也可以称为运镜方式。在一个示例中，镜头运动方式可以分为四种：静止镜头、运动镜头、推近镜头、拉远镜头，或者镜头运动方式也可以具有其他的划分方式。

以上所述的景别和镜头运动方式仅为示例，本公开中的目标类别也可以包含其他的类别，例如镜头焦距等等。

在所述多个图像对应于所述待处理视频流的多个视频片段的情况下，例如所述多个图像中的每个图像来自于一个视频片段，其中，多个图像对应的视频片段可以相同或不同，可以获取每个视频片段所对应的图像的特征信息，并结合各个视频片段的特征信息，来确定所述待处理视频流在该目标类别上的镜头分类结果。

在本公开实施例中，景别的分类根据主要主体(dominantsubject)在图像中所占的比例确定。在所述目标类别包括景别，也即对景别进行分类的情况下，可以根据所述待处理视频流对应的多个图像以及所述多个图像中每个图像的前景图像，得到所述待处理视频流在景别上的镜头分类结果，即镜头的景别分类结果。

在一个示例中，可以结合针对各个片段所获得的与前景相关的特征信息，确定景别的镜头分类结果。

在一些实施例中，可以将多个图像中每个图像与对应的前景图像输入到景别分类模型进行处理，输出镜头分类结果。例如，可以通过景别分类模型对多个图像对中的每个图像对进行处理，得到镜头分类结果，其中，每个图像对包括图像和图像的前景图像，但本公开实施例不限于此。

由于背景信息的变化与摄像头的运动密切相关，因此，镜头运动方式的分类，可以依据背景的运动来确定。因此，在所述目标类别包括镜头运动方式，也即对镜头的运动方式进行分类的情况下，可以根据所述待处理视频流对应的多个图像以及所述多个图像中每个图像的背景图像，得到所述待处理视频流在镜头运动方式上的镜头分类结果，即镜头的运动方式分类结果或镜头的运镜分类结果。

在一个示例中，可以结合针对各个片段获得的与背景相关的特征信息，确定镜头运动方式的镜头分类结果。

在一些实施例中，可以将多个图像中每个图像与对应的背景图像输入到运动方式分类模型进行处理，输出镜头运动方式的分类结果。例如，可以通过运动方式分类模型对多个图像对中的每个图像对进行处理，得到镜头运动方式的分类结果，其中，每个图像对包括图像和图像的背景图像，但本公开实施例不限于此。

在一些实施例中，可以基于多个图像之间的背景差异信息，对镜头运动方式进行分类。

所述背景差异信息，可以根据所述多个图像中每个图像以及背景图像所对应的背景特征信息确定。其中，所述背景特征信息可以是分别对所述图像和所述背景图像进行特征提取，并将分别获得的特征信息进行融合得到的；也可以是将所述图像以及背景图像做为整体进行特征提取得到的。

根据所述待处理视频流所对应的多个图像所对应的背景特征信息之间的差异，可以获得所述多个图像之间的背景差异信息。

根据所述多个图像之间的背景差异信息，可以确定出摄像头随着时间的推移所进行的运动，从而可以得到镜头的运动方式分类结果；还可以通过将所述多个图像的背景特征信息，以及多个图像之间的背景差异信息进行融合，来获得镜头的运动方式分类结果。

在所述多个图像对应于所述待处理视频流的多个视频片段的情况下，对于每个视频片段所对应的所述多个图像中的至少一个图像，获取所述至少一个图像的背景特征信息，作为所述视频片段所对应的背景特征信息；再根据所述多个视频片段对应中不同视频片段的背景特征信息之间的差异，可以得到所述多个视频片段之间的背景差异信息。

根据所述多个视频片段之间的背景差异信息，可以确定出摄像头随着时间的推移所进行的运动，从而可以得到镜头的运动方式分类结果；还可以通过将所述多个视频片段所对应的多个图像的背景特征信息，以及多个视频片段之间的背景差异信息进行融合，来获得镜头的运动方式分类结果。

在本公开实施例中，根据多个视频片段对应的多个图像的背景特征信息之间的差异，能够更准确地反映摄像头相对于背景的运动，从而提高对于镜头运动方式的分类准确度。

在一个示例中，根据所述多个视频片段的前景特征信息和背景特征信息，可以同时获得景别的分类结果和镜头运动方式的分类结果。

在同时获得了所述多个视频片段的前景特征信息和背景特征信息的请款一下，可以根据所述多个视频片段的前景特征信息获得镜头的景别分类结果，根据所述多个视频片段的背景特征信息，或者根据所述多个视频片段的背景特征信息和背景差异信息，可以获得镜头的运动方式分类结果，从而同时实现对景别和镜头运动方式的分类结果。

在一些实施例中，对所述多个图像中每个图像进行特征提取处理，得到第一特征信息，并对所述每个图像的掩膜图像到进行特征提取处理，得到第二特征信息；对所述多个图像中每个图像的所述第一特征信息和所述第二特征信息进行处理，得到所述待处理视频流在所述目标类别上的镜头分类结果

其中，所述第一特征信息和所述第二特征信息均包括n阶特征信息；针对所述多个图像中的每个图像，对所述图像的所述第一特征信息中的第i-1阶特征信息进行特征提取，得到所述图像的第i阶初始特征信息；将所述图像的第i阶初始特征信息与所述第二特征信息中的第i阶特征信息进行融合处理，得到所述第一特征信息中的第i阶特征信息。其中，i为小于等于n的正整数。

在一个示例中，将第二特征信息的各阶特征信息分别与第一特征信息的各阶特征信息结合，共同作为第一特征信息的下一阶特征信息的输入。

通过进行多阶特征信息的提取，并将第一特征信息和第二特征信息的各阶特征信息进行融合，有利于前景特征信息或背景特征信息的提取，从而提高镜头分类的准确度。

在一些实施例中，对于特征提取网络所获得的特征信息，可以通过以下方法确定所述待处理视频流在所述目标类别上的镜头分类结果：对每个图像的所述第一特征信息和所述第二特征信息进行连接处理，得到连接特征信息；基于所述多个图像中每个图像的连接特征信息，确定所述待处理视频在所述目标类别上的分类结果。

例如，在目标类别为景别的情况下，对每个图像的第一特征信息和第二特征信息进行连接处理，所得到的连接特征信息为前景特信息；根据所述多个图像中每个图像的前景特征信息，可以所述待处理视频在景别上的镜头分类结果。在一个示例中，可以对多个图像对应的前景特征信息进行池化，例如进行全局最大池化，以池化后的特征信息作为景别分类的依据。

对于多种目标类别的池化后的特征信息，通过全连接层获得所述多种类别对应的特征向量，并根据所述特征向量确定各种目标类别对应的分类结果。

例如，在目标类别为景别和镜头运动方式的情况下，可以根据各个视频片段分别对应的前景特征信息进行池化，获得池化后的前景特征信息，同时根据各个视频片段分别对应的背景特征信息进行池化，获得池化后的背景特征信息。对于池化后的前景特征信息和背景特征信息，通过全连接层的处理，可以获得这两种特征信息对应的特征向量。根据该特征向量确定目标类别所对应的分类结果，可以同时获得两种或两种以上的分类结果，提高了视频分类的效率。

在一些实施例中，可以将所述多个图像以及所述多个图像的掩膜图像输入至镜头分类网络进行处理，输出所述待处理视频流在所述目标类别上的镜头分类结果。

其中，所述镜头分类网络可以包含具有并列的第一分支和第二分支的特征提取网络以及分类器。

首先，可以将所述图像以及所述掩膜图像分别至所述特征提取网络的第一分支和第二分支，利用所述第一分支对所述多个图像中每个图像进行特征提取处理，得到第一特征信息，并利用所述第二分支对所述每个图像的掩膜图像到进行特征提取处理，得到第二特征信息。

接下来，利用所述分类器对所述多个图像的所述第一特征信息和所述第二特征信息进行处理，得到所述待处理视频流在所述目标类别上的镜头分类结果。

以对待处理视频流的景别进行分类为例，将所述图像以及对应的前景图像分别输入用于提取前景特征信息的特征提取网络的第一分支和第二分支，其中，第一分支用于对所述图像进行特征提取处理，得到与前景相关的第一特征信息，第二分支用于对所述前景图像进行特征提取处理，得到与前景相关的第二特征信息。利用第一分类器对与前景相关的第一特征信息和第二特征信息进行处理，得到所述待处理视频流在景别上的镜头分类结果。

相似地，对于镜头运动方式的分类，将所述图像以及对应的背景图像分别输入用于提取背景特征信息的特征提取网络的第一分支和第二分支，其中，第一分支用于对所述图像进行特征提取处理，得到与背景相关的第一特征信息，第二分支用于对所述背景图像进行特征提取处理，得到与背景相关的第二特征信息。利用第二分类器对与背景相关的第一特征信息和第二特征信息进行处理，得到所述待处理视频流在镜头运动方式上的镜头分类结果。

在一些实施例中，目标类别包括景别和镜头运动方式，此时，可以通过对多个图像和多个图像中每个图像的掩膜图像进行处理，得到待处理视频流的景别分类结果和镜头运动方式的分类结果。其中，该景别分类结果和镜头运动方式的分类结果可以通过两个不同的模型实现，或者，通过同一个模型实现，例如，将多个图像和分别对应的掩膜图像输入到镜头分类模型进行处理，输出景别分类结果和镜头运动方式的分类结果，这样，通过同一个模型实现镜头的不同类别的分类，能够提高视频处理效率。

下面以同时在景别和镜头运动方式上对视频进行分类为例，对本公开所提出的视频分类方法进行详细说明。本领域技术人员应当理解，对于其他的目标类别，也可以应用该视频分类方法。

参见图2所示的视频分类方法示意图。在本示例中，待处理视频流为包含9个视频帧图像的镜头。

首先，获取所述待处理视频流对应的3个图像。在本示例中，可以将该待处理视频流划分为视频片段1、2、3，并分别从各个视频片段中获取一个图像。所述图像可以是rgb图像，也可以是光流图像。以对rgb图像的处理为例，可以分别对于视频片段1、2、3获取rgb图像1、2、3。

接下来，对于rgb图像1、2、3进行主体掩膜提取，以获取上述图像的主体掩膜，也即确定上述图像中各个像素为前景的概率，从而可以获取上述图像对应的前景图像和背景图像。

之后，根据rgb图像1、2、3以及对应的掩膜图像，确定对于景别以及镜头运动方式的镜头分类结果。

以视频片段2所对应的rgb图像2的处理为例，可以将rgb图像2与前景图像输入至用于提取前景特征信息的特征提取网络211的第一分支和第二分支，获得第一分支输出的第一特征信息，以及第二分支输出的第二特征信息，通过将第一特征信息和第二特征信息进行连接，获得前景特征信息2；同时，将rgb图像2与背景图像输入至用于提取背景特征信息的特征提取网络212的第一分支和第二分支，获得第一分支输出的第一特征信息，以及第二分支输出的第二特征信息，通过将第一特征信息和第二特征信息进行连接，获得背景特征信息2。接下来，将视频片段1、2、3分别对应的前景特征信息1、2、3集合起来，获得所述待处理视频流对应的前景特征信息，从而确定所述待处理视频流在景别上的镜头分类结果，例如该镜头分类结果为近景；将视频片段1、2、3分别对应的背景特征信息1、2、3集合起来，获得所述待处理视频流对应的背景特征信息，从而确定所述待处理视频流在镜头运动方式上的镜头分类结果，例如该镜头分类结果为推近镜头。

在一个示例中，还基于各个视频片段之间的背景差异信息，来获得所述待处理视频流在镜头运动方式上的镜头分类结果。其中，所述背景差异信息是根据各个视频片段对应的多个图像的背景特征信息之间的差异获得的。

在一些实施例中，特征提取网络可以包括多个级联的网络层，各个网络层相应地输出各阶特征信息。对于所述特征提取网络的两个分支，每个分支获得输入图像的多阶特征信息，其中，第二分支获得所述掩膜图像的多阶掩膜特征信息，第一分支获得所述图像的多阶初始特征信息；并将所述掩膜图像的各阶掩膜特征信息分别结合至所述图像的各阶初始特征信息中，获得所述图像的各阶特征信息。

利用所述第二分支对所述每个图像的掩膜图像到进行特征提取处理，可以得到第二特征信息，包括：针对所述多个图像中的每个图像的掩膜图像，利用所述第二分支对所述图像进行特征提取，得到所述掩膜图像的第i阶掩膜特征信息；根据所述掩膜图像的第i阶掩膜特征信息，得到所述第二特征信息，其中，所述掩膜图像的第i+1阶掩膜特征信息是通过对所述掩膜图像的第i阶掩膜特征信息进行特征提取处理得到的；利用所述第一分支对所述多个图像中每个图像进行特征提取处理，可以得到第一特征信息，包括：针对所述多个图像中的每个图像，利用所述第一分支对所述图像进行特征提取，得到所述图像的第i阶初始特征信息；将所述图像的第i阶初始特征信息与所述图像的掩膜图像的第i阶掩膜特征信息进行融合处理，得到所述图像的第i阶特征信息；基于所述图像的第i阶特征信息，得到所述第一特征信息，其中，所述图像的第i+1阶特征信息是通过对所述图像的第i阶特征信息进行特征提取处理得到的，其中，i为小于所述第二分支输出的掩膜特征信息的阶数的正整数。

仍以图2所示的特征提取网络为例，用于提取前景特征信息的特征提取网络211的第二分支包括网络层2111a、2112a、2113a，利用该分支对所述待处理视频流对应的多个图像中每个图像的前景图像进行特征提取，得到所述图像的第i阶掩膜特征信息。各个网络层分别输出对应于前景图像的第1阶掩膜特征信息、第2阶掩膜特征信息、第3阶掩膜特征信息，根据各阶掩膜特征信息，获得与前景相关的第二特征信息；第一分支包括网络层2111b、2112b、2113b,利用该分支对所述待处理视频流对应的多个图像中每个图像(完整图像)进行特征提取，得到所述图像的第i阶初始特征信息。各个网络层分别输出对应于所述图像的第1阶初始特征信息、第2阶初始特征信息、第3阶初始特征信息。其中，网络层2111a、2112a、2113a所输出的各阶掩膜特征信息分别与网络层2111b、2112b、2113b输出的各阶初始特征信息进行融合，得到各阶特征信息，并输入至下一级网络层。例如，网络层2111a输出的第1级掩膜特征信息与网络层2111b输出的第1级初始特征信息进行结合，输入至网络层2112b。基于所述图像的第i阶特征信息，可以得到所述第一特征信息，其中，所述图像的第i+1阶特征信息是通过对所述图像的第i阶特征信息进行特征提取处理得到的。

相似地，用于提取背景特征信息的特征提取网络212的第二分支包括网络层2121b、2122b、2123b,利用该分支对所述待处理视频流对应的多个图像中每个图像的背景图像进行特征提取，得到所述图像的第i阶掩膜特征信息。各个网络层分别输出对应于背景图像的第1阶掩膜特征信息、第2阶掩膜特征信息、第3阶掩膜特征信息；第一分支包括网络层2121a、2122a、2123a,利用该分支对待处理视频流对应的多个图像中每个图像(完整图像)进行特征提取，得到所述图像的第i阶初始特征信息。各个网络层分别输出对应于所述图像的第1阶初始特征信息、第2阶初始特征信息、第3阶初始特征信息。其中，网络层2121b、2122b、2123b所输出的各阶掩膜特征信息分别与网络层2121a、2122a、2123a输出的各阶初始特征信息进行结合，得到各阶特征信息，并输入至下一级网络层。例如，网络层2121b输出的第1级掩膜特征信息与网络层2121a输出的第1级初始特征信息进行结合，输入至网络层2122a。基于所述图像的第i阶特征信息，可以得到所述第一特征信息，其中，所述图像的第i+1阶特征信息是通过对所述图像的第i阶特征信息进行特征提取处理得到的。

通过特征提取网络的最后一层网络的输出进行结合，则可以获得前景特征信息和背景特征信息。具体而言，特征提取网络211中的网络层2113b和2113a输出的第一特征信息和第二特征信息进行结合，则可以得到所述图像的前景特征信息；特征提取网络212中的网络层2123a和2123b输出的第一特征信息和第二特征信息进行结合，则可以得到所述图像的背景特征信息。

在一个示例中，特征提取网络211和212可以是resnet50主干网络。

在本公开实施例中，通过将掩膜图像的各阶特征信息与rgb图像的各阶特征信息共同作为下一级的输入，能够更好地结合rgb图像的特征和前景/背景图像的特征，提取特征提取的性能。

由于背景信息的变化与摄像头的运动密切相关，因此镜头运动方式主要是依据背景的运动来确定的。在一些实施例中，在所述目标类别包括镜头运动方式的情况下，可以根据所述多个视频片段的背景图像的各阶特征信息，获得背景差异信息；并根据所述多个视频片段的背景特征信息，以及背景差异信息，确定所述待处理视频流在镜头运动方式上的镜头分类结果。

以图2所示的视频分类方法为例，根据各个视频片段中的图像进行特征提取的特征提取网络212中，背景图像所对应的分支所包含的网络层2121b、2122b、2123b所输出的各阶初始特征信息，可以获得背景差异信息。在该背景差异信息的基础上，结合上述背景特征信息，共同确定所述待处理视频流在镜头运动方式上的镜头分类结果，能够进一步提高镜头运动方式分类结果的准确性。

在一些实施例中，可以利用以下方法获确定背景差异信息：获取第i视频片段的第m阶特征信息与第j视频片段的第m阶征信息之间的相似度，例如余弦相似度，以获得第m阶特征信息所对应的背景差异信息，其中，i,j为不大于所述待处理视频流所包含的视频片段数目的正整数，m为不大于所述特征提取网络的分支输出的特征信息的阶数的正整数；将各阶特征信息所对应的背景差异信息进行连接，获得所述背景差异信息。

在本公开实施例中，根据各个视频片段之间的背景差异信息，能够更准确地反映摄像头相对于背景的运动，从而提高对于镜头运动方式的镜头分类准确度。

在一些实施例中，可以利用主体掩膜生成网络对所述多个图像中每个图像进行主体掩膜提取处理，输出所述每个图像的主体掩膜。

在本公开实施例中，所述主体掩膜生成网络的网络层数小于第一数值。其中，所述第一数值根据对于运算效率和计算能力的要求具体确定。

常规的主体掩膜提取方法，也即显著性/注意力特征图提取方法，采用手动设计的可视化特征或者启发式先验(heuristicpriors)，这样的方法不能捕捉高层次的语义信息，使得预测得到的特征图不能满足要求。而预先训练的用于提出主体掩膜的深度神经网络通常具有超过50～100层，规模非常大，且考虑到计算消耗，也不便作为所设计的网络中的子模块来进行精细调节。另一方面，考虑到主体掩膜是基于像素的预测，而标注是视频级别的标注，由于由于鉴督信息过于薄弱且网络不能收敛，根据仅有景别特征标签的样本训练一个随机初始化的主体网络是不现实的。

为了达到性能和计算效率之间的平衡，本公开采用知识蒸馏(knowledgedistillation,kd)方法，其能够方便灵活地学习，达到相关技术在分类问题上的性能。

在一个示例中，所述主体掩膜生成网络可以是基于预先训练好的教师网络(例如，在mara10k上预先训练的r3net)学习得到的轻量学生网络(例如，6层的卷积神经网络)。其中，所述主体掩膜生成网络所包含的网络层的数目小于所述教师网络包含的网络层的数目。

在一些实施例中，可以利用该预先训练好的教师网络对本公开中的主体掩膜生成网络进行训练：通过所述教师网络对图像样本进行主体掩膜提取，获得第一样本主体掩膜；通过所述主体掩膜生成网络对所述图像样本进行主体掩膜提取，获得第二样本主体掩膜；根据所述第一样本主体掩膜和所述第样本主体掩膜之间的差异，对所述主体掩膜生成网络的参数进行调整。在第一样本主体掩膜和第二样本主体掩膜之间的差异小于设定阈值，或者迭代达到设定次数时，得到训练好的主体掩膜生成网络。其中，所述图像样本可以是通过样本集中的视频流样本获得的，并且标注了对应于目标类别的标注信息。

为了能够更好地从教师网络学习真实的数据分布，以及避免遗漏生成细节，所述主体掩膜生网络还可以利用生成对抗网络(generativeadversarialnetwork,gan)训练得到。其中，所述生成对抗网络包括所述主体掩膜生成网络和鉴别网络。所述训练的网络损失可以包括：第一损失，用于指示通过所述主体掩膜生成网络对图像样本进行处理生成的第一样本主体掩膜与所述图像样本的标注信息之间的差异；第二损失，用于指示所述鉴别网络对于所述鉴别网络的输入样本进行处理得到的分类结果与所述输入样本的标注之间的差异，其中，所述输入样本包括所述第一样本主体掩膜和所述教师网络对所述图像样本进行处理得到的第二样本主体掩膜，所述第一样本主体掩膜的标注信息指示生成图像，所述第二样本主体掩膜的标注信息指示真实图像。

具体地，可以通过所述教师网络对图像样本进行主体掩膜提取，获得第一样本主体掩膜；通过所述主体掩膜生成网络对所述图像样本进行主体掩膜提取，获得第二样本主体掩膜；利用预先训练好的鉴别网络对于所述第一样本主体掩膜和所述第二样本主体掩膜进行鉴别，获得分类结果，其中，所述第一样本主体掩膜的标注信息指示生成图像，所述第二样本主体掩膜的标注信息指示真实图像；所述鉴别网络被设置为以所述教师网络的输出为真，以所述主体掩膜生成网络的输出为假。根据所述第一样本主体掩膜和所述图像样本的标注信息之间的差异，以及用于指示所述鉴别网络对于所述鉴别网络的输入样本进行处理得到的分类结果与所述输入样本的标注之间的差异，对所述主体掩膜生成网络的参数进行调整。在上述差异小于设定阈值，或者迭代达到设定次数时，得到训练好的主体掩膜生成网络。

在本公开实施例中，通过生成对抗网络提供的额外的对抗损失，使主体掩膜生成网络能够更好地从教师网络学习真实的数据分布。

以下将对所述镜头分类网络的训练过程进行描述。其中，下文仍以目标分类包含景别和镜头运动方式为例描述该训练方法。应当理解的是，本公开的目标分类不局限于这两种，也可以包含其他的分类。

首先获取一定量的视频流，例如可以通过从网络下载电影预告片，并清除广告、较大的标题后来获得视频。

之后，对视频流进行镜头分类标注。在本公开实施例中，可以对景别和镜头运动方式同时进行标注。

图3a～3e示出了5个标注示例，根据主体在画面中所占的比例，将图3a～图3e视频流分别标注为特写、近景、中景、全景、远景。

在完成对于主体掩膜生成网络的单独训练后，接下来可以进入对于镜头分类网络的整体训练阶段，也即端对端训练的阶段。

首先，根据视频流样本获得多个图像样本，利用所述主体掩膜生成网络获取所述多个图像样本中的每个图像样本的第三样本主体掩膜，根据所述特征提取网络获得所述图像样本对于所述目标类别的特征信息，并根据所述特征信息预测所述视频流样本在所述目标类别上的分类结果，其中，所述视频流样本具有在所述目标类别上的标注信息。

接下来，利用所述教师网络获取所述图像样本的第四样本主体掩膜。

对所述镜头分类网络进行训练的网络损失包括：

第一损失，用于指示通过所述主体掩膜生成网络对图像样本进行处理生成的第三样本主体掩膜与所述图像样本对应的标注信息之间的差异；

第二损失，用于指示指示所述鉴别网络对于所述鉴别网络的输入样本进行处理得到的分类结果与所述输入样本的标注之间的差异，其中，所述输入样本包括所述第三样本主体掩膜和所述教师网络对所述图像样本进行处理得到的第四样本主体掩膜，所述第三样本主体掩膜的标注信息指示生成图像，所述第四样本主体掩膜的标注信息指示真实图像。

第三损失，用于指示通过所述镜头分类网络对所述视频流样本进行处理得到的分类结果与所述视频流样本的标注信息之间的差异。

在本公开实施例中，在完成对主体掩膜生成网络的单独训练后，再将所述主体掩膜生成网络与特征提取网络进行联合训练，可以进一步提高镜头分类网络的训练效果，提高对于镜头分类结果的预测准确度。

图4示出了本公开所提出的主体掩膜生成网络的处理效果与现有网络的对比图。其中，第一列的四张图像为输入图像，第二列为利用本公开所提出的主体掩膜生成网络对于输入图像进行处理，所生所主体掩膜，第三列为利用现有网络r3net-resnet50对于输入图像输入的主体掩膜。通过对比可见，本公所中训练得到的主体掩膜生成网络生成主体掩膜的噪声小且准确率高。

图5a～5d示出了对在测试集中每种镜头运动方式的变换特征图进行平均后的效果图。其中，图5a表示运动镜头，图5b表示推近镜头，图5c表示拉远镜头，图5d表示静止镜头。在本示例中，由于对整个视频分为了八个视频片段，因此变换特征图的尺寸是8x8，并且这些灰阶块表示视频片段之间的变换特征图的相似度。由图5a～5d可见，颜色越浅，表示相似度得分越低，说明所对应的两个视频片段之间具有显著的变化。

本公开至少一个实施例还提出了一种视频剪辑方法。视频剪辑是电影制作的核心艺术，其中镜头类型在传递内涵故事和情感。视频编辑者通常使用不同的镜头类型来传递情感和故事，这耗费了大部分的时间和资源。

有鉴于此，本公开至少一个实施例还提出了一种视频剪辑方法，基于基于所述待处理视频流在所述目标类别上的镜头分类结果，对所述待处理视频流进行视频剪辑处理，得到视频剪辑结果。例如，在确定了所述待处理视频流为中景镜头的情况下，也即确定了所述待处理视频流中所包含的多个原始图像的镜头类别为中景，通过对所述多个原始图像进行剪辑处理，从而得到视频剪辑结果。

图6示出了本公开实施例提出的一种视频剪辑方法的流程图，如图6所示，该方法包括步骤601～604。

在步骤601中，基于所述待处理视频流中的多个原始图像，得到至少一个候选图像集合，其中，每个候选图像集合包括至少一个候选图像。

在本公开实施例中，可以基于待处理视频流中的多个原始图像，得到一个或多个候选图像集合，每个候选图像集合包括至少一个候选图像。在一些实施例中，候选图像集合包括一个候选图像，该候选图像对应于多个原始图像中的一个原始图像，此时，作为一个例子，不同的候选图像集合可以对应于同一个原始图像，即基于多个原始图像中的同一个原始图像得到多个候选图像，作为另一个例子，可以基于多个原始图像中的至少两个原始图像，得到多个候选图像集合，其中，每个原始图像对应一个或多个候选图像。

在一些实施例中，候选图像集合包括多个候选图像，该多个候选图像可以对应于同一个原始图像或不同的原始图像，作为一个例子，可以基于同一个原始图像，得到一个候选图像集合中的多个候选图像，此时，如果有多个候选图像集合，不同的候选图像集合可以对应于不同的原始图像，作为另一个例子，可以基于多个原始图像中的至少两个原始图像，得到一个候选图像集合中的多个候选图像，其中，该多个候选图像可以是通过同一种策略基于所述至少两个原始图像得到的，例如，采用同一种裁剪方式对至少两个原始图像进行裁剪处理，得到多个候选图像，再例如，采用同一种选取策略从素材库选取该至少两个原始图像分别对应的候选图像，等等，该至少两个原始图像与多个候选图像可以是一对一或一对多关系，本公开实施例对此不做限定。

在本公开实施例中，可以通过多种方式得到候选图像集合。例如，通过对多个原始图像中的至少一个原始图像进行一种或多种处理，得到每个原始图像的候选图像。再例如，可以基于多个原始图像中的至少一个原始图像，按照一定策略以从素材库选取、从用户提供的多个素材图像中选取、从模板库中选取、或者网络爬取等方式获取候选图像集合中的至少一个候选图像，等等，一个候选图像集合中的至少一个候选图像可以是通过相同或不同的方式得到的，本公开实施例对此不做限定。此外，该至少一个候选图像集合可以是通过同一种方式得到的，例如，均通过图像裁剪处理得到的，也可以是通过不同方式得到的，例如，其中一部分候选图像集合是通过图像裁剪处理得到的，另一部分候选图像集合是通过从素材库或用户提供的图像中选取，本公开实施例对此不做限定。

在步骤602中，对所述至少一个候选图像集合中每个候选图像集合进行镜头分类处理，得到所述每个候选图像集合的镜头类别，例如包括景别、镜头运动方式、镜头焦距等等。

在一些实施例中，候选图像集合包括对应于同一个原始图像的一个或多个候选图像，此时，可选地，候选图像集合的镜头分类结果可以包括其中的每个候选图像的镜头分类结果。作为一个例子，一个候选图像的镜头分类结果可以通过将该候选图像复制多份，得到由该多个相同的候选图像得到的视频片段，然后利用本公开任一实施例提出的镜头分类方法对该视频片段进行镜头分类处理，得到该候选图像的镜头分类结果。或者，也可以通过其他方式得到一个候选图像的镜头分类结果，本公开实施例对此不做限定。

在一些实施例中，候选图像集合包括对应于不同原始图像的多个候选图像，此时，可选地，候选图像集合的镜头分类结果可以包括其中的每个候选图像的镜头分类结果，或者也可以包括该多个候选图像构成的一个或多个镜头片段中每个镜头片段的镜头分类结果。例如，候选图像集合包括多个原始图像中每个原始图像对应的一个候选图像，则可以基于该多个原始图像所属的镜头，将该多个候选图像划分为一个或多个镜头片段，但本公开实施例对此不做限定。

在步骤603中，基于所述至少一个候选图像集合的镜头分类结果，从所述至少一个候选图像集合中选取目标图像集合。

根据每个候选图像集合所包含的至少一个候选图像的镜头分类结果，可以从至少一个候选图像集合中确定所包含的各个候选图像的镜头分类结果符合预设标准的目标图像集合。

在步骤604中，根据所述待处理视频流在所述目标类别上的镜头分类结果，以及所述目标图像集合，得到所述待处理视频流的视频剪辑结果。

在本公开实施例中，基于待处理视频流中的多个原始图像，得到至少一个候选图像集合，并基于对每个候选图像集合进行镜头分类处理所得到的镜头分类结果，从所述至少一个候选图像集合中选取目标图像集合，得到所述待处理视频流的剪辑结果，从而实现了基于镜头分类的自动视频剪辑，提高了视频剪辑的效率。

在本公开实施例中，可以可选地通过以下方式根据所述待处理视频流在所述目标类别上的镜头分类结果，以及所述目标图像集合，得到所述待处理视频流的视频剪辑结果。

在一些实施例中，可以利用所述目标图像集合中的至少一个候选图像对所述多个原始图像中的至少一个原始图像进行替换处理，得到所述视频流的视频剪辑结果。

其中，可以利用目标图像集合中的一个候选图像对多个原始图像中的一个或多个原始图像进行替换处理，或者，也可以利用目标图像集合中的至少两个候选图像对多个原始图像中的部分或所有原始图像进行替换处理，其中，这里的替换处理可以是对整个原始图像的替换，或者是对原始图像的一部分的替换，例如，将原始图像中的特定部分所在区域(如目标对象所在区域或背景区域)的图像进行替换，本公开实施例对此不做限定。

在一个示例中，可以利用目标图像集中具有特定镜头类别的候选图像，对所述视频流中的一个或多个原始图像进行替换处理，例如，利用目标图像集合中的近景候选图像，对所述视频流中的中景原始图像进行替换处理，从而改变了视频流的镜头类别。

在一个示例中，所述目标图像集合中的候选图像可以是从素材库中选取的与各个原始图像相似度最高的素材图像，其中，这里的相似度较高可以指在特定类别上具有较高相似度，具有相同的镜头类别、或者具有相同的对象主体、或者具有相同的图像风格等等，或者是通过图像相似度模型确定的两个图像的相似度较高，本公开实施例对此不做限定。通过利用各个素材图像分别替换对应的原始图像，可快速生成与所述视频流具有相似构架的视频剪辑结果。

通过利用目标图像集合中的候选图像，对原始图像进行替换处理，可以使视频剪辑结果呈现与原视频流不同的效果和风格。

可选地，背景模板可以是基于剪辑视频风格信息所确定的，例如简洁的纯色背景；或者可以是特定场景下的背景模板，例如以大海、天空为背景的模板，或者是用户指定的，或者是通过其他方式确定的。通过将目标图像集合中的至少一个图像(可以是所述目标图像集合的全部或部分)与所述背景模板进行图像合成处理，可以得到不同效果、风格或者不同场景下的视频剪辑结果。

在一个示例中，所述背景模板是以海滩为背景的模板，所述目标图像集合中的图像为原始图像中的主体对象的近景图像，通过将所述目标图像集合中的近景图像与海滩背景模板进行合成处理，获得了所述主体对象在海滩场景下的视频剪辑结果。

在一个示例中，所述背景模板为纯白色背景模板，所述目标图像集合中的图像为原始图像中的主体对象的特写图像，通过将所述目标图像集合中的特写图像与纯白色背景模板进行合成处理，可以实现更加突出主体对象的效果。

本公开实施例还提出了另一种视频剪辑方法，所述方法基于所述待处理视频流在所述目标类别上的镜头分类结果，对所述待处理视频流中的前景图像进行视频合成处理，得到视频剪辑结果。

在一些实施例中，可以利用本公开任一实施例中所获得的目标图像集合，对所述所述待处理视频流中的前景图像进行视频合成处理，得到视频剪辑结果。

通过将目标图像集合中全部或部分的图像与所述原始图像所对应的前景图像进行图像合成处理，可以得到具有设定效果视频剪辑结果，例如相同的目标对像在同一图像的不同位置出现，或者对称呈现等等。

在一些实施例中，可以基于剪辑风格信息，对所述目标图像集合进行视频合成处理，得到所述视频流的视频剪辑结果。

所述剪辑风格信息包括但不限于简洁效果剪辑、节奏性效果剪辑等中的至少一种。

响应于所述剪辑风络信息指示简洁效果剪辑，在对于所述目标图像集合中的全部或部分图像进行视频合成处理时，可以跳跃性地选择所述目标集合中的图像，使得视频剪辑结果呈现简洁明快的效果。

响应于所述剪辑风格信息指示节奏性效果剪辑，在对于所述目标图像集合中的全部或部分图像进行视频合成处理时，可以使画面转换快的镜头和画面转换慢的镜头交替出现，从而造成观众心理情绪起伏的效果。

对于所述目标图像集合中的全部或部分图像，与所述原始图像对应的前景图像进行视频合成处理，可以得到新的视频流作为原始视频流的视频剪辑结果，所述视频剪辑结果可以呈现出与原视频流不同的效果和风格。

在本公开实施例中，可以通过以下方式基于视频流中的多个原始图像，得到至少一个候选图像集合。

在一些实施例中，可以通过对所述视频流的多个原始图像的处理，得到至少一个候选图像集合。其中，对所述原始图像的处理包括进行目标识别处理、关键点提取处理、裁剪处理等一种或多种。

在一些实施例中，可以基于对所述视频流的多个原始图像识别结果以及素材库，得到至少一个候选图像集合。

根据所述原始图像所对应的前景图像的识别结果，可以从素材库中选取相应的素材。例如，可根据识别出的原始图像的场景，从素材库中选取具有相同场景的素材图像，再例如，可根据识别出的原始图像的图像风格，从素材库中选取具有相同图像风格的素材图像，再例如，可根据识别出的原始图像的镜头类别，从素材库中选取与原始图像具有相同镜头类别的素材图像，再例如，可根据识别出的原始图像中主体对像的类型，从素材库中选取具有相同类型的主体对象的素材图像；再例如，可根据识别的原始图像中主体对象的属性信息，从素材库中选取与主体对象的属性相匹配的素材图像。比如，在识别出所述原始图像中的主体对象的面部轮廓的情况下，可根据该面部轮廓从素材库中选出与面部轮廓匹配的面部配件图像，例如眼镜图像、口罩图像等等。通过所述素材与所述原始图像结合，或者通过所述素材对所述原始图像进行处理，可以得到相应的候选图像，使所述候选图像呈现出与所述原始图像中的内容更加匹配和贴合的视觉效果。

在一些实施例中，可以通过对所述视频流的多个原始图像中每个原始图像进行裁剪处理，得到至少一个候选图像集合，其中，每个候选图像集合包括通过同一裁剪方式对所述多个原始图像中每个原始图像进行处理得到的结果图像。或者，针对于每个原始图像，可以通过不同裁剪方式进行处理得到多张候选图像，获得对应于每个所述原始图像的候选图像集合。

可以通过多种不同的裁剪方式分别对视频流的多个原始图像进行裁剪处理，得到至少一个候选图像集合，作为一个示例，所述同一裁剪方式，可以指基于相同的位置和/或相同的尺寸对所述多个原始图像进行裁剪。

在本公开实施例中，所述目标图像集合包含通过同一裁剪方式得到的结果图像，根据所述目标候选集合所得到的视频剪辑结果中各个图像的中以点位置稳定，实现了平衡舒适的效果。

对原始图像进行裁剪图像的方式可以通过多种方式确定。在一些实施例中，根据所述多个原始图像中每个原始图像中所包含的主体对像的位置信息，对所述每个原始图像进行多次裁剪处理，得到所述每个原始图像的至少一个候选图像。

在一些示例中，每个所述候选图像包含所述主体对象的至少一部分。例如，候选图像包括主体对象的整个区域，候选图像包括主体对象的主体区域，等等。

基于所述视频流中的每个原始图像可以确定多个裁剪区域(croppingregions)，所述多个裁剪区域可以包括不同尺寸、不同位置的图像区域，或者包括相同尺寸、不同位置的图像区域，等等。

在本公开一些实施例中，所述多个裁剪区域可以是根据主体对像的位置确定的，其中有些裁剪区域包含所述主体对象的全部或部分，有些裁剪区域不包含主体对象。根据所述多个裁剪区域对所述原始图像进行多次裁剪，可以得到每个原始图像的至少一个候选图像。

根据原始图像中所包含的主体对像的位置信息来确定候选图像，目的通常在于想要强调或突出所述主体对象。因此，可以根据各个候选图像是否包含主体对象，或者包含主体对象的质量来确定目标图像集合。

其中，在一些实施例中，所述主体对像包括以下中的至少一项：说话主体、动作主体、目标人物。该目标人物可以是某一个特定人物，或者是画面中面对镜头的人物，等等，本公开实施例对此不做限定。

在所述主体对像包括说话主体的情况下，所获得的至少一个候选图像是与所述原始图像的说话主体相关的，例如为包含了说话主体的至少一部分的候选图像。在此基础上，基于相应的目标图像集合所得到的视频剪辑结果，能够实现突出说话主体的效果；同理，在所述主体对像包括动作主体的情况下，相应的视频剪辑结果，能够实现突出动作主体的效果；而在所述主体对像包括目标人物的情况下，则可以突出目标人物。

本领域技术人员应当理解，以上主体对像仅为示例，也可以包括其他类型的、想要突出或强调的主体对像。

在本公开实施例中，可以基于所述至少一个候选图像集合的镜头分类结果，从所述至少一个候选图像集合中选取目标图像集合。

在一个示例中，可以基于预设剪辑策略对应的目标镜头类别，从所述至少一个候选图像集合中选取目标图像集合。

预设剪辑策略例如为关于主体对像的中景镜头之后，跟随关于所述主体对像的近景镜头；或者在远景镜头之间，利用中景镜头进行衔接，等等。根据所述预设剪辑策略对应的目标镜头类别，可以从至少一个候选图像集合中确定目标图像集合。

图7a和图7b分别示出了根据一种剪辑策略进行剪辑的原始图像和目标图像集合。如图7a所示，原始视频流所包含的四张原始图像均是中景镜头。利用在中景镜头之后，跟随关于所述主体对像的近景镜头这一剪辑策略，从所述原始图像所对应的至少一个候选图像集合中，将包含的目标镜头类别为中景-近景-中景-近景的候选图像集合，作为目标图像集合，如图7b所示。

图8a和图8b分别示出了根据另一种剪辑策略进行剪辑的原始图像和目标图像集合。如图8a所示，原始视频流所包含的四张原始图像均是远景镜头。利用在远景镜头之间，利用中景镜头进行衔接这一剪辑策略，从所述原始图像所对应的至少一个候选图像集合中，将包含的目标镜头类别为远景-中景-中景-远景的候选图像集合，作为目标图像集合，如图8b所示。

在本公开实施例中，通过利用预设剪辑策略对应的目标镜头类别来选取目标图像集合，能够自动对原始视频流剪辑进行剪辑，得到符合预期风格和效果的视频剪辑效果。

在一些实施例中，基于所述多个原始图像对应的目标镜头类别，从所述至少一个候选图像集合中选取目标图像集合。

在需要对原始图像的镜头类别进行变化时，可以对于原始图像设置对应的目标镜头类别。例如，在所述原始图像所对应的目标镜头类别为近景的情况下，可以从至少一个候选图像集合中，选取出所包含的候选图像为近景的目标图像集合。

在本公开实施例中，可以利用神经网络获得每个候选图像集合中的至少一个候选图像的预测镜头类别，并根据每个候选图像集合的预测镜头类别，从所述至少一个候选图像集合中选取目标图像集合。

在所述至少一个候选图像集合中存在至少两个候选图像集合的预测镜头类别相同的情况下，基于所述至少两个候选图像集合的预测置信度，选取所述目标图像集合。例如，选取预测置信度最高的候选图像集合作为目标图像集合。在所述候选图像是根据所述多个原始图像中每个原始图像中所包含的主体对像的位置信息获得的情况下，所述预测置信度与所述候选图像中所包含的主体对象有关。在候选图像未包含或者只包含了部分主体对象时，预测置信度相低较低；在候选图像包含了完整的主体对象，且主体对像在候选图像中的位置适当时，则预测置信度较高。

在所述目标图像集合中包括的候选图像是从所述原始图像裁剪得到的情况下，可以通过以下方式得到所述视频流的视频剪辑结果。

首先，确定所述目标图像集合包括的至少一个候选图像在所属的原始图像中的位置信息。所述候选图像在所属的原始图像中的位置信息，可以基于所述原始图像的像素点坐标进行描述，例如，对于尺寸为100*100(单位为像素)的原始图像、尺寸为10*10的候选图像，所述候选图像在所述原始图像中的中心点坐标为50*50。

基于所述位置信息，对所述目标图像集合中的至少一个候选图像进行平滑处理，得到处理图像集合，并基于所述处理图像集合，得到所述视频流的视频剪辑结果。

响应于所述目标图像集合中存在偏移图像，所述偏移图像在所属的原始图像中的位置与所述目标图像集合对应的参考位置之间的差异超过设定阈值，对所述偏移图像进行替换。

所述目标图像集合对应的参考位置可以是预先设置的，也可以是根据所述目标图像集合中的各个候选图像在所各自所属的原始图像中的平均位置确定的。

由于偏移图像在所属的原始图像中的位置与参考位置之间的差异超过设定阈值，所以偏移图像的中心点相较于其他候选图像产生了较大偏移，会导致视觉不连续，影响观看感受。通过从所述原始图像所对应的候选图像中选择其他候选图像来替换所述偏移图像，使得到的视频剪辑结果中各个图像的中心点位置平稳，提升了观看感受。

图9示出了本公开实施例所提出的视频剪辑方法的示意图。

如图9所示，首先对于原始图像900进行裁剪处理，得到包含候选图像的候选图像集合。

在本示例中，可以根据原始图像900中说话主体(在本示例中为女主角)的位置信息，确定多个裁剪区域，所述多个裁剪区域可以包括不同尺寸、不同位置的图像的图像区域。其中，有些裁剪区域包含了说话主体的全部或部分，有些裁剪区域不包含主体对象。根据所述多个裁剪区域对所述原始图像进行多次裁剪，可以获得与各个裁剪区域相对应的候选图像。在该示例中，根据原始图像900中说话主体的位置信息，对所述原始图像进行多次裁剪，得到了候选图像901～906。其中，候选图像901、903、905包含了说话主体的全部；候选图像902包含了说话主体的一部分；候选图像904、906中未包含说话主体。

利用镜头分类网络910，对于候选图像901～906分别获得关于景别的镜头分类结果，

以候选图像901为例，可以首先对候选图像901进行复制，得到多个相同的候选图像901。对于所述多个相同的候选图像901中的每个候选图像901，分别获得对应的前景图像；根据各个候选图像901以及对应的前景图像，得到候选图像901的预测景别。在本示例中，通过对候选图像进行复制并根据复制得到的多个候选图像共同确定镜头分类结果，可以提高镜头分类的准确性。

在本示例中，利用镜头分类网络910所得到的镜头分类结果，在预测景别之外还包括了预测置信度。所述预测置信度是根据候选图像中所包含的说话主体的完整程度，以及所述说话主体在所述候选图像中的比例、位置等等确定的。

如图9所示，候选图像901、902、906的预测镜头类别为中景，903、904为近景，905为特写。其中，由于候选图像902、904、906中，未包含说话主体，或者只包含了部分说话主体，预测置信度是很低的；而候选图像901、903、905中分别包含了完整的说话主体，预测置信度较高。

根据所述原始图像所对应的目标图像的目标镜头类别，则可以从候选图像901、903、905中确定目标候选图像。例如，所述原始图像对应的目标图像为近镜图像，则候选图像903为最终所确定的目标候选图像。

在本公开实施例中，通过根据候选图像的预测镜头类别以及预测置信度来确定目标图像集合，可以使视频剪辑结果更好地表达出真实意图。

本公开还提出了一种视频分类装置。图10示出了所述视频分类装置的结构示意图，所述视频分类装置包括所述装置包括：图像获取单元1001，用于获取待处理视频流对应的多个图像；掩膜获取单元1002，用于通过对所述多个图像中每个图像进行处理，得到所述每个图像的掩膜图像，其中，所述掩膜图像包括主体掩膜、前景图像、背景图像中的至少一种，所述主体掩膜包含指示所述图像的多个像素中每个像素为前景的概率的指示信息；分类单元1003，用于根据所述多个图像以及所述多个图像中每个图像的掩膜图像，得到所述待处理视频流在所述目标类别上的镜头分类结果。

在一些实施例中，所述目标类别包括景别；所述分类单元具体用于：根据所述多个图像以及所述多个图像中每个图像的前景图像，得到所述待处理视频流在景别上的镜头分类结果。

在一些实施例中，所述目标类别包括镜头运动方式；所述分类单元具体用于：根据所述多个图像以及所述多个图像中每个图像的背景图像，得到所述待处理视频流在镜头运动方式上的镜头分类结果。

在一些实施例中，所述分类单元具体用于：基于所述多个图像中每个图像以及所述每个图像的背景图像，获得所述多个图像的背景差异信息；根据所述背景差异信息，确定所述待处理视频在镜头运动状态上的分类结果。

在一些实施例中，所述多个图像对应于所述待处理视频流的多个视频片段，每个视频片段对应所述多个图像中至少一个图像；所述分类单元在基于所述多个图像中每个图像以及所述每个图像的背景图像，获得所述多个图像的背景差异信息时，具体用于：基于所述多个图像中每个图像以及所述每个图像的背景图像，得到所述每个图像的背景特征信息；根据所述多个视频片段中不同视频片段对应的多个图像的背景特征信息之间的差异，获得所述多个视频片段之间的背景差异信息。

在一些实施例中，所述分类单元具体用于：将所述多个图像以及所述多个图像的掩膜图像输入至镜头分类网络进行处理，输出所述待处理视频流在所述目标类别上的镜头分类结果。

在一些实施例中，所述分类单元在用于根据所述多个图像以及所述多个图像中每个图像的掩膜图像，得到所述待处理视频流在所述目标类别上的镜头分类结果时，具体用于：对所述多个图像中每个图像进行特征提取处理，得到第一特征信息，并对所述每个图像的掩膜图像到进行特征提取处理，得到第二特征信息；对所述多个图像中每个图像的所述第一特征信息和所述第二特征信息进行处理，得到所述待处理视频流在所述目标类别上的镜头分类结果。

在一些实施例中，所述第一特征信息和所述第二特征信息均包括n阶特征信息；所述分类单元在用于对所述多个图像中每个图像进行特征提取处理，得到第一特征信息时，具体用于：针对所述多个图像中的每个图像，对所述图像的所述第一特征信息中的第i-1阶特征信息进行特征提取，得到所述图像的第i阶初始特征信息；将所述图像的第i阶初始特征信息与所述第二特征信息中的第i阶特征信息进行融合处理，得到所述第一特征信息中的第i阶特征信息。

在一些实施例中，所述利用所述分类器对所述第一特征信息和所述第二特征信息进行处理，得到所述待处理视频流在所述目标类别上的镜头分类结果，包括：对每个图像的所述第一特征信息和所述第二特征信息进行连接处理，得到连接特征信息；基于所述多个图像中每个图像的连接特征信息，确定所述待处理视频在所述目标类别上的分类结果。

在一些实施例中，所述待处理视频流对应的多个图像包括：所述待处理视频流中的多个视频帧图像的至少一部分，或者所述待处理视频流对应的多个光流图像；和/或所述目标分类包括下列中的至少一种：景别和镜头运动方式。

在一些实施例中，所述通过对所述多个图像中每个图像进行处理，得到所述每个图像的掩膜图像，包括：利用主体掩膜生成网络对所述多个图像中每个图像进行主体掩膜提取处理，输出所述每个图像的主体掩膜。

在一些实施例中，所述主体掩膜生成网络的网络层数低于第一数值；和/或所述主体掩膜生成网络是基于预先训练好的教师网络进行训练得到的，其中，所述主体掩膜生成网络所包含的网络层的数目小于所述教师网络包含的网络层的数目。

在一些实施例中，所述主体掩膜生成网络是利用生成对抗网络gan训练得到的，其中，所述gan包括所述主体掩膜生成网络和鉴别网络，所述训练的网络损失包括：第一损失，用于指示通过所述主体掩膜生成网络对图像样本进行处理生成的第一样本主体掩膜与所述图像样本的标注信息之间的差异；第二损失，用于指示所述鉴别网络对于所述鉴别网络的输入样本进行处理得到的分类结果与所述输入样本的标注之间的差异，其中，所述输入样本包括所述第一样本主体掩膜和所述教师网络对所述图像样本进行处理得到的第二主体掩膜，所述第一样本主体掩膜的标注信息指示生成图像，所述第二样本主体掩膜的标注信息指示真实图像。

在一些实施例中，所述装置还包括第一剪辑单元，用于基于所述待处理视频流在所述目标类别上的镜头分类结果，对所述待处理视频流进行视频剪辑处理，得到视频剪辑结果。

在一些实施例中，所述装置还包括第二剪辑单元，用于基于所述待处理视频流在所述目标类别上的镜头分类结果，对所述待处理视频流中的前景图像进行视频合成处理，得到视频剪辑结果。

本公开还提供一种视频分类设备，如图11所示，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现任一实施例所述的方法。

本公开还提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现任一实施例所述的方法。

在本申请实施例中，计算机可读存储介质可以是多种形式，比如，在不同的例子中，所述机器可读存储介质可以是：ram(radomaccessmemory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合。特殊的，所述的计算机可读介质还可以是纸张或者其他合适的能够打印程序的介质。使用这些介质，这些程序可以被通过电学的方式获取到(例如，光学扫描)、可以被以合适的方式编译、解释和处理，然后可以被存储到计算机介质中。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：饶安逸;王佳泽;徐霖宁;蒋学锟;黄青虬;周博磊;林达华
技术所有人：商汤集团有限公司
我是此专利的发明人

上一篇：一种快速一体化拆卸扳手的制作方法
上一篇：信息交互方法、装置和终端设备与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。