视频边框识别方法及裁剪方法、装置、电子设备及介质与流程

文档序号：22315192发布日期：2020-09-23 01:39阅读：225来源：国知局

本公开涉及视频处理技术领域，具体涉及一种视频边框识别方法、一种视频边框裁剪方法、一种视频边框识别装置、一种视频边框裁剪装置、一种电子设备以及一种计算机可读存储介质。

背景技术：

一般地，用户在上传视频时，有的时候为了适应播放窗口的需要，例如，将原本满足横屏观看的原视频转换成需要满足竖屏观看的新视频，此时，需要用户或者平台向该原视频中添加一些边框以获得新视频，该新视频的尺寸比例会发生变化。传统地，向原视频中添加边框的形式一般包括向原视频中增加高斯模糊边框、或者纯色边框或者静态图片边框。

但是，在一些应用场景中(如消重处理)，我们需要找到并去除视频中所添加的一些边框，相关技术中对于视频边框的去除大多采用借助一些视频编辑软件手动去除视频中的一些边框。使用这种方法去除边框会耗费大量的人力和时间，同时还存在去除边框的标准不统一、质量不达标的问题。

技术实现要素：

本公开旨在至少解决现有技术中存在的技术问题之一，提供一种视频边框识别方法、一种视频边框裁剪方法、一种视频边框识别装置、一种视频边框裁剪装置、一种电子设备以及一种计算机可读存储介质。

本公开的一个方面，提供了一种视频边框识别方法，包括：

获取带有边框的目标视频；

对所述目标视频进行抽帧，得到多个帧图像；

根据所述多个帧图像，识别出所述目标视频的候选边框集合；

根据每个候选边框在对应的所述帧图像上的位置关系，从所述候选边框集合中选定至少一个候选边框作为所述目标视频的真实边框。

在一些可选地实施方式中，所述根据每个候选边框在对应的所述帧图像上的位置关系，从所述候选边框集合中选定至少一个候选边框作为所述目标视频的真实边框，包括：

确定每个所述候选边框朝向所述帧图像边缘一侧与对应的所述帧图像边缘之间的第一垂直距离；

若存在至少两个候选边框的所述第一垂直距离小于预设的第一阈值，则从所述至少两个候选边框中选定至少一个候选边框作为所述目标视频的真实边框。

在一些可选地实施方式中，所述从所述至少两个候选边框中选定至少一个候选边框作为所述目标视频的真实边框，包括：

若所述至少两个候选边框中的其中一个候选边框的所述第一垂直距离小于其余候选边框的所述第一垂直距离，则将所述其中一个候选边框作为所述目标视频的真实边框。

根据每个候选边框在对应的所述帧图像上的位置关系，确定每个所述候选边框与所述帧图像上其余的候选边框之间的重合度；

若存在至少两个候选边框的所述重合度小于预设的第二阈值，则从所述至少两个候选边框中选定至少一个候选边框作为所述目标视频的真实边框。

在一些可选地实施方式中，所述从所述至少两个候选边框中选定至少一个候选边框作为所述目标视频的真实边框，包括：

确定所述至少两个候选边框中每个所述候选边框背离所述帧图像边缘一侧与所述帧图像边缘之间的第二垂直距离；

若其中一个所述候选边框的第二垂直距离小于其余所述候选边框的第二垂直距离，则将所述其中一个候选边框作为所述目标视频的真实边框。

在一些可选地实施方式中，所述根据所述多个帧图像，识别出所述目标视频的候选边框集合，包括：

从所述多个帧图像中识别出所述目标视频的第一候选边框集合，第一候选边框包括高斯模糊边框和/或纯色边框；

从所述多个帧图像中识别出所述目标视频的第二候选边框集合，第二候选边框包括静态边框；

合并所述第一候选边框集合与所述第二候选边框集合，得到所述候选边框集合。

在一些可选地实施方式中，所述从所述多个帧图像中识别出所述目标视频的第一候选边框集合，包括：

采用预先训练的边框检测模型从所述多个帧图像中识别出所述目标视频的第一候选边框集合。

在一些可选地实施方式中，所述从所述多个帧图像中识别出所述目标视频的第二候选边框集合，包括：

采用帧差法从所述多个帧图像中识别出所述目标视频的第二候选边框集合。

在一些可选地实施方式中，所述从所述候选边框集合中选定至少一个候选边框作为所述目标视频的真实边框，还包括：

确定所述至少一个候选边框中是否存在文字信息；

根据用户的文字信息操作请求，对存在所述文字信息的候选边框进行调整，得到调整后的所述目标视频的所述真实边框，所述文字信息操作请求包括候选边框保留文字信息和/或候选边框丢弃文字信息。

本公开的另一个方面，还提供了一种视频边框的裁剪方法，包括：

根据前文记载的所述视频边框识别方法识别目标视频的真实边框；

裁剪所述真实边框。

本公开的另一个方面，还提供了一种视频边框识别装置，所述装置包括：

获取模块，用于获取带有边框的目标视频；

抽帧模块，用于对所述目标视频进行抽帧，得到多个帧图像；

边框识别模块，用于根据所述多个帧图像，识别出所述目标视频的候选边框集合；

选择模块，用于根据每个候选边框在对应的所述帧图像上的位置关系，从所述候选边框集合中选定至少一个候选边框作为所述目标视频的真实边框。

在一些可选地实施方式中，所述选择模块包括确定子模块和选择子模块，所述根据每个候选边框在对应的所述帧图像上的位置关系，从所述候选边框集合中选定至少一个候选边框作为所述目标视频的真实边框，包括：

所述确定子模块，用于确定每个所述候选边框朝向所述帧图像边缘一侧与对应的所述帧图像边缘之间的第一垂直距离；

所述选择子模块，用于若存在至少两个候选边框的所述第一垂直距离小于预设的第一阈值，则从所述至少两个候选边框中选定至少一个候选边框作为所述目标视频的真实边框。

在一些可选地实施方式中，所述从所述至少两个候选边框中选定至少一个候选边框作为所述目标视频的真实边框，包括：

所述选择子模块，用于若所述至少两个候选边框中的其中一个候选边框的所述第一垂直距离小于其余候选边框的所述第一垂直距离，将所述其中一个候选边框作为所述目标视频的真实边框。

所述确定子模块，还用于根据每个候选边框在对应的所述帧图像上的位置关系，确定每个所述候选边框与所述帧图像上其余的候选边框之间的重合度；

所述选择子模块，用于若存在至少两个候选边框的所述重合度大于预设的第二阈值，则从所述至少两个候选边框中选定至少一个候选边框作为所述目标视频的真实边框。

在一些可选地实施方式中，所述从所述至少两个候选边框中选定至少一个候选边框作为所述目标视频的真实边框，包括：

所述确定子模块，用于确定所述至少两个候选边框中每个所述候选边框背离所述帧图像边缘一侧与所述帧图像边缘之间的第二垂直距离；

所述选择子模块，用于若其中一个所述候选边框的第二垂直距离小于其余所述候选边框的第二垂直距离，则将所述其中一个候选边框作为所述目标视频的真实边框。

在一些可选地实施方式中，所述边框识别模块还包括第一识别子模块、第二识别子模块和合并子模块，所述根据所述多个帧图像，识别出所述目标视频的候选边框集合，包括：

所述第一识别子模块，用于从所述多个帧图像中识别出所述目标视频的第一候选边框集合，第一候选边框包括高斯模糊边框和/或纯色边框；

所述第二识别子模块，用于从所述多个帧图像中识别出所述目标视频的第二候选边框集合，第二候选边框包括静态边框；

所述合并子模块，用于合并所述第一候选边框集合与所述第二候选边框集合，得到所述候选边框集合。

在一些可选地实施方式中，所述第一识别子模块采用预先训练的边框检测模型从所述多个帧图像中识别出所述目标视频的第一候选边框集合。

在一些可选地实施方式中，所述第二识别子模块采用帧差法从所述多个帧图像中识别出所述目标视频的第二候选边框集合。

在一些可选地实施方式中，所述选择模块包括调整子模块，所述从所述候选边框集合中选定至少一个候选边框作为所述目标视频的真实边框，还包括：

所述确定子模块，用于确定所述至少一个候选边框中是否存在文字信息；

所述调整子模块，用于根据用户的文字信息操作请求，对存在所述文字信息的候选边框进行调整，得到调整后的所述目标视频的所述真实边框，所述文字信息操作请求包括候选边框保留文字信息和/或候选边框丢弃文字信息。

本公开的另一个方面，还提供了一种视频边框裁剪装置，所述装置包括：

识别模块，用于根据前文记载的所述视频边框识别方法识别视频的真实边框；

裁剪模块，用于裁剪所述真实边框。

本公开的另一个方面，还提供了一种电子设备，包括：

一个或多个处理器；

存储单元，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，能使得所述一个或多个处理器实现前文记载的视频边框识别方法或视频边框裁剪方法。

本公开的另一个方面，还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时能实现前文记载的视频边框识别方法或视频边框裁剪方法。

本公开实施例的一种视频边框识别方法及裁剪方法、装置、电子设备及介质，能够根据视频边框在对应的所述帧图像上的位置关系从多个视频边框中识别并裁剪视频的真实边框，具有识别精度高、效率高、耗时少等优势。

附图说明

图1为用于实现根据本公开一实施例的视频边框识别方法及裁剪方法、装置的示例电子设备的示意性框图；

图2为本公开另一实施例的视频边框识别方法的流程示意图；

图3为本公开另一实施例的帧图像中的候选边框示意图；

图4为本公开另一实施例的帧图像中的候选边框示意图；

图5为本公开另一实施例的帧图像中的候选边框示意图；

图6为本公开另一实施例的帧图像中的候选边框示意图；

图7为本公开另一实施例的步骤s140的流程示意图；

图8为本公开另一实施例的步骤s140的流程示意图；

图9为本公开另一实施例的步骤s130的流程示意图；

图10为本公开另一实施例的步骤s140的流程示意图；

图11为本公开另一实施例的帧图像中存在文字信息的候选边框示意图；

图12为本公开另一实施例的帧图像中保留文字信息后获得的真实边框示意图；

图13为本公开另一实施例的视频边框裁剪方法的流程示意图；

图14为本公开另一实施例的视频边框识别装置的结构示意图；

图15为本公开另一实施例的视频边框裁剪装置的结构示意图。

具体实施方式

为使本领域技术人员更好地理解本公开的技术方案，下面结合附图和具体实施方式对本公开作进一步详细描述。

首先，参照图1来描述用于实现本公开一实施例的视频边框识别方法及裁剪方法、装置的示例电子设备。

如图1所示，电子设备300包括一个或多个处理器310、一个或多个存储装置320、输入装置330、输出装置340等，这些组件通过总线系统和/或其他形式的连接机构350互连。应当注意，图1所示的电子设备的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器310可以是中央处理单元(cpu)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制所述电子设备中的其他组件以执行期望的功能。

所述存储装置320可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器可以运行所述程序指令，以实现下文所述的本公开实施例中(由处理器实现)的客户端功能以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如，所述应用程序使用和/或产生的各种数据等。

所述输入装置330可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置340可以向外部(例如用户)输出各种信息(例如图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

下面，将参考图2描述根据本公开另一实施例的视频边框识别方法。

如图2所示，一种视频边框识别方法s100，包括：

s110：获取带有边框的目标视频。

具体地，在本步骤中，根据实际需求从多个待识别的目标视频中选择带有边框的目标视频。示例性的，例如，可以根据用户的识别边框请求，从所需要识别边框的候选视频中选定一个或多个目标视频。除此以外，再例如，还可以根据系统指令，从一些候选视频中选定一个或多个目标视频等等，具体可以根据实际需要确定，本公开实施例对此并不限制。

s120：对所述目标视频进行抽帧，得到多个帧图像。

具体地，在本步骤中，可使用等间隔抽帧法或不等间隔抽帧法对所述目标视频进行抽帧处理。示例性的，在采用等间隔抽帧法时，可以每隔等时间或等帧数从所述目标视频中抽取一帧图像，例如每间隔15s抽取一帧图像，或者每间隔15帧数抽取一帧图像等。在采用非等间隔抽帧法时，则可以每间隔不等时间或不等帧数从所述目标视频中抽取一帧图像，例如相邻两帧的间隔帧数量可以依次增大或依次递减或采用随机数量等。当然，除此以外，本领域技术人员还可以根据实际需要，采用其他一些抽帧方式实现从所述目标视频中抽取得到多个帧图像，本公开实施例对此并不限制。

s130：根据所述多个帧图像，识别出所述目标视频的候选边框集合。

具体地，在本步骤中，可以通过图像识别方法分别识别出每个帧图像的候选边框，组成所述目标视频的候选边框集合。所述图像识别方法包括预先训练的边框检测模型、颜色差值方法、拉普拉斯变换、帧差法等。当然，除此以外，本领域技术人员还可以根据实际需要，采用其他一些方法从所述多个帧图像中识别出候选边框集合，本公开实施例对此并不限制。

此外，在一帧图像中，识别出其所存在的候选边框的位置可能位于帧图像的不同区域处。示例性的，如图3所示，帧图像上存在三个候选边框和一个图像区域，其中，候选边框b位于帧图像的上边缘区域处，候选边框a和候选边框c位于帧图像的下边缘区域处，图像区域s1位于帧图像的中央区域处。又一示例性的，如图4所示，帧图像上存在三个候选边框和一个图像区域，其中，候选边框d和候选边框e位于帧图像的下边缘区域，候选边框f位于帧图像的上边缘区域处，图像区域s2位于帧图像的中央区域处。又一示例性的，如图5所示，帧图像上存在两个候选边框和一个图像区域，其中，候选边框i和候选边框j分别位于帧图像的左、右两个边缘区域处，图像区域s3位于帧图像的中央区域处。又一示例性的，如图6所示，帧图像上存在四个候选边框和一个图像区域，其中，候选边框k、候选边框l、候选边框m和候选边框n分别位于帧图像的上、下、左、右四个边缘区域处，图像区域s4位于帧图像的中央区域处。当然，帧图像上存在的候选边框的位置并不局限于此，例如，候选边框的位置可以仅仅位于帧图像的一个边缘位置，如上边缘区域等，或者候选边框的位置也可以位于帧图像的上边缘区域和左边缘区域处等等。

s140：根据每个候选边框在对应的所述帧图像上的位置关系，从所述候选边框集合中选定至少一个候选边框作为所述目标视频的真实边框。

具体地，在本步骤中，示例性的，假设存在多个帧图像(例如，所有帧图像的80％)在同一个位置处均检测到存在候选边框，则可以确定目标视频的该位置处存在真实边框。此外，示例性的，一并结合图3，一帧图像上下边缘区域处检测出了候选边框a和候选边框c，此时，候选边框c可能并不是目标视频的真实边框，需要根据候选边框c和候选边框a在帧图像上的位置关系，将候选边框c剔除，以便选定候选边框a为目标视频的真实边框。当然，除此以外，本领域技术人员还可以根据候选边框在对应帧图像上的位置关系，选择其他一些方式确定出目标视频的真实边框，本公开实施例对此并不限制。

本公开实施例的视频边框识别方法，通过比较多个候选边框在对应的帧图像上的位置关系，从多个候选边框中选取目标视频的真实边框，能够准确的从多个候选边框中选取出真实边框，提高视频边框识别精度。此外，图像的位置关系可通过图像的坐标得到，比较位置关系的运算简单，能够有效提高视频边框识别的效率。

根据前文记载，如图3至图6所示，帧图像上在不同的边缘区域处均可能存在候选边框，每一个候选边框均是具有一定尺寸的方形框，并且，候选边框与帧图像边缘之间可能存在一定的距离。此外，帧图像上所检测出的候选边框并不一定是目标视频上所存在的真实边框，示例性的，如图3所示，帧图像中下边缘区域处识别出候选边框a和候选边框c这两个候选边框，显然，候选边框c属于误检测出的边框，当然误检识别出的候选边框位置并不局限于此。另一示例性的，如图4所示，帧图像中下边缘区域也同样识别出候选边框d和候选边框e这两个候选边框，显然，候选边框d和候选边框e重合度比较高，应当筛除候选边框e，也就是说，候选边框e也属于误检测出的候选边框。

下文将分别以图3和图4作为一种具体示例阐述如何消除候选边框误检以获得真实边框的边框选择过程，但本公开实施例并不以此为限。

首先，以图3作为一种具体示例阐述如何消除候选边框误检以获得真实边框的边框选择过程。

示例性的，如图7所示，步骤s140具体包括：

s141：确定每个所述候选边框朝向所述帧图像边缘一侧与对应的所述帧图像边缘之间的第一垂直距离。

具体地，在本步骤中，一并结合图3，候选边框a朝向帧图像边缘一侧与帧图像边缘之间具有第一垂直距离l1，候选边框c朝向帧图像边缘一侧与帧图像边缘之间具有第一垂直距离l2，应当理解的是，实际上候选边框a与帧图像边缘之间的第一垂直距离l1为零，也就是说，候选边框a的一个边与帧图像边缘重合。

此外，在本步骤中，对于如何获得候选边框与帧图像边缘之间的第一垂直距离并没有作出限定。示例性的，可以根据候选边框朝向所述帧图像边缘一侧的边框边缘像素的坐标和帧图像边缘像素坐标得到第一垂直距离。当然，除此以外，本领域技术人员还可以根据实际需要，选择其他一些方式获得第一垂直距离，本公开实施例对此并不限制。

应当理解的是，由于帧图像具有多个边缘，本步骤中，所述帧图像边缘为距离所述候选边框最近的帧图像边缘，也就是说，如图3所示，对于候选边框c而言，该候选边框的下边与帧图像下边缘之间的距离为第一垂直距离，并不是候选边框c的上边与帧图像上边缘之间的距离。

s142：若存在至少两个候选边框的所述第一垂直距离小于预设的第一阈值，则从所述至少两个候选边框中选定至少一个候选边框作为所述目标视频的真实边框。

具体地，在本步骤中，所述预设的第一阈值根据实际情况设置，可以为具体的数值，例如0.5cm、1cm、1.5cm等；也可为帧图像尺寸的固定比例值，例如图像尺寸的0.5％、1％、2％等，若所述候选边框为上下边框，则所述第一阈值为所述帧图像高度尺寸的固定比例值，若所述候选边框为左右边框，则所述第一阈值为所述帧图像宽度尺寸的固定比例值，例如针对帧图像尺寸为640x480dpi、所述固定比例值为1％的图像，若所述候选边框为上下边框，则所述第一阈值为4.8dpi，若所述候选边框为左右边框，则所述第一阈值为6.4dpi。

示例性的，步骤s142具体包括：

具体地，如图3所示，图中候选边框a与帧图像边缘之间具有第一垂直距离l1，候选边框c与帧图像边缘之间具有第一垂直距离l2，显然，第一垂直距离l1小于第一垂直距离l2，则将候选边框a作为目标视频的真实边框。

本实施例的视频边框识别方法，在多个候选边框第一垂直距离满足预设的第一阈值条件时，进一步通过比较多个候选边框的第一垂直距离的大小，判断所述候选边框与所述帧图像边缘的位置关系，选取距离所述帧图像边缘最近的候选边框作为目标视频的真实边框，有效识别出候选边框中距离帧图像边缘较远的误检候选边框，提高视频边框识别的准确度。

其次，以图4作为另一种具体示例阐述如何消除候选边框误检以获得真实边框的边框选择过程。

示例性的，如图8所示，步骤s140具体包括：

s143：根据每个候选边框在对应的所述帧图像上的位置关系，确定每个所述候选边框与所述帧图像上其余的候选边框之间的重合度。

具体为，在本步骤中，可以根据每个候选边框在对应帧图像上的像素坐标得到所述位置关系，通过分别比较多个候选边框之间像素坐标的重合比例来判断重合度。当然，除此以外，本领域技术人员还可以根据实际需要，选择其他方式计算得到候选边框之间的重合度，本公开实施对此并不限制。

s144：若存在至少两个候选边框的所述重合度大于预设的第二阈值，则从所述至少两个候选边框中选定至少一个候选边框作为所述目标视频的真实边框。

具体地，在本步骤中，判断所述像素坐标的重合比例是否大于预设的第二阈值，则从所述至少两个候选边框中选定至少一个候选边框作为所述目标视频的真实边框。所述预设的第二阈值根据实际情况设置的数值，例如可以为90％、80％、60％等，示例性的，本实施例中预设的第二阈值取值80％。

示例性的，如图4所示，图中候选边框d和候选边框e之间的重合度较高，两者之间的重合度已经超过了第二阈值，此时，则需要从候选边框d和候选边框e中选择至少一个候选边框作为所述目标视频的真实边框。

具体地，若存在至少两个候选边框的所述重合度大于预设的第二阈值，则确定所述至少两个候选边框中每个所述候选边框背离所述帧图像边缘一侧与所述帧图像边缘之间的第二垂直距离。

示例性的，在本步骤中，可以根据候选边框背离所述帧图像边缘一侧的边框边缘像素的坐标和帧图像边缘像素坐标得到第二垂直距离。当然，除此以外，本领域技术人员还可以根据实际需要，选择其他一些方式获得第二垂直距离，本公开实施例对此并不限制。

示例性的，如图4所示，候选边框d背离帧图像边缘一侧与帧图像边缘之间具有第二垂直距离l8，候选边框e背离帧图像边缘一侧与帧图像边缘之间具有第二垂直距离l7。此外，在本步骤中，对于如何获得候选边框与帧图像边缘之间的第二垂直距离并没有作出限定。示例性的，可以同样根据候选边框背离所述帧图像边缘一侧的边框边缘像素的坐标和帧图像边缘像素坐标得到第二垂直距离。当然，除此以外，本领域技术人员还可以根据实际需求，选择其他一些方式获得第二垂直距离，本公开实施例对此并不限制。

同样应当理解的是，由于帧图像具有多个边缘，本步骤中，所述帧图像边缘为距离所述候选边框最近的帧图像像素，也就是说，如图4所示，对于候选边框d而言，该候选边框的上边与帧图像下边缘之间的距离为第二垂直距离。

若其中一个所述候选边框的第二垂直距离小于其余所述候选边框的第二垂直距离，则将所述其中一个候选边框作为所述目标视频的真实边框。

具体地，如图4所示，图中候选边框d与帧图像边缘之间具有第二垂直距离l8，候选边框e与帧图像边缘之间具有第二垂直距离l7，第二垂直距离l8小于第二垂直距离l7，则将候选边框d作为目标视频的真实边框。

本实施例的视频边框识别方法，在多个候选边框的重合度满足预设的第二阈值的情况下，进一步通过比较多个候选边框的第二垂直距离来选取真实边框，也就是说，从重合度较高的多个候选边框中选取距离帧图像边缘较近的候选边框作为真实边框，在保证边框识别的效率的同时提高识别的准确率。

示例性的，如图9所示，步骤s130具体包括：

s131：从所述多个帧图像中识别出所述目标视频的第一候选边框集合，第一候选边框包括高斯模糊边框和/或纯色边框。

具体的，在本步骤中，示例性的，可采用预先训练的边框检测模型从所述多个帧图像中识别出所述目标视频的第一候选边框集合，该边框检测模型可以准确识别帧图像上的高斯模糊边框和纯色边框，至于如何训练获得边框检测模型并没有作出限定，示例性的，可以通过建立大量带边框的训练视频进行机器学习，从而获得精准的边框检测模型。当然，除此以外，本领域技术人员还可以根据实际需要，选择其他一些方式获得所述边框检测模型，本公开实施例对此并不限制。

s132：从所述多个帧图像中识别出所述目标视频的第二候选边框集合，第二候选边框包括静态边框。

具体的，在本步骤中，示例性的，可采用预先训练的边框检测模型从所述多个帧图像中识别出所述目标视频的第一候选边框集合，所述帧差法具体为通过比较相邻两个帧图像的像素灰度得到所述两个帧图像相同区域，作为静态边框区域。除此以外，本领域技术人员还可以根据实际需要，选择其他一些方法识别第二候选边框，本公开实施例对此并不限制。

s133：合并所述第一候选边框集合与所述第二候选边框集合，得到所述候选边框集合。

具体的，在本步骤中，将通过不同方法识别得到的第一候选边框集合与所述第二候选边框集合做并集合并得到所述候选边框集合。

本实施例的视频边框识别方法，通过使用多种不同的方法来识别多个帧图像中的边框，确保能够准确识别出多种类型的边框，避免因识别方法与被识别图像匹配适用性差而导致候选边框识别不全、从候选边框中选取的真实边框不正确的情况，提高了视频边框识别的准确性。

应当理解的是，为了简化从多帧图像中识别候选边框的工作量，可以首先将多帧图像全部依次输入至边框检测模型，检测出高斯模糊边框和纯色边框。之后，采用帧差法从多帧图像中识别出静态边框，不难理解，在静态边框的识别过程中，对于一帧图像中已经存在高斯模糊边框或纯色边框的位置处，不再采用帧差法进行检测，显然，这样可以大大提高帧差法检测静态边框的效率，并能够极大降低帧差法识别静态边框的工作量。

在一些可能的实施方式中，步骤s130所识别出的候选边框除了如图3至图6以外，还可能具有如图11所示的情况存在，也就是说，步骤s130所识别出的候选边框可能会带有文字信息，如图11所示，帧图像中下边缘区域处识别出的候选边框f中带有文字信息g，如“来感受高端玩家的精彩操作”。

下文将详细描述如何识别候选边框是否存在文字信息，以及对存在文字信息的边框进行何种处理，以期获得符合用户期望的目标视频的真实边框。

示例性的，如图10所示，步骤s140具体还包括：

s145：确定所述至少一个候选边框中是否存在文字信息。

具体地，在本实施例中，所述文字信息可以为字幕信息，例如，在一节电影视频中，会在帧图像的边缘区域实时显示字幕。再例如，文字信息也可以为弹幕信息，例如，在一节电影中，会在帧图像的某个区域处显示用户所输入的弹幕信息，如“666，太精彩了”、“我喜欢吃臭豆腐”等等。对于帧图像中所存在的这些文字信息，可以采用已经成熟的文字识别方法确定所述候选框中是否存在文字信息，如ocr文字识别方法等，本公开实施例对此并不限制。

s146：根据用户的文字信息操作请求，对存在所述文字信息的候选边框进行调整，得到调整后的所述目标视频的所述真实边框，所述文字信息操作请求包括候选边框保留文字信息和/或候选边框丢弃文字信息。

具体地，在本步骤中，对于存在文字信息的候选边框，用户可能希望检测出的真实边框中不存在文字信息，如图12所示，当然，用户也可能希望检测出的真实边框中存在文字信息，如图11所示。因此，根据用户这两种选择，可以生成相应的文字信息操作请求，如对应于如图11所示的情形，该文字信息操作请求为候选边框保留文字信息，相应的，对应于如图12所示的情形，该文字信息操作请求为候选边框丢弃文字信息。对于如何接收用户的文字信息操作请求并没有作出限定，示例性的，可以通过键盘、鼠标、触摸显示屏幕、语音设备等方式实现接收，但本公开实施例并不以此为限。此外，除了通过上述根据用户选择来生成用户的文字信息操作请求，还可以通过设置默认规则来生成用户的文字信息操作请求，例如默认候选边框丢弃文字信息或候选边框保留文字信息。

示例性的，如图11所示，帧图像中存在两个候选边框和一个图像区域s5，候选边框f中存在文字信息g，候选边框o中不存在文字信息。边框o中不存在文字信息，不在本步骤中进行调整，在用户的文字信息操作请求为候选边框保留文字信息时，则候选边框f不做调整，可以直接将候选边框f和候选边框o作为目标视频的真实边框。

反之，在用户的文字信息操作请求为候选边框丢弃文字信息时，对于候选边框o仍不做调整，但是候选边框f需要进行调整。此时，可以缩小候选边框f，直至候选边框f中不存在文字信息g，如图12所示，得到调整后的所述目标视频的真实边框h。

本实施例的视频边框识别方法，通过对文字信息的保留与放弃来选择性的调整候选边框的大小，使得候选边框能够根据对文字信息的操作请求来自适应的调整目标视频真实边框的大小，提高边框识别的实用性和用户使用友好度。

下面，结合图13描述本公开另一实施例的一种视频边框裁剪方法s200，所述方法包括：

s210：采用视频边框识别方法识别目标视频的真实边框。

具体地，在本步骤中，可以采用前文记载的视频边框识别方法识别目标视频所存在的真实边框，具体可以参考前文相关记载，在此不作赘述。

s220：裁剪所述真实边框。

具体地，在本步骤中，对于如何裁剪真实边框并没有作出限定，示例性的，在检测到目标视频的真实边框后，可以根据真实边框尺寸自动调整目标视频的尺寸，从而可以生成不带边框的新视频。

本实施例的视频边框裁剪方法，采用前文记载的视频边框识别方法，其通过比较多个候选边框在对应的帧图像上的位置关系，可以从多个候选边框中准确确定出目标视频的真实边框。这样，在裁剪所述真实边框后，可以得到准确的不含边框的新视频，提高目标视频边框裁剪的精度。

下面，结合图14描述本公开另一实施例的一种视频边框识别装置100，该装置可以应用于前文记载的视频边框识别方法，具体内容可以参考前文相关记载，在此不作赘述。所述装置包括获取模块110、抽帧模块120、边框识别模块130和选择模块140，具体的：

所述获取模块110，用于获取带有边框的目标视频。

所述抽帧模块120，用于对所述目标视频进行抽帧，得到多个帧图像。

所述边框识别模块130，用于根据所述多个帧图像，识别出所述目标视频的候选边框集合。

所述选择模块140，用于根据每个候选边框在对应的所述帧图像上的位置关系，从所述候选边框集合中选定至少一个候选边框作为所述目标视频的真实边框。

本公开实施例的视频边框识别装置，通过比较多个候选边框在对应的帧图像上的位置关系，从多个候选边框中选取目标视频的真实边框，能够准确的从多个候选边框中选取出真实边框，提高视频边框识别精度。此外，图像的位置关系可通过图像的坐标得到，比较位置关系的运算简单，能够有效提高视频边框识别的效率。

示例性的，如图14所示，所述选择模块140包括确定子模块141和选择子模块142，所述根据每个候选边框在对应的所述帧图像上的位置关系，从所述候选边框集合中选定至少一个候选边框作为所述目标视频的真实边框，包括：

所述确定子模块141，用于确定每个所述候选边框朝向所述帧图像边缘一侧与对应的所述帧图像边缘之间的第一垂直距离；

所述选择子模块142，用于若存在至少两个候选边框的所述第一垂直距离小于预设的第一阈值，则从所述至少两个候选边框中选定至少一个候选边框作为所述目标视频的真实边框。

示例性的，如图14所示，所述从所述至少两个候选边框中选定至少一个候选边框作为所述目标视频的真实边框，包括：

所述选择子模块142，用于若所述至少两个候选边框中的其中一个候选边框的所述第一垂直距离小于其余候选边框的所述第一垂直距离，将所述其中一个候选边框作为所述目标视频的真实边框。

示例性的，如图14所示，所述根据每个候选边框在对应的所述帧图像上的位置关系，从所述候选边框集合中选定至少一个候选边框作为所述目标视频的真实边框，包括：

所述确定子模块141，还用于根据每个候选边框在对应的所述帧图像上的位置关系，确定每个所述候选边框与所述帧图像上其余的候选边框之间的重合度；

所述选择子模块142，用于若存在至少两个候选边框的所述重合度大于预设的第二阈值，则从所述至少两个候选边框中选定至少一个候选边框作为所述目标视频的真实边框。

示例性的，如图14所示，所述从所述至少两个候选边框中选定至少一个候选边框作为所述目标视频的真实边框，包括：

所述确定子模块141，用于确定所述至少两个候选边框中每个所述候选边框背离所述帧图像边缘一侧与所述帧图像边缘之间的第二垂直距离；

所述选择子模块142，用于若其中一个所述候选边框的第二垂直距离小于其余所述候选边框的第二垂直距离，则将所述其中一个候选边框作为所述目标视频的真实边框。

示例性的，如图14所示，所述边框识别模块130还包括第一识别子模块131、第二识别子模块132和合并子模块133，所述根据所述多个帧图像，识别出所述目标视频的候选边框集合，包括：

所述第一识别子模块131，用于从所述多个帧图像中识别出所述目标视频的第一候选边框集合，第一候选边框包括高斯模糊边框和/或纯色边框；

所述第二识别子模块132，用于从所述多个帧图像中识别出所述目标视频的第二候选边框集合，第二候选边框包括静态边框；

所述合并子模块133，用于合并所述第一候选边框集合与所述第二候选边框集合，得到所述候选边框集合。

在一些可选地实施方式中，所述第一识别子模块采用预先训练的边框检测模型从所述多个帧图像中识别出所述目标视频的第一候选边框集合。

在一些可选地实施方式中，所述第二识别子模块采用帧差法从所述多个帧图像中识别出所述目标视频的第二候选边框集合。

示例性的，如图14所示，所述选择模块140包括调整子模块143，所述从所述候选边框集合中选定至少一个候选边框作为所述目标视频的真实边框，包括：

所述确定子模块141，用于确定所述至少一个候选边框中是否存在文字信息；

所述调整子模块143，用于根据用户的文字信息操作请求，对存在所述文字信息的候选边框进行调整，得到调整后的所述目标视频的所述真实边框，所述文字信息操作请求包括候选边框保留文字信息和/或候选边框丢弃文字信息。

本实施例中提供的视频边框识别装置，能够通过比较多个候选边框在对应的帧图像上的位置关系，从多个候选边框中选取目标视频的真实边框，有效识别出候选边框中距离帧图像边缘较远的误检候选边框，以及从重合度较高的多个候选边框中选取距离帧图像边缘较近的候选边框作为真实边框，并根据对文字信息的操作请求自适应地调整目标视频真实边框的大小，实现准确性高、识别效率高、实用性强和用户使用友好度高的视频边框识别。

下面，结合图15描述本公开的另一实施例一种视频边框裁剪装置200，所述装置包括识别模块210和裁剪模块220，具体的：

所述识别模块210，用于根据前文记载的视频边框识别方法识别视频的真实边框。

所述裁剪模块220，用于裁剪所述真实边框。

本实施例的视频边框裁剪装置，采用前文记载的视频边框识别装置，其能够通过比较多个候选边框在对应的帧图像上的位置关系，可以从多个候选边框中准确确定出目标视频的真实边框，这样，在裁剪所述真实边框后，可以得到准确的不含边框的新视频，提高目标视频边框裁剪的精度。

进一步的，本实施例中还公开了一种电子设备，包括：

一个或多个处理器；

进一步的，本实施例中还公开了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时能实现前文记载的视频边框识别方法或视频边框裁剪方法。

其中，计算机可读介质可以是本公开的装置、设备、系统中所包含的，也可以是单独存在。

其中，计算机可读存储介质可是任何包含或存储程序的有形介质，其可以是电、磁、光、电磁、红外线、半导体的系统、装置、设备，更具体的例子包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、光纤、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件，或它们任意合适的组合。

其中，计算机可读存储介质也可包括在基带中或作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码，其具体的例子包括但不限于电磁信号、光信号，或它们任意合适的组合。

可以理解的是，以上实施方式仅仅是为了说明本公开的原理而采用的示例性实施方式，然而本公开并不局限于此。对于本领域内的普通技术人员而言，在不脱离本公开的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本公开的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周杰;王长虎
技术所有人：北京字节跳动网络技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。