信息植入区域的识别方法、装置、存储介质及电子设备与流程

文档序号：23339657发布日期：2020-12-18 16:34阅读：123来源：国知局

本发明涉及计算机技术领域，具体而言，涉及一种信息植入区域的识别方法、信息植入区域的识别装置、计算机存储介质及电子设备。

背景技术：

随着信息电子化的逐步成熟，广告从最初的印刷广告逐渐演变为电子媒体广告，以电视广告为例，广告商为了提高产品的用户触达率，可以将自己的产品广告植入到电视视频中，使得观看电视视频的用户可以看到植入的产品广告，获取广告信息。

目前，向视频中植入广告的一种新型技术为视频软植入广告的方法，具体是在获取视频后，通过人工筛选、标注广告位置进行广告植入，由于视频内容的多样性和不确定性，通过人工识别视频中的可植入区域以及植入时长，将耗费大量的人力，严重影响生产效率和成品率。

鉴于此，本领域亟需开发一种新的信息植入区域的识别方法。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现要素：

本发明的实施例提供了一种信息植入区域的识别方法、信息植入区域的识别装置、计算机存储介质及电子设备，进而至少在一定程度上可以减少人工筛选和标注所耗费的时间，减少人工成本，提高生产效率和成品率。

本发明的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

根据本发明实施例的一个方面，提供了一种信息植入区域的识别方法，包括：获取待处理视频，对所述待处理视频进行切分以获取多个视频分片；从各所述视频分片中确定待识别图像帧，并对所述待识别图像帧中的像素进行分类，以获取所述待识别图像帧中的像素类型；根据所述像素类型确定所述待识别图像帧中是否存在目标对象；当所述待识别图像帧中存在所述目标对象时，根据预设规则获取所述视频分片中包含所述目标对象的帧序列段，并将所述帧序列段中所述目标对象所在的位置作为信息植入区域。

根据本发明实施例的一个方面，提供了一种信息植入区域的识别装置，包括：视频切分模块，用于获取待处理视频，对所述待处理视频进行切分以获取多个视频分片；像素分类模块，用于从各所述视频分片中确定待识别图像帧，并对所述待识别图像帧中的像素进行分类，以获取所述待识别图像帧中的像素类型；对象判断模块，用于根据所述像素类型确定所述待识别图像帧中是否存在目标对象；区域确定模块，用于当所述待识别图像帧中存在所述目标对象时，根据预设规则获取所述视频分片中包含所述目标对象的帧序列段，并将所述帧序列段中所述目标对象所在的位置作为信息植入区域。

在本发明的一些实施例中，基于前述方案，所述视频切分模块包括：特征提取单元，用于从所述待处理视频中提取目标特征；相似度识别单元，用于对相邻图像帧进行相似度算法识别，并根据识别结果对所述待处理视频进行切分，以获取所述多个视频分片。

在本发明的一些实施例中，基于前述方案，所述相似度比对单元配置为：计算所述相邻图像帧中的目标特征之间的距离，并根据所述距离进行所述相似度算法识别；当所述距离小于预设距离阈值时，所述相邻图像帧属于同一个视频分片；当所述距离大于或等于所述预设距离阈值时，所述相邻图像帧属于不同的视频分片。

在本发明的一些实施例中，所述视频分片为静止视频分片；基于前述方案，所述像素分类模块配置为：将所述静止视频分片中的任意一帧作为所述待识别图像帧。

在本发明的一些实施例中，所述视频分片为运动视频分片；基于前述方案，所述像素分类模块配置为：将所述视频分片中的第一帧作为起始帧，计算相邻图像帧中像素的运动量；若存在第一目标图像帧中像素的运动量大于或等于第一预设运动量阈值，则将所述起始帧和所述第一目标图像帧作为所述待识别图像帧。

在本发明的一些实施例中，基于前述方案，所述像素分类模块包括：像素分类单元，用于将所述待识别图像帧输入至深度编码器解码器网络模型，通过所述深度编码器解码器网络模型对所述待识别图像帧进行编码和解码处理，以对所述待识别图像帧中的像素进行分类，并获取所述待识别图像帧中的像素类型。

在本发明的一些实施例中，所述深度编码器解码器网络模型包括级联的编码器和解码器；基于前述方案，所述像素分类单元配置为：通过所述编码器对所述待识别图像帧进行由低层到高层的卷积，以获取多个特征；将所述多个特征进行整合，以形成编码特征；通过所述解码器对所述编码特征进行上采样，以获取与所述待识别图像帧大小相同的像素分类信息，所述像素分类信息包括像素类型。

在本发明的一些实施例中，基于前述方案，所述对象判断模块配置为：根据所述待识别图像帧中像素的像素类型确定待处理对象；获取所述待处理对象在所述待识别图像帧中的面积占比；将所述面积占比与预设占比阈值比较，根据比较结果确定所述目标对象；若存在目标待处理对象对应的面积占比大于所述预设占比阈值，则将所述目标待处理对象作为所述目标对象。

在本发明的一些实施例中，基于前述方案，所述像素类型包括第一像素类型、第二像素类型和第三像素类型，其中所述第一像素类型对应的目标对象用于为待植入信息提供植入载体；所述第二像素类型对应的目标对象用于为待植入信息提供植入平面；所述第三像素类型对应的目标对象为无效植入区域。

在本发明的一些实施例中，所述视频分片为静止视频分片；基于前述方案，所述区域确定模块配置为：将包含所述目标对象的第一帧作为起始帧，将所述视频分片的最后一帧作为终止帧；将所述起始帧、所述起始帧与所述终止帧之间的所有帧以及所述终止帧按时间排序以形成所述帧序列段，并在所述帧序列段中所述目标对象所在的位置植入待植入信息。

在本发明的一些实施例中，基于前述方案，所述区域确定模块包括：运动量计算单元，用于以包含所述目标对象的所有待识别图像帧为起始帧，计算预设图像帧中的像素相对于所述起始帧中像素的运动量，所述预设图像帧的帧号与所述起始帧的帧号间隔预设数值；选择单元，用于当所述运动量满足预设条件时，将所述预设图像帧作为第二目标图像帧；获取单元，用于将所述第二目标图像帧作为起始帧，重复上述步骤，以获取所有满足所述预设条件的第二目标图像帧；排序单元，用于将所述第二目标图像帧中包含所述目标对象的图像帧按时间排序形成一帧序列，并获取所述帧序列的时长；帧序列段生成单元，用于当所述时长大于或等于预设时间阈值时，将所述帧序列或者所述帧序列的子序列作为所述帧序列段，并在所述帧序列段中的目标对象所在的位置植入待植入信息。

在本发明的一些实施例中，基于前述方案，所述选择单元配置为：将所述运动量与所述第一预设运动量阈值和第二预设运动量阈值进行比较；当所述运动量大于或等于所述第二预设运动量阈值并小于所述第一预设运动量阈值时，所述预设图像帧即为所述目标图像帧。

根据本发明实施例的一个方面，提供了一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上述实施例中所述的信息植入区域的识别方法

根据本发明实施例的一个方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中所述的信息植入区域的识别方法。

在本发明的一些实施例所提供的技术方案中，首先对获取的待处理视频进行镜头切分以获取多个视频分片，接着从每个视频分片中确定待识别图像帧，然后对待识别图像帧中的像素进行分类以获取待识别图像帧中的像素类型，进而根据像素类别判断待识别图像帧中是否存在目标对象；当判定待识别图像帧中存在目标对象时，根据预设规则获取各个视频分片中包含目标对象的帧序列段，该帧序列段中的目标对象所在的位置即为信息植入区域。本发明的技术方案一方面能够实现自动确定视频中是否存在信息植入区域，并且能够自动确定视频中哪些帧段可以植入信息，避免了人工筛选标注，减少了人工成本，提高了视频广告植入效率；另一方面，能够根据不同识别方法对不同种类视频分片中的信息植入区域进行识别，保证了视频广告植入的持续性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本发明实施例的技术方案的示例性系统架构的示意图；

图2示意性示出了根据本发明的一个实施例的信息植入区域的识别方法流程图；

图3示意性示出了根据本发明的一个实施例的镜头切分的流程示意图；

图4示意性示出了根据本发明的一个实施例的相似度比对流程示意图；

图5示意性示出了根据本发明的一个实施例的确定待识别图像帧的流程示意图；

图6a-6b示意性示出了根据本发明的一个实施例的移花接木商机的界面示意图；

图7a-7b示意性示出了根据本发明的一个实施例的无中生有商机的界面示意图；

图8示意性示出了根据本发明的一个实施例的目标对象的判断流程示意图；

图9示意性示出了根据本发明的一个实施例的获取帧序列段的流程示意图；

图10示意性示出了根据本发明的一个实施例的信息植入区域的识别装置的框图；

图11示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1示出了可以应用本发明实施例的技术方案的示例性系统架构的示意图。

如图1所示，系统架构100可以包括终端设备(如图1中所示智能手机101、平板电脑102和便携式计算机103中的一种或多种，当然也可以是台式计算机等等)、网络104和服务器105。网络104用以在终端设备和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线通信链路、无线通信链路等等。

应该理解，图1中的终端、网络和服务器的数目仅仅是示意性的。根据实际需要，可以具有任意数目的终端、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

在本发明的一个实施例中，终端设备101，也可以是终端设备102、103，获取到待处理视频后可以将该待处理视频对应的图像数据通过网络104发送至服务器105，服务器105根据待处理视频中任意相邻两帧之间的相似度对该待处理视频进行镜头切分，以获取多个视频分片；接着对每个视频分片中的图像帧进行筛选，以确定待识别图像帧；然后服务器105可以通过机器学习模型对待识别图像帧进行处理，以对待识别图像帧中的像素进行分类，获取待识别图像帧中的像素类型，根据像素类型可以判断待识别图像帧中是否存在目标对象，该目标对象就是可以进行信息植入的对象，也成为商机，例如广告牌、桌面等等；最后当确定待识别图像帧中存在目标对象后，根据预设规则获取各个视频分片中包含目标对象的帧序列段，并将帧序列段中目标对象所在的位置作为信息植入区域，进行视频广告植入。本发明实施例的技术方案一方面能够避免人工筛选、标注信息植入区域，实现自动识别信息植入区域，减少了人工成本，提高了植入效率；另一方面，能够获取视频分片中存在信息植入区域的帧序列段，保证了信息植入的持续性。

需要说明的是，本发明实施例所提供的信息植入区域的识别方法一般由服务器105执行，相应地，信息植入区域的识别装置一般设置于服务器105中。但是，在本发明的其它实施例中，终端也可以与服务器具有相似的功能，从而执行本发明实施例所提供的信息植入区域的识别方案。

在本领域的相关技术中，以广告植入为例，识别视频中的广告植入商机的方法主要有以下三种：(1)颜色纹理聚类，通过人工设定的聚类数目阈值，将图像帧中所有像素的颜色和纹理提取特征，使用聚类算法对像素进行分类，得到不同像素的类别，确定是否存在商机；(2)边缘检测，使用边缘检测算法取得图像帧中具有四边形边缘的位置作为商机；(3)人工选取，人工观看全部视频，确定可植入的帧的时间位置。

然而上述识别商机的方法存在相应的缺点：颜色纹理聚类需要人为选定类别阈值，不能对所有场景使用，另外对颜色纹理较详尽的天空和地面的区分度低，自动化程度低，且需要频繁调整；边缘检测受光照影响大，提取轮廓效果不稳定，且四边形轮廓不一定为可植入商机载体，准确度低；人工选取，耗时长，严重影响了生产效率和成品率。

鉴于相关技术中存在的问题，本发明实施例首先提出了一种信息植入区域的识别方法，本发明实施例中的信息植入区域的识别方法可以用于视频广告植入等等，以下以视频广告植入为例对本发明实施例的技术方案的实现细节进行详细阐述：

图2示意性示出了根据本发明的一个实施例的信息植入区域的识别方法的流程图，该信息植入区域的识别方法可以由服务器来执行，该服务器可以是图1中所示的服务器。参照图2所示，该信息植入区域的识别方法至少包括步骤s210至步骤s240，详细介绍如下：

在步骤s210中，获取待处理视频，对所述待处理视频进行切分以获取多个视频分片。

在本发明的一个实施例中，视频广告植入是在已经制作完成的视频中利用计算机视觉技术智能植入广告的新型技术系统，用户可以通过在线搜索视频的方式获取待处理视频，也可以从终端设备101的视频文件夹或视频数据库中获取待处理视频，该待处理视频可以是任意格式的视频文件，如avi.，mp4.，rmvb.等等，本发明实施例对此不做具体限定。在确定好待处理视频后，可以通过终端设备101将该待处理视频发送至服务器105，通过服务器105对待处理视频进行处理，以识别其中的信息植入区域。

在本发明的一个实施例中，视频的基本结构是由帧、镜头、场景和视频节目构成的层次结构，其中帧是一幅静态图像，是组成视频的最小逻辑单元，将时间上连续的帧序列按等间隔连续播放，便形成动态视频；镜头是一台摄像机从开机到关机连续拍摄的帧序列，描绘一个事件或一个场面的一部分，不具有或具有较弱的语义信息，强调构成帧的视觉内容相似性；场景是语义相关的连续镜头，可以是相同对象的不同角度、不同技法拍摄，也可以是具有相同主题和事件的镜头组合，强调语义的相关性；视频节目包含一个完整的事件或故事，作为最高层的视频内容结构，它包括视频的组成关系以及对视频的摘要、语义和一般性描述等。为了有效识别信息植入区域，可以以视频中的每一个事件或场面为对象进行信息植入区域的识别，因此在获取待处理视频后，可以将其切分为多个对应不同事件或场面的视频分片，该视频分片即为视频组成结构中的镜头，具体地，可以在获取待处理视频后，对待处理视频进行镜头切分，以将待处理视频切分为多个视频分片。

图3示出了镜头切分的流程示意图，如图3所示，在步骤s301中，从待处理视频中提取目标特征；在步骤s302中，对相邻图像帧中的目标特征进行相似度算法识别，并根据识别结果对待处理视频进行切分，以获取多个视频分片。在相似度算法识别时，可以将相邻两个图像帧中的每个像素进行相似度比对，但是由于图像中像素数量巨大，如果逐一比对像素的相似度需要占用大量资源，数据处理效率低，因此可以从待处理视频中提取目标特征，该目标特征可以是待处理视频所包含的图像帧中的多位特征，通过对相邻图像帧中的目标特征进行相似度算法识别以确定相邻视频分片的分界图像帧。

在本发明的一个实施例中，步骤s302中对相邻图像帧中的目标特征进行相似度算法识别，并根据识别结果对待处理视频进行切分，以获取多个视频分片，具体可以根据图4所示的相似度算法识别的流程示意图实现，如图4所示，相似度算法识别的流程主要包括步骤s401-s403，具体地：

步骤s401中，计算相邻图像帧中的目标特征之间的距离，并根据距离进行相似度算法识别；

在本发明的一个实施例中，在进行相似度算法识别时，可以通过计算两相邻图像帧中目标特征之间的距离，该距离可以是欧式距离、余弦距离等等，以欧式距离为例，两相邻图像帧分别对应t时刻和t+△t时刻，t时刻时目标特征a所在的位置为(x1，y1)，t+△t时刻时目标特征a所述在位置为(x2，y2)，根据欧式距离计算公式可以获得相邻图像帧中的目标特征之间的欧式距离为然后将该欧式距离与一预设距离阈值进行比较，判断相邻图像帧之间的相似度，进而根据相似度进行视频分片切分。

步骤s402中，当距离小于预设距离阈值时，相邻图像帧属于同一个视频分片。

步骤s403中，当距离大于或等于预设距离阈值时，相邻图像帧属于不同的视频分片。

在本发明的一个实施例中，若相邻图像帧中的目标特征之间的欧式距离大于或等于预设距离阈值时，说明图像有大幅度的变化，因此可以将两图像帧分别划分到不同的视频分片中；若相邻图像帧中的目标特征之间的欧式距离小于预设距离阈值时，说明图像没有大幅度的变化，因此可以将两图像帧划分到同一视频分片中。

在步骤s220中，从各所述视频分片中确定待识别图像帧，并对所述待识别图像帧中的像素进行分类，以获取所述待识别图像帧中的像素类型。

在本发明的一个实施例中，在视频挖掘时，用视频分片中具有典型性、代表性的帧，例如关键帧或代表帧来表现视频分片可以提高挖掘效率，因此在切分完视频分片后，可以从各个视频分片中确定一个或多个待识别图像帧。为了识别待处理视频中可用于信息植入的区域，对待识别图像帧中的对象进行识别是必须的，为了获取待识别图像帧中的对象，首先需要对待识别图像帧中的像素进行分类，以获取待识别图像帧中的像素类型。

在本发明的一个实施例中，视频分片的类型不同，确定待识别图像帧的方法也不同。视频分片的类型可以分为静止视频分片和运动视频分片，静止视频分片即为将摄像机镜头固定进行拍摄，运动视频分片就是摄像机镜头不固定进行拍摄，当视频分片为静止视频分片时，经镜头切分所形成的各视频分片中的画面基本不变，因此可以选择视频分片中的任意一帧作为待识别图像帧，为了简便可以选择视频分片的第一帧作为待识别图像帧；当视频分片为运动视频分片时，每帧画面中的对象变化较大，因此不能简单的选择其中的一帧作为待识别图像帧，在本发明的实施例中，可以通过计算像素的运动量确定待识别图像帧。

图5示出了确定待识别图像帧的流程示意图，如图5所示，在步骤s501中，将视频分片中的第一帧作为起始帧，计算相邻图像帧中像素的运动量；获取视频分片中任意相邻的图像帧中的像素的位置，通过将后一图像帧中的像素的位置与前一图像帧中像素的位置进行比较，即可获得后一图像帧相对于前一图像帧中像素的运动量，进而可以根据该像素的运动量判断视频分片各帧中像素的变化程度。在步骤s502中，若存在第一目标图像帧中像素的运动量大于或等于第一预设运动量阈值，则将起始帧和第一目标图像帧作为待识别图像帧；当相邻图像帧中像素的运动量小于第一预设运动量阈值时，说明相邻图像帧中对象的变化较小；当相邻图像帧中像素的运动量大于或等于第一预设运动阈值时，说明相邻图像帧中对象的变化较大，为了确定视频分片中的哪些图像帧中存在信息植入区域(商机)，可以将像素的运动量大于或等于第一预设运动量阈值的图像帧取出作为待识别图像帧，其中第一预设运动量阈值可以根据实际需要进行设定，在本发明实施例中，该第一预设运动量阈值可以是10个像素，当然本发明实施例对此不做具体限定。在本发明的实施例中，像素的运动量可以通过光流法确定，光流法是空间运动物体在观察成像平面上的像素运动的瞬时速度，具体地，可以通过稀疏光流法计算像素的运动量。

在本发明的一个实施例中，可以通过一个深度编码器解码器网络模型对待识别图像帧中的像素进行分类，用以判断待识别图像帧中是否存在信息植入区域(目标对象)。该深度编码器解码器网络模型包括级联的编码器和解码器，其中编码器可以对待识别图像帧进行编码处理形成编码特征，解码器可以对编码器输出的编码特征进行解码，以实现对待识别图像帧中的像素的分类。具体地，可以将待识别图像帧输入至深度编码器解码器网络模型中，通过编码器对待识别图像帧进行由低层到高层的卷积以获取多个特征，在本发明实施例中，由低层到高层的卷积主要是具有不同采样率的空洞卷积，通过对待识别图像帧对应的特征顶部映射图进行多个不同采样率的空洞卷积可以得到多尺度信息；接着将多个特征整合以形成编码特征；最后编码器将编码特征输出至解码器，通过解码器对编码特征进行上采样，以获取与待识别图像帧大小相同的像素分类信息，该像素分类信息包括像素类型。像素类型可以是具体的数值，例如用数字2代表地面，数字10代表天空，等等。

在本发明的一个实施例中，像素类型共有22种，包括墙壁、楼宇、室内地面、室外地面、餐桌、办公桌、任务、住宅、窗户、门、箱子、海报公告牌、屏幕、车、柱子、计算机、电视、柜台、舞台、显示器、其它前景和其它背景，该22种像素种类可以分为三类：第一像素种类、第二像素种类和第三像素种类，其中第一像素种类对应的目标对象用于为待植入信息提供植入载体，第二像素种类对应的目标对象用于为待植入信息提供植入平面，第三像素种类对应的目标对象为无效植入区域，具体地，植入载体例如可以是箱子、海报公告牌、屏幕、车的侧面、计算机屏幕、电视屏幕、显示器屏幕，当植入广告时，可以将待植入广告充斥于植入载体中，该种类型的广告植入位也称为移花接木商机，图6a-6b示出了一种移花接木商机的界面示意图，在图6a中，矩形框对应的海报公告牌即为植入载体，可以将待植入广告植入到该海报公告牌中，如图6b所示。植入平面例如可以是墙面、室内地面、室外地面、楼宇、餐桌、办公桌、住宅、窗户、们、柱子、柜台、舞台，当植入广告时，可以将待植入广告植入到该植入平面的一部分，该种类型的广告植入位也称为无中生有商机，图7a-7b示出了一种无中生有商机的界面示意图，如图7a所示，在主持人的背后有一面墙，墙面上没有任何广告，那么可以将待植入广告植入到墙面的左上角，如图7b所示。

在通过深度编码器解码器网络模型对待识别图像帧进行处理之前，可以采集大量的图像帧作为训练样本对该深度编码器解码器网络模型进行训练，例如可以将一个或多个短视频中的图像帧作为训练样本，通过将训练样本输入至待训练的深度编码器解码器网络模型，并将该模型输出的像素分类结果与训练样本对应的像素分类结果进行对比，以判断模型的稳定性，当模型的损失函数达到最小时即可判定该模型完成训练。

在步骤s230中，根据所述像素类型确定所述待识别图像帧中是否存在目标对象。

在本发明的一个实施例中，在通过深度编码器解码器网络模型识别出待识别图像帧中的像素类型后，可以根据像素类型确定待识别图像帧中的对象，进而确定待识别图像帧中是否存在目标对象，该目标对象即为步骤s220中提到的移花接木商机和无中生有商机。

图8示出了目标对象的判断流程示意图，如图8所示，目标对象的判断流程主要包括步骤s801-s803，具体地：

在步骤s801中，根据待识别图像帧中像素的像素类型确定待处理对象。

在本发明的一个实施例中，根据深度编码器解码器网络模型分析得到的像素类型可以确定待识别图像帧中都包含哪些对象，例如哪个位置是人，哪个位置是桌子等等，因此根据像素类型可以确定待识别图像帧中的待处理对象。

在步骤s802中，获取所述待处理对象在所述待识别图像帧中的面积占比。

在本发明的一个实施例中，根据相同类型的像素的数量和待识别图像帧中所包含的总像素量可以确定各个待处理对象在待识别图像帧中的面积占比，进而可以根据该面积占比确定待处理对象是否为目标对象。

在步骤s803中，若存在目标待处理对象对应的面积占比大于所述预设占比阈值，则将所述目标待处理对象作为所述目标对象。

在本发明的一个实施例中，可以根据实际需要确定一个预设占比阈值，并将各个待处理对象对应的面积占比与该预设占比阈值进行比较，当多个待处理对象中存在一个或多个目标待处理对象在待识别图像帧中的面积占比大于该预设占比阈值时，即可将该目标待处理对象作为目标对象，进行后续的信息植入。

在本发明的一个实施例中，待处理对象不同，用于对比的预设占比阈值也不同，当待处理对象为海报公告牌、计算机屏幕等移花接木商机时，该预设占比阈值可以设置为10％；当待处理对象为桌面、地面等无中生有商机时，该预设占比阈值可以设置为25％，当然在本发明实施例中，该预设占比阈值并不限于上述的数值，还可以是其它的占比数值，本发明实施例对此不做具体限定。

在步骤s240中，当所述待识别图像帧中存在所述目标对象时，根据预设规则获取所述视频分片中包含所述目标对象的帧序列段，并将所述帧序列段中所述目标对象所在的位置作为信息植入区域。

在本发明的一个实施例中，通常在一个视频分片中存在多个图像帧可用于信息植入，也就是说，视频分片中的多个图像帧存在移花接木商机或无中生有商机，该些图像帧按时间排序可形成一帧序列段。为了保证广告的用户触达率，帧序列段的时长也是需要重点关注的，如果一个可用于广告植入的帧序列段时长太短，一闪而过的话，广告的用户触达率较低，会影响广告方的利益。

在本发明的一个实施例中，帧序列段的确定随着视频分片种类的不同而不同，当视频分片种类为静止视频分片时，一个视频分片中的图像内容基本没有变化，因此可以以包含目标对象的第一帧作为起始帧，视频分片的最后一帧作为终止帧，然后将起始帧、起始帧与终止帧之间的所有帧以及终止帧按时间排序以形成帧序列段，例如一个视频分片中的第一帧至最后一帧都包含海报公告牌，那么可以将该视频分片中的所有帧按时序排列形成帧序列段。

在本发明的一个实施例中，当视频分片种类为运动视频分片时，可以以步骤s230中确定的包含目标对象的待识别图像帧为基础，根据间隔一定距离的图像帧中像素的运动量确定可以植入信息的帧序列段。

图9示出了获取帧序列段的流程示意图，如图9所示，从运动视频分片的视频中识别具有信息植入区域的帧序列段的方法至少包括步骤s901-s905，具体地：

在步骤s901中，以包含所述目标对象的所有待识别图像帧为起始帧，计算预设图像帧中的像素相对于所述起始帧中的像素的运动量，所述预设图像帧的帧号与所述起始帧的帧号间隔预设数值。

在本发明的一个实施例中，可以通过与图5中相同的方法获取预设图像帧中的目标对象相对于起始帧中的目标对象所对应的像素的运动量，本发明实施例在此不再赘述。其中该预设数值可以是一也可以是大于一的任意值，即该预设图像帧可以是与起始帧相邻的图像帧，也可以是与起始帧的帧号间隔大于一的图像帧。

在步骤s902中，当所述运动量满足预设条件时，将所述预设图像帧作为第二目标图像帧。

在本发明的一个实施例中，获得像素的运动量后，可以将该运动量与第一预设运动量阈值和第二预设运动量阈值进行比较，当该运动量大于或等于第二预设运动量阈值并小于第一预设运动量阈值时，该预设图像帧即为第二目标图像帧。

在步骤s903中，将所述第二目标图像帧作为起始帧，重复上述步骤，以获取所有满足所述预设条件的第二目标图像帧。

在步骤s904中，将所述第二目标图像帧中包含所述目标对象的图像帧按时间排序形成一帧序列，并获取所述帧序列的时长。

在本发明的一个实施例中，在获取所有的第二目标图像帧后，通过深度编码器解码器网络模型对第二目标图像帧中的商机进行识别，以获取包含商机的第二目标图像帧，即包含目标对象的第二目标图像帧，然后将所有包含商机的第二目标图像帧按时序排列形成帧序列，进一步，可以根据帧序列中第一帧的序号和最后一帧的序号确定帧序列的时长，例如包含商机的目标图像帧按时序排列形成的帧序列为：第1帧、第50帧、第75帧，那么根据第一帧的序号1和最后一帧的序号75可以确定帧序列的时长为3s。

在步骤s905中，当所述时长大于或等于预设时间阈值时，将所述帧序列作为所述帧序列段，并在所述帧序列段中的目标对象所在的位置植入待植入信息。

在本发明的一个实施例中，如果帧序列的时长过短，植入广告的播放时长就短，可能会出现一闪而过的情况，对于广告商而言，并不能提高广告对用户的触达率及商业转化率，影响了广告商的利益，因此有必要挑选符合时长条件的帧序列，具体地，可以将帧序列的时长与一预设时间阈值进行比较，判断帧序列的时长是否符合时长条件，该预设时间阈值可以根据实际需要进行设定，例如可以设定预设时间阈值为4s等，本发明实施例对此不做具体限定。

在本发明的一个实施例中，若帧序列的时长大于或等于预设时间阈值，说明帧序列的时长满足时长条件，那么该帧序列可以作为最终确定的帧序列段，并在该帧序列段中目标对象所在的位置植入待植入信息。具体地，可以输出所有大于或等于预设时间阈值的帧序列，并在其所包含的图像帧中的移花接木商机和/或无中生有商机处植入广告。

对一运动视频分片而言，例如根据视频分片中相邻图像帧中像素的运动量和第一预设运动量阈值的关系确定了视频分片中的待识别图像帧分别为：第1帧、第75帧、第100帧、第200帧和第400帧，通过深度编码器解码器网络模型识别出第1帧、第100、第200帧具有商机，说明该视频分片存在商机，那么可以分别以第1帧、第100帧、第200帧为起始帧，获取相邻图像帧的像素的运动量满足预设条件的目标图像帧，并通过深度编码器解码器网络模型对目标图像帧中的目标对象(商机)进行识别，以获取包含目标对象的目标图像帧，例如以第1帧为起始帧，满足预设条件且包含目标对象的目标图像帧为第1-74帧，那么可以确定帧序列为第1-74帧，以1s包含25帧计算，该帧序列对应的时长接近3s，若预设时间阈值为4s，那么该帧序列的时长小于该预设时间阈值，不适合进行广告植入，因此可以忽略该帧序列；如果以第100帧为起始帧，满足预设条件且包含目标对象的目标图像帧为第76-199帧，那么可以将第76-199帧作为帧序列，其所对应的时长接近5s，大于预设时间阈值，因此该帧序列可以作为广告植入的帧序列段进行输出并植入广告。另外，在判断像素的运动量时，也可以判断相隔一定帧号的图像帧之间的像素的运动量，例如设定预设数值为20，则比较第1帧和第21帧之间、第21帧和第41帧之间的像素的运动量，以减少数据处理量，提高数据处理效率。

值得注意的是，在时长大于或等于预设时间阈值的帧序列中可能会存在部分帧之间的间隔时间太长，这样植入广告的效果会比较差，因此为了提高广告的用户触达率和商业转化率，可以选取帧序列中连续有商机并且时长大于或等于预设时间阈值的子序列作为帧序列段，并进行广告植入。

在本发明的一个实施例中，上述实施例描述了由服务器105执行信息植入区域的识别方法，同样的，该信息植入区域的识别方法还可以由终端设备来执行，该终端设备可以是图1中所示的终端设备101，也可以是终端设备102或终端设备103，相应地，在终端设备101中设置有深度编码器解码器网络模型，终端设备101接收到用户输入或在线获取的待处理视频后，可以对该待处理视频进行镜头切分以获取多个视频分片；接着根据视频分片类型，从视频分片中确定一个或多个待识别图像帧，并对待识别图像帧中的像素进行分类；然后根据像素分类结果判断待识别图像帧中是否存在目标对象，该目标对象即为可用于广告植入的移花接木商机或无中生有商机；最后当判定待识别图像帧中存在目标对象后，可以根据预设规则获取视频分片中包含目标对象的帧序列段，并将帧序列段中目标对象所在的位置作为广告植入区域。

在本发明的一个实施例中，以将某品牌化妆品的广告植入到一档美容节目中为例，在录制完美容节目后，可以将该美容节目的视频上传至终端设备，该终端设备可以将该视频上传至服务器进行处理，也可以在本地对该视频进行处理，首先可以对该视频进行镜头切分以获取多个视频分片，然后判断每个视频分片的类型，当判定视频分片的类型为静止视频分片时，可以选取视频分片中任意一帧，例如第一帧，作为待识别图像帧，并将该待识别图像帧输入至深度编码器解码器网络模型以识别其中的移花接木商机和/或无中生有商机，若待识别图像帧中存在移花接木商机和/或无中生有商机，则将包含该移花接木商机和/或无中生有商机的所有图像帧按时序排列形成帧序列段并输出，进而将某品牌化妆品的广告植入到该帧序列段的商机中；当判定视频分片的类型为运动视频分片时，可以根据相邻图像帧中像素之间的运动量确定该视频中所有的待识别图像帧，接着通过深度编码器解码器网络模型对所有待识别图像帧中的移花接木商机和/或无中生有商机进行识别，以确定该视频分片是否存在商机；然后对于存在商机的待识别图像帧可以继续根据相邻图像帧中像素的运动量确定所有满足预设条件的目标图像帧，并通过深度编码器解码器网络模型对目标图像帧中的商机进行识别，以获取包含商机的目标图像帧；最后将包含商机的目标图像帧按时序排列，并将排序形成的帧序列的时长与预设时间阈值比较，输出时长大于或等于该预设时间阈值的帧序列段，进而将某品牌化妆品的广告植入到帧序列段的商机中。

本发明实施例的技术方案通过从视频分片中确定待识别图像帧，并通过训练好的深度编码器解码器网络模型对待识别图像帧中的商机进行识别，能够自动确定包含商机的帧序列，使视频广告植入的效率大大提升；另外针对不同类型的视频分片可以采用不同的方法确定待识别图像帧，并根据不同方法确定包含商机的帧序列段，保证了商机的持续性，并且避免了人工筛选、标记视频中的商机，提高了生产效率和成品率。

以下介绍本发明的装置实施例，可以用于执行本发明上述实施例中的信息植入区域的识别方法。对于本发明装置实施例中未披露的细节，请参照本发明上述的信息植入区域的识别方法的实施例。

图10示意性示出了根据本发明的一个实施例的信息植入区域的识别装置的框图。

参照图10所示，根据本发明的一个实施例的信息植入区域的识别装置1000，包括：视频切分模块1001、像素分类模块1002、对象判断模块1003和区域确定模块1004。

其中，视频切分模块1001，用于获取待处理视频，对所述待处理视频进行切分以获取多个视频分片；像素分类模块1002，用于从各所述视频分片中确定待识别图像帧，并对所述待识别图像帧中的像素进行分类，以获取所述待识别图像帧中的像素类型；对象判断模块1003，用于根据所述像素类型确定所述待识别图像帧中是否存在目标对象；区域确定模块1004，用于当所述待识别图像帧中存在所述目标对象时，根据预设规则获取所述视频分片中包含所述目标对象的帧序列段，并将所述帧序列段中所述目标对象所在的位置作为信息植入区域。

在本发明的一个实施例中，所述视频切分模块1001包括：特征提取单元，用于从所述待处理视频中提取目标特征；相似度比对单元，用于对相邻图像帧中的目标特征进行相似度算法识别，并根据识别结果对所述待处理视频进行切分，以获取所述多个视频分片。

在本发明的一个实施例中，所述相似度比对单元配置为：计算所述相邻图像帧中的目标特征之间的距离，并根据所述距离进行所述相似度算法识别；当所述距离小于预设距离阈值时，所述相邻图像帧属于同一个视频分片；当所述距离大于或等于所述预设距离阈值时，所述相邻图像帧属于不同的视频分片。

在本发明的一个实施例中，所述视频分片为静止视频分片；所述像素分类模块1002配置为：将所述静止视频分片中的任意一帧作为所述待识别图像帧。

在本发明的一个实施例中，所述视频分片为运动视频分片；所述像素分类模块1002配置为：将所述视频分片中的第一帧作为起始帧，计算相邻图像帧中像素的运动量；若存在第一目标图像帧中像素的运动量大于或等于第一预设运动量阈值时，将所述起始帧和所述第一目标图像帧作为所述待识别图像帧。

在本发明的一个实施例中，所述像素分类模块1002包括：像素分类单元，用于将所述待识别图像帧输入至深度编码器解码器网络模型，通过所述深度编码器解码器网络模型对所述待识别图像帧进行编码和解码处理，以对所述待识别图像帧中的像素进行分类，并获取所述待识别图像帧中的像素类型。

在本发明的一个实施例中，所述深度编码器解码器网络模型包括级联的编码器和解码器；所述像素分类单元配置为：通过所述编码器对所述待识别图像帧进行由低层到高层的卷积，以获取多个特征；将所述多个特征进行整合，以形成编码特征；通过所述解码器对所述编码特征进行上采样，以获取与所述待识别图像帧大小相同的像素分类信息，所述像素分类信息包括像素类型。

在本发明的一个实施例中，所述对象判断模块1003配置为：根据所述待识别图像帧中像素的像素类型确定待处理对象；获取所述待处理对象在所述待识别图像帧中的面积占比；将所述面积占比与预设占比阈值比较，根据比较结果确定所述目标对象；若存在目标待处理对象对应的面积占比大于所述预设占比阈值，则将所述目标待处理对象作为所述目标对象。

在本发明的一个实施例中，所述像素类型包括第一像素类型、第二像素类型和第三像素类型，其中所述第一像素类型对应的目标对象用于为待植入信息提供植入载体；所述第二像素类型对应的目标对象用于为待植入信息提供植入平面；所述第三像素类型对应的目标对象为无效植入区域。

在本发明的一个实施例中，所述视频分片为静止视频分片；所述区域确定模块1004配置为：将包含所述目标对象的第一帧作为起始帧，将所述视频分片的最后一帧作为终止帧；将所述起始帧、所述起始帧与所述终止帧之间的所有帧以及所述终止帧按时间排序以形成所述帧序列段，并在所述帧序列段中所述目标对象所在的位置植入待植入信息。

在本发明的一些实施例中，所述区域确定模块1004包括：运动量计算单元，用于以包含所述目标对象的所有待识别图像帧为起始帧，计算预设图像帧中像素相对于所述起始帧中像素的运动量，所述预设图像帧的帧号与所述起始帧的帧号间隔预设数值；选择单元，用于当所述运动量满足预设条件时，将所述预设图像帧作为第二目标图像帧；获取单元，用于将所述第二目标图像帧作为起始帧，重复上述步骤，以获取所有满足所述预设条件的第二目标图像帧；排序单元，用于将所述第二目标图像帧中包含所述目标对象的图像帧按时间排序形成一帧序列，并获取所述帧序列的时长；帧序列段生成单元，用于当所述时长大于或等于预设时间阈值时，将所述帧序列作为所述帧序列段，并在所述帧序列段中的目标对象所在的位置植入待植入信息。

在本发明的一些实施例中，所述选择单元配置为：将所述运动量与所述第一预设运动量阈值和第二预设运动量阈值进行比较；当所述运动量大于或等于所述第二预设运动量阈值并小于所述第一预设运动量阈值时，所述预设图像帧即为所述目标图像帧。

图11示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。

需要说明的是，图11示出的电子设备的计算机系统1100仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图11所示，计算机系统1100包括中央处理单元(centralprocessingunit，cpu)1101，其可以根据存储在只读存储器(read-onlymemory，rom)1102中的程序或者从存储部分1108加载到随机访问存储器(randomaccessmemory，ram)1103中的程序而执行各种适当的动作和处理。在ram1103中，还存储有系统操作所需的各种程序和数据。cpu1101、rom1102以及ram1103通过总线1104彼此相连。输入/输出(input/output，i/o)接口1105也连接至总线1104。

以下部件连接至i/o接口1105：包括键盘、鼠标等的输入部分1106；包括诸如阴极射线管(cathoderaytube，crt)、液晶显示器(liquidcrystaldisplay，lcd)等以及扬声器等的输出部分1107；包括硬盘等的存储部分1108；以及包括诸如lan(localareanetwork，局域网)卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至i/o接口1105。可拆卸介质1111，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1110上，以便于从其上读出的计算机程序根据需要被安装入存储部分1108。

特别地，根据本发明的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1109从网络上被下载和安装，和/或从可拆卸介质1111被安装。在该计算机程序被中央处理单元(cpu)1101执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本发明实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(erasableprogrammablereadonlymemory，eprom)、闪存、光纤、便携式紧凑磁盘只读存储器(compactdiscread-onlymemory，cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是cd-rom，u盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：高琛琼;谢年华;殷泽龙;肖泽东
技术所有人：腾讯科技(深圳)有限公司
我是此专利的发明人

上一篇：硅基异质结太阳电池制备方法及渐变硅氧钝化层制备方法与流程
上一篇：处理衬底的装置和方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。