比较视频内容相似性的方法、装置和设备与流程

文档序号:16673920发布日期:2019-01-18 23:47阅读:270来源:国知局
比较视频内容相似性的方法、装置和设备与流程

本发明涉及视频审核系统中的计算机辅助审核领域。



背景技术:

随着互联网、智能设备的飞速发展,互联网上的数据特别是图片、视频等内容呈现爆炸式增长,这些内容中也充斥着各种不可控的风险因素,比如色情视频和图片、涉政暴恐内容等。随着国家对网络视听节目的监管力度逐步升级,《网络视听节目内容审核通则》发布,要求从事互联网视听节目服务相关单位在播出网络视听节目前,对拟播出的视听节目作品和用于宣传、介绍作品等目的而制作的图文及视频内容进行审核,提出两个审核原则即先审后播原则、审核到位原则,规定了节目内容的审核标准。

根据审核到位原则,审核节目时不得快进和遗漏,非专业类网络视听节目应由不少于三人的审核员审核。审核严格的视频平台会对审核后的视频进行最终复核,复核的方法之一是与其他来源的相同内容的视频进行比较,比如同一部电影其它视频平台已经审核并发布,通过比较异同并根据本企业的审核标准,可以发现审核后的视频是否仍然存在需要剪掉的内容或有没必要剪掉的内容,这些工作目前一般由复核人员全人工完成。

图1描述了现有视频复核处理流程,对审核后视频和其它来源视频进行比较,步骤10完整播放两个要比较的视频,复核人员进行观看,人工寻找两个视频的不同之处,步骤11复核人员给出复核意见,即审核后视频是否符合审核要求。

现有视频复核处理流程中人工复核时要完整播放两个视频进行比较,复核工作量大且效率低,因此如何通过计算机算法自动找出视频的不同之处以辅助复核工作提高工作效率成为急需解决的问题。



技术实现要素:

本发明所要解决的技术问题是提供一种比较视频内容相似性的方法,通过对两个视频的智能比较,得到视频的剪切情况,从而辅助视频的人工审核,提高视频审核效率。

为了解决以上技术问题,本发明提供了一种比较视频内容相似性的方法,包括以下步骤:获取两个以上待比较视频;将要比较的视频抽取成图片序列;对每一张图片生成描述其特征的指纹;分段,运用最长公共子序列法对图片序列进行比较;合并各个分段的比较结果,得到视频的相似性结果。

本发明所述比较视频内容相似性的方法的有益效果在于:通过对视频的智能比较,从而辅助视频的人工审核,审核时可据此仅需观看视频的不同部分,从而减轻审核人员的工作量,加速视频审核的过程。

优选的,所述待比较视频为两个视频;所述将要比较的视频抽取成图片序列的步骤包括:将视频缩放到相同大小,剪切视频的公共区域生成图片,得到对应的两个图片序列,序列中每一张图片对应视频中的每一帧。

优选的,所述对每一张图片生成描述其特征的指纹的步骤包括:将每张图片像素统一为mxn、若干级灰度;对每张图片,计算mxn个像素值的平均值;将mxn个像素值与所述的平均值进行比较,如像素值大于等于平均值取1,如像素值小于平均值取0;将上述的mxn个比较结果,按在图片中的位置组成无符号整数,得到图片的指纹;所述m和n为正整数。

优选的,所述图片序列进行比对的步骤包括:取一段要比较的图片序列,从两个图片序列的第1张图片开始比较,依次比较两个序列的每一张图片;使用图片指纹之间的汉明距离来表征两张图片的差异;使用最长公共子序列法寻找两个图片序列的相同部分。

优选的,所述使用图片指纹之间的汉明距离来表征两张图片的差异的步骤包括:计算两个图片指纹序列中,所有对应比特位两个无符号整数的不相同的个数,如果汉明距离不超过第一阈值,说明两张图片相似;如果汉明距离大于第二阈值,则说明这是两张不同的图片;使用最长公共子序列法寻找两个图片序列的相同部分的步骤包括:计算最长公共子序列长度矩阵和对应的方向矩阵;由方向矩阵通过回溯方法构造两个序列的最长公共子序列。

优选的,若还有图片没有比较过,则取下一个要比较的分段进行比较,直到所有图片均比较过;合并所有分段比较结果,对每一个分段的图片序列比较结果进行处理,将最大公共子序列中每个项的图片编号加上该分段的起始图片编号,得到每个公共项在整个图片序列中的图片编号;合并所有分段的最大公共子序列,最终得到两个完整图片序列的最大公共子序列,即两个视频的相同部分。

本发明还提供了一种比较多个视频内容相似性的装置,包括:获取待比较视频模块,用于获取两个待比较视频;抽取图片序列模块,用于将要比较的视频抽取成两个图片序列;图片序列比较模块,用于对每一张图片生成描述其特征的指纹,分段,运用最长公共子序列法对图片序列进行比较;合并分段模块,用于合并各个分段的比较结果,得到视频的相似性结果。

本发明所述比较视频内容相似性的装置的有益效果在于:通过对两个视频的智能比较,得到视频的剪切情况,从而辅助视频的人工审核,审核时可据此仅需观看视频的不同部分,从而减轻审核人员的工作量,加速视频审核的过程。

优选的,所述待比较视频为两个视频;所述抽取图片序列模块,用于将视频缩放到相同大小,剪切视频的公共区域生成图片,得到对应的两个图片序列,序列中每一张图片对应视频中的每一帧;所述图片序列比较模块包括指纹生成模块和图片指纹比较模块;所述指纹生成模块,用于将每张图片像素统一为mxn、若干级灰度;对每张图片,计算mxn个像素值的平均值;将mxn个像素值与所述的平均值进行比较,如像素值大于等于平均值取1,如像素值小于平均值取0;将上述的mxn个比较结果,按在图片中的位置组成无符号整数,得到图片的指纹;所述m和n为正整数;所述图片指纹比较模块,用于取一段要比较的图片序列,从两个图片序列的第1张图片开始比较,依次比较两个序列的每一张图片;计算两个图片指纹序列中,所有对应比特位两个无符号整数的不相同的个数,如果汉明距离不超过第一阈值,说明两张图片相似;如果汉明距离大于第二阈值,则说明这是两张不同的图片。

优选的,所述图片序列比较模块,用于使用最长公共子序列法计算最长公共子序列长度矩阵和对应的方向矩阵;由方向矩阵通过回溯方法构造两个序列的最长公共子序列;所述合并分段模块,用于合并所有分段比较结果,对每一个分段的图片序列比较结果进行处理,将最大公共子序列中每个项的图片编号加上该分段的起始图片编号,得到每个公共项在整个图片序列中的图片编号;合并所有分段的最大公共子序列,最终得到两个完整图片序列的最大公共子序列,即两个视频的相同部分。

本发明还提供了一种比较视频内容相似性的设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现上述的方法步骤。

本发明所述比较视频内容相似性的设备的有益效果在于:通过对两个视频的智能比较,得到视频的剪切情况,从而辅助视频的人工审核,审核时可据此仅需观看视频的不同部分,从而减轻审核人员的工作量,加速视频审核的过程。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细说明。

图1为现有视频复核处理的流程图;

图2为本发明所述应用视频比较方法的复核处理的流程图;

图3为本发明所述视频比较方法的流程图;

图4为本发明所述由图片生成指纹的流程图;

图5为本发明所述比较图片序列的流程图;

图6为本发明所述最大公共子序列(lcs)算法的示意图。

具体实施方式

实施例一、

本发明所述比较视频内容相似性的方法、装置和设备优选的应用于两个视频的比较,以下基于两个视频的比较进行举例说明,基于本发明的构思当然也可以应用于其他任意数量的视频的比较。

本发明要解决在视频审核系统中,要对两个视频进行比较只能人工观看整个视频,工作量大且效率低的问题。本发明的特点是首先将要比较的视频抽取成图片序列,对每一张图片生成描述其特征的指纹用于图片的比较,然后使用分段方式对图片序列运用最长公共子序列算法进行比较,最后合并各个分段的比较结果得到两个视频的异同,审核时可据此仅需观看视频的不同部分,从而减轻审核人员的工作量,加速视频审核的过程。

其步骤如图2:

步骤20,对审核后视频和其它来源视频进行比较得到视频的异同点

步骤21,在复核人员进行人工复核时,根据步骤20得到的视频异同点,只需播放两个视频的不同部分即可完成审核工作,大大节约工作量

步骤22,复核人员最终给出复核意见。

图3为本发明的一个实施案例。该实施案例包括:

步骤30,对要进行比较的两个视频文件进行抽取图片的操作,由于两个视频来源不同,分辨率可能不同且会有不同的台标、字幕等后期叠加的内容,要先将视频缩放到相同大小,然后避开台标、字幕等不同的部分剪切出视频的公共区域生成图片,最终生成对应的两个图片序列,序列中每一张图片对应视频中的每一帧。

步骤31,对两个图片序列中的每一张图片生成一个指纹(fingerprint),为64bit的无符号整数,在后面的步骤中将使用指纹比较来代替图片比较,这样可以大大提高图片比较的速度。生成图片指纹的过程如图4所示,

1)步骤40,对图片大小、颜色进行规整便于特征值计算,将图片大小缩小到8x8,像素值转换为64级灰度。本实施例优选的将图片缩小到8x8的像素,当然也可以设定为其他设定的大小,例如mxn,m和n为正整数。该图片大小可以根据实际需要进行调整。本实施例以8x8为例进行说明。

2)步骤41,对规整后图片,计算8x8个像素值的平均值。

3)步骤42,将8x8个像素值与步骤41得到的平均值进行比较,像素值大于等于平均值取1,像素值小于平均值取0。

4)步骤43,将步骤42的64个比较结果(1或0),按在8x8图片中的位置组成64bit的无符号整数,得到图片的指纹。

步骤32,取一段要比较的图片序列,由于图片序列中的图片数目很大,考虑到所需的内存和算法性能必须分段进行图片序列比较。设两个图片序列的图片总数目为lx和ly,每个分段的图片数目最大为lmax,取出要进行比较的图片编号范围分别为[first_x,last_x]和[first_y,last_y],初始化时first_x=1,first_y=1,即从两个图片序列的第1张图片开始比较,分段的最后一张图片的编号取为

步骤33,对步骤32中取出的图片序列进行比较,两张图片的差异使用图片指纹之间的汉明距离来表征,寻找两个图片序列的相同部分使用最长公共子序列(longestcommonsubsequence,lcs)算法。本发明所述最长公共子序列其定义是,一个序列s,如果分别是两个或多个已知序列的子序列,且是所有符合此条件序列中最长的,则s称为已知序列的最长公共子序列。设两个图片序列长度分别为m和n,由每张图片的指纹组成的序列分别记为x=<x1,x2,…,xm>和y=<y1,y2,…,yn>,使用最长公共子序列算法找出序列x和y的最长公共子序列,就得到了两个图片序列的相同部分,具体的过程如图5所示。

1)步骤50,计算两个图片指纹序列中所有xi和yj的汉明距离,即两个无符号整数的对应比特位不相同的个数,记为hamming(xi,yj),如果汉明距离不超过第一阈值,例如3,说明两张图片很相似;如果汉明距离大于第二阈值,例如10,则说明这是两张不同的图片。上述的第一阈值和第二阈值可以根据需要进行设定。本发明所述汉明距离是表明一个信号变成另一个信号需要的最小操作(替换位),实际中就是比较两个比特串有多少个位不一样,简洁的操作时就是两个比特串进行异或之后包含1的个数。

2)步骤51,计算最长公共子序列长度矩阵和对应的方向矩阵。定义序列x和y的前缀子序列为xi=<x1,x2,…,xi>和yj=<y1,y2,…,yj>,最长公共子序列长度矩阵的项c[i,j]记录序列为xi和yj的最长公共子序列的长度,对应方向矩阵的项b[i,j]记录指示c[i,j]的值是由哪一个项计算得到的,递归关系如下式,示例如图6所示,方格中的数字为最长公共子序列长度c[i,j],方格中的箭头代表b[i,j],

3)步骤52,由方向矩阵b可以通过回溯方法快速构造序列x和y的最长公共子序列,从b[m,n]开始,沿着箭头所指的方向在数组b中搜索,当b[i,j]遇时,表示xi=yj是最长公共子序列的一个项。示例如图6所示,灰色的方格为回溯时经过的路径,路径中箭头为的灰色的方格对应的项是最长公共子序列的一个项,最长公共子序列有4项,分别为(x2=y1)、(x3=y3)、(x4=y5)和(x6=y6)。

步骤34,若所有图片已经比较过,则转步骤35,否则根据步骤33的分段比较结果设置下一分段的起始图片编号first_x和first_y,然后转步骤32取下一个要比较的分段。若步骤33找到最大公共子序列,且最大公共子序列的最后一项为(xi=yj),则设置起始图片编号为

first_x=first_x+ifirst_y=first_y+j

若步骤33没有找到最大公共子序列,则将起始图片编号设为

步骤35,合并所有分段比较结果,对每一个分段的图片序列比较结果进行处理,将最大公共子序列中每个项的图片编号加上该分段的起始图片编号,得到每个公共项在整个图片序列中的图片编号,然后合并所有分段的最大公共子序列,最终得到两个完整图片序列的最大公共子序列,即两个视频的相同部分,完成整个视频比较过程。

本发明还提供了一种比较多个视频内容相似性的装置,包括:获取待比较视频模块,用于获取两个待比较视频;抽取图片序列模块,用于将要比较的视频抽取成两个图片序列;图片比较模块,用于对每一张图片生成描述其特征的指纹,进行两张对应图片的比较;图片序列比较模块,用于使用分段方式对两个图片序列、运用最长公共子序列算法进行比较;合并分段模块,用于合并各个分段的比较结果得到两个视频的异同;审核模块,用于审核两个视频的不同部分,省略相同部分。

所述抽取图片序列模块,用于将视频缩放到相同分辨率,剪切出视频的公共区域生成图片,生成对应的两个图片序列,序列中每一张图片对应视频中的每一帧;图片比较模块包括指纹生成模块、图片指纹比较模块;所述指纹生成模块,用于将每张图片像素统一为mxn、若干级灰度;对每张图片,计算mxn个像素值的平均值;将mxn个像素值与所述的平均值进行比较,如像素值大于等于平均值取1,如像素值小于平均值取0;将上述的mxn个比较结果,按在图片中的位置组成无符号整数,得到图片的指纹;所述m和n为正整数;所述图片指纹比较模块,用于取一段要比较的图片序列,从两个图片序列的第1张图片开始比较,依次比较两个序列的每一张图片;计算两个图片指纹序列中,所有对应比特位两个无符号整数的不相同的个数,如果汉明距离不超过第一阈值,说明两张图片相似;如果汉明距离大于第二阈值,则说明这是两张不同的图片。

所述图片序列比较模块,用于使用最长公共子序列lcs算法寻找两个图片序列的相同部分:计算最长公共子序列长度矩阵和对应的方向矩阵;由方向矩阵通过回溯方法构造两个序列的最长公共子序列;所述合并分段模块,用于合并所有分段比较结果,对每一个分段的图片序列比较结果进行处理,将最大公共子序列中每个项的图片编号加上该分段的起始图片编号,得到每个公共项在整个图片序列中的图片编号;合并所有分段的最大公共子序列,最终得到两个完整图片序列的最大公共子序列,即两个视频的相同部分。本发明所述比较视频内容相似性的装置通过对两个视频的智能比较,得到视频的剪切情况,从而辅助视频的人工审核,审核时可据此仅需观看视频的不同部分,从而减轻审核人员的工作量,加速视频审核的过程。

本发明还提供了一种比较视频内容相似性的设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现上述的方法步骤。本发明所述比较视频内容相似性的设备通过对两个视频的智能比较,得到视频的剪切情况,从而辅助视频的人工审核,审核时可据此仅需观看视频的不同部分,从而减轻审核人员的工作量,加速视频审核的过程。

上述电子设备提到的通信总线可以是外设部件互连标准(peripheralcomponentinterconnect,简称pci)总线或扩展工业标准结构(extendedindustrystandardarchitecture,简称eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。通信接口用于上述电子设备与其他设备之间的通信。存储器可以包括随机存取存储器(randomaccessmemory,简称ram),也可以包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。上述的处理器可以是通用处理器,包括中央处理器(centralprocessingunit,简称cpu)、网络处理器(networkprocessor,简称np)等;还可以是数字信号处理器(digitalsignalprocessing,简称dsp)、专用集成电路(applicationspecificintegratedcircuit,简称asic)、现场可编程门阵列(field-programmablegatearray,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solidstatedisk(ssd))等。本发明并不限于上文讨论的实施方式。以上对具体实施方式的描述旨在于为了描述和说明本发明涉及的技术方案。基于本发明启示的显而易见的变换或替代也应当被认为落入本发明的保护范围。以上的具体实施方式用来揭示本发明的最佳实施方法,以使得本领域的普通技术人员能够应用本发明的多种实施方式以及多种替代方式来达到本发明的目的。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1