视频内容重复判断方法及装置与流程

文档序号:20082697发布日期:2020-03-13 05:50阅读:1360来源:国知局
视频内容重复判断方法及装置与流程

本发明涉及信息处理领域,尤其是一种视频内容重复判断方法及装置。



背景技术:

目前在互联网中充斥着海量的视频内容,其中包含大量的重复内容。这些重复内容会浪费大量的存储资源。为了节省存储资源,需要去除互联网中重复的视频内容。随着计算机对图片信息等各种自然语言处理应用的普及,人们需要一个有效且准确的方法来计算两个视频内容之间的相似度。目前的视频内容重复性判断方法主要是:余弦相似算法,但是余弦相似算法存在对比计算量大、效率低且阈值难定的问题,其相似度判断准确度不高。

因此需要提出一种能够快速去重且相似度判断准确性的视频内容重复判断方法。



技术实现要素:

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的目的是提供一种能够快速去重且相似度判断准确性的视频内容重复判断方法。

本发明实施例所采用的技术方案是:

第一方面,本发明实施例提供一种视频内容重复判断方法,包括:

建立图片相似性判断模型,所述图片相似性判断模型包括:图片比较值计算和图片相似性判断;

利用所述图片相似性判断模型计算每一个视频样本内容的样本帧图片的比较值信息,并生成视频内容对比数据集;

利用所述图片相似性判断模型计算目标视频内容的目标帧图片的比较值信息;

将所述目标帧图片的比较值信息与所述视频内容对比数据集的所述样本帧图片的比较值信息进行对比,并根据对比结果判断所述目标视频内容与所述视频内容对比数据集之间的重复情况。

进一步地,所述图片比较值计算具体为:

将图片归一化成相同的像素尺寸,并计算所有像素的平均灰度值;

遍历所有像素并与所述平均灰度值进行大小对比,根据对比结果进行二进制编码生成图片比较值,所述图片比较值为simhash值。

进一步地,所述图片相似性判断过程具体为:

根据待比较的两张图片的图片比较值,计算两张图片之间的海明距离;

如果所述海明距离小于预设阈值,则判断所述两张图片相似。

进一步地,所述样本帧图片和所述目标帧图片均包括:封面帧图片、第一预设时间帧图片和第二预设时间帧图片。

进一步地,所述视频内容对比数据集包括:视频样本内容的时长和样本帧图片的比较值信息。

进一步地,所述将所述目标帧图片的比较值信息与所述视频内容对比数据集的所述样本帧图片的比较值信息进行对比,并根据对比结果判断所述目标视频内容与所述视频内容对比数据集之间的重复情况,包括:

根据所述目标视频内容的视频时长在所述视频内容对比数据集中选取时长近似的视频样本内容作为对比视频集;

根据所述图片相似性判断过程判断所述目标视频内容和所述对比视频集的封面帧图片是否相似,如果不相似,则判断所述目标视频内容与所述视频内容对比数据集之间不重复;

否则,判断第一预设时间帧图片和第二预设时间帧图片是否都相似,如果都相似,则判断所述目标视频内容与所述视频内容对比数据集之间重复;

否则,判断所述目标视频内容与所述视频内容对比数据集之间不重复。

第二方面,本发明还提供一种视频内容重复判断装置,包括:

图片相似性判断模型建立模块:用于建立图片相似性判断模型,所述图片相似性判断模型包括:图片比较值计算和图片相似性判断过程;

生成对比数据集模块:用于利用所述图片相似性判断模型计算每一个视频样本内容的样本帧图片的比较值信息,并生成视频内容对比数据集;

计算目标比较值模块:用于利用所述图片相似性判断模型计算目标视频内容的目标帧图片的比较值信息;

判断重复状态模块:用于将所述目标帧图片的比较值信息与所述视频内容对比数据集的所述样本帧图片的比较值信息进行对比,并根据对比结果判断所述目标视频内容与所述视频内容对比数据集之间的重复情况。

第三方面,本发明实施例提供一种视频内容重复判断设备,包括:

至少一个处理器,以及与所述至少一个处理器通信连接的存储器;

其中,所述处理器通过调用所述存储器中存储的计算机程序,用于执行如第一方面任一项所述的方法。

第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如第一方面任一项所述的方法。

本发明实施例的有益效果是:

本发明实施例通过建立包括图片比较值计算和图片相似性判断过程的图片相似性判断模型,利用图片相似性判断模型计算每一个视频样本内容的样本帧比较值信息,并生成视频内容对比数据集,然后利用图片相似性判断模型计算目标视频内容的图片帧比较值信息,最后将目标帧图片的比较值信息与视频样本内容的样本帧图片的比较值信息进行对比,并根据视频去重策略判断目标视频内容与视频内容对比数据集之间的重复情况。本发明实施例通过提供一种快捷且准确度高的图片相似性判断方法,并将视频内容去重概括为不同帧图片的相似性判断,对于海量视频内容来说,提取关键信息,减少去重工作量,大大提高了视频内容的去重效率。可广泛应用于视频内容比较相关的信息处理领域。

附图说明

图1是本发明中视频内容重复判断方法的一具体实施例的实现流程图;

图2是本发明中视频内容重复判断方法的一具体实施例的计算图片比较值过程示意图;

图3是本发明中视频内容重复判断方法的一具体实施例的生成视频内容对比数据集示意图;

图4是本发明中视频内容重复判断方法的一具体实施例的视频去重策略流程示意图;

图5是本发明中视频内容重复判断装置的一具体实施例的结构框图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。

实施例一:

本发明实施例一提供一种视频内容重复判断方法,图1为本发明实施例提供的一种视频内容重复判断方法的实现流程图,如图1所示,该方法包括以下步骤:

s1:建立图片相似性判断模型,其中图片相似性模型包括:图片比较值计算和图片相似性判断。

s2:生成视频内容对比数据库,具体是:收集视频样本内容,利用图片相似性判断模型计算每一个视频样本内容的样本帧图片的比较值信息,并生成视频内容对比数据集,主要形成用于重复判断的比较视频库。

s3:生成目标视频内容比较值信息:具体是:利用图片相似性判断模型计算目标视频内容的目标帧图片的比较值信息,对应于上述步骤,本实施例中比较值信息包括:样本帧图片的比较值信息和目标帧图片的比较值信息。

其中,样本帧图片和目标帧图片均包括:封面帧图片、第一预设时间帧图片和第二预设时间帧图片。封面帧图片指当前视频内容用作封面标识的图片,可选的第一预设时间帧为开始第三帧,第二预设时间帧为倒数第三帧,该值均可根据实际应用情况进行调整,另外,在一种实施方式中,比较值信息包括多个时间帧的图像比较值,不限于3个。

s4:判断重复状态:将目标帧图片的比较值信息与视频内容对比数据集的样本帧图片的比较值信息进行对比,并根据对比结果判断目标视频内容与视频内容对比数据集之间的重复情况。

其中步骤s1中,如图2所示,为计算图片比较值过程示意图:

s11:为计算方便,将需要计算图片比较值的图片图片归一化成相同的像素尺寸,可以理解的是,样本帧图片和目标帧图片均采用该方式计算图片比较值。

s12:计算图片中所有像素的平均灰度值,本实施例中,可选的将图片归一化成8×8的像素,减少计算工作量。

s13:遍历图片中所有像素并与平均灰度值进行大小对比,根据对比结果进行二进制编码生成图片的比较值,本实施例中比较值即simhash值,可选的,例如根据对比结果将大于平均灰度值的记为1,小于平均灰度值的记为0,生成一个64位(可根据实际情况适应性修改)的二进制编码,即图片simhash值。

计算图片相似性过程为:

s14:根据两张图片的simhash值计算图片的海明距离,其中,在信息编码中,两个合法代码对应位上编码不同的位数称为码距,也称海明距离,本实施例中,对两张图片的simhash值各个位数编码进行对比,最终不同的位数就作为两张图片的海明距离。

s15:如果两张图片的海明距离小于预设阈值,则判断这两张图片相似,预设阈值可选的为6。

步骤s2中,生成视频内容对比数据集,即构建一个用于比较的原始数据库,如图3所示,为生成视频内容对比数据集示意图,从图中可见包括以下流程:

具体的是:利用步骤s1中得到图片相似性判断模型计算每一个视频样本内容的比较值信息,并生成视频内容对比数据集,视频内容对比数据集包括:视频样本内容的时长和样本帧图片的比较值信息。其中,如图3所示,为本实施例中生成视频内容对比数据集示意图,具体包括:

s21:获取作为训练样本集的视频样本内容及对应时长,如历史视频资讯等;

s22:利用图片相似性判断模型计算样本图片帧比较值信息,包括:封面帧图片的比较值、第一预设时间帧图片的比较值和第二预设时间帧图片的比较值,即图片simhash值;

s23:生成基于视频时长的视频样本内容列表,同时保存每一个视频样本内容对应的比较值信息,构建视频内容对比数据集。

本实施例中,如图4所示,步骤s4具体包括:

1)根据目标视频内容的视频时长在视频内容对比数据集中选取时长相同(判断时长相同时,两者不是完全相同,只要在预设误差之内即判定为相同,如预设误差为3s,如果两者时长差的绝对值小于等于3s,都认为两者相同)的视频样本内容作为对比视频集;

2)根据图片相似性判断过程判断目标视频内容和对比视频集的封面帧图片是否相似(即海明距离小于预设阈值),如果不相似,则判断目标视频内容与视频内容对比数据集之间不重复;

3)否则,判断第一预设时间帧图片和第二预设时间帧图片是否都相似,如果都相似,则判断目标视频内容与视频内容对比数据集之间重复;

4)否则,判断目标视频内容与视频内容对比数据集之间不重复。

本实施例通过建立包括图片比较值计算和图片相似性判断过程的图片相似性判断模型,利用图片相似性判断模型计算每一个视频样本内容的样本帧比较值信息,并生成视频内容对比数据集,然后利用图片相似性判断模型计算目标视频内容的图片帧比较值信息,最后将目标帧图片的比较值信息与视频样本内容的样本帧图片的比较值信息进行对比,并根据视频去重策略判断目标视频内容与视频内容对比数据集之间的重复情况。提供一种快捷且准确度高的图片相似性判断方法,并将视频内容去重概括为不同帧图片的相似性判断,对于海量视频内容来说,提取关键信息,减少去重工作量,大大提高了视频内容的去重效率。

实施例二:

本实施例提供了一种视频内容重复判断装置,用于执行实施例一所述的方法,如图5所示,为本实施例的视频内容重复判断装置结构框图,包括:

图片相似性判断模型建立模块10:用于建立图片相似性判断模型,其中,图片相似性模型包括:图片比较值计算和图片相似性判断过程;

生成对比数据集模块20:用于利用图片相似性判断模型计算每一个视频样本内容的比较值信息,并生成视频内容对比数据集;

计算目标比较值模块30:用于利用图片相似性判断模型计算目标视频内容的比较值信息;

判断重复状态模块40:用于将目标帧图片的比较值信息与所述视频内容对比数据集的所述样本帧图片的比较值信息进行对比,并根据对比结果判断目标视频内容与视频内容对比数据集之间的重复情况;

对应的,比较值信息包括:样本帧图片的比较值信息和目标帧图片的比较值信息。

另外,本发明还提供一种视频内容重复判断设备,包括:

至少一个处理器,以及与所述至少一个处理器通信连接的存储器;

其中,所述处理器通过调用所述存储器中存储的计算机程序,用于执行如实施例一所述的方法。

另外,本发明还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,其中计算机可执行指令用于使计算机执行如实施例一所述的方法。

本发明可在对比过程中返回的相似非重复数据或返回视频内容最相似数据列表,能够广泛应用于数据相关推荐算法、搜索query查询结果和原创作者分析、热门事件/话题发现等信息处理领域。

以上各实施例仅用以说明本发明的技术方案,而非对其限制,尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1