视频检测系统和方法

文档序号:6477545阅读:300来源:国知局
专利名称:视频检测系统和方法
技术领域
本发明涉及一种基于内容的检索系统。具体来说,本发明涉及一种用来监控视频 内容的视频特征检测、识别及分类系统。

背景技术
到达终端用户设备的宽带通信信道的可用性已经使得图像、音频和视频内容的媒
体覆盖无处不在。在全球范围内传送的多媒体内容的日益增多的数量促进了对于智能内容
管理的需求。供应商必须对其内容进行组织,并且必须能够检测未经授权的广播、使用以及
改变。类似地,广播商和市场研究人员想要知道特定的片段(footage)在何时何地已经被
广播。内容监控、市场趋势分析以及版权保护是数字媒体的新领域中的新兴应用 基于内容的检索(CBR)系统通常被用来访问、组织以及分析以数字数据表示的形
式存储的信息。可以对所述数字数据表示进行搜索或者按照其他方式对其进行查询,以便
确定与现有的数字数据表示的目标集合的匹配。可以通过所查询的数字数据表示与现有的
数字数据表示集合之间的相似度来确定匹配。这些数字数据表示通常可以被如下分类数
字文字、数字图形、数字图像、数字音频、数字视频、数字音频和视频及其组合。 每一种数字数据表示分类通常共享特定于其分类的属性或特征。可以使用特征模
型来识别及定义特定于某一分类的特征,并且通过某一分类的特征空间中的特征集合来表
示该给定分类中的每一项数字数据表示。因此,可以把一项查询限制到将所查询的数字数
据表示的特征集合与现有的数字数据表示集合的特征集合相匹配,其中所查询的和现有的
数字数据表示特征都处在相同的特征空间内。 对特征进行匹配通常自动要求首先把特征简化成数字值集合。这可以利用特征数 据集合和特征量度来实现,其可以被用于根据一条或更多条被称为特征度量的规则来进行 匹配。特征度量通常由在所查询的与目标数字数据表示特征空间的特征中的相应的特征数 据集合单元之间所测量的距离来决定。K维特征空间中的这种距离度量通常被称作K维最 近邻居查询或K-NN查询。 在1970年代中期引入了诸如树结构之类的分级结构来索引K-NN查询。Guttman在 1984年提出了一种R树索引结构,其后,Sellis在1987年提出了一种R+树变型,Beckman 在1990年提出了一种动态lf树变型。在每一种上面提到的树结构中,特征被定义在叶结 构中,即所述特征空间的分区(partitions)。可以找到与跨越所述各分区的非正则凸子空 间的距离。在维度K大于近似20并且具有低距离度量方差的特征空间内,所述非正则凸子 空间使得在每一种上面提到的树结构中索引的K-NN查询几乎无法处理。
由Faloutsos于1995年以及由Ng和Sedighain于1996年实现的主分量分析方 法利用Karhunen-Loeve变换的快速近似减少了特征空间维度。但是随着特征空间维度的显著减少,结果一致表明K-NN查询的精度会有损失。 特征空间内的关系数据库去除了所述树结构拓扑,从而允许定义量度空间,以 便在没有所述树结构拓扑本身的固有信息的情况下跨越所述树结构拓扑。在l 999年, Vleugels实现了一种量度空间以及量度空间到d维优势空间(vantage-space)的变换,从 而产生用于K-NN查询的特征度量,但是在从关系数据库到树结构数据库的变换过程中损 失了查询精确度。 第二组关系数据库方法由Chiueh在1994年和Ciaccia在1997年实现。Chiueh 的优势点树和Ciaccia的M树都把特征空间递归地分区成越来越小的特征子空间,其中每 一个特征子空间由正则超球面定义。在K-NN查询中搜索各超球面的矩心,从而降低了复杂度。 利用前面提到的树结构、关系数据库结构以及所述树结构与关系数据库结构的组 合的K-NN查询没有利用到许多数字数据表示的特征集合中所固有的特征集合正交性。通 过根据所定义的特征集合的固有性质对特征进行迭代聚类,可以把特征空间中的各特征聚 类递归地分区成越来越小的分离特征子空间(即巢状分离特征子空间),其中每一个所述 子空间由正则超球面定义。 涉及到包括分离超球面的特征子空间的K-NN查询允许进行部分搜索并且对于减 少了的搜索时间提高了搜索精度。
发明概要 本发明通过提供一种基于内容的检索系统满足了存在于本领域内的需求,所述系 统用于从来自几乎任何来源的数字媒体广播中检索诸如电影、剪辑和广告之类的数字片段 的数字数据表示,从而还允许自动高效地监督这种数字内容。根据本发明的系统和处理可 以是高度可扩展的,其使用高级的计算机视觉和信号处理技术来实时地分析视频和音频域 内的片段。 在一些实施例中,所述基于内容的检索包括在一项或更多项数字数据表示的巢状 分离特征空间内实施的一项或更多项K-NN查询。在本发明中,数字数据表示可以被分类为 以下各类的其中一类数字文字、数字图形、数字图像、数字音频、数字视频、数字音频和视 频及其组合。 所述递归特征空间是顺序特征数据集合提取的结果。顺序特征数据集合提取至少 包括把已编码的且压縮的数字数据表示转换成已解码的且解压縮的数字数据表示;把所 述已解码的且解压縮的数字数据表示映射到数字图像空间上;从所述数字图像空间顺序地 产生一组特征数据集合;把来自所述数字图像空间的该组特征数据集合与来自现有的数字 数据表示集合中的文件的相应的一组特征集合进行比较;基于特征度量集合和阈值集合把 所述数字图像空间与所述文件相匹配;以及对于新的一组特征数据集合和新的数字图像空 间当中的一项或更多项重复上述步骤。 产生一组特征数据集合包括以下步骤的至少其中之一 从所述数字图像空间产生 一组或更多组空间特征数据集合;从所述数字图像空间产生一组或更多组空间频率特征数 据集合;从所述数字图像空间产生一组或更多组时间特征数据集合;从所述数字图像空间 产生一组或更多组时间频率特征数据集合;从所述数字图像空间产生一组或更多组位图特
7征数据集合;以及上述步骤的组合。 此外,所述数字图像空间本身可以是以下各项当中的一项或更多项空间的一维 空间、空间的多维空间、时间的一维空间、时间的多维空间、动量空间、能量空间、RGB颜色空 间、YCrCb颜色空间、YIQ颜色空间、YUV颜色空间、9色空间、29色空间、位像空间及其 组合。 从所述数字图像空间产生所述一组或更多组空间特征数据集合包括产生一个或 更多空间矩集合。产生所述一个或更多空间矩集合包括产生以下各项的至少其中之一 均 值、方差以及偏斜度。从所述数字图像空间产生所述一组或更多组空间频率特征数据集合 包括产生以下各项当中的一项或更多项一维DFT、多维DFT、一维小波变换以及多维小波变换。 从所述数字图像空间产生所述一组或更多组时间特征数据集合包括产生由时间 和事件的其中之一索引的特征数据集合,其中事件包括以下各项的其中之一 图像、图像改 变、图像改变率、图像触发、图像消息及其组合。从所述数字图像空间产生所述一组或更多 组时间频率特征数据集合包括以下各项的其中之一 一维z变换、多维z变换、LSP、二维 LSP、时间小波变换及其组合。 从所述数字图像空间产生所述一组或更多组位图特征数据集合包括从以下各项 当中的一项或更多项产生位图特征数据集合位像空间、经过平移的位像空间、 经过旋转的位像空间、经过调整尺寸的位像空间以及经过重新量化的位像空 间。 所述位像空间包括在所述数字图像空间内提供分区。在一个或更多实施例 中,在所述数字图像空间内提供分区包括在空间的二维图像空间内提供5部分分区。在一 些实施例中,所述5部分当中的4个部分包括与所述空间的二维图像的4个边缘当中的每 一个毗接的梯形,并且第5部分包括所述空间的二维图像的中心处的矩形。在一些实施例 中,所述5部分当中的4个部分包括处于所述空间的二维图像的各边缘处或其附近的圆形, 并且第5部分包括处于所述空间的二维图像的中心处或其附近的圆形。
所述位像空间包括提供分辨率改变,其中可以改变128x128像素的完全分辨 率以便提供以下分辨率的其中之一 64x64像素、32x32像素以及附加的适当分辨率。所述 位像空间包括通过重新量化与以下各项当中的一项或更多项相关联的幅度集合来提 供经过重新量化的位像空间所述数字图像空间的改变、所述分辨率的改变以及所述 分区的改变。所述经过重新量化的数字图像空间包括根据一种受约束的扩散算法对所述幅 度集合进行重新量化。 把来自所查询的数字图像集合的各特征数据集合与来自文件数字图像集合的相
应的特征数据集合进行比较包括生成相应的特征数据集合单元之间的集合距离量度,其中
所述距离量度集合由误差函数集合生成。把所述查询数字图像集合与所述文件数字图像集
合匹配包括对其相应的距离量度集合小于阈值集合的文件数字图像集合进行分组。 在一些实施例中,一种被适配成产生视频检测的设备包括用于提取所查询的数
字图像集合与第一组文件数字图像集合当中的每一个文件数字图像集合所共有的多个特
征集合的装置;以及用于顺序地搜索所述多个特征数据集合以便找到匹配的一组文件数字
图像集合的装置。顺序搜索包括把所述查询数字图像集合与所述第一组文件数字图像集合的顺序地更小的一组子集所共有的所述多个特征数据集合相匹配。 所述设备还包括用于把所述查询数字图像集合中的所查询的数字图像的一个或
更多子帧与所述匹配的一组文件数字图像集合中的文件数字图像的一个或更多子帧的一
个或更多集合进行比较的装置。对RGB颜色空间内的经过排序的像素集合进行比较,其中
所述经过排序的像素集合以及所述RGB颜色空间是所述查询数字图像集合中的所查询的
数字图像与所述匹配的一组文件数字图像集合中的所述文件数字图像所共有的。 所述设备还包括用于对所查询的数字图像的所述一个或更多子帧进行平移、调整
尺寸以及重新量化并且重复上面提到的比较的装置,以便减小所述经过排序的像素集合的
一个或更多子集的一个或更多匹配误差函数。 所述设备还包括用于在所述一个或更多匹配误差函数小于一个相应的匹配阈值 集合的情况下检测匹配的装置。如果没有检测到,所述设备包括用于向所述匹配的一组文 件数字图像集合中的所述文件数字图像的一个或更多子帧的所述一个或更多集合当中添 加以下各项的其中之一的装置(l) 一个或更多新的子帧;以及(2) —个或更多子帧的新的
隹A 朱n o 所述设备还包括用于针对所述匹配的一组文件数字图像集合中的每一个文件数 字图像重复上面提到的逐比特比较的装置。 在一些优选实施例中,一种视频检测方法包括提取所查询的数字图像集合与第 一组文件数字图像集合当中的每一个文件数字图像集合所共有的第一特征数据集合;测量 对于所查询的数字图像集合的第一特征数据集合与对于所述第一组文件数字图像集合当 中的每一个文件数字图像集合的第一特征数据集合之间的一个或更多误差函数的第一集 合;以及生成第二组文件数字图像集合。所述第二组文件数字图像集合包括所述第一组文 件数字图像集合当中的其一个或更多误差函数的相应的第一集合小于相应的第一阈值集 合的每一个文件数字图像集合。可以重复前面提到的各步骤,直到提取最终的特征数据集 合为止,从而生成匹配的一组文件数字图像集合。 在一些优选实施例中,所述视频检测方法还包括把所述查询数字图像集合中的所 查询的数字图像的一个或更多子帧与所述匹配的一组文件数字图像集合中的文件数字图 像的一个或更多子帧的一个或更多集合进行比较。所述比较是通过RGB颜色空间内的经过 排序的像素集合来进行的,其中所述经过排序的像素集合以及所述RGB颜色空间是所述查 询数字图像集合中的所查询的数字图像与所述匹配的一组文件数字图像集合中的所述文 件数字图像所共有的。 在一些优选实施例中,对所查询的数字图像的所述一个或更多子帧进行平移、调 整尺寸以及重新量化,以便减小所述经过排序的像素集合的一个或更多子集的一个或更多 匹配误差函数。 在一些优选实施例中,如果所述一个或更多匹配误差函数小于相应的匹配阈值集 合则检测到匹配。如果没有检测到匹配,则所述视频检测方法向所述匹配的一组文件数字 图像集合中的所述文件数字图像的一个或更多子帧的所述一个或更多集合当中添加以下 各项的其中之一 (l) 一个或更多新的子帧;以及(2) —个或更多子帧的新的集合。对于所 述匹配的一组文件数字图像集合当中的每一个文件数字图像重复上面提到的用来检测匹 配子帧的各步骤。
9
在一些优选实施例中,通过所述查询数字图像集合的C0L0R9空间中的二维统计矩的第一函数提取所述第一特征数据集合。在一些优选实施例中,所述第一函数包括根据所述查询数字图像集合中的相继的查询数字图像之间的所述二维统计矩集合的距离度量,在时间上把所述查询数字图像集合分段成一组分段查询数字图像子集;并且对于每一个分段查询数字图像子集,对所述二维统计矩集合求平均。
在一些优选实施例中,所述测量包括对于所述第一组文件数字图像集合当中的
每一个文件数字图像集合,得到所述平均与相应的关键帧的差异。在一些优选实施例中,所
述二维统计矩集合包括以下各项的至少其中之一均值、方差以及偏斜度。 在一些优选实施例中,通过所述查询数字图像集合的C0L0R9空间中的二维统计
矩的第二函数提取第二特征数据集合。在一些优选实施例中,所述第二函数包括根据所述
查询数字图像集合中的相继的查询数字图像之间的所述二维统计矩集合的距离度量,在时
间上把所述查询数字图像集合分段成一组分段查询数字图像子集;并且对于每一个分段查
询数字图像子集,在时间上索引所述二维统计矩集合。 在一些优选实施例中,所述测量包括对于所述第一组文件数字图像集合当中的每一个文件数字图像集合,把所述时间索引与相应的分段帧集合进行巻积。在一些优选实施例中,所述二维统计矩集合包括以下各项的至少其中之一 均值、方差以及偏斜度。
在一些优选实施例中,作为C0L0R9空间内的二维小波变换系数集合提取第三特征数据集合。所述二维小波变换系数集合可以是Haar变换系数。所述C0L0R9空间可以被变换到灰度,以便于进行所述二维小波变换。 在一些优选实施例中,对所述经过排序的像素集合进行比较是由所述匹配的一组
文件数字图像集合中的所述文件数字图像定义的,并且所述经过排序的像素集合包括以下各项的一个或更多集合水平偏移量、垂直偏移量、水平分段长度以及垂直分段长度。 在一些优选实施例中,为了减小所述一个或更多匹配误差函数而进行所述平移、调整尺寸、重新量化以及重复包括一个或更多反馈环路。在一些优选实施例中,为了减小所述一个或更多匹配误差函数而进行所述平移、调整尺寸、重新量化以及重复包括边缘检测和抑制功能。在一些优选实施例中,检测匹配还包括在所述经过排序的像素集合的所述一个或更多子集毗连的情况下检测到匹配。 在一些优选实施例中,如果没有检测到匹配,则所述视频检测方法添加所述查询数字图像的一个或更多子帧的子集。 在一些优选实施例中,使用一种视频归档方法来自动标记及存储视频剪辑。所述视频归档方法包括对视频进行编码;把所述视频导入到文件数字图像集合中;从所述文件数字图像集合生成视频检测数据集合;从所述文件数字图像集合生成视频分析数据集合;从所述文件数字图像集合生成元数据集合;基于所述文件数字图像集合生成人工注释数据集合;以及从前面生成的数据生成视频索引数据集合,以便对所述视频进行归档。
在文件数字图像上产生比先前测量的文件数字图像明显更大的距离的部分完成的视频方法可以指导所述视频检测设备跳到下一个文件数字图像,从而有效地插入数据树修剪步骤。在文件数字图像上产生比先前测量的文件数字图像明显更小的距离的部分完成的视频方法可以指导所述视频检测设备存储正在测试的文件数字图像,从而允许所查询的数字数据表示替换所述匹配的文件数字图像集合中的先前测量的文件数字图像。
10
过早地中止搜索以便用正在测试的文件数字图像替换先前测试的文件数字图像包括以下各项当中的一项或更多项对一个或更多匹配误差的集合进行反巻积;以及重新分配阈值水平。
附图简述 通过下面对附图中所示的本发明的优选实施例进行更为具体的描述,本发明的上述和其他目的、特征和优点将变得显而易见,其中相同的附图标记在各图中指代相同的部件。附图不一定是按比例绘制的,其重点是说明本发明的原理。


图1示出了根据本发明的实施例的示例性多通道视频监控处理的功能方框图。
图2示出了根据本发明的实施例的示例性多通道视频监控系统的方框图。
图3是示出了根据本发明的实施例的数字视频指纹的生成。 图4示出了根据本发明的实施例的与多通道视频监控系统的示例性图形用户界面的截屏。 图5示出了根据本发明的实施例的由与多通道视频监控系统的图形用户界面提供的示例性的详细剪辑比较的截屏。 图6示出了根据本发明的实施例的示例性数字视频图像检测和匹配系统的系统方框图。 图7示出了根据本发明的实施例的示例性音频视频检测和匹配系统的系统方框图。 图8示出了根据本发明的实施例的示例性视频检测处理的流程图。 图9A示出了根据本发明的实施例的各K-NN巢状分离特征子空间的示例性横贯集合。 图9B示出了根据本发明的实施例的在数字图像表示子帧中有改变的各K-NN巢状分离特征子空间的示例性横贯集合。 图10示出了根据本发明的实施例的可检测到的数字图像表示子帧中的改变的实例。 优选实施例的详细描述 应当认识到,这里所示出并描述的具体实现方式是本发明的实例,而绝不是为了限制本发明的范围。此外,所述技术适于应用在远程电信会议、机器人视觉、无人驾驶交通工具或者任何其他类似应用中。 根据本发明的视频检测系统和处理能够对来自几乎任何来源的数字媒体广播与诸如电影、剪辑和广告之类的数字片段进行比较。这就允许自动且高效地监督数字内容。所述视频检测系统是高度可扩展的,其使用高级的计算机视觉和信号处理技术来实时地分析视频和音频域内的片段。 用户可以将其参考内容插入到所述视频检测系统中,并且指定诸如不同的广播电
视频道或数字视频流之类的一个或更多媒体源以进行监控。所述系统随后生成关于所述参
考内容在所监控的媒体源内的外观的详细统计量。保留所述广播片段的一份拷贝以用于进
行确认的目的。所述视频检测被设计成在没有全天候监督的情况下进行操作。通过把所需
的人工干预量最小化,这允许按照非常成本高效的方式监控几乎任何来源。 此外,所述视频检测系统的基于内容的自动识别技术是高度精确的。尽管观察人员可能会由于疲劳而出错或者错过所述片段中的难于识别的细节,而视频检测系统则能够以证实超过99%的精度检测内容。这并不需要预先对待监控的片段进行检查或操纵。所述系统从视频流数据本身当中提取相关信息,从而可以在无需人工交互的情况下高效地监控接近无限数目的通道。 所述视频检测系统从所述参考内容计算数字签名(其被称作指纹)。这些数字签名描述了所述内容的特定视听方面,比如颜色分布、形状、图案以及音频流中的频谱。每一段视频都具有唯一的指纹,所述指纹基本上是其特有的视听特性的紧致数字表示。
所述参考内容的指纹与所有相关的元信息一起被存储在参考数据库中。如图1所示,在一种典型情况中,通过视频检测信号采集单元对将要监控的视频源进行缓冲;从这些视频源离线提取指纹;随后将所提取的指纹与所述参考数据库中的指纹进行比较。
视频检测系统和处理使用一种快速多级指纹比较引擎,其能够可靠地识别出所述参考内容在所监控的视频数据流中的任一次出现。作为所述指纹处理的一部分,所述系统对紧邻地出现的相似帧进行聚类,正如图2中所示出的那样。这就导致把所述视频在时间上分段成视觉上连贯的小单位,其被称作分镜(shot)。对于每一个分镜选择出一个代表帧(即关键帧),其可以被用于显现在故事板上。各单独帧的指纹可以被组合形成用于整个剪辑的视频指纹。所述视频检测系统和处理使用这些视频指纹来识别出参考内容或其各部分是否以及何时出现在其中 一个所监控的视频流中。 在所述匹配处理中,所述视频检测系统分析所述片段以便识别出感兴趣区域(ROI)。感兴趣区域例如在参考内容不被全屏显示时出现,其作为尺寸縮小的版本与视频中的其他内容一起被显示。在此类情况中,所述分析引擎能够识别出其中显示出所述参考内容的区域,并且在后续处理步骤中忽略其他内容。 系统总览。图3中所示的根据本发明的示例性视频检测系统40包括至少4个主要子系统(i)信号或媒体采集子系统42 ;(ii)内容分析子系统44 ;(iii)数据存储子系统
46;以及(iv)管理子系统48。所述媒体采集子系统42采集一个或更多视频信号50,并且对于每一个信号将其作为数据块存储在多个信号缓冲单元52中。取决于使用情况,所述缓冲单元52也可以执行指纹提取,正如这里更加详细地描述的那样。这在远程捕获情况中可能是有用的,其中通过诸如因特网之类的通信介质从远程捕获站点向集中式内容分析站点传送非常紧致的指纹。所述视频检测系统40和处理也可以与现有的信号采集方案集成在一起,只要可以通过网络连接访问所记录的数据。 用于每一个数据块的指纹可以被存储在所述数据存储子系统46的媒体贮存库58部分中。在一些实施例中,所述数据存储子系统46包括系统贮存库56和参考贮存库60当中的一个或更多个。所述数据存储子系统46的所述贮存库56、58、60当中的一个或更多个可以包括一个或更多本地硬盘驱动器、网络访问的硬盘驱动器、光学存储单元、随机存取存储器(RAM)存储驱动器及其组合。所述贮存库56、58、60当中的一个或更多个可以包括数据库管理系统,以便于存储及访问所存储的内容。在一些实施例中,所述系统40通过其数据库访问层支持不同的基于SQL的关系数据库系统,比如Oracle和Microsoft-SQL Server。这种系统数据库充当用于在操作期间生成的所有元数据的中央贮存库,其中包括处理、配置以及状态信息。 在一些实施例中,所述媒体贮存库58充当所述系统40的主要有效载荷数据存储装置,其用于存储所述指纹及其相应的关键帧。与所存储的指纹相关联的所述经过处理的 片段的低质量版本也被存储在所述媒体贮存库58中。可以利用能够作为联网文件系统被 访问的一个或更多RAID系统来实施所述媒体贮存库58。 每一个所述数据块可以成为一项分析任务,其被调度来由所述管理子系统48的 控制器62进行处理。所述控制器62主要负责负载平衡以及把各项工作分配给所述内容分 析子系统44的内容分析聚类54中的各单独节点。在至少一些实施例中,所述管理子系统 48还包括操作员/管理员终端,其通常被称作前端64。所述操作员/管理员终端64能够 被用来配置所述视频检测系统40的一个或更多元件。所述操作员/管理员终端64还能够 被用来上传参考视频内容以供比较,以及用来查看及分析所述比较的结果。
如图3中所示,所述内容分析单元从所述信号缓冲单元直接获得所记录的数据 块,并且在进行分析之前提取指纹。所述系统40(图2)接收一个或更多视频(更一般来说 是视听)剪辑或分段70,其中的每一个包括对应的一系列图像帧71。所述图像帧是高度冗 余的,其中各组帧根据所述视频分段70的不同分镜而彼此不同。在所述示例性视频分段70 中,根据分镜对该视频分段的各采样帧进行分组第一分镜72'、第二分镜72"以及第三分 镜72"'。对于每一个所述不同分镜72'、72"、72"'(总体上记为72)选择代表性帧或关键 帧74' 、74"、74"'(总体上记为74)。所述系统40为每一个所述不同的关键帧74确定对应 的数字签名76' 、76"、76"'(总体上记为76)。用于所述各关键帧74的该组数字签名76合 起来代表所述示例性视频分段70的数字视频指纹。 在处理了几个这样数据块70之后,把用于这些数据块的检测结果存储在所述系 统数据库56(图2)中。有利的是,可以对所述信号缓冲单元52(图2)和内容分析节点 54(图2)的数目和容量进行灵活地縮放,以便针对任何种类的具体使用情况定制所述系统 的容量。所述系统40的实现可以包括多个软件组件,其可以被组合并配置以适应各种需 求。取决于具体的使用情况,可以在相同的硬件上运行几个组件。替换地或附加地,可以在 单独的硬件上运行各组件以便获得更好的性能并且改进容错性。这种模块化系统体系结构 允许进行定制,从而适应几乎每一种可能的使用情况,其范围涵盖了从本地的单PC解决方 案到全国范围的监控系统、容错性、记录冗余度及其组合。 系统操作员或数据分析师可以使用所述前端40(图2)来检查检测结果、管理参考 内容以及监控所述系统的状态。可以向所述核心系统添加几种辅助工具,比如用来提取新 的参考剪辑并且将其插入到数据库中的ClipCutter(剪辑剪切)应用,以及允许把参考剪 辑与先前记录的片段进行离线匹配的RetroMatch(回溯匹配)工具。 在一些实施例中,所述视频检测系统和处理可以被安装为Web入口解决方案。Web 入口实现方式允许提供灵活的按需监控以作为服务。除了 web接入之外不需要其他很多条 件,web入口实现方式就允许参考数据容量较小的客户端受益于本发明的视频检测系统和 处理的优点。各种解决方案可以提供利用了 Microsoft. Net Remoting的几种编程接口当中 的一种或更多种,以便与现有的应用进行无缝户内集成。替换地或附加地,可以通过安装次 级控制器和次级信号缓冲单元来添加用于所记录的视频数据的长期存储以及操作冗余度。
再次参照图2,所述信号缓冲单元52可以被实施成在无需任何用户交互的情况下 全天候操作。在这种实施例中,捕获连续视频数据流、将其划分成可管理的分段或块并且将 所述各分段或块存储在内部硬盘中。所述硬盘空间可以被植入充当循环缓冲器。在这种配
13置中,较早存储的数据块可以被移动到单独的长期存储单元中以进行归档,从而释放所述 内部硬盘驱动器上的空间以用于存储新近到来的数据块。这种存储管理在非常长的时间段 (例如以小时、天或星期计)内提供可靠的、不会中断的信号可用性。所述控制器62被配置
成确保对所有数据块进行及时处理,以便没有数据丢失。如果需要的话(例如在网络中断
期间),所述信号采集单元52被设计成在没有任何网络连接的情况下进行操作,以便提高
所述系统的容错性。 在一些实施例中,所述信号缓冲单元52对所记录的数据块本地执行指纹提取和 代码转换。与底层的数据块相比,所得到的指纹的存储要求非常低,并且可以与所述数据块 一起被本地存储。这就允许通过有限带宽的网络传送包括故事板的非常紧致的指纹,从而 避免传送完整的视频内容。 在一些实施例中,所述控制器62管理对由所述信号缓冲单元52记录的数据块的 处理。所述控制器62不断地监控所述信号缓冲单元52和内容分析节点54,从而按照需要 执行负载平衡,以保持对系统资源的高效使用。举例来说,所述控制器62通过把各项分析 工作分配给所选的分析节点54来启动对新数据块的处理。在一些事例中,所述控制器62 自动重新启动所述分析节点54或者一个或更多整个分析节点54上的单独的分析处理,从 而允许在没有用户交互的情况下进行错误恢复。可以在所述前端64处提供图形用户界面, 以用于监控及控制所述系统40的一个或更多子系统42、44、46。举例来说,所述图形用户界 面允许用户配置、重新配置以及获得所述内容分析44子系统的状态。 在一些实施例中,所述分析聚类44包括一个或更多分析节点54以作为所述视频 检测和监控系统的工作主力。每一个分析节点54独立地处理由所述控制器62分配给它们 的分析任务。这主要包括取得所记录的数据块、生成所述视频指纹以及把所述指纹与所述 参考内容相匹配。所得到的数据被存储在所述媒体贮存库58和所述数据存储子系统46中。 所述分析节点54还可以作为参考剪辑摄取节点、备用节点操作,或者在所述系统执行回顾 匹配的情况下作为RetroMatch节点操作。 一般来说,所述分析聚类的所有活动受到所述控 制器的监控和控制。 在图4中示出了用于操作员、数据分析师以及其他用户的示例性主图形用户界面 (GUI)的截屏80。所述视频检测和比较GUI 80使得用户能够检查检测、管理参考内容、编 辑剪辑元数据、播放参考片段和检测到的片段以及执行参考内容与检测到的内容之间的详 细比较。在一些实施例中,所述系统40包括一个或更多不同的图形用户界面以用于不同的 功能和/或子系统,比如记录选择器和控制器前端64。 入口是与所述系统的基于web的终端用户接口,其用于提供按需内容检测以作 为服务。所述入口针对的是具有较少量参考内容的顾客,比如小型到中型广告代理、内容 所有者或者PR公司。客户可以登录、上传其参考内容以及选择其希望在指定时间跨度内 监控的通道。可以在任何时间在线查看详细的检测报告,并且可以在每次播出了参考内 容时发送电子邮件通知。此外,所述入口提供高级功能,比如RSS馈送、元数据访问、下载 Microsoft-Excel或XML格式的检测报告以及详细的剪辑差异显现(就好像所述GUI前端 那样)。 所述视频检测和比较GUI 80包括一个或更多用户可选择的控制82,比如标准窗 口控制特征。所述GUI 80还包括检测结果表84。在所述示例性实施例中,所述检测结果表
1484包括多行60,其中每一行对应于每一检测。所述行60包括所存储的图像的低分辨率版 本以及与所述检测本身相关的其他信息。 一般来说,可以在所存储的图像旁边提供所述图 像的名称或其他文字指示。所述检测信息可以包括以下各项当中的一项或多项检测的日 期和时间;所述通道或其他视频源的记号;关于匹配质量的指示;关于音频匹配的质量的 指示;检查日期;检测标识值;以及关于检测源的指示。在一些实施例中,所述GUI 80还包 括用于查看所检测到的匹配视频的一帧或更多帧的视频查看窗口 88。替换地或附加地,所 述GUI 80还包括用于比较音频比较的记号的音频查看窗口 89。 所发布的内容常常略微不同于原始的参考内容,但是所发布的该内容仍将被检测 到,所述系统将不会报告100%匹配。在这些情况下,用户可以利用示例性的图形用户界面 90详细检查参考与检测之间的改变以进行比较分析,正如图5中所示出的那样。在上一行 92中逐关键帧96地示出所述参考内容,并且将其与下一行94中的所检测到的内容进行比 较。利用有色框突出显示视觉差异。音轨中的差异可以被显示为在所述关键帧96上方示 出的可区别颜色的条(例如红色和绿色条)98'、98",并且可以通过所述用户界面90并排播 放参考片段和所检测到的片段来进行评估。在一些实施例中,所述前端64(图2)提供了基 于分量的图形用户界面,其可以被定制以满足个别需求。在需要时可以添加诸如用户管理 和系统监控之类的功能。 现在参照图6,其中详细示出了根据本发明的实施例的示例性数字视频图像检测 和匹配系统的系统方框图100。所述系统方框图IOO包括用户接口 110、系统管理器120、文 件管理器130、预处理器140、视频帧处理器150、文件数据库160以及视频数据库170。
所述用户接口 110与所述系统管理器120和文件管理器130直接通信。所述系统 管理器130包括分析控制器121以及用来提供系统配置126和系统定时功能127的各元件。 所述分析控制器121包括输入分析控制器121A和输出分析控制器121B。所述输入分析控 制器121A包括用以提供阈值集合1 22的元件。所述输出分析控制器包括检测器123、分类 器124以及视频驱动器125。 所述阈值集合122被用作系统输入,以便确定一个或更多特征集合阈值。在一些 实施例中,所述阈值集合122基于来自所述用户接口 IIO的输入人工地确定特征阈值。在 一些实施例中,所述阈值集合122自动确定特征阈值。在一些实施例中,所述阈值集合122 人工地并且自动地确定特征阈值。 视频匹配输出数据集合由所述检测器123和分类器124接收到。所述检测器123 寄存所述视频匹配输出数据的结果。所述分类器124对所述视频匹配输出数据的结果进行 分类。所述视频驱动器125显示所述视频匹配输出数据的结果和分类。
所述系统管理器120的系统配置126和系统定时127元件与所述预处理器140进 行通信。所述系统配置126确定用以捕获MPEG视频输入流的固件配置。所述系统定时127 确定用于所述MPEG视频输入流的视频捕获率和视频捕获时段。 所述用户接口 110与文件管理器130进行通信以上传至少一个视频文件,从而与 所查询的视频输入进行比较。所述文件管理器包括web查询131、上传标签132以及文件上 传功能和队列133。所述web查询131、上传标签132以及文件上传功能133由用户通过所 述用户接口 IIO来选择。 预处理器140包括用于MPEG视频捕获和缓冲的元件141、用于从MPEG数字图像表示到RGB数字图像表示的视频转换的元件142、用于去除边界、划分屏幕和调整视频尺寸的 元件143以及用于从RGB数字图像表示到C0L0R9数字图像表示的视频转换的元件144。
所述预处理器140与所述视频帧处理器150进行通信。所述视频帧处理器150包 括用于低分辨率时间特征提取的元件151 (其中低分辨率时间特征提取包括用以计算低分 辨率时间矩的方法)以及用以把所述低分辨率时间矩与现有数据库进行比较的元件152。 所述视频帧处理器150在相同的元件中还包括用于高分辨率特征提取的元件151 (其中高 分辨率特征提取包括用以计算高分辨率时间矩的方法)以及用以把所述高分辨率时间矩 与现有数据库进行比较的元件152。所述视频帧处理器150还包括用以计算2D小波变换系 数的方法153以及用以把所述2D小波变换系数与现有数据库进行比较的元件154。
所述视频帧处理器150还包括用以把RGB数字图像表示子帧转换成归一化灰度数 字图像表示子帧并且把所述归一化灰度数字图像表示子帧与现有数据库进行比较的元件 155,其中所述比较包括平移(dx, dy)配准以及把所述归一化灰度数字图像表示子帧縮放 到所述现有数据库,所述视频帧处理器150还包括用以逐比特地把所述RGB数字图像表示 子帧与现有数据库进行比较的元件156,其中所述比较包括用以消除残留配准误差的边缘 检测和抑制算法。所述RGB数字图像表示子帧由所述现有数据库确定。
所述视频帧处理器150还包括设置用于比较元件152、 154和156的动态阈值的元 件157。 所述文件数据库160包括视频帧关系数据库,其由RGB数字图像表示子帧档案 161、2D小波变换系数档案162、低分辨率时间矩和高分辨率时间矩档案163以及MPEG档案 164交叉参考。 所述文件数据库160的元件161、 162和163分别直接对所述视频帧处理器150的 元件156、 154和152进行馈送。从所述MPEG档案164对所述文件数据库160的元件161、 162和163的计算的方式与从所述预处理器140的用于MPEG视频捕获和缓冲的元件141分 别对所述各视频帧处理器元件155U53和151的计算的方式完全相同,其中对于155U53 和151的计算被分布在所述预处理器140与所述视频帧处理器150之间。
视频数据库170包括视频帧关系数据库,其由MPEG档案171、RGB数字图像表示子 帧档案172和特征档案173交叉参考,其中所述特征档案包括低分辨率特征和高分辨率特 征。所述视频数据库170的元件171、172和173分别由预处理器140的元件141、所述视频 帧处理器150的元件155和156以及所述视频帧处理器150的元件151-154填充。所述视 频数据库170按照由所述系统管理器120的系统配置126所决定的那样被填充,其中所述 系统配置由用户通过所述用户接口 110选择。 图7示出了根据本发明的第一实施例的音频视频检测和匹配系统的系统方框图 200。所述系统方框图IOO包括用户接口 110、系统管理器120、文件管理器130、预处理器 140、视频帧处理器150、文件数据库160以及音频数据库270。 所述用户接口 110与所述系统管理器120和文件管理器1 30直接通信。所述系统 管理器1 30包括分析控制器121以及用来提供系统配置126和系统定时功能127的各元 件。所述分析控制器121包括输入分析控制器121A和输出分析控制器121B。所述输入分 析控制器121A包括用以提供阈值集合122的元件。所述输出分析控制器包括检测器123、 分类器124以及音频驱动器225。
所述阈值集合122被用作系统输入,以便确定一个或更多特征集合阈值。在一些 实施例中,所述阈值集合122基于来自所述用户接口 110的输入人工地确定特征阈值。在 一些实施例中,所述阈值集合122自动确定特征阈值。在一些实施例中,所述阈值集合122 人工地并且自动地确定特征阈值。 音频匹配输出数据集合由所述检测器123和分类器124接收到。所述检测器123 寄存所述音频匹配输出数据的结果。所述分类器124对所述音频匹配输出数据的结果进行 分类。所述音频驱动器125显示所述音频匹配输出数据的结果和分类。
所述系统管理器120的系统配置126和系统定时127元件与所述预处理器140进 行通信。所述系统配置126确定用以捕获MPEG视频输入流的固件配置。所述系统定时127 确定对于所述MPEG视频输入流的视频捕获率和视频捕获时段。 所述用户接口 110与文件管理器130进行通信以上传至少一个音频文件,从而与 所查询的音频输入进行比较。所述文件管理器包括web查询131、上传标签132以及文件上 传功能和队列133。所述web查询131、上传标签132以及文件上传功能l 33由用户通过 所述用户接口 iio来选择。 预处理器140包括用于MPEG视频捕获和缓冲的元件141、用于从MPEG数字图像表 示到音频时域表示的转换的元件242以及用于从音频时域表示到音频频域表示的转换的 元件243。 所述预处理器140与音频帧处理器250进行通信。所述音频帧处理器250包括用
于对所述音频时域表示进行加窗的元件251以及用于把所述音频时域表示与现有数据库
互相关的元件252。所述音频帧处理器250还包括用以对所述音频频域表示进行加权的元
件253以及用以把经过加权的音频频域表示与现有数据库进行比较的元件254。 所述音频帧处理器250还包括设置用于比较元件252和154的动态阈值的元件
157。 所述文件数据库160包括音频帧关系数据库,其由音频时域表示档案261、音频频 域表示档案262以及MPEG档案164交叉参考。 所述文件数据库160的元件261和262分别直接映射到所述音频帧处理器250的 元件252和254。从所述MPEG档案164对所述文件数据库160的元件261和262的计算的 方式与从所述预处理器140的用于MPEG视频捕获和缓冲的元件141分别对所述音频帧处 理器元件251和153的计算的方式完全相同,其中对于251和253的计算被分布在所述预 处理器140与所述音频帧处理器250之间。 音频数据库270包括音频帧关系数据库,其由MPEG档案171、音频时域表示档案 272和音频频域表示档案273交叉参考。所述音频数据库270的元件171、272和273分别 由所述预处理器140的元件141以及所述音频帧处理器250的元件251和253填充。所述 音频数据库270按照由所述系统管理器120的系统配置126所决定的那样被填充,其中所 述系统配置由用户通过所述用户接口 110选择。 图8示出了根据本发明的第一实施例的数字视频图像检测系统100的方法流程图 300。所述方法流程图300在起始点A处启动,此时用户通过用户接口 IIO配置所述数字视 频图像检测系统126,其中配置所述系统包括选择至少一条通道、至少一种解码方法以及通 道采样率、通道采样时间以及通道采样时段。配置所述系统126包括以下各项的其中之一 人工地以及半自动地配置所述数字视频图像检测系统。半自动地配置所述系统126包括以 下各项当中的一项或更多项选择通道预设、扫描调度代码以及接收调度馈送。
配置所述数字视频图像检测系统1 26还包括生成定时控制序列127,其中由所述 定时控制序列127生成的信号集合提供与MPEG视频接收器的接口。 在一些实施例中,用于所述数字视频图像检测系统100的方法流程图300提供这 样一个步骤可选地向所述web查询文件图像131,以供所述数字视频图像检测系统100进 行匹配。在一些实施例中,所述方法流程图300提供这样一个步骤可选地从所述用户接口 100上传图像文件,以供所述数字视频图像检测系统100进行匹配。在一些实施例中,通过 对文件数据库进行查询及排队133b,可以提供至少一个文件图像以供所述数字视频图像检 测系统100进行匹配。 所述方法流程图300还提供了用于在所述MPEG视频接收器处捕获及缓冲MPEG视 频输入以及把所述MPEG视频输入作为数字图像表示存储171在MPEG视频档案中的步骤。
所述方法流程图300还包括以下步骤把所述MPEG视频图像转换成多个查询数字 图像表示;把所述文件图像转换成多个文件数字图像表示,其中转换所述MPEG视频图像和 转换所述文件图像是可比较的方法;以及对所查询的数字图像表示与文件数字图像表示进 行比较和匹配。把所述文件图像转换成多个文件数字图像表示是通过以下方式的其中之一 提供的在上传所述文件图像时转换所述文件图像;在对所述文件图像进行排队时转换所 述文件图像;以及与转换所述MPEG视频图像并行地转换所述文件图像。
所述方法流程图300提供一种用于分别把所述MPEG视频图像和文件图像转换成 所查询的RGB数字图像表示和文件RGB数字图像表示的方法142。在一些实施例中,转换方 法142还包括从所查询的和文件RGB数字图像表示中去除图像边界143。在一些实施例中, 所述转换方法142还包括从所查询的和文件RGB数字图像表示中去除分屏143。在一些实 施例中,去除图像边界和去除分屏143当中的一项或更多项包括检测边缘。在一些实施例 中,转换方法152还包括把所查询的和文件RGB数字图像表示的尺寸调整到128x128像素 的尺寸。 所述方法流程图300还提供一种用于分别把所述MPEG视频图像和文件图像转换 成所查询的C0L0R9数字图像表示和文件C0L0R9数字图像表示的方法144。转换方法144 提供从所查询的和文件RGB数字图像表示的直接转换。 转换方法144包括以下步骤把所查询的和文件RGB数字图像表示投影到中间辉 度轴上;利用所述中间辉度对所查询的和文件RGB数字图像表示进行归一化;以及把所述 经过归一化的所查询的和文件RGB数字图像表示分别转换成所查询的和文件C0L0R9数字 图像表示。 所述方法流程图300还提供一种用于分别把所述MPEG视频图像和文件图像转换 成所查询的5分段低分辨率时间矩数字图像表示和文件5分段低分辨率时间矩数字图像表 示的方法151。转换方法151提供从所查询的和文件COLOR9数字图像表示的直接转换。
转换方法151包括以下步骤把所查询的和文件C0L0R9数字图像表示分区成5 个空间重叠部分和不重叠部分;对于所述5个部分当中的每一个生成统计矩集合;对所述 统计矩集合进行加权;在时间上对所述统计矩集合进行相关;以及生成代表一个或更多 C0L0R9数字图像表示序列的各时间分段的关键帧或分镜帧集合。
18
用于转换方法151的生成所述统计矩集合的步骤包括生成以下各项当中的一项 或更多项对应于所述5个部分当中的每一个部分的均值、方差以及偏斜度(skew)。在一 些实施例中,用于转换方法151的在时间上对统计矩集合进行相关的步骤包括对以下各项 当中的一项或多项进行相关顺序地缓冲的RGB数字图像表示集合的均值、方差和偏斜度。
通过对于顺序地缓冲的MPEG视频图像C0L0R9数字图像表示集合在时间上对统计 矩集合进行相关,允许对于相继的C0L0R9数字图像表示的一个或更多分段确定中值统计 矩集合。所述时间分段集合中的图像帧的与所述中值统计矩集合最接近地匹配的统计矩集 合被识别为所述分镜帧或关键帧。所述关键帧被保留以用于产生更高分辨率匹配的进一步 细化的方法。 所述方法流程图300提供一种用于把所查询的和文件5部分低分辨率时间矩数字 图像表示相匹配的比较方法152。在一些实施例中,所述第一比较方法151包括找到以下 各项当中的一项或多项之间的一个或更多误差对应于所查询的和文件5部分低分辨率时 间矩数字图像表示的5个分段当中的每一个的均值、方差以及偏斜度。在一些实施例中,所 述一个或更多误差由一个或更多所查询的关键帧与一个或更多文件关键帧产生,其对应于 一个或更多C0L0R9查询和文件数字图像表示序列的一个或更多时间分段。在一些实施例 中,对所述一个或更多误差进行加权,其中与更靠外的分段和部分的集合相比,所述加权在 时间上的中心分段处更强,并且在空间上的中心部分处更强。 比较方法152包括在所述第一比较没有得到匹配的情况下在"E"处结束所述方法 流程图300的分支单元。比较方法152包括在所述比较方法152得到匹配的情况下把所述 方法流程图300引导到转换方法153的分支单元。 在一些实施例中,所述比较方法152中的匹配包括以下各项当中的一项或多项
分别记录了小于均值阈值、方差阈值和偏斜度阈值的量度的所查询的均值与文件均值之间
的距离、所查询的方差与文件方差之间的距离、以及所查询的偏斜度与文件偏斜度之间的
距离。对于所述第一比较方法152的所述量度可以是公知的距离生成量度集合当中的任一 个。 转换方法153a包括一种从所查询的和文件C0L0R9数字图像表示中提取高分辨率 时间矩集合的方法,其中所述高分辨率时间矩集合包括以下各项当中的一项或多项对于 代表一个或更多C0L0R9数字图像表示序列的各时间分段的图像分段中的图像集合当中的 每一个图像的均值、方差以及偏斜度。 转换方法153a的时间矩由转换方法151提供。转换方法153a把所述图像集合和 相应的统计矩集合索引到时间序列。比较方法154a通过巻积把对于每一个时间分段的查 询和文件图像集合的统计矩进行比较。 比较方法154a中的巻积对所查询的和文件中的以下各项当中的一项或多项进行 巻积第一特征均值、第一特征方差以及第一特征偏斜度。在一些实施例中,对所述巻积进 行加权,其中所述加权是色度的函数。在一些实施例中,对所述巻积进行加权,其中所述加 权是色调的函数。 所述比较方法154a包括在所述第一特征比较没有得到匹配的情况下结束所述方 法流程图300的分支单元。比较方法l 54a包括在所述第一特征比较方法153a得到匹配 的情况下把所述方法流程图300引导到转换方法153b的分支单元。
在一些实施例中,所述第一特征比较方法153a中的匹配包括以下各项当中的一 项或多项分别记录了小于第一特征均值阈值、第一特征方差阈值和第一特征偏斜度阈值 的量度的所查询的第一特征均值与文件第一特征均值之间的距离、所查询的第一特征方差 与文件第一特征方差之间的距离、以及所查询的第一特征偏斜度与文件第一特征偏斜度之 间的距离。对于所述第一特征比较方法153a的所述量度可以是公知的距离生成量度集合 当中的任一个。 所述转换方法153b包括从所查询的和文件C0L0R9数字图像表示中提取9个所查 询的和文件小波变换系数的集合。具体来说,所述9个所查询的和文件小波变换系数的该 集合是从包含所述C0L0R9数字图像表示的9个颜色表示当中的每一个的灰度表示生成的。 在一些实施例中,所述灰度表示近似等效于包含所述C0L0R9数字图像表示的9个颜色表示 当中的每一个的相应的辉度表示。在一些实施例中,所述灰度表示由通常被称作色域球化 (sphering)的处理生成,其中色域球化近似地消除或归一化包含所述C0L0R9数字图像表 示的9个颜色表示当中的亮度和饱和度。 在一些实施例中,所述9个小波变换系数的集合是以下各项的其中之一 9个一维 小波变换系数的集合、一组9个一维小波变换系数的一个或更多非线性集合以及9个二维 小波变换系数的集合。在一些实施例中,所述9个小波变换系数的集合是以下各项的其中 之一 Haar小波变换系数集合以及Haar小波变换系数的二维集合。 所述方法流程图300还提供一种用于把所述9个所查询的和文件小波变换系数的 集合相匹配的比较方法154b。在一些实施例中,所述比较方法154b包括用于所述9个所查 询的和文件小波变换系数的集合的相关函数。在一些实施例中对所述相关函数进行加权, 其中所述加权是色调的函数;也就是说,所述加权是包含所述C0L0R9数字图像表示的9个 颜色表示当中的每一个的函数。 所述比较方法154b包括在该比较方法154b没有得到匹配的情况下结束所述方法 流程图300的分支单元。所述比较方法154b包括在该比较方法154b得到匹配的情况下把 所述方法流程图300引导到分析方法155a-156b的分支单元。 在一些实施例中,所述比较方法154b中的比较包括以下各项当中的一项或多项 所述9个所查询的和文件小波系数的集合之间的距离、9个所查询的和文件小波系数的所 选集合之间的距离以及9个所查询的和文件小波系数的加权集合之间的距离。
所述分析方法155a-156b分别把所述MPEG视频图像和文件图像转换成一个或更 多所查询的RGB数字图像表示子帧和文件RGB数字图像表示子帧、一个或更多灰度数字图 像表示子帧和文件灰度数字图像表示子帧以及一个或更多RGB数字图像表示差异子帧。所 述分析方法155a-156b提供从所查询的和文件RGB数字图像表示到相关联的子帧的直接转 换。 所述分析方法55a-156b提供所述一个或更多所查询的和文件灰度数字图像表示 子帧155a,其中包括把所查询的和文件RGB数字图像表示的一个或更多部分定义为一个 或更多所查询的和文件RGB数字图像表示子帧;把所述一个或更多所查询的和文件RGB数 字图像表示子帧转换成一个或更多所查询的和文件灰度数字图像表示子帧;以及对所述一 个或更多所查询的和文件灰度数字图像表示子帧进行归一化。 所述定义方法包括初始地定义所述一个或更多所查询的和文件RGB数字图像表示当中的每一对的完全相同的像素。所述转换方法包括从每一对所查询的和文件RGB数字 图像表示子帧中提取辉度度量,以促进所述转换。所述归一化方法包括从所述一个或更多 所查询的和文件灰度数字图像表示子帧当中的每一对中减去均值。 所述分析方法155a-156b还提供比较方法155b_156b。所述比较方法155b_156b 包括在所述第二比较没有得到匹配的情况下结束所述方法流程图300的分支单元。所述比 较方法155b-156b包括在所述第二比较方法155b-156b得到匹配的情况下把所述方法流程 图300引导到检测分析方法320的分支单元。 所述比较方法155b-156b包括提供所述一个或更多所查询的和文件灰度数字图 像表示子帧当中的每一对之间的配准155b ;以及渲染一个或更多RGB数字图像表示差异子 帧以及相连的所查询的RGB数字图像表示扩大(dilated)改变子帧156a_b。
用于提供所述一个或更多所查询的和文件灰度数字图像表示子帧当中的每一对 之间的配准的所述方法155b包括通过把所述一个或更多所查询的和文件灰度数字图像 表示子帧当中的每一对之间的灰度像素差的绝对值相加提供一个绝对差和(SAD)量度;对 所述一个或更多所查询的灰度数字图像表示子帧进行平移和縮放;以及重复上述步骤,以 便找到对应于所述一个或更多所查询的和文件灰度数字图像表示子帧当中的每一对的最 小SAD。对应于方法155b的所述縮放包括独立地把所述一个或更多所查询的灰度数字图像 表示子帧縮放到以下尺寸的其中之一 128x128像素子帧、64x64像素子帧以及32x32像素 子帧。 对应于方法155b的所述縮放包括独立地把所述一个或更多所查询的灰度数字 图像表示子帧縮放到以下尺寸的其中之一 720x480像素(480i/p)子帧、720x576像素 (576i/p)子帧、1280x720像素(720p)子帧、1280x1080像素(1080i)子帧以及1920x1080 像素(1080p)子帧。其中可以从所述RGB表示图像进行縮放,或者可以直接从所述MPEG图 像进行縮放。 用于渲染一个或更多RGB数字图像表示差异子帧以及相连的所查询的RGB数字图 像表示扩大改变子帧的所述方法156a_b包括根据所述用于提供配准的方法155b对准所 述一个或更多所查询的和文件灰度数字图像表示子帧;提供一个或更多RGB数字图像表示 差异子帧;以及提供相连的所查询的RGB数字图像表示扩大改变子帧。
在方法56a中提供所述一个或更多RGB数字图像表示差异子帧的所述步骤包括 抑制所述一个或更多所查询的和文件RGB数字图像表示子帧中的边缘;通过把所述一个或 更多所查询的和文件RGB数字图像表示子帧当中的每一对之间的RGB像素差的绝对值相加 提供一个SAD量度;以及把所述一个或更多RGB数字图像表示差异子帧定义为其中相应的 SAD低于阈值的集合。 所述抑制包括提供用于所述一个或更多所查询的和文件RGB数字图像表示子帧 的边缘图,以及从所述一个或更多所查询的和文件RGB数字图像表示子帧中减去用于所述 一个或更多所查询的和文件RGB数字图像表示子帧的所述边缘图,其中提供边缘图包括提 供Sobol滤波器。 在方法56a中提供所述相连的所查询的RGB数字图像表示扩大改变子帧的所述步 骤包括把对应于一个或更多RGB数字图像表示差异子帧的所述集合的一个或更多所查询 的RGB数字图像表示子帧的集合相连并扩大。
21
所述用于渲染一个或更多RGB数字图像表示差异子帧以及相连的所查询的RGB数 字图像表示扩大改变子帧的方法156a-b包括对于方法156a_b的縮放,其独立地把所述一 个或更多所查询的RGB数字图像表示子帧縮放到以下尺寸的其中之一 128x128像素子帧、 64x64像素子帧以及32x32像素子帧。 对于方法156a_b的所述縮放包括独立地把所述一个或更多所查询的RGB数字 图像表示子帧縮放到以下尺寸的其中之一 720x480像素(480i/p)子帧、720x576像素 (576i/p)子帧、1280x720像素(720p)子帧、1280x1080像素(1080i)子帧以及1920x1080 像素(1080p)子帧。其中可以从所述RGB表示图像进行縮放,或者可以直接从所述MPEG图 像进行縮放。 所述方法流程图300还提供一种检测分析方法320。所述检测分析方法320和相 关联的分类检测方法124为显示匹配和视频驱动器125提供视频检测匹配和分类数据及图 像,正如所述用户接口 IIO所控制的。所述检测分析方法320和所述分类检测方法124还 向动态阈值方法330提供检测数据,其中所述动态阈值方法330提供以下各项的其中之一 动态阈值的自动重置、动态阈值的人工重置及其组合。 所述方法流程图300还提供第三比较方法340,其提供在所述文件数据库队列不 为空的情况下结束该方法流程图300的分支单元。 图9A示出了根据本发明的第一实施例的特征空间400内的各K-NN巢状分离特征 子空间的横贯集合。所查询的图像405开始于A处,并且被漏送到D处的目标文件图像431, 从而筛除在特征空间410与420之间的边界处不满足匹配标准411和412的文件图像,比 如阈值水平413处的文件图像432。 图9B示出了根据本发明的第一实施例的在所查询的图像子帧中有改变的各K-NN 巢状分离特征子空间的横贯集合。所查询的图像405的子帧421与目标文件图像431的子 帧422在特征空间420与430之间的边界处的子帧阈值处不匹配。找到与文件图像432的 匹配,生成新的子帧432并且将其与文件图像431和所查询的图像405相关联,其中目标文 件图像431的子帧421和新子帧432包含用于文件目标图像432的新的子空间集合。
图10示出了根据本发明的第一实施例的数字图像表示子帧中的改变的实例。示 出了目标文件图像子帧和所查询的图像子帧的其中之一的集合500,其中所述集合500包 括子帧集合501、502、503和504。子帧集合501和502在平移和縮放当中的一项或更多项 方面与其他集合成员不同。子帧集合502和503在图像内容方面彼此不同并且与子帧集合 501和502不同,并且给出与子帧匹配阈值的图像差异。 虽然结合本发明的具体实施例描述了本发明,但是应当理解的是,能够对本发明 做出进一步的修改。此外,本申请意图覆盖本发明的任何变型、用途或适配,其中包括与本 公开内容不同但是落在本发明所属领域中的已知或惯常实践范围内以及落在所附权利要 求书的范围内的变型、用途和适配。 在本说明书中所提到的所有出版物、专利和专利申请都被在此引入以作参考,这 如同于具体单独指出将每一项出版物、专利或专利申请都引入在此以作参考。
权利要求
一种视频检测方法,其包括(a)从所查询的数字图像集合以及第一组文件数字图像集合当中的文件数字图像集合中提取特征数据集合;(b)测量从所述查询数字图像集合以及所述文件数字图像集合中提取的所述特征数据集合之间的一个或更多误差;(c)对于所述第一组文件数字图像集合中的一个或更多文件数字图像集合重复步骤(a)-(b);(d)生成第二组文件数字图像集合,其中,所述第二组文件数字图像集合包括所述第一组当中的其相应的一个或更多误差小于相应的阈值集合的每一个所述文件数字图像集合;(e)对于一个或更多特征数据集合重复步骤(a)-(d),从而生成匹配的一组文件数字图像集合;(f)测量所述查询数字图像集合中的所查询的数字图像的一个或更多子帧与所述匹配的一组文件数字图像集合当中的文件数字图像集合内的文件数字图像的一个或更多子帧的一个或更多集合之间的一个或更多位图匹配误差,其中所述位图包括RGB颜色空间内的经过排序的像素集合;(g)对所查询的该数字图像的所述一个或更多子帧进行平移、调整尺寸以及重新量化并且重复(f),以便减小所述一个或更多位图匹配误差;(h)向所述文件数字图像的一个或更多子帧的所述一个或更多集合当中添加以下各项的其中之一(1)一个或更多新的子帧;以及(2)一个或更多子帧的新的集合;以及(i)对于所述匹配的一组文件数字图像集合当中的一个或更多文件数字图像集合中的一个或更多文件数字图像重复(f)-(h)。
2. 权利要求l的方法,其中,(a)中的所述提取包括通过C0L0R9空间内的一个或更多 二维统计矩的第一函数提取所述特征数据集合。
3. 权利要求2的方法,其中,所述第一函数包括(i) 根据所述查询数字图像集合中的相继的查询数字图像之间以及所述文件数字图像 集合中的相继的文件数字图像之间的所述一个或更多二维统计矩的距离度量,在时间上把 所述查询数字图像集合以及所述文件数字图像集合分段成一组分段查询数字图像子集和 一组分段文件数字图像子集;以及(ii) 从所述一个或更多二维统计矩中找到用于一个或更多分段查询数字图像子集的 一个或更多查询中值以及相应的查询图像中值帧,以及从所述一个或更多二维统计矩中找 到用于一个或更多分段文件数字图像子集的一个或更多文件中值以及相应的文件图像中 值帧。
4. 权利要求3的方法,其中,(b)中的所述测量包括测量所述一个或更多查询中值与所 述一个或更多文件中值之间的一个或更多误差。
5. 权利要求2的方法,其中,所述二维统计矩的集合包括以下各项的至少其中之一 均 值、方差以及偏斜度。
6. 权利要求l的方法,其中,(a)中的所述提取包括通过C0L0R9空间内的二维统计矩 的第二函数提取所述特征数据集合。
7. 权利要求6的方法,其中,所述第二函数包括(i) 在时间上索引所述查询数字图像集合中的查询数字图像集合以及所述文件数字图 像集合中的文件数字图像集合;以及(ii) 把一个或更多二维统计矩的相应集合分配给所述时间索引的查询数字图像集合 以及所述时间索引的文件数字图像集合。
8. 权利要求7的方法,其中,(b)中的所述测量包括把用于所述查询数字图像集合的一 个或更多二维统计矩的时间索引集合与用于所述文件数字图像集合的一个或更多二维统 计矩的时间索引集合进行巻积。
9. 权利要求6的方法,其中,所述二维统计矩集合包括以下各项的其中之一 均值、方 差以及偏斜度。
10. 权利要求3的方法,其中,(a)中的所述提取包括从用于一个或更多分段查询数字图像子集的所述查询图像中值帧中提取C0L0R9空间 内的二维小波变换系数集合;以及从用于一个或更多分段文件数字图像子集的所述文件图像中值帧中提取C0L0R9空间 内的二维小波变换系数集合。
11. 权利要求10的方法,其中,所述二维小波变换系数集合是Haar小波变换系数。
12. 权利要求10的方法,其中,所述C0L0R9空间被变换到灰度。
13. 权利要求3的方法,其中,(f)中的所述查询数字图像和所述文件数字图像分别包 括所述查询中值图像帧和所述文件中值图像帧。
14. 权利要求1的方法,其中,所述经过排序的像素集合包括以下各项的一个或更多集 合水平偏移量、垂直偏移量、水平分段长度以及垂直分段长度。
15. 权利要求14的方法,其中,所述经过排序的像素集合是毗连的。
16. 权利要求l的方法,其中,为了在(g)中减小所述一个或更多位图匹配误差而进行 的所述平移、调整尺寸、重新量化以及重复(f)包括一个或更多反馈环路。
17. 权利要求1的方法,其中,为了在(g)中减小所述一个或更多位图匹配误差而进行 的所述平移、调整尺寸、重新量化以及重复(f)包括边缘检测和抑制功能。
18. 权利要求l的方法,其中,(h)中的所述添加还包括添加所述查询数字图像的所述 一个或更多子帧的子集。
19. 一种视频归档方法,其包括(a) 对视频进行编码;(b) 把所述视频导入到文件数字图像集合中;(C)从所述文件数字图像集合生成视频检测数据集合;(d) 从所述文件数字图像集合生成视频分析数据集合;(e) 从所述文件数字图像集合生成元数据集合;(f) 基于所述文件数字图像集合生成人工注释数据集合;(g) 从(C)-(f)生成视频索引数据集合;以及(h) 对所述视频和视频索引数据进行归档。
20. 权利要求19的方法,其中,所述编码包括把所述视频转换到RGB颜色空间。
21. 权利要求19的方法,其中,生成视频检测数据集合包括提取以下各项第一特征数据集合、第二特征数据集合以及第三特征数据集合。
22. 权利要求21的方法,其中,所述第一特征数据集合包括C0L0R9空间内的二维统计 矩集合的第一函数。
23. 权利要求21的方法,其中,所述第二特征数据集合包括C0L0R9空间内的二维统计 矩集合的第二函数。
24. 权利要求21的方法,其中,所述第三特征数据集合包括C0L0R9空间内的二维小波 变换系数集合。
25. 权利要求19的方法,其中,生成所述视频分析数据集合包括生成以下各项复制场 景估计、原始片段估计、视频剪切估计、语音_文字估计以及文字识别估计。
26. 权利要求19的方法,其中,生成所述元数据集合包括生成以下各项日期和时间数 据、全球定位系统(GPS)数据以及视频记录器捕获数据。
27. 权利要求19的方法,其中,生成所述人工注释数据集合包括生成以下各项的人工 条目标题数据、持续时间数据、评论数据、关键字数据、数字权利数据、版权数据以及参考
28. 权利要求19的方法,其中,生成所述视频索引数据集合包括从步骤(c)-(f)生成自 动分段和分层索引。
29. 权利要求19的方法,其中,对所述视频和视频索引数据进行归档包括生成关系数 据库,所述关系数据库包括所述文件数字图像集合、所述视频检测数据集合、所述视频分 析数据集合、所述元数据集合、所述人工注释数据集合、所述视频索引数据集合以及所述分 段和分层索引数据。
30. —种被适配成产生视频检测的设备,其包括(a) 用于提取所查询的数字图像集合与第一组文件数字图像集合当中的每一个文件数 字图像集合所共有的多个特征数据集合的装置;(b) 用于顺序地搜索所述多个特征数据集合以便找到匹配的一组文件数字图像集合的 装置,其中所述顺序搜索包括把所述查询数字图像集合与所述第一组文件数字图像集合的 顺序地更小的一组子集所共有的所述多个特征数据集合相匹配;(c) 用于把所述查询数字图像集合中的所查询的数字图像的一个或更多子帧与所述匹 配的一组文件数字图像集合当中的文件数字图像集合内的文件数字图像的一个或更多子 帧的一个或更多集合进行比较的装置,其中所述比较包括对RGB颜色空间内的经过排序的 像素集合进行比较,其中所述经过排序的像素集合以及所述RGB颜色空间是所查询的数字 图像和所述文件数字图像所共有的;(d) 用于对所查询的数字图像的所述一个或更多子帧进行平移、调整尺寸以及重新量 化并且重复(d)以便减小所述经过排序的像素集合的一个或更多子集的一个或更多位图 匹配误差的装置,其中所述一个或更多位图匹配误差是在查询数字图像集合中的所查询的 数字图像与所述匹配的一组文件数字图像集合当中的文件数字图像集合内的所述文件数 字图像之间取得的;(e) 用于在所述一个或更多位图匹配误差小于相应的阈值集合的情况下检测到匹配的(f) 用于在没有检测到匹配的情况下向所述文件数字图像的一个或更多子帧的所述一个或更多集合当中添加以下各项的其中之一的装置(l) 一个或更多新的子帧;以及(2) — 个或更多子帧的新的集合;以及(g)用于针对所述匹配的一组文件数字图像集合当中的一个或更多文件数字图像集合 内的一个或更多文件数字图像重复(c)-(f)的装置。
全文摘要
一种视频检测系统和方法把所查询的视频分段与一个或更多所存储的视频样本进行比较。每一个所查询的视频分段和所存储的视频样本可以用对应的数字图像集合来表示。第一和第二比较包括对COLOR9空间内的低、高分辨率时间和空间统计矩集合进行比较,并且去除与所查询的数字图像集合不匹配的文件数字图像集合。第三比较通过对COLOR9空间内的小波变换系数集合进行比较生成匹配文件集合。通过把所述查询数字图像集合中的特定帧的一个或更多子帧与相应的匹配的文件子帧集合进行RGB逐比特配准及比较,确定所查询子帧的改变。如果在所查询的子帧中发生了改变,则把改变的子帧添加到所述匹配的文件子帧集合中。
文档编号G06K9/26GK101711392SQ200880020244
公开日2010年5月19日 申请日期2008年4月13日 优先权日2007年4月13日
发明者R·卡维特 申请人:艾法罗媒体有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1