专利名称:可靠地与媒体内容对应的媒体指纹的制作方法
技术领域:
本发明一般涉及媒体。更特别地,本发明的实施例涉及可靠地与媒体内容对应的 媒体指纹。
背景技术:
媒体内容是用至少一个媒体嵌入、存储、传送、接收、处理和使用的信息。例如,音 频信息内容与音频媒体相关,并且视频信息内容与视频媒体相关。视频媒体可具有相关的 音频信息内容以及视频信息内容,并可由此至少有时被视为音频/视觉(AV)媒体或所谓的 多媒体、混合媒体和组合媒体等的例子。如这里使用的那样,术语“媒体内容”、“信息内容” 和“内容”可被互换使用。媒体内容可与相应的表现(r印resentation)相关。可以从媒体内容的一部分内 的信息或包含媒体内容的一部分的信息导出(例如,计算、提取)媒体内容的一些表现。媒 体指纹体现或捕获相应的媒体的信息内容的本质,并可唯一地通过其被识别。有时称为媒 体签名或媒体签名流的媒体指纹是媒体内容表现的例子。视频指纹是可从视频媒体内容导 出的媒体指纹。音频(声学)指纹是可从音频媒体内容(包含视频媒体内的音频媒体内 容)导出的媒体指纹。如这里使用的那样,术语媒体指纹可指的是与它们相关或从中导出 它们的媒体内容的低位速率表现。在本部分中描述的方法是可被追寻的方法,但未必是先前已被构思或追寻的方 法。因此,除非另外指出,否则,不应假定在本部分中描述的方法中的任一种仅由于包含于 本部分中而被认为是现有技术。类似地,除非另外指出,否则,关于一个或更多个方法识别 的问题不应基于本部分而假定已在任何现有技术得到认知。
在附图中作为例子并且决不是作为限制示出本发明,其中,类似的附图标记表示 类似的要素,并且,图1示出根据本发明的实施例的第一示例性过程;图2示出根据本发明的实施例的剪切(cropping)媒体内容的例子。图3示出根据本发明的实施例的第二示例性过程;图4示出可实现本发明的实施例的示例性计算机系统平台;图5示出可实现本发明的实施例的示例性集成电路器件;图6和图7是根据本发明的实施例的可用于获得视频信号的可靠的识别的视频签 名发生器的示意性框图;图8是在图像预处理器的一个实现中执行的过程的示意性框图;图9是根据本发明的实施例的通过空间-域处理器获得的低分辨率图像的示意性 框图;图10是根据本发明的实施例的在段(segment)中配置的视频帧的示意性框5
图11是根据本发明的实施例的处理视频内容的段以产生一组视频签名的视频签 名发生器的示意性框图;图12是根据本发明的实施例的管理用于检测视频内容的拷贝的签名数据库的系 统的示意性框图;图13是可被用于实现本发明的各方面的器件的示意性框图。
具体实施例方式这里描述涉及可靠地与媒体内容对应的媒体指纹的示例性实施例。在以下的描述 中,出于解释的目的,为了使得能够彻底地理解本发明,阐述大量的特定的细节。但是,很显 然,可以在没有这些特定的细节的情况下实施本发明。在其它的情况下,为了避免不必要地 使本发明变得模糊不清,没有以详尽的细节描述公知的结构和器件。描述涉及可靠地与媒体内容对应的媒体指纹的本发明的示例性实施例。这里,可 参照包括视频、图形和视听和其它的多媒体的一个或更多个示例性媒体描述媒体指纹。可 出于简洁一致的目的进行本描述中的示例性媒体的选择,并且,除非明确指出,否则该选择 不应被解释为将实施例限于特定的媒体。本发明的实施例很好地适于与视频、视听和其它 的多媒体、图形和其它的媒体一起起作用。并且,本发明的实施例很好地适于与显示可沿两 个或三个空间维度取向的视频和图形信息的视频媒体一起起作用。示例性实施例的概况本概况给出本发明的实施例的一些方面的基本描述。应当注意,本概况不是实施 例的各方面的广泛的或详尽的总结。并且,应当注意,本概况不应被理解为识别实施例的任 何特别重要的方面或要素,不特别描绘本发明的实施例的任何范围,也不一般描绘本发明 的任何范围。本概况仅以精简的格式给出涉及示例性实施例的一些概念,并且仅应被理解 为以下的示例性实施例的更详细的描述的概念预告(preclude)。对于一系列媒体内容中的在时间上相关的一组内容部分的媒体内容的一部分的 初始表现,对于内容元素访问诸如量子化(quantized)能量值的像素值。在初始表现被分 割的区域的矩阵上访问量子化能量值或其它的像素值。初始表现被向下采样到更低的分辨 率并且剪切自媒体内容部分。从量子化能量值或其它的像素值在第一维度空间中估计一组 基本矢量。初始表现被变换成媒体内容部分的随后表现。随后表现处于第二维度空间。随 后表现基于估计的基本矢量包含初始表现的投影。随后表现可在其几何取向的任意变化上 可靠地与媒体内容部分对应。初始表现可在空间分布信息上包含与变换函数有关的空间或 信息。实施例可与包含但不限于离散余弦变换(DCT)、修改的离散余弦变换(MDCT或mDCT)、 离散傅立叶变换(DFT)、快速傅立叶变换(FFT)和/或小波变换的变换函数一起起作用。可至少对于在时间上相关的内容部分组的第二媒体内容部分重复在上述段落中 描述的过程。然后可在将时间相关部分组内的第一内容部分和第二内容部分分开的时间段 上对于第一内容部分和第二内容部分的第二表现计算平均值。第二表现的平均值可在媒体 内容序列的速度的任意变化上可靠地与时间相关内容部分组对应。在实施例中,视频媒体 内容部分包含内容部分的时间相关组的与至少一个随后视频媒体内容部分相关的视频媒 体内容中(例如,早期部分)的时间窗口。因此,可在使视频媒体内容的早期部分(或其它 的时间窗口)和随后部分时间相关的时间窗口上应用变换函数。应用变换函数允许在时间窗口上描述视频内容的图像特征的任何变化。该变换的基础可以从可在多个采样和帧上收 集的一组训练数据被导出,或者涉及与该组训练数据相关的统计。根据本发明的实施例计算(导出、提取)的媒体签名可靠地与从中导出它们的 媒体内容部分对应。媒体指纹由此可被视为对媒体内容上的各种信号处理操作有复原力 (resilient)的鲁棒(robust)内容部分标识符。根据实施例计算的媒体签名基本上为可经 受各种信号处理操作的媒体内容的鲁棒标识符。一些这种信号处理操作可如媒体盗版那样 对于媒体内容构成攻击,可能在没有权利或授权的情况下对于内容执行访问。并且,信号处 理同样还或替代性地可源自各种合法应用(例如,从其视频剪辑制作电影宣传片以供推广 电影的工作室使用)。信号处理功能可以以一种或更多种方式改变媒体内容。例如,媒体内容可通过经受诸如伸展或旋转的几何畸变或干扰、或者诸如压缩、亮 度缩放、空间缩放和时间操控,诸如帧速率转变或离速放出(off-speed playout)和/或重 新记录的各种其它信号处理操作改变。如这里使用的那样,术语媒体签名可指的是代表诸 如视频或音频信号的时间离散段(例如,组块(chunk))的内容部分的位流(bitstream)。 示例性分段视频剪辑的实例可以以各种状态存在。第一视频剪辑实例可相对于其原始实例 具有原产的、基本上相同、自然或原状态,并且,并由此可以与其相对地以基本上未压缩的 状态存在。另外,或者,作为替代方案,相同的视频剪辑的第二实例可以相对于其原始实例 处于压缩的状态,诸如来自基本上符合H. 264/AVC-MPEG4或MPEG3编解码器的编码器的位 流。虽然代表内容和相关的底层信号的实际位流可对于未压缩和压缩的格式不同,但是,它 们的相应的视频内容出于许多实际的目的被自然的、基本上正常的心理视觉技能的人觉察 为基本上相同。许多当前的音频编解码器也感性地(perceptually)起作用。实施例用于从未压缩和压缩的格式中的每一个或它们自身共享明显的类似性的 相同的媒体内容的版本计算(导出、提取)签名。由此计算的媒体签名可靠地捕获与它们对 应的媒体内容的本质,并且基本上对于内容数据上的各种信号处理操作(诸如压缩)是耐 受的,这保存与其相关的内容。并且,根据实施例计算的签名对于几何攻击是强烈耐受的。 实施例由此可被用于识别例如版权所有(copyrighted)视频剪辑的修改的版本。例如,可 通过诸如压缩、亮度缩放、帧速率转换、几何畸变等的各种信号处理操作修改假定的原始版 权所有内容。但是,从中计算的签名和指纹对这种处理操作是耐受的,由此,在其存在时,或 至少部分地与其响应,对于与从中得到它们的内容解相关(decorrelating)是耐受的。实 施例由此可靠地允许精确或准确地识别甚至带有对其信号处理修改的初始版权所有内容。示例性实施例在输入视频信号上起作用,使得视频信号被分割成可以重叠或不重 叠的时间上更小的组块。对于视频数据组块中的每一个,特征源自并代表其底层内容。从 中形成例如内容的相对低维度位流表现的签名。如这里使用的那样,关于诸如视频组块的 媒体内容部分,术语签名可指的是视频数据的组块的位流表现。如这里使用的那样,视频指 纹可指的是视频文件或其它的内容部分的所有组块的一组所有的签名,并且可由此关于基 本上整个输入视频信号适用。即使在分别从中导出它们的内容部分实例经受各种信号处理 操作的情况下,视频组块中的每一个的签名也保持基本上类似。实施例由此至少部分地基 于在从给定的未压缩的或压缩的媒体内容的各种实例导出(采样、提取、计算)的签名特征 之间可以存在的类似性起作用。命名、术语和示例性过程
如这里使用的那样,术语“媒体”(medium复数media)可指的是数据和其它信息 的存储或传送容器。如这里使用的那样,术语“多媒体”可指的是包含多种形式的信息的媒 体。多媒体信息文件可例如包含音频、视频、图像、图形、文本、动画(animated)和/或其它 的信息和它们的各种组合。如这里使用的那样,术语“相关信息”可指的是以一些方式涉及 信息媒体内容的信息。相关信息可包含例如辅助内容。如这里使用的那样,术语“导出”、“被导出” “推导”等可指的是对于媒体内容的信 号成分采样和/或从采样计算其独特(unique)的相应的签名或指纹。诸如“提取”签名或 指纹的术语由此可指的是导出。如这里使用的那样,术语“媒体指纹”可指的是从其特征成分导出的媒体内容文件 的表现。从与它们对应的媒体内容导出(例如,计算、提取、产生等)媒体指纹。如这里使 用的那样,术语“媒体指纹”可指的是以某些程度的特殊性与视频媒体相关的媒体指纹(虽 然视频指纹也可与其它的媒体相关)。这里在实施例中使用的媒体指纹可与音频、图像、图 形、文本、动画音频视觉和/或其它的多媒体、其它的媒体信息内容和/或它们的各种组合 对应,并且,除了以某些程度的特殊性与它们相关的媒体以外,可指的是其它的媒体。视频指纹可包含独特的数字视频文件,从视频内容的特征成分导出(例如,计 算、产生、书写、提取和/或压缩)该数字视频文件的成分。可被压缩以形成与其对应的 视频指纹的视频内容的导出特征成分可包含但不限于照度或亮度值(luminance or luma values)、色度或色品值(chrominance or chroma values)、运动估计、予页测禾口补偿值等。因此,虽然这里描述的媒体指纹代表可从中导出它们的媒体内容,但是,它们不包 含可与媒体内容相关(例如,添加到媒体内容上或添加有媒体内容)的元数据或其它标签 并且(例如,出于这里的描述的目的并在其上下文中)不与其混淆。可以用比从中导出它 们的媒体内容低的位速率传送媒体指纹。重要的是,如这里使用的那样,诸如“导出”、“产 生”、“书写”、“提取”和/或“压缩”的术语以及基本上诸如“计算指纹”的短语可由此涉及 从媒体内容部分获得媒体指纹,并且,在本上下文中,可以被同义地或可互换地使用。这些和类似的术语可由此涉及媒体指纹与其源媒体内容的关系或与其相关。在 实施例中,媒体内容部分是媒体指纹的源,并且,媒体指纹基本上包含媒体内容的独特的成 分。例如,视频指纹可源自(例如,至少部分地包含)涉及视频内容的帧中的色度和/或亮 度的值。视频指纹还(或替代性地)可包含诸如运动矢量和类似的运动相关描述符的涉及 视频帧中的运动估计、预测或补偿的值。媒体指纹可由此用于独特的地代表、识别、参照或 指的是从中导出它们的媒体内容部分。伴随地,这些和类似的方式这里可被理解为强调媒 体指纹与可出于标注或描述目的被添加到内容上并随后从中被提取的元数据、标签和其它 的描述符明显不同。在涉及导出的媒体内容的上下文中,术语“导出的”或“导出”可进一 步涉及可代表或包含媒体内容的初始实例以外的媒体内容。媒体指纹的示例性导出媒体序列内的内容可包含多个内容元素。视频媒体例如可包含多个视频帧。通过 使用例如视频媒体,图1示出根据本发明的实施例的用于从媒体数据流提取内容特征的示 例性过程100。视频序列的帧随时间流注,它可被分成区间(interval)Tint。一个或更多个 时间区间Tint可包含持续视频序列的一部分的时间组块T。hunk。各区间Tint与包含运行(rim) 区间Tint的持续时间的视频内容的一部分的一组视频帧FpF2.....FN相关。5/21 页实施例可在时间区间Tint中的每一个上导出(例如,计算、提取)媒体指纹。可以 从媒体签名可望可靠地与从中提取它们的原始媒体内容的帧对应的最小帧速率转换因子 导出区间Tint。例如,在原始视频序列的速度为30帧每秒(fps)并且其视频指纹可望可靠 地与降至12fps的帧速率转换上的原始帧内容对应的情况下,可以每十二分之一秒提取视 频指纹;因此,Tint= 1/12秒。应当理解,实施例可基本上在对于任何给定的媒体元素速率 (例如,视频帧速率)或其范围没有限制的情况下起作用。在步骤101中,选择关于当前区间Tint的一组帧F” F2.....Fn。组F” F2.....FN
与运行作为约区间Tint的时间段的视频内容部分对应。因此,帧组FpF2.....由此包
含Tint的初始瞬时前面的一个或更多个帧。关于Tint的组FpF2.....Fn还可包含Tint的最
终瞬时后面的一个或更多个帧。帧组FpF2.....FN以给定的帧速率运行的时间段的持续时间在这里可被称为时间
组块T。hunk。例如,当前区间Tint可被称为时间步长j。时间步长j在时间瞬时j_l开始,并
且持续到时间瞬时j。关于时间步长j的当前帧组FpF2.....FN可在持续到j-1的区间中
开始,并且可在持续到时间瞬时j+1的区间中终止,使得持续T。hunk。例如,步骤101可被实
现,使得时间组块T。hmk与关于时间步长j运行两秒的帧组FpF2.....Fn对应,并且帧组&、
F2.....包含以30fps的帧速率运行的输入视频的部分或序列。帧&、&.....Fn中的
一个或更多个可与多个时间区间Tint重叠。在步骤102中,输入视频流在时间上被向下采样。继续该例子,具有30fps的帧速 率的视频输入可通过下降帧被向下采样到诸如12fps的更低帧速率。具有15fps的帧速率 的视频输入可类似地通过下降帧被向下采样到12fps。可下降的帧的数量可在向下采样不 同的帧速率的不同视频流中不同。帧可下降以在时间上对任何帧速率的输入视频向下采 样,使得与T。hunk对应的组中的帧的数量保持N。对于N = 24,输入视频在时间上被向下采 样,使得选择的帧组&、F2.....Fn保持24帧。Tchunk的值可涉及根据过程300计算的媒体指纹与在诸如帧速率转换的视频处理 操作上导出它的初始媒体内容对应的可靠性水平。例如,可以用2s的值实现时间区间Tint, 并且,可以用3s的值实现T。hunk。在本例子中,T。hunk明显比Tint大。可能在用于导出两个连 续的签名的帧的时间上接近的组之间存在高的重叠程度。在帧的时间上接近的组之间具有 高的重叠程度的实现方式从中导出连续的签名,这些连续的签名在它们在帧速率转换上与 初始帧的对应关系上具有明显的可靠性。在步骤103中,巾贞&、&.....FN中的每一个在空间上被向下采样。在步骤104中,
在空间上向下采样的帧中的每一个被剪切成相应的代表性的图像。各帧的第一代表性的图 像可在这里被称为帧的第一表现。例如,参照图1和图2,可以实现帧剪切。各帧的第一代 表性的图像在这里可被称为帧的第一表现。图2示出根据本发明的实施例的媒体内容剪切200的例子。从各帧图像F”为了 视频签名产生,在步骤104中剪切区域A。区域A可以在形态上基本上为圆形。在任意改变 帧&的几何取向的情况下,从剪切的区域A提取的视频签名可靠性保持与& 一致。例如, 帧&可例如关于区域A内某处的像素沿轴向旋转。不管&如何改变几何取向,包含于区域 A内的像素都保持在剪切的子图像内。剪切的区域A内的像素可由此经受得住(survive) 输入图像&的所有旋转。
96/21 页区域C内的像素可随着其几何取向改变彻底地旋转到与&相关的显示区域外面。 虽然来自图像B的像素可经受得住&几何取向的变化,但是,实现方式可保留区域B以用于 其它的用途,诸如在图像区域中覆盖文本或在角周围加入图形。因此,实现方式可将区域B 和C的像素值设为“零”。重新参照图1,在步骤105中,代表性的图像中的每一个被分成区域的矩阵。区域 可符合关于代表性图像的取向在水平方位(aspect)和垂直方位上被分割的块。除了块以 外,区域还可符合可与块稍有不同地分割的诸如旋转表面或可翘曲板(warpable sheets) 的配置。在步骤106中,区域中的每一个内的能量被访问和求和,并且,和被量子化为量子 化和Qi。例如,可以用诸如DCT以及它的例如mDCT的变体的快速傅立叶型变换、DFT、FFT 和/或小波变换将区域中的每一个中的能量求和。也可对于将区域的能量求和使用其它的 变换。量子化的和包含帧的第一表现的稍微粗略的(coarse)呈现。重新参照图2,可在来 自区域A的像素上有效地实现步骤105或106中的一个或更多个。从&裁减掉的子图像可由&代表。&在尺寸上与&对应,但是,从&的区域B 和C采样的&值被强制为零。可通过将尺寸Wx女Wy的图像块中的像素强度平均化获得Fi 的粗略表现Qi。参照图2,可以在显示图像&的120垂直标度X 160水平标度上实现表现 Qi,使得礼* Wx = 120并且M2 * Wy = 160, Qi具有(M: * M2)的尺寸。由此,可例如根据下 式1计算Q” 在式1中,“m”和“n”分别代表图像F^的水平和垂直维度的指数,并且,“k”和“1” 代表图像表现仏的指数。也可实现粗化图像表现。例如,通过将礼设为44的值并将礼设 为60的值的Qi的粗略44 60表现。根据式2的平均化基本上还包含向下采样的形式,并且可由此在参照步骤304描 述的图像剪切之前被执行。应当理解,描述的示例性参数的选择是为了解释,决不应被解释 为限制。实施例很好地适于在各种各样的广泛范围的参数上起作用。该粗略表现A在其 中可在区域中存在的变化上保持区域内的平均强度。初始图像可基本上在剪切之后被向下 采样到尺寸饥★ M2)图像。因此,可以用更少的(例如,一个)处理步骤实现步骤303 306。并且,还可用较少的计算步骤实现帧&的基本矢量的估计。例如,可以从初始帧 估计或者例如在概念上从其表现估计帧的基本矢量。因此,为来自向下采样和剪切的帧图像的基本上量子化能量值的第一媒体元素表
现Qi包含对于组h、F2.....Fn中的帧中的每一个来自步骤106(或用更少的处理步骤)的
输出。在步骤107中,第一媒体元素表现仏被缓冲。在块108中,对于序列Qp Q2、. . .、Qn估计一组基本矢量Bp B2、. . .、BN。在示例性
实施例中,基于在第一媒体元素表现的序列Qp Q2.....Qn上计算的奇异值分解(singular
value decomposition, SVD)估计基本矢量。在另一实施例中,可基于在序列仏、Q2、. . .、QN
10上执行的另一计算估计基本矢量。实施例允许从组&12.....FN中的帧的任何表现估计基
本矢量。例如,可以在空间域(QD中使用粗略表现&。作为替代方案,或者,另外,可以从 诸如DCT、mDCT、DFT、FFT或小波变换表现的的变换域表现估计基本矢量。在步骤109中,通过将仏投影到基本矢量中的每一个上在由&、
B2.....BN跨过(span)的新空间中获得Qi的坐标。投影可被表现为矩阵
Qis= (Qis,i、Qis,2..... Qis,N)。应当理解,包含维度虬*m2的矢量的仏的现在
由作为由&、B2.....8,跨过的新空间中的维度N的矢量的Qis表示。因此,通过基于估计
的基本矢量投影第一媒体元素表现,实施例将第一媒体元素表现转变成关于其原始维度空 间独特的新维度空间中的第二媒体元素表现。并且,第二媒体元素表现可在初始媒体内容部分的几何取向的任何变化上可靠地
与初始媒体对应。从仏、Q2.....Qn估计基本矢量Bp B2.....Bn。因此,在初始视频内容经
受空间旋转、纵横比的变化、沿垂直或水平取向的平移偏移(或者沿多于两个的空间维度 显示媒体、沿与垂直或水平取向中的至少一个正交的第三取向)、仿射翘曲或几何取向的另 一变化的情况下,如可从中获得的基本矢量那样,各媒体元素表现Qi经受相应的变化。可通过产生矩阵Y实现从Qp Q2.....Qn获得基本矢量Bp B2.....BN。矩阵Y的
各列(j)代表帧Qj。矩阵Y内的行数为包含被逐行扫描的Qj内的元素的数量的(Mi女M2)。 矩阵Y的维度为饥* M2) XN。矩阵Y的秩(rank)可包含等于极限N(utmost N)的值。可
通过使用矩阵Y的奇异值分解(SVD)计算基本矢量BpB2.....Bn。可例如根据下式2实现
矩阵Y的SVD的计算 在式2中,U具有维度饥* M2) XN,S具有维度NXN,V具有维度NXN。U的列包
含基本矢量&、B2.....Bn。基本矢量包含基本上使矩阵积YYt对角化(diagonalize)并跨
过Y的列的变换。S以减小大小的顺序包含具有奇异值的对角矩阵。V的列包含使YTY对 角化并跨过Y的行的变换的基本矢量。当例如用SVD计算获得基本矢量Bp B2.....Bn时,可以例如根据下式3在新的变
换空间Qis中计算Qi的坐标。 可从维度Mi * M2的矩阵Qi计算具有维度饥* M2) X 1的矢量Qiv。可通过逐行 扫描矩阵的条目实现矢量Qiv的计算。积QJ在初始媒体内容的几何取向的变化上可靠地代表相应的媒体元素表现。因 此,积QJ包含第一媒体元素表现仏的第二表现。对于几何媒体内容变化,第二表现QJ可 基本上不变。在步骤110中,在新坐标QJ上计算时间平均。时间平均的坐标QJ在视频序列的 速度变化上可靠地与初始媒体内容对应。因此,除了几何取向的变化以外,QJ可对于帧速 率转换鲁棒。可例如根据下式4实现序列QA Q2s.....的时间平均G的计算 1 = 1,2. . . N 式 4在实施例中,视频媒体内容部分包含内容部分的时间相关组的关于至少一个随后 视频媒体内容部分的视频媒体内容中(例如,早期部分)的时间窗口。因此,可以在使得视 频媒体内容的早期部分(或另一时间窗口)和随后部分在时间上相关的时间窗口上应用变 换函数。应用变换函数允许在时间窗口上描述视频内容的图像特征的任何变化。可以从可 在多个采样和帧上收集的一组训练数据导出该变换的基础,或者,该基础涉及与该组训练 数据相关的统计。在步骤111中,选择G的第一 L值,其具有对于当前时间步长的N个投影的时间平 均,并将其存储在具有RXL的尺寸的缓冲器D中。缓冲器D保持R个最近时间步长的G的 顶部的L个值。因此,缓冲器D可捕获随着时间过去的G的顶部的L个值的变化。可对于 R个最近时间步长将G的值的子集作为矩阵D存储在缓冲器中。在步骤112中,对于矩阵D产生签名位。可以通过产生具有与矩阵D相同的维度
的K个矢量PpP2.....PK实现签名位的产生。可根据下式5将矩阵D投影到K个矢量的组上。 可通过&投影的阈值处理导出签名位。图3示出用于基于伪矢量上的投影产生 散列(hash)位的过程300,通过该过程300,本发明的实施例可起作用。基于&个矢量P:、
P2.....PK1的投影可捕获矩阵D的不同的方面。例如,如果&个矢量中的任意两个是类似
的,那么&个位中的两个位将是相同的。因此,可以使用&个矢量的正交基集。作为替代 方案,当假定&个伪随机矢量大致相互正交时,可以使用&个伪随机矢量的组。可以基于&个伪随机矢量上的哈达马德(Hadamard)乘积投影氏、H2.....从
D产生&个散列位。对于从1到&的数量i,如果氏比Hi、H2.....的中值大,那么第i
个签名位可被设为“1”的值。但是,在氏不比氏馮.....吼的中值大的情况下,相应的签
名位可被设为“0”的值。以基本上类似的方式从\个位产生K2个散列位。在从修改的视频内容重新产生视频指纹时,例如,对于相应的原始视频内容的指 纹的比较或参照,参数Id^pMpMyLL和R以及伪随机矩阵的值可基本上不变。例如通过使用矩阵Y的SVD估计基本矢量BpB2.....BN的步骤108可以是计算密
集的(intensive)。矩阵Y具有尺寸饥* M2) XN,并且,矩阵Y的各列具有Qi的元素,其 中,i可具有1 N的值。因此,对于每下一个时间步长,去除矩阵Y的第一列并且添加新 列。可以实现从先前时间步长获得的矩阵U、S和V的增量更新。从先前时间步长获得的增 量更新矩阵U、S和V可避免对于各当前时间步长计算矩阵Y上的SVD。可以根据表达式Y+ABt用从去除矩阵Y的第一列开始的两个计算操作实现矩阵Y 的SVD的增量更新,其中,“A”包含具有维度(Mi女M2) XI的矢量,并且可等于从矩阵Y去 除的第一列的负数,并且,“B”包含具有维度NX 1并且等于[1、0、0.....0]的矢量。矩阵Y等同于USV。因此,更新矩阵Y的SVD以实现增量更新可如下进行。矢量P 包含矢量A-U(UTA)的正交基。矢量A-U(UTA)是与U正交的A的分量。可根据下式6例如通过使用格莱姆施密特正交化(Gram Schmidt Orthogonalization)通过QR分解实现P的 计算。在式6中,表达式Ra可等于Pt(A-U(UtA))。可通过K投影的阈值处理实现签名位的导出。基于K个矢量PpP2.....PK的组的
投影可捕获矩阵D的不同的方面。可以实现K个矢量的正交基集或K个伪随机矢量的组。实现关于基本向量正交取 向的K个矢量或K个伪随机矢量的组可对于类似的K个矢量中的两个避免无法区分K个位 中的两个位。在实现K个伪随机矢量的组的情况下,可以假定K个伪随机矢量是大致相互 正交的。矩阵Y等同于USV。因此,更新矩阵Y的SVD以实现增量更新可进行如下。矢量 P包含矢量A-U(UtA)的正交基。矢量A-U(UtA)是与U正交的A的分量。可根据下式6例 如通过使用格莱姆施密特正交化通过QR分解实现P的计算。在式6中,表达式Ra可等于 PT (A-U (UtA))。 类似地,矢量Q包含矢量B_V(VtB)的正交基。矢量B_V(VtB)包含与V正交的基本 矢量B的分量。也可通过QR分解实现Q的计算,其中,表达式Rb可等于Qt (B-V (VtB))。例如,根据下式7,通过计算右侧(RHS)的SVD以计算(Y+AB1)的SVD,实现矩阵Y 的第一列的去除。
式7意味着计算右侧(RHS)的SVD以计算(Y+ABT)的SVD就够了。在式7的RHS 项的SVD被给定为U。S。V。的情况下,可根据下式8实现表达式Y+ABt的SVD的更新U*S*V*T = ([U, P] U°) S° ([V, Q] V°)式 8项U * S * V *包含表达式Y+ABt的分解。因此,可通过在诸如式7的RHS项的具 有维度(N+l) X (N+1)的矩阵上计算SVD实现SVD的更新。计算式7的RHS的SVD可避免 具有维度(Mi女M2) X (N+l)的表达式(Y+ABt)的SVD的更昂贵的计算。在示例性实现中,N 可被设为39的值,该值与对于饥* M2)的(34 * 40)的为1360的值形成对照。但是,应 当理解,可以实现N的其它值或其范围。如上面讨论的那样,在去除列时,可进一步通过向矩阵添加新列实现矩阵Y的SVD 的增量更新。可通过使用表达式Y+ABT实现向矩阵Y添加新列,其中,“A”项包含具有维 度(Mi女M2) XI的矢量,它基本上等于要向矩阵Y添加的新列,并且,“B”顶包含具有维度
(N+l) XI的矢量,它基本上等于W、0、0.....1]。然后,可进一步根据上式6、7、8中的一个
或更多个实现表达式Y+ABt的SVD的增量更新。以上关于可靠地与媒体内容对应的媒体指纹描述本发明的示例性实施例。在示例 性实施例的描述中,例如,参照图1和图2,作为例子使用视频媒体。如上面讨论的那样,以上仅出于简单一致的目的在描述中选择视频媒体作为示例性媒体,并且,除非明确地相反 指出,否则,不应将其解释为将实施例限于特定的媒体。本发明的实施例很好地适于与音频 媒体以及视频媒体一起起作用。例如,实施例很好地适于从诸如声音、音乐和语音记录的音频媒体产生声学签名 及其复合声学指纹。音频媒体可与诸如可用视频媒体和/或用其它的多媒体格式编码的记 录音道的视频媒体相关。虽然以上在描述媒体内容元素时使用视频帧作为例子,但是,实施例也很好地适 于与作为媒体内容剪辑的音频剪辑的音频声谱图一起起作用。如应用于以上的描述那样, 音频剪辑可由此包含随时间流注的音频媒体内容的一部分。可在音频剪辑的声谱图上应用 过程300以提取相应的声学指纹。对于每一个时间步长T。hmk,向音频声谱图添加新的声谱 表现,或从中去除旧的声谱表现。根据本实施例的从音频声谱图提取的声学指纹在诸如音频节距(pitch)偏移或 离速音频播放的其几何取向的任意变化上与音频声谱图可靠地对应。例如,节距偏移效应 可基本上被视为音频声谱图沿频率维度的非线性伸展。过程300通过使用从其音频数据估 计的一组基本函数描述音频数据。因此,该过程允许从对于声谱图的畸变不变的音频声谱 图提取特征。示例性实现平台可以用计算机系统、在电子电路和部件中配置的系统、诸如微控制器的集成电路 (IC)器件、现场可编程门阵列(FPGA)或应用特定IC(ASIC)和/或包含这些系统、器件或部 件中的一个或更多个的装置实现诸如过程100和300(分别见图1和图3)的一部分的本发 明的实施例。图4示出可实现本发明的实施例的示例性的计算机系统平台400。计算机系统400 包含总线402或用于传送信息的其它的通信机构和与用于处理信息的总线402耦合的处理 器404。计算机系统400还包含与总线402耦合的用于存储由处理器404执行的信息和指 令的诸如随机存取存储器(RAM)或其它的动态存储器件的主存储器406。主存储器406还 可被用于在由处理器404执行的指令的执行过程中存储临时变量或其它的中间信息。计算 机系统400还包含与总线402耦合的用于存储处理器404的静态信息和指令的只读存储器 (ROM) 408或其它的静态存储器件。用于存储信息和指令的诸如磁盘或光盘的存储器件410 被设置并与总线402耦合。处理器404可执行一种或更多种数字信号处理功能。计算机系统400可通过总线402与用于向计算机用户显示信息的诸如液晶显示器 (IXD)或阴极射线管(CRT)等的显示器412耦合。包含文字数字和其它键的输入设备414 与总线402耦合,用于向处理器404传送信息和命令选择。另一种类型的用户输入设备是 用于向处理器404传送方向信息和命令选择并用于控制显示器412上的光标移动的诸如鼠 标、跟踪球或光标方向键的光标控制416。该输入设备一般沿两个轴即第一轴(例如,x)和 第二轴(例如,y)具有允许设备规定平面中的位置的两个自由度。本发明涉及用于实现可靠地符合(conform to)媒体内容的媒体指纹的计算机系 统400的用途。根据本发明的一个实施例,响应处理器404执行在主存储器406中包含的 一个或更多个指令的一个或更多个序列,由计算机系统400提供远程对象的重写询问。可 以从诸如存储设备410的另一机器可读介质将这种指令读入主存储器406中。在主存储器406中包含的指令的序列的执行导致处理器404执行这里描述的处理步骤。也可采用多处 理配置中的一个或更多个处理器来执行在主存储器406中包含的指令的序列。在替代性实 施例中,作为实现本发明的软件指令的替代或与其组合,可以使用硬布线电路。因此,本发 明的实施例不限于硬件电路和软件的任意特定组合。这里使用的术语“机器可读介质”指的是参与提供导致机器以特定的方式操作的 数据的任何介质。在通过使用计算机系统400实现的实施例中,例如,在向处理器404提供 用于执行的指令时,涉及各种机器可读介质。这种介质可采用许多的形式,包括但不限于非 易失性存储介质、易失性介质和传送介质。存储介质包含非易失性介质和易失性介质。非 易失性介质包含例如诸如存储设备410的声谱或磁盘。易失性介质包含诸如主存储器406 的动态存储器。传送介质包含共轴电缆、铜线和其它的导体和光纤,包括包含总线402的导 线。传送介质可采取诸如在无线电波或红外数据通信中产生的那些的声波或光波的形式。 所有这些介质必须是有形的,以使得能够通过将指令读入机器中的物理机构检测由介质携 带的指令。机器可读介质的通常形式包括例如软磁盘、软盘、硬盘、磁带或任何其它的磁介 质、CD-ROM、任何其它的光学介质、穿孔卡、纸带、具有孔的图案的任何其它东西或其它物理 介质、RAM、PROM和EPROM、FLASH-EPR0M、任何其它的存储芯片或盒、以下描述的载波或计算 机可读取的任何其它介质。在承载用于由处理器404执行的一个或更多个指令的一个或更多个序列时,可以 涉及计算机可读介质的各种形式。例如,可初始地在远程计算机的磁盘上承载指令。远程计 算机可将指令加载到其动态存储器中,并且通过使用调制解调器在电话线上发送指令。计 算机系统400本地的调制解调器可在电话线上接收数据并使用红外传送器以将数据转换 成红外信号。与总线402耦合的红外检测器可接收在红外信号中承载的数据并且将数据置 于总线402上。总线402将数据携带到主存储器406,处理器404从该主存储器406检索和 执行指令。由主存储器406接收的指令可任选地在被处理器404执行之前或之后被存储于 存储设备410上。计算机系统400还包含与总线402耦合的通信接口 418。通信接口 418提供与网 络链路420耦合的双向数据通信,网络链路420与局域网络422连接。例如,通信接口 418 可以是向相应的类型的电话线提供数据通信连接的集成服务数字网络(ISDN)卡或数字用 户线(DSL)、电缆或其它的调制解调器。作为另一例子,通信接口 418可以是向兼容的LAN 提供数据通信连接的局域网(LAN)。也可实现无线链路。在任何这些实现中,通信接口 418 发送承载代表各种类型的信息的数字数据流的电信号、电磁信号或光信号。网络链路420 —般通过一个或更多个网络向其它的数据设备提供数据通信。例 如,网络链路420可通过局域网422向主计算机424或向由因特网服务提供商(ISP)操作 的数据设备提供连接。ISP 426反过来通过现在统称为“因特网”428的全球信息包数据通 信网络提供数据通信服务。局域网422和因特网428均使用承载数字数据流的电信号、电 磁信号或光信号。承载送向和来自计算机系统400的数字数据的通过各种网络的信号以及 网络链路420上的和通过通信接口 418的信号是传输信息的载波的示例性形式。计算机系统400可通过网络、网络链路420和通信接口 418发送消息并接收包含 程序代码的数据。在因特网例子中,服务器430可通过因特网428、ISP 426、局域网422和
15通信接口 418发送对于应用程序的请求代码。根据本发明,如这里描述的那样,一种这样下 载的应用提供可靠地符合媒体内容的媒体指纹的实现。接收的代码可在被接收时被处理器404执行,并且/或者被存储在存储设备410 或其它的非易失性存储器中供以后执行。这样,计算机系统400可以以载波的形式获得应 用代码。图5示出可实现本发明的实施例的示例性IC器件500。IC器件500可具有输入 /输出(I/O)特征501。I/O特征501接收输入信号并通过路由结构510将它们路由到与 存储器503 —起起作用的中央处理单元(CPU) 502。I/O特征501还从IC器件500的其它 部件特征接收输出信号,并且可控制路由结构510上的信号流动的一部分。数字信号处理 (DSP)特征至少执行涉及数字信号处理的功能。接口 505访问外部信号并且将它们路由到 I/O特征501,并且允许IC器件500输出信号。路由结构510路由信号并在IC器件500的 各种部件特征之间供电。诸如逻辑门的阵列的可配置和/或可编程处理元件(CPPE) 511可执行IC器件500 的专用功能,该专用功能在实施例中可涉及提取和处理可靠地符合媒体内容的媒体指纹。 存储器512专用为足以使CPPE 511有效地起作用的存储单元。CPPE可包含一个或更多个 专用的DSP特征514。示例性视频签名产生图6是分析信号段3中的视频内容以产生识别或代表该内容的视频签名193的视 频签名发生器600的示意性框图。在示出的例子中,段3包含一系列的视频帧3a 3d。如 果视频信号传输音频内容以及视频内容,那么可通过以各种方式处理音频内容获得代表音 频内容的音频签名。视频签名提取器在图7中示出视频信号发生器600的一种实现。在该实现中,图像预处理器610对 于在帧3a、3b、3c、3d中传输的图片获得一系列的格式独立图像,空间域处理器630将格式 独立图像向下采样以产生格式独立图像的一系列的较低分辨率表现,时域处理器650产生 代表一系列的较低分辨率表现的合成的值,并且,视频签名处理器670向合成值应用散列 函数以产生代表并识别段3的内容的视频签名193。可以以各种方式实现通过处理器610、 630,650和670执行的处理。以下描述这些处理的优选的实现。图像预处理器对于一种示例性实现,段3中的各视频帧3a、3b、3c、3d传输由像素的阵列D代表 的图片。图像预处理器610导出各帧的图片的格式独立图像。格式独立图像由像素的阵列 F代表。可以以各种方式完成格式独立图像的导出。以下描述几个例子。在一种应用中,视频签名发生器600产生用于以480 X 640像素的标准清晰度(SD) 分辨率和1080X1920像素的高清晰度(HD)分辨率以包含逐行扫描和交错扫描的各种格式 传输视频内容的电视视频信号的签名。图像预处理器610将各帧中的图片传输到具有感兴 趣的所有信号格式共同的格式的格式独立图像中。在优选的实现中,可通过将帧中的像素D 向下采样获得格式独立图像中的像素F,以减少对于当在不同的格式之间转换视频的帧时 可出现的修改的敏感度。在一个例子中,格式独立图像的分辨率被选择为具有120X160像素的分辨率,对于以逐行扫描交错扫描格式的HD和SD分辨率传输图像的电视信号,这是方便的选择。图 像预处理器610通过以4的因子将各帧图片中的像素向下采样将SD格式视频内容转换成 格式独立图像。通过剪切各帧图片以从左侧边缘去除240个像素并从右侧边缘去除240个 像素以获得具有1080X1440像素的分辨率的期中图像并以9的因子将期中图像中的像素 向下采样,图像预处理器610将HD格式视频内容转换成格式独立图像。如果视频信号以视频的帧被配置在两个场中的交错扫描格式传输内容,那么,在 获得格式独立图像之前,信号可被转变成逐行扫描格式。作为替代方案,通过仅从交错扫描 帧中的场中的一个获得格式独立图像,可以实现关于扫描格式的选择的更大的独立性。例 如,可仅从各帧中的第一场或仅从各帧中的第二场获得格式独立图像。其它场中的视频内 容可被忽略。该过程使得不必在获得格式独立图像之前转换成逐行扫描格式。如果使用适当的剪切和向下采样,那么得到的图像基本上与帧图片格式无关,使 得随后的签名产生过程对不同的格式和对从格式之间的转换出现的修改不敏感。该方法增 加从一系列的格式独立图像产生的视频签名将正确地识别一系列帧图片中的视频内容的 可能性,即使这些图片经受了格式转换。优选地,格式独立图像排除可能受有意修改影响的图片区域。对于诸如电视的视 频应用,例如,可通过剪切以排除标识或其它的图形对象可被插入视频内容中的图像的角 和边缘,实现这一点。图8提供通过由图像预处理器610执行的包含上述的剪切和向下采样操作的过程 612获得的结果的示意图。段3内的帧3a中的图片被剪切以提取图片的中央部分中的像素 D。该中央部分中的像素D被向下采样以获得格式独立图像5a中的像素F。对于段3中的 各帧3a、3b、3c、3d获得一系列图像5中的格式独立图像5a、5b、5c、5d。过程612可被表达 为{FJ = IP[{Dm}]for 0 ^m<M (1)这里,{FJ =帧m的格式独立图像中的像素组;IP[]=被应用于帧m中的图片的图像预处理器操作;{DJ =帧m的图片中的像素组;M=段中的帧的数量。为了格式转换调整图片大小的剪切操作可与排除可受诸如标识的插入的有意的 修改影响的图片区域的剪切操作组合,或者与其分离地被执行。可以在向下采样操作之前 或之后执行剪切操作。例如,可通过剪切视频内容并然后将剪切的图像向下采样获得格式 独立图像,可通过将视频内容向下采样并随后剪切向下采样的图像获得它,并且,可通过在 上述的两个剪切操作之间执行的向下采样操作获得它。例如,如果各视频帧传输包含由红色、绿色和蓝色(RGB)值代表的像素的彩色图 像,那么可对于各帧中的红色、绿色和蓝色值中的每一个获得单独的格式独立图像。优选 地,对于各帧从由帧中的红色、绿色和蓝色值导出的像素的照度或亮度获得一个格式独立 图像。如果各视频帧传输单色图像,那么可从该帧中的各单个像素的强度获得格式独立图像。空间域处理器在示例性实现中,空间域处理器630可通过将格式独立图像中的每一个中的像素F分组成GX像素宽和GY像素高的区域获得格式独立图像的向下采样的较低分辨率表现。 通过计算各区域中的像素的平均强度,从各格式独立图像中的像素F的强度导出具有图片 元素E的较低分辨率图像。各较低分辨率图像具有KXL个元素的分辨率。在图9中示意 性地示出这一点。可通过执行实现以下的表达式的过程获得图片元素E
这里,Em(k,1)=帧m的较低分辨率图像中的图片元素;GX =以像素F的数量表达的像素组的宽度;GY =以像素F的数量表达的像素组的高度;K =较低分辨率图像的水平分辨率;L =较低分辨率图像的垂直分辨率;Fffl(i, j)=帧m的格式独立图像中的像素。选择组的水平尺寸GX,使得K GX = RH,并且,选择组的垂直尺寸GY,使得L GY =RV,这里,RH和RV分别是格式独立图像的水平和垂直分辨率。对于以上讨论的产生具有 120X160像素的分辨率的向下采样的格式独立图像内的元素的示例性实现,组的一种适当 的尺寸为8X8,这提供具有120/8X 160/8 = 15X20图片元素的分辨率的较低分辨率图像。作为替代方案,通过空间域处理器630执行的分组可与由图像预处理器610执行 的处理组合,或者,在其之前被执行。通过使用较低分辨率图片元素E而不是较高分辨率像素F以产生视频签名,产生 的视频签名对于改变视频信号内容的细节但保存平均强度的过程较不敏感。时域处理器在时域处理器650的示例性实现中,从各图片元素E的时间平均和变化获得代表 一系列的较低分辨率图像的合成的值。可从下式计算各图片元素E(k,1)的时间平均Z(k,1) 作为替代方案,可通过从下式所示的图片元素的加权和计算时间平均,给予段3 内的选择的帧的视频内容较大的重要性 这里,wm=从帧m的视频内容导出的较低分辨率图像中的图片元素的加权因子。如果希望的话,可以在由式2代表的空间域处理之前执行由式3a或3b代表的时 域处理。值Z(k,l)在时间和空间上均代表各图片元素E(k,l)的平均强度;因此,这些平均 值不传输很多的关于由段3的视频内容代表的任何运动的信息。通过计算各图片元素E(k, 1)的变化获得运动的表现。如果如式3a所示的那样计算各图片元素E (k,1)的平均值Z (k,1),那么可从下式计算各图片元素E(k,1)的变化V(k,1) 如果如式3b所示的那样计算各图片元素的平均值,那么可从下式计算各图片元 素 E(k,1)的变化 V(k,1)
M m=o在优选的实现中,代表一系列的较低分辨率图像的合成的值是分别从时间平均和 变化阵列z和V导出的两个秩矩阵4和\中的元素的值。秩矩阵中的各元素的值代表其 相关阵列中的各元素的秩次序(rank order)。例如,如果元素Z (2,3)是平均值阵列Z中的 第4大元素,那么秩矩阵&中的相应元素ZJ2,3)的值等于4。对于该优选的实现,合成值 QZ和QV可被表达为 秩矩阵的使用是任选的。在替代性实现中,代表一系列的较低分辨率图像的合成 的值是时间平均和变化阵列z和V中的元素的值。对于该替代性实现,合成值QZ和QV可 被表达为 视频签名处理器视频签名处理器670向合成值QZ和QV的KXL阵列应用散列函数,以产生两组的 散列位。这两组的散列位的组合构成识别段3的内容的视频签名。优选地,散列函数对于 合成值的变化相对地不敏感,并且,对于可使用的任何散列密钥的变化较敏感。与其输出随 着其输入的即使单个位的变化也显著变化的典型的加密散列函数不同,本应用的优选的散 列函数提供对于输入合成值的小的变化仅经受小的变化的输出。这允许产生的视频签名仅 随着视频内容的小的变化轻微地变化。一种适当的散列函数使用一组Nz基础矩阵以对于QZ合成值产生一组Nz散列位, 并且,使用一组Nv基础矩阵以对于QV合成值产生一组Nv散列位。基础矩阵中的每一个是 元素的KXL阵列。这些元素代表优选相互正交或大致正交的一组矢量。在以下描述的实 现中,在假定这些元素代表大致相互正交的一组矢量的条件下由随机数产生器产生基础矩 阵的元素。可从下式产生与合成值QZ —起使用的各基础矩阵PZN的矩阵元pzn(k,1)pzn {k,l) = RGN-Pn for 1 彡 n 彡 Nz,0 彡 k < K,0 彡 1 < L(9)这里,RNG =随机数产生器的输出;并且,
pn =由各矩阵的RNG产生的数量的平均值。可从下式产生与合成值QV —起使用的各基础矩阵PVN的矩阵元素pvn(k,1) 产生器RNG产生在范围
上均勻分布的随机或伪随机值。可通过散列密钥将 产生器的初始状态初始化,这允许散列函数和产生的视频签名在加密上更安全。通过将合成值QZ第一次投影到Nz基础矩阵中的每一个上获得一组散列位BZn,该
投影可被表达为 这里,HZn =合成值QZ在基础矩阵PZN上的投影。然后,通过将各投影与所有投影的中值相比较并且如果投影等于或超过阈值则将 散列位设为第一值并且如果投影小于阈值则将散列位设为第二值,获得一组散列位BZn。该 过程的一个例子可被表达为
(12)这里,
,并且, 以与下式类似的方式获得另一组散列位BVn
(14)这里,HVn =合成值QV在基础矩阵PVN上的投影;并且, 从两组的散列位的连接获得视频签名,该连接形成具有等于Nz+Nv的总位长的值。 Nz和Nv的值可被设定,以提供希望的总位长以及将合成值QZ和QV的相对贡献加权到最终 的视频签名。在上述的产生用于电视信号的视频签名的一个应用中,队和队均被设为18。应用签名组通过视频签名产生器600产生的签名代表从中产生签名的段的视频内容。可通过 对于包含于该区间中的段产生一组签名,获得对于远比段长的信号的区间中的视频内容的 可靠识别。图10所示的示图是包含几段的视频帧的信号的区间的示意图。5段被示出。信号 的第一段3包含视频帧3a 3d。各随后的段4、5、6、7分别包含视频帧4a 4d、5a 5d、 6a 6d和7a 7d。可通过使用视频信号产生器600对于这些段产生一组签名,以如上面 描述的那样处理各段中的视频帧的内容。各段包含整数的视频帧。优选地,各段中的一系列的帧传输等于标称长度L或在
20标称长度L的一个帧周期内的时间区间的视频内容。术语“帧周期”指的是由一个帧传输 的视频内容的持续时间。连续的段的标称开始时间丨#通过偏移AT相互分开。该偏移可 被设为等于被视频签名产生器600处理的信号的最低帧速率的帧周期。例如,如果要被处 理的最低速率为12帧每秒,那么偏移AT可被设为等于1/12秒或约83. 3毫秒。标称长度L可被选择,以平衡减小随后产生的视频签名对于诸如帧速率转换的敏 感性和增加由视频签名提供的表现的时间分辨率的竞争性影响。经验研究表明,对于许多 应用,与约两秒的视频内容对应的标称段长L提供良好的结果。对于段长L和偏移量AT提到的特定值仅是例子。如果偏移AT不等于整数的帧 周期,那么连续段的实际开始时间之间的偏移可以通过不同的偏移量A1和△ 2如图所示 的那样改变。如果希望的话,实际开始时间之间的偏移的长度可保持在标称偏移AT的一 个帧周期内。图11是表示分别从段3 7的视频内容产生的一组视频签名693 697的示意 性框图。参照图10和图11,视频签名产生器600获得在标称开始时间tl上开始的段3的 视频内容,并且处理该视频内容以产生视频签名693。视频签名产生器600然后获得在标称 开始时间t2上开始的段4的视频内容,并且处理该视频内容以产生视频签名694。产生器 通过处理分别在标称开始时间t3、t4和t5上开始的段5、6和7中的视频内容继续,以产生 视频签名695、696和697。可基本上对于可能希望的任意数量的段产生签名。标称开始时间不需要与可伴随视频内容的任何特定时间数据对应。原则上,标称 开始时间和视频内容之间的对准是任意的。例如,在一个实现中,标称开始时间被表达为从 要被处理的信号的开始的相对偏移。各段从传输具有最接近其各标称开始时间的开始时间 的视频内容的视频帧开始。作为替代方案,各段可从跨过该段的标称开始时间的视频帧开 始。基本上可以使用开始帧和标称开始时间之间的任何对准。拷贝的检测即使当已通过包含上述的处理的各种处理修改了内容时,从视频内容的段产生的 签名组也可被用于识别内容。可以以包含以下方式的各种方式使用即使当被修改时也可靠 地确定特定的视频内容是否是基准内容的拷贝的能力。未授权拷贝的检测对等服务器的网络可有利于内容的分布,但是,由于可在对等 服务器之间存在内容的许多拷贝,因此它们也可增加检测所有权内容的未授权或盗版拷贝 的难度。设施可通过对于可从网络得到的所有内容产生签名组并且对照基准签名组的数据 库检查这些签名组自动确定是否在网络中存在任何未授权拷贝。广播的确认与广播网络签订合同以分布特定的视频内容的企业可通过从由广播 接收器接收的信号产生签名组并且比较这些签名组与特定内容的基准签名组确定合同条 款得到满足。接收的识别对于广播网络提供排名的企业可通过从接收的信号产生签名组并且 比较这些签名组与基准签名组识别由接收器接收的内容。图12是可用于实现诸如以上提到的应用的各种应用的系统的示意性框图。视频 签名产生器600从从路径31接收的视频内容的基准流产生基准视频签名组。产生的基准 视频签名组被存储在签名数据库680中。可以与可有利于应用的实现的其它信息一起存储 基准签名组。例如,可以与其底层内容一起或与诸如内容所有人、内容许可条款、内容的标
21题或内容的文本描述的关于内容的信息一起存储基准签名组。各基准签名组具有数据库搜 索关键字,可以以希望的任何方式导出该关键字。优选地,关键字基于或源自相关的基准签 名组中的签名。可对照由存储在签名数据库中的一个或更多个签名组代表的基准内容检查任何 特定的视频内容。要被检查的内容这里被称为试验内容。可通过使视频签名产生器601从 从路径33接收的试验视频内容产生一个或更多个试验视频签名组并且将试验视频签名组 传送到视频搜索引擎685检查试验视频内容的身份。视频搜索引擎685尝试找到确切或大 致与试验视频签名组匹配的签名数据库680中的基准视频签名组。在一个实现中,视频搜索引擎685从视频签名产生器601接收一个或更多个试验 签名组。各试验签名组以从试验内容产生的次序包含一系列有序的试验签名STEST。视频搜 索引擎685通过路径682从签名数据库680接收基准签名组。各基准签名组以从相应的基 准内容产生的次序包含一系列有序的试验签名SKEF。视频搜索引擎685通过计算试验内容 的试验签名组和特定的基准内容的基准签名组之间的不相似性度量DSM确定试验内容和 特定的基准内容之间的相似性。从试验签名组和特定基准内容的基准签名组的一系列的签 名中的相应的签名之间的汉明(Hamming)距离导出该不相似性度量DSM。可以以包含下式 中的任一个的许多方式计算该度量 这里,DSM =计算的不相似性度量;HD [x,y]=签名x和y之间的汉明距离;SEEF(s)= 一系列的基准签名中的第s个签名;STEST(s)= 一系列的试验签名中的第s个签名;视频搜索引擎685对于产生最小的与试验签名组的不相似性度量的基准签名组 搜索签名数据库680。与该基准签名组相关的基准内容是数据库中的与试验内容共享共同 的源的最可能的候选。如果不相似性度量比一些分类阈值小,那么与试验签名组相关的试 验内容被视为与与匹配的基准签名组相关的基准内容共享共同的源或为其拷贝。经验结果 建议,如果各签名组中的签名系列代表约2秒的视频内容,那么对于使用的各种视频内容 可获得良好的结果。为了便于在以下的讨论中解释,如果试验内容与特定的基准内容共享共同的源, 那么可以说试验内容和一些特定的基准内容“匹配”。对于上面提到的分类阈值选择的值影响试验和基准内容将被正确地识别为相互 匹配或不匹配的可能性。它还影响做出不正确的决定的可能性。随着分类阈值的值减小, 匹配内容被不正确地归为不匹配的内容的“不正确的否定”的概率增加。相反,随着分类阈 值的值增加,不匹配内容被不正确地归为匹配的内容的“不正确的肯定”的概率增加。可以以任意希望的方式设定分类阈值。可用于设定分类阈值的值的一种方法获得 由数据库680中的基准签名组代表的初始视频内容,并且产生该初始内容的大量的拷贝。诸如通过帧速率转换和上述的其它有意和无意修改中的任何修改,以各种方式修改拷贝。 该方法产生各拷贝的试验签名组,并且计算试验签名组和基准签名组之间的第一组的不相 似性度量DSM。该方法还对于不与初始内容共享共同的源的其它视频内容计算试验签名组 和签名组之间的第二组的不相似性度量DSM。两个组中的值的范围可能不重叠。如果它们 重叠,那么重叠量一般是各组中的值的范围的非常小的部分。分类阈值被设为重叠内的值, 或者,如果它们不重叠,被设为两个范围之间的值。可根据应用平衡招致不正确的肯定或不 正确的否定的风险的需要调整该阈值。实现可以通过包含诸如与与在通用计算机中发现的部件类似的部件耦合的数字信号 处理器(DSP)电路的更专用部件的计算机或一些其它的其它装置、以包含用于执行的软件 的各种方式、实现包含本发明的各方面的器件。图13是可用于实现本发明的方面的器件70 的示意性框图。处理器72提供计算资源。RAM 73是被处理器72用于处理的系统随机存取 存储器(RAM)。ROM 74代表用于存储操作器件70所需要的程序并且可能用于实现本发明 的各方面的诸如只读存储器(ROM)的一些形式的永久存储器。I/O控制75代表通过通信信 道76、77接收和传送信号的接口电路。在示出的实施例中,所有主要的系统部件与可代表 多于一个的物理或逻辑总线的总线71连接;但是,实现本发明不要求实现总线结构。在由通用计算机系统实现的实施例中,为了与诸如键盘或鼠标和显示器的设备连 接并且为了控制具有诸如磁带或盘或光学介质的存储介质的存储设备78,可以包含附加的 部件。存储介质可被用于记录用于操作系统的指令的程序、实用程序和应用,并且可包含实 现本发明的各方面的程序。例子在实施例中,一种方法,包括以下的步骤,或者,一种承载一个或更多个指令的序 列的计算机可读介质,这些指令当通过一个或更多个处理器被执行时导致一个或更多个处 理器实施以下的步骤a)对于一系列视频媒体内容中的内容部分的时间相关组的视频媒 体内容的一部分的第一表现,在第一表现被分割成的区域的矩阵上访问内容元素的量子化 能量值;b)从量子化能量值估计第一维度空间中的一组基础矢量;和c)将第一表现转换成 第二维度空间中的视频媒体内容部分的第二表现,其中,第二表现包含基于估计的基础矢 量的第一表现的投影;其中,至少部分基于第二表现导出媒体指纹。在实施例中,方法或计算机可读介质还包括,其中,第二表现在其几何取向的任意 变化上可靠地与视频媒体内容部分对应。在实施例中,方法或计算机可读介质还包括,其中,第一表现被向下采样为比与视 频媒体内容部分相关的分辨率低的分辨率。在实施例中,方法或计算机可读介质还包括,从媒体内容部分剪切第一表现。在实施例中,方法或计算机可读介质还包括,其中,视频媒体内容部分的第一表现 涉及以下项中的一个或更多个与序列的一个或更多个视频帧的至少一个部分相关的空间域表现;或与序列的一 个或更多个视频帧的至少一个部分相关的变换的表现。在实施例中,方法或计算机可读介质还包括,其中,空间域表现包含与与视频帧相 关的空间分辨率有关的粗略特性。
在实施例中,方法或计算机可读介质还包括,其中,根据变换函数从视频帧内的空 间分布信息计算变换的表现。在实施例中,方法或计算机可读介质还包括,其中,变换函数包含以下变换中的至 少一个离散余弦变换;修改的离散余弦变换;离散傅立叶变换;小波变换;或快速傅立叶 变换。在实施例中,方法或计算机可读介质还包括,其中,视频媒体内容部分包含视频内 容部分的时间相关组的第一部分,该方法还包括以下步骤至少对于时间相关视频内容部 分组的第二视频媒体内容部分,重复步骤a) c);和d)在将时间相关部分组内的第一内 容部分和第二内容部分分开的时间段上计算第一内容部分和第二内容部分的第二表现的 平均值。在实施例中,方法或计算机可读介质还包括,其中,第二表现的平均值在媒体内容 序列的速度的任意变化上可靠地与时间相关内容部分组对应。在实施例中,方法或计算机可读介质还包括,还包括以下的步骤e)将第二表现 的平均值投影到一组随机矢量上以获得一组投影值;f)对于一组投影值应用阈值;和g)对 于内容部分的时间相关组计算媒体指纹。在实施例中,方法或计算机可读介质还包括,其中,媒体指纹在其几何取向的任意 变化和媒体内容序列的速度的任意变化上可靠地与内容部分的时间相关组对应。在实施例中,方法或计算机可读介质还包括,其中,步骤b)包含以下的步骤基于 像素值计算奇异值分解;其中,在奇异值分解的基础上估计基础矢量。在实施例中,方法或计算机可读介质还包括,其中,基础矢量中的至少第一个沿着 像素值中的最大变化的轴,并且,基础矢量中的至少第二个与第一基础矢量正交。在实施例中,方法或计算机可读介质还包括,其中,像素值包含与区域中的每一个 相关的平均值的和,其中,这些值涉及来自区域的媒体内容的至少一种属性的采样。—种方法,包括以下的步骤,或者,一种承载一个或更多个指令的序列的计算机可 读介质,这些指令当通过一个或更多个处理器被执行时导致一个或更多个处理器实施以下 的步骤a)对于一系列视频媒体内容中的内容部分的时间相关组的视频媒体内容的一部 分的第一表现,在第一表现被分割成的区域的矩阵上访问内容元素的量子化能量值,其中, 第一表现被向下采样为较低分辨率并且从媒体内容部分被剪切;b)从量子化能量值估计 第一维度空间中的一组基础矢量;和c)将第一表现转换成第二维度空间中的视频媒体内 容部分的第二表现,其中,第二表现包含基于估计的基础矢量的第一表现的投影;其中,视 频媒体内容部分的第一表现涉及以下表现中的一个或更多个与序列的一个或更多个视频 帧的至少一个部分相关的空间域表现;或与序列的一个或更多个视频帧的至少一个部分相 关的变换的表现,并且其中,至少部分基于第二表现导出媒体指纹。在实施例中,方法或计算机可读介质还包括,其中,第二表现在其几何取向的任意 变化上可靠地与视频媒体内容部分对应。在实施例中,方法或计算机可读介质还包括,其中,空间域表现包含与与视频帧相 关的空间分辨率有关的粗略特性。在实施例中,方法或计算机可读介质还包括,其中,根据变换函数从视频帧内的空 间分布信息计算变换的表现。
在实施例中,方法或计算机可读介质还包括,其中,变换函数包含以下变换中的至 少一个离散余弦变换;修改的离散余弦变换;离散傅立叶变换;小波变换;或快速傅立叶 变换。在实施例中,方法或计算机可读介质还包括,其中,视频媒体内容部分包含视频内 容部分的时间相关组的第一部分,该方法还包括以下步骤至少对于时间相关视频内容部 分组的第二视频媒体内容部分,重复步骤a) c);和d)在将时间相关部分组内的第一内 容部分和第二内容部分分开的时间段上计算第一内容部分和第二内容部分的第二表现的 平均值。在实施例中,方法或计算机可读介质还包括,其中,第二表现的平均值在媒体内容 序列的速度的任意变化上可靠地与时间相关内容部分组对应。在实施例中,方法或计算机可读介质还包括e)将第二表现的平均值投影到一组 随机矢量上以获得一组投影值;f)对于一组投影值应用阈值;和g)对于内容部分的时间相 关组计算媒体指纹。在实施例中,方法或计算机可读介质还包括,其中,媒体指纹在其几何取向的任意 变化和媒体内容序列的速度的任意变化上可靠地与内容部分的时间相关组对应。在实施例中,方法或计算机可读介质还包括,其中,步骤b)包含以下的步骤基于 像素值计算奇异值分解;其中,在奇异值分解的基础上估计基础矢量。在实施例中,方法或计算机可读介质还包括,其中,基础矢量中的至少第一个沿着 像素值中的最大变化的轴,并且,基础矢量中的至少第二个与第一基础矢量正交。在实施例中,方法或计算机可读介质还包括,其中,像素值包含与区域中的每一个 相关的平均值的和,其中,这些值涉及来自区域的媒体内容的至少一种属性的采样。在实施例中,一种系统包括至少一个处理器;和包含当用至少一个处理器执行 时导致系统执行上述方法的至少一个步骤的编码指令的计算机可读存储介质。在实施例中,一种系统包括用于执行上述方法的至少一个步骤的装置。在实施例中,集成电路(IC)器件被配置或编程为执行上述方法中的一个或更多 个的步骤或体现、设置或支持上述系统中的一个或更多个。在实施例中,IC器件还包含,其中,IC包含处理器、可编程逻辑器件、微控制器、现 场可编程门阵列或应用特定IC中的至少一个。等同物、扩展、替代方案和其它在以上的说明书中,参照可从实现到实现改变的大量的特定的细节描述了本发明 的实施例。因此,什么是本发明以及申请人预期为发明的唯一和排它的指示是以发布权利 要求的特定形式从本申请发布的这些权利要求的组,包括任何随后的校正。这里对于包含 于这些权利要求中的术语明确阐述的任何定义应决定在权利要求中使用的这些项的意思。 由此,没有在权利要求中明确陈述的限制、元素、性能、特征、优点或属性不应以任何方式限 制这些权利要求的范围。因此,说明书和附图应被视为解释性而不是限制性的。
权利要求
一种方法,包括以下的步骤a)对于视频媒体内容序列中的内容部分的时间相关组的视频媒体内容的一部分的第一表现,在第一表现被分割成的区域的矩阵上访问内容元素的量子化能量值;b)从量子化能量值估计第一维度空间中的一组基础矢量;和c)将第一表现转换成第二维度空间中的视频媒体内容部分的第二表现,其中,第二表现包含基于估计的基础矢量的第一表现的投影;其中,至少部分基于第二表现导出媒体指纹。
2.如权利要求1所述的方法,其中,第二表现在其几何取向的任意变化上可靠地与视 频媒体内容部分对应。
3.如权利要求1所述的方法,其中,第一表现被向下采样为比与视频媒体内容部分相 关的分辨率低的分辨率。
4.如权利要求1所述的方法,其中,从媒体内容部分剪切第一表现。
5.如权利要求1所述的方法,其中,视频媒体内容部分的第一表现涉及以下项中的一 个或更多个与所述序列的一个或更多个视频帧的至少一个部分相关的空间域表现;或与所述序列的所述一个或更多个视频帧的所述至少一个部分相关的变换的表现。
6.如权利要求5所述的方法,其中,所述空间域表现包含与与视频帧相关的空间分辨 率有关的粗略特性。
7.如权利要求5所述的方法,其中,根据变换函数从视频帧内的空间分布信息计算所 述变换的表现。
8.如权利要求5所述的方法,其中,变换函数包含以下项中的至少一个离散余弦变换;修改的离散余弦变换;离散傅立叶变换;小波变换;或快速傅立叶变换。
9.如权利要求1所述的方法,其中,视频媒体内容部分包含视频内容部分的时间相关 组的第一部分,该方法还包括以下步骤至少对于时间相关视频内容部分组的第二视频媒体内容部分重复步骤a c ;和d)在将时间相关部分组内的第一内容部分和第二内容部分分开的时间段上计算第一 内容部分和第二内容部分的第二表现的平均值。
10.如权利要求9所述的方法,其中,第二表现的平均值在媒体内容序列的速度的任意 变化上可靠地与时间相关内容部分组对应。
11.如权利要求9所述的方法,还包括以下的步骤e)将第二表现的平均值投影到一组随机矢量上以获得一组投影值;f)对于一组投影值应用阈值;和g)对于内容部分的时间相关组计算媒体指纹。
12.如权利要求11所述的方法,其中,媒体指纹在其几何取向的任意变化和媒体内容 序列的速度的任意变化上可靠地与内容部分的时间相关组对应。
13.如权利要求1所述的方法,其中,步骤b)包含以下的步骤 基于像素值计算奇异值分解;其中,在奇异值分解的基础上估计基础矢量。
14.如权利要求13所述的方法,其中,基础矢量中的至少第一个沿着像素值中的最大 变化的轴,并且,基础矢量中的至少第二个与第一基础矢量正交。
15.如权利要求1所述的方法,其中,像素值包含与区域中的每一个相关的平均值的 和,其中,这些值涉及来自区域的媒体内容的至少一种属性的采样。
16.一种方法,包括以下步骤a)对于视频媒体内容序列中的内容部分的时间相关组的视频媒体内容的一部分的第 一表现,在第一表现被分割成的区域的矩阵上访问内容元素的量子化能量值,其中,第一表 现被向下采样为较低的分辨率并且从媒体内容部分被剪切;b)从量子化能量值估计第一维度空间中的一组基础矢量;和c)将第一表现转换成第二维度空间中的视频媒体内容部分的第二表现,其中,第二表 现包含基于估计的基础矢量的第一表现的投影;其中,视频媒体内容部分的第一表现涉及以下项中的一个或更多个 与所述序列的一个或更多个视频帧的至少一个部分相关的空间域表现;或 与所述序列的一个或更多个视频帧的至少一个部分相关的变换的表现,并且, 其中,至少部分基于第二表现导出媒体指纹。
17.如权利要求16所述的方法,其中,第二表现在其几何取向的任意变化上可靠地与 视频媒体内容部分对应。
18.如权利要求16所述的方法,其中,空间域表现包含与与视频帧相关的空间分辨率 有关的粗略特性。
19.如权利要求16所述的方法,其中,根据变换函数从视频帧内的空间分布信息计算 所述变换的表现。
20.如权利要求19所述的方法,其中,所述变换函数包含以下项中的至少一个 离散余弦变换;修改的离散余弦变换; 离散傅立叶变换; 小波变换;或 快速傅立叶变换。20.如权利要求16所述的方法,其中,视频媒体内容部分包含视频内容部分的时间相 关组的第一部分,该方法还包括以下步骤至少对于时间相关视频内容部分组的第二视频媒体内容部分重复步骤a c ;和d)在将时间相关部分组内的第一内容部分和第二内容部分分开的时间段上计算第一 内容部分和第二内容部分的第二表现的平均值。
21.如权利要求20所述的方法,其中,第二表现的平均值在媒体内容序列的速度的任 意变化上可靠地与时间相关内容部分组对应。
22.如权利要求20所述的方法,其中,还包括以下的步骤e)将第二表现的平均值投影到一组随机矢量上以获得一组投影值;f)对于该组投影值应用阈值;和g)对于内容部分的时间相关组计算媒体指纹。
23.如权利要求22所述的方法,其中,媒体指纹在其几何取向的任意变化和媒体内容 序列的速度的任意变化上可靠地与内容部分的时间相关组对应。
24.如权利要求16所述的方法,其中,步骤b)包含以下的步骤 基于像素值计算奇异值分解;其中,在奇异值分解的基础上估计基础矢量。
25.如权利要求24所述的方法,其中,基础矢量中的至少第一个沿着像素值中的最大 变化的轴,并且,基础矢量中的至少第二个与第一基础矢量正交。
26.如权利要求16所述的方法,其中,像素值包含与区域中的每一个相关的平均值的 和,其中,这些值涉及来自区域的媒体内容的至少一种属性的采样。
27.—种系统,包括 至少一个处理器;和包含当用至少一个处理器执行时导致系统执行如权利要求1 26或32中的一项或更 多项所述的方法的至少一个步骤的编码指令的计算机可读存储介质。
28.一种系统,包括用于执行如权利要求1 26或32中的一项或更多项所述的方法的至少一个步骤的手段。
29.一种集成电路IC器件,该集成电路IC器件被配置或编程为执行如权利要求1 26所述的方法中的一个或更多个的步骤、或者体现、设置或支持如权利要求27 28所述的 系统中的一个或更多个。
30.如权利要求29所述的IC器件,其中,IC包含处理器、可编程逻辑器件、微控制器、 现场可编程门阵列或应用特定IC中的至少一个。
31.一种包含编码指令的计算机可读存储介质,该编码指令当用一个或更多个处理器 执行时导致一个或更多个处理器执行如权利要求1 26或32 35中的一项或更多项所述的方法的至少一个步骤; 配置如权利要求27 28中的一项或更多项所述的系统中的至少一个或将其编程;或 配置如权利要求29 30所述的IC器件中的至少一个或将其编程。
32.如权利要求1所述的方法,其中,视频媒体内容部分包含内容部分的时间相关组的 关于至少一个随后视频媒体内容部分的视频媒体内容中的时间窗口 ;并且,其中,所述方法还包括以下的步骤 对于视频媒体内容序列,重复步骤a c ;和在时间窗口上应用变换函数,通过该时间窗口,视频媒体内容的早期部分和随后部分 被时间相关,其中,应用变换函数的步骤在时间窗口上描述视频内容的图像特征的变化。
33.如权利要求32所述的方法,其中,时间窗口包含视频媒体内容的时间早期部分。
全文摘要
量子化能量值被访问,以初始地代表媒体序列中的内容元素的时间相关组。在初始表现被分割成的区域的矩阵上访问这些值。可以将初始表现向下采样和/或从内容剪切它。在维度空间中从这些值估计基础矢量组。初始表现被变换成处于另一维度空间中的随后表现。随后表现基于基础矢量投影初始表现。随后表现在其几何取向的变化上可靠地与媒体内容部分对应。对组的其它媒体内容部分重复,第一和其它部分的随后表现随时间被平均或变换。平均/变换的值在速度变化上可靠地与内容部分对应。初始表现可包含空间或变换相关信息。
文档编号G06F17/30GK101855635SQ200880115821
公开日2010年10月6日 申请日期2008年10月6日 优先权日2007年10月5日
发明者C·鲍尔, R·拉达克里希南 申请人:杜比实验室特许公司