用于广播源辨识的方法与装置的制作方法

文档序号：83201阅读：1105来源：国知局

专利名称:用于广播源辨识的方法与装置的制作方法
技术领域：
本发明总的涉及辨识所发送内容的源，更具体而言，涉及将音频或媒体文件样本与发送该样本的广播源进行匹配。
背景技术：
随着业界趋向于多媒体丰富的工作环境，所有形式的音频和可视内容表示(无线电广播传送、流式视频、音频场景(audio canvas)、可视摘要等)的使用变得更加频繁。不管是用户、内容提供者，还是两者，每个人都搜索最佳地利用这种内容的途径。例如，具有更多创造性使用潜力的一种方法是内容辨识。使用户能够辨识用户正在收听或观看的内容为内容提供者提供了新的成功可能性。
作为一种特定的例子，假定用户听到了通过无线电广播的、用户想购买的歌曲或音乐片段，但该用户却不能辨识该歌曲。内容提供者可以使能够通过电话听筒来获取该歌曲的指纹，然后辨识其内容。在识别之后，内容提供者可以利用电子商务选项向用户发送辨识信息(例如，标题、艺术家和记录标签)，以便例如订购该音乐或对应的铃音。
此外，如果用户能够辨识期望内容的广播源，则内容提供者可以得到更多的商务可能性，例如广告和推销计划。
用于辨识期望内容的广播源的现有方法有一些缺陷。例如，为了标识的目的，广播台(broadcast station)使用了水印。每个广播台都在音频流中嵌入了标识各自广播台的水印。因此，每个广播台都需要主动将水印嵌入音频流中，这增加了数据处理的复杂度，此外，每个广播台都需要使用遵循源辨识系统所使用的一致标准的水印技术。任何不遵循这种标准的广播台都不能被这些装置辨识。此外，水印信号需要足够健壮来抵抗失真，其中如果在具有混响的嘈杂房间内对音频进行采样或者如果要对音频进行例如GSM、AMR、EVRC、QCP等的有损压缩时，可发生失真。
用于辨识期望内容的广播源的另一种方法包括在音频样本和从广播台(例如，从监视台)捕捉的音频馈送之间执行交叉相关分析。匹配的广播台将显示出交叉相关的强尖峰信号。但是，交叉相关分析的困难在于在采用了有损压缩装置的情况下，信号是弱的，并且可能难以实现强相关。在许多语音编码解码器中，例如，即使音频样本和正确的匹配广播馈送得以交叉相关，相位信息也会被破坏，且交叉相关分析将不会产生峰值。
所需要的是用于辨识期望内容的广播源或内容提供者的新方法。

发明内容在本文所公开的实施例中，公开了一种用于辨识音频样本的广播源的方法。该方法包括记录音频样本和该音频样本的记录时间，以及然后辨别该音频样本的特征和该音频样本的估计时间偏差。所述估计时间偏差定义了所述音频样本的起始时间与记录该音频样本的时间之间的时间差。该方法还包括将所述音频样本的特征和估计时间偏差与自广播台获取且大约在记录所述音频样本时所获取的样本的特征和时间偏差进行比较，以及基于所述比较来辨识广播所述音频样本的广播台。
在另一个实施例中，用于辨识内容广播源的方法包括将音频样本的标识与取自被监视广播频道的广播音频样本的标识进行比较，以及将所述音频样本的时间偏差与所述广播音频样本的时间偏差进行比较。所述时间偏差定义了在获取样本时和进行时间偏差比较时之间所经过的时间加上一相对时间偏差，该相对时间偏差定义了样本的起始时间和记录样本的时间之间的时间差。该方法还包括基于基本上匹配的标识和基本上匹配的时间偏差来辨识所述音频样本从其中记录的广播频道。
在另一个实施例中，公开了一种包括广播频道采样器、音频识别引擎和处理器的监视台。广播频道采样器从相应广播台采样音频，且音频识别引擎确定从相应广播台采样的音频的特征和该音频的估计时间偏差，该估计时间偏差定义了该音频样本所取自的原始记录的开始与获取该样本的时间之间的时间。处理器接收用户音频样本，将从相应广播台采样且在大约记录用户音频样本的时间所获取的音频的特征和估计时间偏差与用户音频样本的特征和时间偏差进行比较，并基于所述比较来辨识广播该用户音频样本的广播台。
通过适当地参考附图阅读以下具体描述，这些及其它特征、优点与可替选方案对本领域技术人员来说将是明显的。
图1说明了用于辨识期望内容的广播源的系统的一个例子。
图2是描述辨识广播源的方法的一个实施例的流程图。
图3说明了用于辨识音频样本广播源的系统的另一个例子。
图4是描述辨识广播源的方法的另一个实施例的流程图。
图5说明了用于辨识音频样本广播源的系统的另一个例子。
具体实施方式在内容辨识领域，可能期望不仅辨识广播传送的内容，还辨识其源(例如，频道、流或广播台)。例如，可能期望根据无线电广播的自由场(free-field)音频样本来检测用户在收听哪个无线电台及用户在收听哪首歌曲。
以下描述的示例实施例说明了用于辨识期望内容的广播源的方法与装置。在一个实施例中，用户可以利用包括麦克风和任选的数据传送装置的音频采样设备来辨识广播源。用户可以听到从诸如收音机或电视的某种广播装置广播的音频节目，并且可以利用音频采样设备来记录音频的样本。然后，样本被传送到分析装置，以确定用户在收听哪个广播台。然后，广播信息可以报告回用户，该广播信息与例如特定于某个无线电台的推销广告、奖品通知、折扣提供及其它信息组合在一起。例如，所述信息还可以报告给消费者跟踪机构，或者为了统计的目的而聚集。因此，不仅可以利用自由场内容辨识技术来分析音频样本以辨识其内容，而且还可以分析音频样本以确定其广播源。
现在参考附图，图1说明了用于辨识期望内容的广播源的系统的一个例子。该系统包括音频采样设备102，用户使用该音频采样设备102来记录由例如收音机或电视内容提供者的广播者104所广播或发送的音频样本。然后，用户可以使音频采样设备102通过无线或有线装置向样本分析器106发送音频样本。就此而言，音频采样设备102可以是移动蜂窝电话、PDA或具有处理装置的任何设备。利用音频样本，样本分析器106可以通过例如访问包含音频样本和广播信息的数据库108来辨识关于广播的信息。所述信息可以包括内容标识和/或广播标识。然后，通过向音频采样设备102发送所述信息，可以将广播信息报告回用户。附加信息也可以与广播信息一起发送，例如特定于某个广播者的推销广告、折扣提供及其它信息。广播信息还可以报告给数据存储110，其可以是例如消费者跟踪机构或其它统计中心。
通过相对时间比较的源辨识在一个实施例中，通过如下来辨识广播源对音频样本执行加时间戳的记录并对来自广播频道的音频样本执行加时间戳的记录，然后辨识所述记录的特征以便进行比较。例如，可以比较在相似的时间获取的记录的“指纹”，这种比较允许对音频样本从其中记录的广播频道的直接辨识。利用这种方法，比较的是信号的谱图峰值(spectrogram peak)或其它特征而不是直接的信号。此外，例如，可以不需要任何内容辨识就辨识出正确的广播频道。
图2是描述辨识广播源的方法的流程图。如在块202所示，一开始，用户可以在现场利用采样设备来收集音频样本。采样设备还将依据与公共时基的“实时”偏差来对样本加时间戳。如在块204和206所示，利用Wang和Smith的技术(以下将更全面地描述)来确定“原始”记录中的音频样本的样本特征和估计时间偏差(例如，以便确定歌曲中记录样本时的点)，该技术见标题为“System and Methods for RecognizingSound and Music Signals in High Noise and Distortion”的美国专利申请出版物US 2002/0083060，其中该申请的全部公开内容通过引用结合于此，就象在本说明书中完全阐述一样。
同时，如在块208所示，记录来自被监视的广播频道的样本。类似于用户样本，也依据与公共时基的“实时”偏差来对每个广播样本加时间戳。此外，如在块210和212所示，利用以下所述Wang和Smith的技术来确定“原始”记录中广播样本的特征和估计时间偏差(例如，以便确定歌曲中记录样本时的点)。
然后，如在块214所示，将用户样本特征与在记录该用户样本的时间处或其附近获取的广播样本的特征进行比较。用户音频样本时间戳被用来辨识用于比较的广播样本。此外，如在块216所示，将用户音频样本的时间偏差与广播样本的时间偏差进行比较，以便辨识匹配。如果实时偏差在某个容限内，例如一秒，则该用户音频样本被认为与该广播样本来自同一个源，这是因为同一音频内容(如畅销歌曲)的随机表演(random performance)在时间上被同步成小于一秒的概率是低的。
如在块218和220所示，将用户音频样本与来自所有广播频道的样本进行比较，直到找到匹配。如在块222所示，一旦找到匹配，则辨识出用户样本的广播源。
图3说明了用于根据图2所示的方法来辨识音频样本广播源的系统的一个例子。音频样本可以源自无线电台1、无线电台2、无线电台3、...、或无线电台k302中的任何一个。用户可以在音频采样设备306(例如，移动电话)上记录从单独接收器304广播的音频样本及采样时间(例如，根据标准基准时钟的样本记录时间)。
然后，用户可以拨通用于辨识关于音频样本的广播信息的服务，例如IVR应答系统308。基于系统设置与用户约束，音频样本从任意数量的模拟或数字源，如立体声系统、电视、无线电广播、因特网流式广播或发送这种记录材料的任何其它合适的装置提供给IVR系统308。依赖于源，样本可以是声波、无线电波、数字音频PCM流、压缩数字音频流(如Dolby Digital或MP3)或因特网流式广播的形式。用户通过例如电话、移动电话、web浏览器或电子邮件的标准接口与IVR系统308交互。
系统308一开始将从采样设备306接收音频样本，然后辨识或计算样本的特征或指纹。样本中计算出指纹的特定位置依赖于样本中的可再现点。这种可再现计算位置称为“界标(landmark)”。样本中界标的位置可以由样本本身来确定，即，依赖于样本质量，并且是可再现的。即，每次重复该过程时，针对同一信号计算出相同的界标。界标方案可以在声音记录中每秒标记大约5-10个界标；当然，界标密度依赖于声音记录中的活动(activity)的量。
一种公知为Power Norm的界标技术是计算在记录中的每个可能时间点的瞬时功率并选择局部最大值。执行这种技术的一种途径是通过直接对波形进行调整(rectify)和滤波来计算包络(envelope)。另一种途径是计算信号的希耳伯特变换(正交)并使用该希耳伯特变换和原始信号的幅度平方和。也可以使用用于计算界标的其它方法。
一旦计算出界标，则在记录中的每个界标时间点或其附近计算出指纹。一特征与界标的接近程度由所使用的指纹识别方法(fingerprintingmethod)来定义。在一些情况下，如果一特征清楚地对应于该界标而不是对应于前一个或后一个界标，则它被看作是在界标附近。在其它情况下，特征对应于多个相邻的界标。指纹通常是概括在记录中的所述时间点或其附近的一组特征的一个值或一组值。在一个实施例中，每个指纹是单个数值，该数值是多个特征的哈希函数。指纹的其它例子包括谱片(spectral slice))指纹、多片指纹、LPC系数、倒谱系数(cepstralcoefficient)及谱图峰值的频率成分。
指纹可以通过任何类型的数字信号处理或信号的频率分析来计算。在一个例子中，为了生成谱片指纹，在每个界标时间点的附近执行频率分析，以便提取最高的几个谱峰值。指纹值正是最强谱峰值的单个频率值。
为了利用许多声音的时间演变，通过向界标时间点加一组时间偏差来确定一组时间片。在每个产生的时间片，计算谱片指纹。然后，组合所产生的一组指纹信息，以形成一个多音或多片指纹。每个多片指纹都比单谱片指纹更具唯一性，因为它跟踪了时间演变，从而在数据库索引搜索中导致更少的错误匹配。
关于计算音频样本特征或指纹的更多信息，读者可参考Wang和Smith的、标题为“System and Methods for Recognizing Sound and MusicSignals in High Noise and Distortion”的美国专利申请出版物US2002/0083060，该申请的全部公开内容通过引用结合于此，就象在本说明书中完全阐述一样。
因此，系统308将从采样设备306接收音频样本并计算样本的指纹。系统308可以通过与附加的识别引擎如指纹提取器310联系来计算指纹。因此，系统308将具有可以用于与广播样本进行比较的音频样本的加时间戳的指纹令牌(fingerprint token)。
广播监视台312监视无线电台302的每个广播频道，以获得广播样本。监视台312包括从无线电台302接收广播信息的多频道无线电接收器314。广播信息被发送到频道采样器1...k316。每个频道采样器316都具有频道指纹提取器318，其用于如上所述且如Wang与Smith所述，计算广播样本的指纹。
然后，监视台312可以在指纹块分类器320中分类并存储某个时间量的每个广播样本的指纹。监视台312可以在记录(note)对应于数据记录的时间的同时连续监视来自广播者的音频流。例如，在一预定的时间量后，监视台312可以重写所存储的广播样本指纹以便刷新信息，从而与当前正在广播的音频样本一致。预定长度的滚动(rolling)缓冲器可以用于保持最近的指纹历史。由于滚动缓冲器中的指纹将与由进入的样本所生成的指纹进行比较，因此可以忽略老于某个截止时间的指纹，因为它们将被看作是表示在太远的过去所收集的音频。缓冲器的长度由对于源自实时广播节目的音频信号的实时同步记录看来最大的允许延迟来确定，如IP承载语音网络、因特网流及其它缓冲内容的网络等待时间。延迟范围可以从几毫秒到几分钟。
可以利用成批的时间块来生成滚动缓冲器，例如，每个所述块可能是M＝10秒长新的[哈希值(hash)+频道ID+时间戳]的每个10秒块被转储到一个大存储桶(bucket)中并根据哈希值来分类。然后，每个块老化，并且对N个块中的每个块进行并行搜索，以便收集匹配的哈希值，其中N*M是最长的历史长度，而(N-1)*M是最短的历史长度。哈希块可以以传送带方式退出(retired)。
当从用户采样设备306接收到确定对应于给定音频样本的广播信息的查询时，监视台312搜索广播样本指纹中线性对应的指纹哈希值。具体地，监视台312中的处理器322首先(利用选择器320)选择给定的广播频道，以确定记录在用户样本时间或其附近的广播样本的广播样本标识是否匹配用户音频样本指纹。如果不匹配，则选择器320选择下一个广播频道并继续搜索匹配。
广播样本和用户音频样本的指纹是通过生成等价指纹之间的对应(correspondence)来匹配的，而且具有最大数量的线性相关对应或其特征指纹的相对位置最接近地匹配音频样本的相同指纹的相对位置的文件被看作是匹配的媒体文件。
具体而言，用户音频样本指纹被用于检索存储在分类器320中的多组匹配指纹。然后，将所检索出的那组指纹用于生成对应对，该对应对包含计算出相同指纹的样本界标和所检索出的文件界标。然后，根据媒体文件标识符对所生成的对应对进行分类，从而为每个适用文件生成样本界标与文件界标之间的多组对应。对每组进行扫描以便获得文件界标与样本界标之间的对准。即，辨识界标对的线性对应，而且根据线性相关的对的数量对该组评分。当在允许的容限内可以利用基本相同的线性方程来描述大量对应的样本位置和文件位置时，发生线性对应。具有最高得分、即具有最大数量线性相关对应的那组的文件是获胜的文件。
此外，来自多个频道的组合哈希值的指纹流可以分成多组[哈希值+频道ID+时间戳]，而且这些数据结构可以放置到按时间排序的滚动缓冲器中。为了较快地搜索与音频样本匹配的指纹，还可以根据哈希值来分类滚动缓冲器的内容，例如，匹配的时间对准的哈希值的数量是得分。
可以使用进一步的验证步骤，其中可以将谱图峰值对准。因为Wang和Smith的技术生成相对时间偏差，因此例如可以在时间上对准时间轴上大约10ms内的谱图峰值记录。然后，可以确定匹配的时间与频率峰值的数量，且这就是可以用于比较的得分。
尽管两个不同的信号可以包含若干相同的指纹，但这些指纹不可能具有相同的相对时间演变。例如，如果相对偏差接近零，则流有可能是从同一个源监视的。较长且随机的时间延迟可能意味着用户在收听同一音频节目的独立但一致的拷贝。对线性对应的要求是关键特点，且相对于简单计算共同特征的总数或测量特征之间相似性的技术，提供了更好的识别。
一旦辨识出正确的音频声音，就通过任何合适的方法将结果报告给用户或系统324。例如，结果可以通过以下方式来报告，计算机打印输出、电子邮件、web搜索结果页面、发到移动电话的SMS(短消息服务)文本、电话承载的计算机生成的语音注释或者将结果发布到用户随后可以访问的web站点或因特网账户。所报告的结果可以包括声音源的标识信息，如广播者的名字；广播记录属性(例如，表演者、指挥、地点)；广告的公司和产品；或任何其它合适的标识符。此外，可以提供传记信息、关于附近音乐会的信息及爱好者感兴趣的其它信息；也可以提供对这种数据的超链接。所报告的结果还可以包括声音文件的绝对得分或者与次最高得分文件相比较的得分。
关于指纹计算与比较的更多信息，读者可以参考Wang和Smith的、标题为“System and Methods for Recognizing Sound and Music Signals inHigh Noise and Distortion”的美国专利申请出版物US 2002/0083060，该申请的全部公开内容通过引用结合于此，就象在本说明书中完全阐述一样。
在上述用于广播源辨识的实施例中，假定用户采样设备306将记录样本，然后将该样本发送到监视台312以进行比较。可替选地，用户采样设备306可以与监视台312联系，并将样本即时发送到监视台312(例如，在采样设备306是电话的情况下，用户可以打电话给监视台312并象电话会话那样将样本流式传输到监视台312)。在另一个例子中，用户采样设备306可以记录样本、辨识样本的指纹并仅将指纹发送到监视台312以进行比较。其它例子也是可以的。
通过加时间戳的标识的源辨识在另一个实施例中，可以通过执行时间戳辨识来辨识广播源。图4说明了描述用于执行时间戳广播辨识的功能步骤的流程图的一个例子。如在块402所示，一开始，利用内容辨识装置来辨识由用户收集的用户音频样本，如以上由Wang和Smith所描述的(例如，辨识来自音频内容文件数据库的音频样本)。在收集用户音频样本的同时，基于标准基准时钟，采用用户样本时间戳(UST)来标记音频样本的开始时间，如在块404所示。如上所述，利用由Wang和Smith所公开的辨识方法产生了来自数据库的所辨识内容文件的开始与被分析音频样本的开始之间的精确相对时间偏差，例如，用户可以将一首67秒的歌曲的十秒样本记录到一首歌曲中。因此，如在块406所示，作为辨识用户音频样本的结果，记录了用户样本相对时间偏差(USRTO)和用户样本标识。
可替选地，应当指出，例如用户音频样本可以发送到中心辨识服务器，或者部分或全部在用户音频采样设备上分析，以便产生用户样本标识、用户样本时间戳(UST)和用户样本相对时间偏差(USRTO)。
同时，周期性地从监视台监视的至少一个广播频道中的每个广播频道获取广播音频样本；类似地，如在块408所示，对每个广播频道执行内容辨识步骤。应当足够频繁地获取广播样本，使得每个广播频道中的每个音频节目(例如，每首歌曲)取至少一个样本。例如，如果监视台记录10秒样本，则在内容辨识后，监视台将知道歌曲的长度，以及歌曲结束之前还有多长。因此，监视台例如能够基于歌曲的剩余时间长度来计算对广播频道进行采样的下一个时间。
如在块410所示，对于每个广播样本，也基于标准基准时钟、采用广播样本时间戳(BST)来标记每个样本的开始。此外，计算来自数据库的所辨识内容文件的开始与被分析广播样本的开始之间的相对时间偏差。因此，如在块412所示，作为辨识每个广播音频样本的结果，记录了广播样本相对时间偏差(BSRTO)和广播样本标识。
为了辨识广播源，如在块414所示，比较用户音频样本和广播音频样本，以首先辨识匹配的样本标识，且然后，如在块416所示，辨识匹配的“相对时间”。如果没有找到匹配，则如在块418和420所示，选择另一个广播频道进行比较。如果找到匹配，则如在块422所示，将对应的广播信息报告回用户。
用户和广播样本的比较如以下所示而进行(用户样本标识)＝(广播样本标识) 等式(1)USRTO+(基准时间-UST)＝BSRTO+(基准时间-BST)+延迟等式(2)其中基准时间是公共基准时钟时间，而(基准时间-UST)和(基准时间-UST)考虑了用户音频采样设备和监视台的不同采样时间的可能性(例如，(基准时间-BST)＝从最后广播样本到现在所经过的时间)。例如，如果每分钟对广播台采样一次，而且由于用户样本可以在任何时间出现，因此，为了找到准确的匹配，可能需要对从每个广播的最后样本到用户样本所经过的时间的量度。在等式(2)中，延迟是小的系统容限，其依赖于由于用户音频样本所采用的额外路径的传播延迟而造成的时间差，例如，通过数字移动电话网络的等待时间。此外，等式(2)的任何代数置换都在本申请的范围之内。
因此，对样本标识的匹配确保了比较的是例如同一首歌曲。然后，对相对时间的匹配将样本转换成等价的时间帧，并使得能够进行准确的匹配。
举一个具体的例子，假定监视台每三分钟采样来自广播者的歌曲，使得广播台在下午2:02开始记录来自广播者的4分钟长的歌曲的10秒间隔，其中广播者在下午2:00开始播放该歌曲。因此，BST＝下午2:02，且BSRTO＝2分钟。假定用户在下午2:03开始记录同一首歌曲。因此，UST＝下午2:03，且USRTO＝3分钟。如果用户在下午2:04与监视台联系，以便辨识该歌曲的广播源，则上面的等式(2)将如下(假定延迟可以忽略)USRTO+(基准时间-UST)＝BSRTO+(基准时间-BST)+延迟→3+(2:04-2:03)＝2+(2:04-2:02)＝4因此，监视台将知道已经进行了歌曲的准确匹配，而且监视台还知道歌曲的起点。因此，监视台可以向用户告知广播源。
误辨识的概率是低的，因为用户样本取自错误的广播频道或未监视的音频源(如CD播放器)且碰巧满足等式(1)和(2)的概率是相当小的。
因此，通过注意等式(1)和(2)是否成立，作出关于用户音频样本是否源自给定广播源的判定。如果找到使等式成立的广播频道，则该广播频道被确定为用户正在收听的频道。该信息被记录并转发到使用该信息进行某种后续操作的用户或报告装置。
图5说明了用于根据图4所说明的方法辨识音频样本广播源的系统的一个例子。音频样本可以源自无线电台1、无线电台2、无线电台3、...、或无线电台k502中的任何一个。用户可以在音频采样设备506(例如，移动电话)上记录从单独接收器504广播的音频样本及样本时间(例如，根据标准基准时钟的样本记录时间)。然后，用户可以拨通服务以便例如使用IVR系统508来辨识关于音频样本的广播信息。系统508一开始将通过与音频识别引擎510联系来辨识音频样本。在移动电话采样设备的情况下，例如，IVR系统508可以利用蜂窝通信网络来联系音频识别引擎510。
然后，如以上所述，音频识别引擎510将利用Wang和Smith所描述的技术通过在音频节目数据库512中执行查找来辨识音频样本。具体而言，音频样本可以是从各种源中所获得的任何大小的媒体数据段。为了执行数据识别，样本应当是在数据库中带索引的媒体文件部分的再现。带索引的媒体文件可以看作是原始记录，而样本看作是该原始记录的失真和/或删节版本或再现。典型地，样本仅对应于带索引文件的一小部分。例如，可以对在数据库中带索引的五分钟的歌曲的十秒片段执行识别。
数据库索引包含表示在带索引媒体文件的特定位置的特征的指纹。利用数据库中指纹的相对位置最接近地匹配样本指纹相对位置的媒体文件(例如，获胜的媒体文件)来辨识未知的媒体样本。在音频文件的情况下，获胜文件的指纹的时间演变匹配样本中的指纹的时间演变。
数据库中的每个记录都具有唯一标识符，例如，sound_ID。声音数据库本身不一定需要为每个记录存储音频文件，因为sound_ID可以用于从其它地方检索音频文件。预期声音数据库索引非常大，包含几百万甚至几十亿文件的索引。新记录优选地递增添加到数据库索引。
利用文件的数据库，可以确定样本的相对时间偏差。例如，音频样本的指纹可以与原始文件的指纹比较。每个指纹都出现在给定的时间，因此在为了辨识音频样本而对指纹进行匹配之后，在音频样本的第一指纹和所存储原始文件的第一指纹之间的时间差将是音频样本的时间偏差，例如，在歌曲中的时间量。因此，可以确定用户开始记录歌曲的相对时间偏差(例如，在歌曲中的67秒)。
关于确定相对时间偏差的更多信息，读者可以参考Wang和Smith的、标题为“System and Methods for Recognizing Sound and Music Signalsin High Noise and Distortion”的美国专利申请出版物US 2002/0083060，该申请的全部公开内容通过引用结合于此，就象在本说明书中完全阐述一样。
此外，可以利用局域化的匹配技术来分析音频样本以便辨识其内容。例如，一般地，两个音频样本之间的关系可以通过首先对从相应样本得到的某些指纹对象进行匹配来表征。为每个音频样本生成一组指纹对象，每个指纹对象出现在特定位置。每个位置依赖于相应音频样本的内容来确定，而且每个指纹对象表征相应特定位置处或其附近的一个或多个局部特征。接下来，为每对匹配的指纹对象确定一相对值。然后，生成相对值的直方图。如果发现统计上有意义的峰值，则两个音频样本可以表征为基本匹配。更具体的解释，读者可参考Wang和Culbert的、标题为“Robust and Invariant Audio Pattern Matching”的已出版PCT专利申请WO 03/091990，该申请的全部公开内容通过引用结合于此，就象在本说明书中完全阐述一样。
上述用于辨识音频样本内容的两种方法(例如，Wang和Smith及Wang和Culbert)只是例子，因为还存在许多可以用于辨识内容的其它系统与方法。
音频识别引擎510将向采样设备506返回音频样本的标识以及利用例如Wang和Smith的技术所确定的该音频样本的相对时间偏差。采样设备506可以与监视台514联系，并且通过利用音频样本标识、相对时间偏差和样本时间戳，监视台514可以辨识音频样本的广播源。
广播监视台514监视无线电台502的每个广播频道。监视台514包括从无线电台502接收广播信息的多频道无线电接收器516。广播信息发送到频道采样器1...k518，采样器1...k518通过与音频识别引擎510联系来辨识广播样本的内容。类似于用户采样设备506，监视台514可以利用标准电话网络来联系音频识别引擎510。此外，监视台514还可以包括例如一种用以降低辨识广播样本中的延迟的音频识别引擎。
然后，监视台514可以为每个广播频道存储某个时间量的广播样本标识。在预定的时间量后，监视台514可以重写所存储的广播样本标识，以便将信息刷新为与例如当前广播的音频样本一致。
一旦从用户采样设备506接收到确定对应于给定音频样本的广播信息的查询，监视台514就根据上面的等式(1)和(2)执行测试。具体而言，监视台514中的处理器522首先(利用选择器520)选择给定的广播频道，以确定在用户样本时间或其附近所记录的广播样本的广播样本标识是否匹配用户音频样本标识。如果不匹配，则选择器520选择下一广播频道并继续搜索标识匹配。
一旦找到标识匹配，则处理器522确定用户样本相对时间是否匹配该广播频道的广播样本相对时间。如果不匹配，则选择器520选择下一广播频道并继续搜索标识匹配。如果相对时间(在近似误差范围内)匹配，则处理器522认为音频样本与广播样本匹配。
在找到匹配后，处理器522向报告中心524报告关于该广播频道的信息。处理器522还可以向例如用户采样设备506报告广播信息。广播信息可以包括例如无线电频道标识、推销材料、广告材料、折扣提供或关于该特定广播台的其它材料。
附加相关因子当试图找到与音频样本的匹配时，也可以考虑附加的因子。例如，在一个实施例中，当以相对于非采样时间的样本的高占空比来辨识音乐时，即使不是所有广播台，也有许多广播台结合了频繁地叠加到待辨识的音乐流上的语音或其它非音乐材料，例如在记录开始和结尾叠加的DJ的说话。因此，监视台514可以使用识别(或非识别)得分的变化作为在某个时间和日期、音轨或音频样本在广播台表演的“签名”，其可以用作确定广播台标识的进一步的相关因子。
在另一个实施例中，为了进一步验证用户确实在收听给定的广播频道，而不仅仅是巧合(例如，用户从CD播放器获取记录)，可以在较长的时间段内获取用户样本，例如比典型的音频节目长的时间，如在同一频道上的音频节目之间的过渡内。如果被认为正确的匹配确实是正确的频道，则应当连续保持歌曲的过渡之间的内容对准(alignment)。当用户在改变广播频道的同时记录音频样本，则会出现例外。但是，节目过渡内标识的连续性可以是正在跟踪正确广播频道的指示。因此，可以跟踪样本标识(例如，等式(1))，并且也可以跟踪用户样本标识的改变。例如，可以跟踪在多个时间段的样本标识(如以下在等式3-5中所示)，而且，如果第一样本标识不等于来自第二时间段的第二样本标识(如以下在等式5中所示)，则已经跟踪到歌曲之间的连续性或过渡。这可以提供已进行了正确匹配的进一步可信度(例如，当用户和广播源两者同步改变时)。
用户样本标识[n]＝广播样本标识[n] 等式(3)用户样本标识[n+1]＝广播样本标识[n+1] 等式(4)
用户样本标识[n]≠广播样本标识[n+1] 等式(5)其中[n]是时间上的第n个样本。
如果确定用户已改变了频道，则监视台514可以搜索新音频样本标识的标识匹配，以验证用户正在收听的新广播源。
在另一个实施例中，可以通过当音频播放时确定音频的某些系统失真来执行广播源辨识。举例来说，由于晶体振荡器或用于回放节目记录的其它时基的轻微不精确性，无线电广播者常常比原始记录稍快或稍慢地播放音频节目。可以在辨识过程中利用例如上述Wang和Culbert的技术来测量速度百分比拉伸(speed percentage stretch)。如果广播节目的时基被拉伸并且也基本上类似于在用户样本中测量的拉伸因子，则用户样本非常有可能是源自同一个源，例如，如在以下等式(6)中所示。
用户样本拉伸比＝广播样本拉伸比等式(6)此外，为了进行辨识，节目可以有意拉伸预定的量。预定的拉伸量可以用于编码小量的信息。例如，记录可以拉伸为慢1.7％地播放。这种减慢对大多数人是注意不到的。但是，如果识别算法能够以0.05％的容限来报告拉伸值，则如果使用例如具有0.1％到0.2％步长的、-2.0％到+2.0％之间的回放速度，则有可能编码10-20个不同的消息。
此外，可以通过在小范围内动态(但缓慢地)改变回放速度来将信息流嵌入到音频中。例如，可以使用10秒的帧大小，而且每个10秒的段可以加快或减慢一个小的百分比。如果连续地提取拉伸因子，则其值可以限定由广播者发送的消息。
以上单独或与其它实施例相结合地描述了许多实施例，但上述实施例中的任何实施例都可以一起或以任何组合使用，以便提高已经辨识出广播频道的判断的确定性。
应当指出，尽管本申请是在全功能识别系统与方法的情况下描述的，但本领域技术人员将认识到本申请的机制能够以各种形式的指令的计算机可读介质的形式分布，而且不管用于实际执行分布的信号承载介质的特定类型是什么，本申请都可以同等地适用。这些计算机可访问设备的例子包括计算机存储器(RAM或ROM)、软盘和CD-ROM，及诸如数字和模拟通信链路的传输型介质。
尽管结合本申请的当前实施例描述了例子，但本领域技术人员将认识到在不背离本申请范围与主旨的情况下可以进行变化。例如，在此所述的装置与方法可以以硬件、软件或其组合来实施，例如通过易失性或非易失性存储器运行软件应用程序的通用或专用处理器。本申请的真正范围与主旨是由可以根据以上所述来解释的所附权利要求
来限定的。
权利要求
1.一种用于辨识内容的广播源的方法，包括记录音频样本；记录所述音频样本的记录时间；辨识所述音频样本的特征和所述音频样本的估计时间偏差，该估计时间偏差根据所述音频样本的起始时间和所述音频样本的所述记录时间之间的时间差来定义；比较所述音频样本的特征和估计时间偏差与取自广播台且大约在所述音频样本的所述记录时间获取的样本的特征和时间偏差；及基于所述比较来辨识广播所述音频样本的广播台。
2.如权利要求
1所述的方法，其中辨识广播所述音频样本的广播台包括从取自所述广播台的样本中辨识出具有与所述音频样本的特征最接近地匹配的特征的样本；及选择所辨识的样本所取自的广播台作为广播所述音频样本的广播台。
3.如权利要求
2所述的方法，其中所述比较步骤包括比较所述音频样本的特征和估计时间偏差与取自所述广播台且大约在所述音频样本的所述记录时间获取的每个样本的特征和时间偏差。
4.如权利要求
1所述的方法，其中当从取自所述广播台的样本中辨识出具有与所述音频样本的特征基本匹配的特征的样本时，所述辨识步骤包括选择所辨识的样本所取自的广播台作为广播所述音频样本的广播台。
5.如权利要求
1所述的方法，还包括比较所述音频样本的标识与取自所述广播台的样本的标识。
6.如权利要求
1所述的方法，还包括向记录所述音频样本的用户报告关于所述广播台的信息。
7.如权利要求
6所述的方法，其中所述广播信息包括广告。
8.如权利要求
1所述的方法，还包括连续记录来自每个广播台的样本；记录每个样本的记录时间；辨识每个样本的特征；及辨识每个样本的估计时间偏差。
9.如权利要求
1所述的方法，还包括在同一广播台的音频节目之间的过渡内记录所述音频样本；比较所述音频样本中的过渡与取自广播台的样本中的过渡；及辨识所述音频样本中的过渡与取自广播台的样本中的至少一个过渡之间的内容对准。
10.一种用于辨识内容的广播源的方法，包括比较音频样本的标识与取自被监视的广播频道的广播音频样本的标识；比较所述音频样本的时间偏差与所述广播音频样本的时间偏差，所述时间偏差定义了在获取样本的时间和进行所述时间偏差比较的时间之间所经过的时间加上一相对时间偏差，所述相对时间偏差定义了样本起始时间与样本记录时间之间的时间差；及基于基本匹配的标识和基本匹配的时间偏差来辨识所述音频样本从其中记录的广播频道。
11.如权利要求
10所述的方法，还包括辨识所述音频样本的变化，所述变化包括叠加到所述音频样本上的非音乐材料；及比较所述音频样本的变化与所述广播音频样本的变化。
12.如权利要求
10所述的方法，还包括辨识所述音频样本中的标识变化；及比较所述音频样本的第一标识与所述广播音频样本的标识，以及比较所述音频样本的第二标识与所述广播音频样本的标识。
13.如权利要求
10所述的方法，还包括确定所述音频样本的拉伸因子，所述拉伸因子定义了广播所述音频样本的速度与所述音频样本原始回放的速度之间的差；及比较所述音频样本的拉伸因子与所述广播音频样本的拉伸因子。
14.如权利要求
10所述的方法，还包括以时间间隔从所述广播频道收集广播音频样本，使得对于每个广播频道，每个音频节目取至少一个音频样本。
15.如权利要求
10所述的方法，还包括向用户报告所述广播频道。
16.一种监视台，包括广播频道采样器，用于从相应广播台采样音频；音频识别引擎，用于确定从所述相应广播台采样的音频的特征，并用于确定所述音频样本所取自的原始记录的开始与获取所述音频样本的时间之间的所述音频的估计时间偏差；以及处理器，用于(i)接收用户音频样本，(ii)比较从所述相应广播台采样且大约在所述用户音频样本的记录时间获取的音频的特征和估计时间偏差与所述用户音频样本的特征和时间偏差，及(iii)基于所述比较来辨识广播所述用户音频样本的广播台。
17.如权利要求
16所述的监视台，其中所述广播频道采样器从所述相应广播台连续采样音频。
18.如权利要求
16所述的监视台，其中所述广播频道采样器以时间间隔从所述相应广播台采样音频，使得对于每个广播台，每个音频节目取至少一个音频样本
19.如权利要求
16所述的监视台，还包括存储器，用于存储从所述相应广播台采样的音频的特征及从所述相应广播台采样的音频的估计时间偏差。
20.如权利要求
19所述的监视台，其中在预定的时间量后，所述监视台重写所存储的从所述相应广播台采样的音频的信息，以刷新所述信息，从而使所存储的信息与当前正在广播的音频样本一致。
21.如权利要求
16所述的监视台，其中所述处理器接收所述用户音频样本的记录。
22.如权利要求
16所述的监视台，其中所述处理器接收所述用户音频样本的所述特征。
23.如权利要求
22所述的监视台，其中所述处理器还能够比较所述用户音频样本的标识与从所述相应广播台采样的音频的标识。
24.一种用于辨识内容的广播源的方法，包括记录音频样本；记录所述音频样本的记录时间；辨识所述音频样本的特征和所述音频样本的估计时间偏差，所述估计时间偏差定义了所述音频样本的起始时间和所述音频样本的所述记录时间之间的时间差；记录来自多个广播台中的每个广播台的音频样本；记录来自所述多个广播台中的每个广播台的多个音频样本中的每个音频样本的采样时间；辨识来自所述多个广播台中的每个广播台的音频样本的特征和估计时间偏差；比较所述音频样本的特征和估计时间偏差与取自所述多个广播台且大约在所述音频样本的所述记录时间获取的音频样本的特征和估计时间偏差；及基于所述比较来辨识广播所述音频样本的广播台。
专利摘要
用户(102)听到正在广播的音频节目，并可以记录该音频的样本。然后，样本被传送到分析装置(106)，以便确定用户正在收听哪个广播台。分析装置监视许多广播频道。因此，可以比较音频样本和取自广播频道的样本的特征以便找到匹配。然后，关于从中找到匹配的广播频道的广播信息可以报告回用户，该广播信息与例如特定于某个无线电台的推销广告、奖品通知、折扣提供及其它信息组合在一起。
文档编号H04H1/00GK1998168SQ20058000880
公开日2007年7月11日申请日期2005年2月18日
发明者A·礼俊·王申请人:兰德马克数字服务有限责任公司导出引文BiBTeX, EndNote, RefMan

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：Ａ.礼俊.王
技术所有人：兰德马克数字服务有限责任公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、霍老师：1. 木质纤维组分高效分离及高值化转化 2.(纳米)纤维素功能材料
2、杨老师：生物质资源利用与制浆技术
3、崔老师：1. 印刷电子 2. 仿生图案化功能结构
4、刘老师：1.生物质纤维及其功能材料 2.纸基功能材料
5、刘老师：1. 纳米基复合功能胶体油墨的设计制备 2. 可穿戴功能(光电、电子、传感、储能等)器件的设计构建 3. 基于3D打印的功能器件的构建及集成
如您是高校老师，可以点此联系我们加入专家库。