专利名称:联网便携设备中的特征提取的制作方法
技术领域:
本发明涉及数字纟某体文件识别和移动设备的领域。具体来说,本
发明广义上涉及在诸如移动无线电电话的移动台之内音频采样的至少 部分识别。
背景技术:
流行音乐的所有者最近才接受通过比如互联网这样的电子网络来 下载它们版权作品的数字拷贝。 一个用于效力于此的流行网站是 http:〃www.apple.com.itunes/,其中用户经由个人计算机(PC )等访问 音乐服务网站,人工地选择歌曲标题,而且将选定歌曲的数字版本(例 如MP3、 AAC)下载到他们用来访问网站的PC。然后用户在PC上播 放歌曲或者将它们传送到比如iPod⑧或者其它专用数字音乐播放器这 样的便携设备。第二代音乐下载技术最近已经面市,其中用户无需在网页上按照 其标题来人工选择歌曲。代之以由服务器或者与网站相关联的其它计 算机'收听,歌曲,而且对歌曲进行数字分析以便从数字音乐的数据 库之中识另'J该特定歌曲。例如,网站 http:〃shazam.com/uk/do /help—faqs—shazam#4将它的操作说明如下。比如在酒馆或者汽车中聆 听歌曲的用户在歌曲正在播放的同时在他的/她的移动台(MS)中输 入代码。歌曲就通过标准的MS链路发送到掌控网站(hosting website ), 比如shazam.com,这正如同发送语音输入那样。掌控网站接收原始音 乐输入,对之进行分析,并且将之匹配于它的数据库中的歌曲之一。 Shazam.com技术对于在服务器处将移动台仅用作为渠道来识别歌曲 而且将结果回报给移动台而言表现出局限性。
不但经由个人计算机访问大多数音乐下栽服务,而且已经引入空 中(OTA)移动下载服务。移动设备在小型的屏幕尺寸、有限的电源、 有限的数据连接可靠性和速度方面具有局限性,这使得发现音乐和将 音乐从音乐服务交付到移动终端极具挑战。通常,音乐服务具有至少 5000 00首歌曲的音乐收集。使用移动设备用户接口则难以对该规模的 音乐目录进行探寻,其中顺序的呈现必须使内容配合于屏幕。这造成 深入的分级以及难以找到音乐。人们在比如酒馆或者音乐会大厅或者汽车无线电这样的公共场所 听音乐是司空见惯的。按照惯例,某人会对某一首特定音乐产生兴趣, 但是不知道歌曲标题。该人士然后询问友人、唱片店销售人员,或者 石並巧从无线电广播中听到歌曲名从而得知标识该歌曲的歌手和标题。 一些个人可能使用(如上所述)Shazam.com站点通过调用关联月良务号 和通过他们的移动台播放歌曲作为实况'广播,来识别歌曲。然后该 人士前往唱片店,或者基于由Shazam.com或者类似识别服务所返回的 标识从因特网服务购买歌曲。然而,通常有如下步骤l)聆听音乐采 样(刺激);2)识别歌曲;3)找到待购歌曲(基于标识);4)购买歌 曲的拷贝;以及5)交付所购拷贝而且将它添加到个人音乐收集。
步骤1 )至3)在传统方法中是人工的。基于因特网的音乐购买使 得步骤4)和5)自动化。比如Shazam.com这样的服务使得以在步骤 1)的电子'聆听,为基础的步骤2)自动化。然而,据发明人所知用 于执行上述步骤的所有现有方法都涉及到希望标识歌曲和购买歌曲拷 贝的个人所进行的人工步骤。本发明寻求将更多的上述过程流水化和 自动化。由于创建和存储了较大数量的数字文件,所以已经产生对数字文 件的标识方式进行标准化的需要。MPEG-7是由运动图像专家组 (MPEG )开发的用来对关于多媒体文件内容的信息之表示进行标准 化,这与内容本身相矛盾。无论MPEG-7是否变成标准化方法,它都 描述了用以有效地对多媒体文件进行编索引、搜索和取回的开发工具 集。这样的工具在这里以示例性的方式用来在下文中描述本发明如何使得音乐或者其它媒体的标识和购买自动化。
发明内容
本发明提供在如下使用场合中的解决方案,其中用户例如在咖啡馆中而且听到他发现合乎需要的 一些音乐,但是不知道音乐家和/或歌曲标题。本发明为终端用户提供了一种简单的方式,用以标识歌曲和自动地获得将该特定歌曲的拷贝直接购买到移动台。尽管主要参照音乐和音频文件进行描述,但是本发明也适用于视频文件和可视采样、静态图像识别以及组合式音频/视频文件和采样。在一个实施例中,本发明是一种移动台MS,包括用以接收媒体采样的接口,比如转换器;用以从接收的媒体采样的数字版本中提取至少一个特征的处理器;以及用以通过无线通信链路发送至少一个提取特征的发送器。转换器是将输入信号转换成不同形式的输出信号的任何元件(例如麦克风、数字摄像机、光电元件)。接收的媒体采样如本领域中已知的那样在MS之内数字化,而术语数字化版本仅用来区别于可以输入到MS转换器的人类可辨认的媒体采样。数字化版本可以用来重建模拟媒体采样。优选地,MS不发送媒体采样的数字化版本的部分,但是在某些实施例中它可以随同提取特征一起发送数字化版本的分段,比如与时间相关特征相关联的 一 个或多个谱切片。[10] MS的上述接口不必是转换器;它可以包括由MS用来接收媒体采样的有线链路或者无线(移动、蓝牙、光学、无线电广播)链路。在某些实例中,MS可以接收数字采样输入,使得接收的媒体采样是从中提取特征的媒体采样的数字版本(不过在一些情况下MS可以更改所接收的数字采样输入以便于更有效的处理)。这可以在MS接收从单独电子设备(例如有线链接的MP3播放器、经由电子邮件链接的另一MS等)或者从在功能上与MS相分离的集成设备(例如集成MP3播放器、集成数字无线电)输入的媒体釆样时存在。在其它情况下,MS接收不通过转换器(例如集成模式FM无线电、模拟输入有线连接器)[ll]在另一实施例中,本发明包括一种计算机程序,实施于在移动台之内的计算机可读介质上,用以处理媒体采样。该计算机程序包括可按照功能但是未必按照空间来分列的两个指令集。第 一指令集用以从数字媒体采样中提取至少一个特征。第二特征集用以通过无线通信链路发送至少一个提取特征。与移动台一样,优选地不发送数字媒体采样的部分,但是在一些实施例中数字媒体采样的分段可以随同已经由第一计算机指令集提取的特征一起发送。在又一实施例中,本发明包括一种计算机程序,实施于计算机可读介质上,用以将多个提取特征唯一地匹配于在数据库中存储的特征集。这一计算机程序包括同样可按照功能来分列的三个计算机指令集。第 一计算机指令集用以通过网络接收包括所接收的特征在内的消息,
算机指令集用以从消息中提取附加特征。那些附加特征可以从接收的特征中提取(例如不是直接从数字媒体采样本身中提取的较高级提取),或者可以来自于接收的媒体采样的分段,比如谱切片以及如下特征,该特征标识了该切片相对于在消息之内的其它特征而言的关系,或者包含上述两者。第三计算机指令集用以搜索特征集的数据库,直至与提取的附加特征相组合的多个接收特征唯一地匹配于数据库的仅一个特征集。通过参照与附图相结合的以下描述,本发明实施例的这些和其它方面及优点将变得清楚明显。然而应当理解,附图仅被设计用于说明的目的而不是对本发明的限制进行定义。
图1是本发明可以在其中起到作用的通信系统的示意图。图2A-2B是分别表示了对于在移动台与服务器之间分布的媒体采
样进行特征提取的框图。图3A-3D是对于在图1的通信系统中采取的动作进行详述的连续流程图的各部分。图3A表示了在移动台之内的步骤,图3B表示了在服务器之内的步骤,图3C表示了在提供待购媒体文件之下载的服务器之内的步骤,而图3D表示了在移动台中响应于服务器的进一步步骤。[17]图4是根据本发明的教授而特别地改造的移动台的示意框图。[18]图5是对于在移动台处连续地緩冲输入所具备的优点进行说明的示意时序图。
具体实施例方式
体采样是针对其执行分析的任何大小的音频、、可视、或者音U贞/可视信号中的 一部分。在正如经由麦克风或者摄像机来接收媒体采样那样的一些实例中,媒体采样是人类可辨别的。以下描述是在歌曲的时间受限分段的背景中进行的,该时间受限分段例如是通过常规FM无线电一般播放的三分钟歌曲的连续或者连贯十秒分段。该采样的特征或者它的数字版本是数字标记符、描述符或者是可以从对它的数字分析中进行收集或者提取的采样内容的其它标识符。时点是在采样之内以时间为序的时刻。特征常常与时点相关联。例如,采样中的最大幅度仅出现在一个时点;反复的频率模式可以开始于以等间距相间隔的时点;特征性的打击序列可以仅出现在从可以标识的低音序列结束起的固定偏移时间。下面呈现对特征的更具体描述。从采样中提取特征以便量化采样的各种特征。以音乐为例,提取歌曲采样的特征以便搜索歌曲的数据库而且从数以千计或者甚至数以百万计的歌曲之中识别经采样的歌曲的标题(或者版本、音乐家等)。当数据库包括先前已经从整个歌曲中提取的特征时,可以在从当前采样中提取的特征与先前提取的特征之间进行一对一的比较。以这一方式,仅通过整个歌曲中相对少的采样就可以识别歌曲。尽管可以从媒体采样或者该采样的数字版本中提取特征,但是还可以从已经提取的特征中提取附加特征。例如,从媒体采样或者该采样的数字版本中提取的第 一特征集将表现出它们本身之间的某种自相关。该自相关通过仅对第 一提取特征集的分析就可以确定。[20]在图1中图示了本发明在其中起到作用的通信系统20。比如FM无线电这样的媒体源22提供媒体采样24,比如歌曲的一部分。移动台MS26或者具有无线通信功能、尤其是无线电话功能的类似这种便携设备接收媒体采样24以供数字化、处理和发送。虽然MS 26可以接收整个歌曲,但是媒体采样或者它的数字化版本是根据本发明由MS26对之进行操作的一部分。MS 26创建至少一些媒体采样24的数字版本,从该数字版本中提取一个或多个特征,而且通过无线链路28将这些特征发送到通信服务30,该通信服务包括与通信服务器30B通信的基站30A。通信服务30在基站30A接收来自MS 26的呼叫,对它们保持跟踪,而且将来自MS26的传输重定向到商业歌曲识别服务34。在发送特征的同时,通信服务可以根据所用的通信体制类型来更改从MS 26接收的确切信号(比如进行解码、解压、识别和纠正错误等),也可以不这样做,但是并不改变基本的实质数据。此外,通信服务30编写短的响应消息以供MS 26接收,这一 点在下面有详述。[22]歌曲识别服务34通过通信服务30来接收MS 26的传输。该传输优选地包括在歌曲识别服务34处被进一步加以分析的媒体采样24的特征。替选地,由MS提取的特征与该采样的另一分段一起发送,识别服务34从中提取附加特征。随着MS的处理能力和电池效率的增加,来自MS26的传输可以包括全面的特征集,其足以使得无需识别服务34进行进一步的特征提取。在任何情况下都不通过MS 26仅对整个媒体采样34的电话现场馈送进行传输。无论怎样,歌曲识别服务34都接收该传输,可以根据从MS 26接收的消息中提取进一步的相关特征,而且将它们与在该消息中接收的由MS提取的特征相结合。[23]可以与歌曲识别服务34在一起或者不在一起的歌曲签名数据库36提供了 (由MS 26和识别服务34 二者)从媒体采样34中提取的完全特征集与之做比较的数据库。这一数据库优选地为许多文件中的每个文件存储从基本的媒体文件或者其采样中提取的多个特征。这些存储的特征集可以用来在签名数据库36中的所有其它特征集中唯一地标识从中抽取媒体采样24的基本文件。替选地,签名数据库36可以
为每个文件或者歌曲存储若干提取的非唯一特征以及参考采样(其组
合唯一地标识该基本文件或者歌曲),或者存储用以从其它歌曲或者文 件中唯一地标识一个歌曲或者文件的任何其它手段。歌曲识别服务34将原来的采样与在歌曲签名数据库36中存储的 采样做比较,而且在歌曲签名数据库36中寻求MS 26所发送的特征 的仅一个匹配。当MS 26和识别服务34各自^是取特征时,歌曲识别 服务34执行两个单独的功能使用所提取的特征来搜索数据库,以及 从媒体采样的发送部分中提取进一步特征。优选地,识别服务34并行 地执行这两个功能。当歌曲识别服务34初始地仅使用先前由MS 26 提取的特征来搜索签名数据库36时,可能识别不出唯一歌曲,但是签
而减少到显著更小的子集。同时,识别服务34从MS 26所发送的该 部分媒体采样24中提取附加特征。提取每个附加特征时,潜在匹配的 子集被减少,直至找到仅有的一个唯一匹配为止。在这时,识别服务 34终止进一步的特征提取,从而最小了化为将媒体采样24匹配于签 名数据库36中的媒体文件而需要的全部处理。替选地,识别服务34可以代之以先从MS 26所发送的消息中提 取附加特征,利用从MS26接收的特征来编译所提取的特征,而且执 行对整个签名数据库36的仅一次搜索以找到唯一匹配。该选择是基于 在对用户的响应(用以搜索数据库的时间)与在识别服务处用以从来 自许多MS的众多同时消息中提取附加特征的可用处理能力之间的市 场驱动平4軒。 —旦找到唯一匹配,识别服务34通过通信服务30将采样标识信 息(在没有找到匹配时该消息也可以是未经标识的消息)发送到MS26。 MS26在显示器用户接口UI上显示歌曲标题和音乐家以向用户告知歌 曲名或者其它媒体文件名。优选地,将本发明扩展到仅标识歌曲或者媒体文件以外,而是自 动地提供如下链接,用户可以通过该链接来购买下载到MS26处的消费者的该标识的媒体文件的拷贝。替选地,可以改造为将第一拷贝提
供给MS26而将第二拷贝提供给另一设备,比如个人计算机44,其中 每个拷贝是针对下载可用的链路28、 46的类型而定制的。这一点之所 以有利是因为第一拷贝可以是用如下编码解码器压缩后的标识的媒体 文件,该编码解码器针对在MS 28处的更有限的存储和声音再现能力 (以及带宽考虑)而进行优化,而同一基本媒体文件的第二拷贝可以 用第二编码解码器来压缩,该第二编码器针对在通向PC 44的链路46 中可用的更大带宽而进行优化。消费者然后可以将第二拷贝上传到专 用便携数字音乐设备,比如Rio⑧或者iPod⑧,以求高保真的便携音乐。 这种双拷贝下载替选方案的细节是于2004年3月2日提交的共同拥有 的美国专利申请第10/792,547号的主题,而且在这里通过参考结合于 此。向用户提供标识媒体文件的拷贝就要求存储有待下载的实际文件 或者歌曲的文件或者歌曲存储数据库40的配合。在签名数据库36存 储特征和文件/歌曲标识(比如可以在找到匹配之后发送到MS 26的标 题/作者)的情况下,文件/歌曲存储数据库40存储与在签名数据库36 中匹配的特征对应的实际文件/歌曲。两个数据库36、 40可以合而为 一,不过它们也可以不这样;来自签名数据库36的标识可以用来从单 独的文件/歌曲数据库40中容易地选择唯一文件/歌曲。来自后一数据 库40的文件/歌曲是在本发明如上所述扩展到将歌曲的拷贝及其标识 提供给MS 26的用户时、优选地在文件压缩之后下载到用户的文件/ 歌曲。当要这样下载歌曲时,优选的是,在网络32中耦合到歌曲数据库 40的音乐服务38接收来自MS 26的请求,而且利用所请求的文件(歌 曲、图像、文本等)以及用于以所述的形式(触笔、模板、脚本等) 呈现该文件的元数据来做出响应。音乐服务38从歌曲存储数据库40 中查询数据。由于MS 26通过通信服务30耦合到网络32,所以文件 穿过它通到MS 26。也可以包括下载服务42以便管理通过音乐服务38从MS 26启动的所有单独下载交易。下栽服务42对于从存储数据库40每次下载文 件进行跟踪,以便跟踪计费和遵循版权约束。本发明构想了在MS 26 的用户接口 UI处由单个输入,比如单次按压按钮或者软键来自动执行 的端到端的交易。在这一端到端的实施例中,该单个输入在MS26中 启动了媒体采样的捕获、特征提取和呼叫建立以及启动了从MS26的 所提取的特征和媒体采样的一部分的传输。使用签名数据库36通过提 取的特征(一些特征由MS 26提取, 一些特征由识别服务34提取) 来标识歌曲,而音乐服务38或者识别服务34向MS 26发送如下消息, 该消息向MS用户标识该歌曲(例如标题和音乐家)。 [31]该消息也提供对音乐服务38的链接,使得利用在MS 26处优选 为又一次的输入,用户就可以请求下载该歌曲到MS 26。音乐服务存 储歌曲标识符(该标识符可以是标题/音乐家,也可以不这样,因为其 将被用来从歌曲数据库40中数字化地选择歌曲),或者将歌曲标识符 传送到下载服务42,然后该下载服务存储歌曲标识符。当MS26请求 下载歌曲时,音乐服务38从歌曲数据库40中选择匹配歌曲,通知下 载服务42,该下载服务通过通信服务服务器30B来安排对MS 26用户 的计费,而音乐服务38从歌曲数据库40中提供要下载到MS26的标 识的歌曲。用户可以使用在标识消息中提供的链接直接地从MS 26访 问音乐服务38,或者可以使用从PC 44的链路以获得歌曲的较高保真 版本(不同的压缩编码解码器),因为该版本将经由宽带或者其它PC 链路46来下载,其中该PC链路在目前的实践中通常在带宽上不像无 线移动电话链路28那样受限制。图2A和2B广义地描述了在通信系统20的分布式部件之间对媒 体采样的分析。图2A在框图中图示了在移动台26之内的操作。媒体 采样24被数字化201为对MS 26的任何其它输入,而MS 26建立到 达比如由歌曲识别服务34操作的服务器这样的服务器的数据连接(例 如经由无线链路28和网络32 )。 MS 26开始预处理202经数字化的音 频输入信号201而且从该信号中提取随后将作为数据分组发送到服务 器的特征。可选地,MS 26已经持续地緩沖音频输入,使得可以在按压识别键或者用以启动该过程的其它用户输入之前的时间所输入的信
号开始预处理202。在多数情况下,用户在按压识别键之前已经收听 歌曲一段时间。用于识别的特征例如可以是谱平坦度、i普质心、节奏和/或旋律。 特征描述了媒体文件或者采样的内容,而不仅仅是对输入到MS 26中 的(模拟)媒体采样24的数字再形成。虽然MS 26将输入的媒体采 样24数字化,但是仅仅这样还不是特征提取。优选地,特征是非重建
特征进行重新处理或者用别的方式对该特征进行操作就可以重建的。 非重建特征描述了媒体文件的内容,但是无法重新创建该内容。并非 所有特征都需要是非重建的,但是与在即使不是所有实例中也在多数 实例中的重建特征相比,在MS 26处提取非重建的特征可产生较小打 包的消息以便通过无线链路发送。适当的特征已经例如在MPEG-7标准(ISO/IEC 1 5938,尤其是 ISO/IEC 15938-4,信息技术-多媒体内容描述接口 -第4部分音频, 针对于这里与音频有关的实施例)中进行了描述,通过参考将其结合 于此。涉及MPEG-7的文献使用了术语描述符以表示从媒体采样中直 接提取的特征,这比如可以根据本发明由MS 26来执行。MPEG-7文 献使用了术语描述方案DS或者描述工具来描述从描述符中提取的特 征。描述符是对媒体采样数字版本的低级分析,而描述方案是高级分 析(例如是从描述符之间的相互关系中而不是直接地从采样中获取 的)。MPEG-7目前处于提炼之中,因此下文是对于当前针对该标准而 构思的并与本发明相关的某些描述符和描述方案的概括。 [35]描述符是低级特征,即视听内容的基本质量的表示,比如信号幅 度的统计模型、信号的基本频率、在信号中出现的源的数目估计、谱 倾斜、情绪内容、显式声效模型以及任何数目的具体或者抽象特征。 在本发明的优选实施例中,MS26提取描述符。描述方案是描述符的结构化组合。这一结构可以用来注释文档以 直接地表达文档的结构或者创建形成了对更高级概念的更丰富表达的特征组合。例如,经典的音乐DS可以对Sonata形式的音乐结构进行 编码(而且允许有例外)。各种频语和时间描述符可以组合形成适合于 描述音质或者短声效的DS。在本发明的优选实施例中,在网络32上 的服务器提取描述方案。描述符可以被视为限定了媒体采样内容特定特性的 一 种表示的语 法和语义。例如,图像文件的颜色是一种特性。特征可以是描述符或 者特性,其中描述符是二者中更为基本的,而特定的特性可能只有通 过若干描述符才可以完全地加以描述。与特性'颜色,相关联的可能 描述符包括色直方图、红-绿-蓝(RGB)矢量或者串。MS26可以针 对特定描述符提取数值,针对给定的数值集提取描述符的示例。例如, RGB=( 255, 255, 255 ),色串="红色"。某些描述符与一类媒体文件 相关或者对之有效,而与另一类媒体文件无关或者对之无效。例如, 用于可视媒体采样的描述符可以包括在基本结构特性之内的栅格布 局和直方图;在色特性之内的色空间、主导色、色直方图和色量化; 在紋理特性之内的空间图像密度分布和同质紋理;在形状特性之内的 对象界定框、基于区域的形状、基于轮廓的形状和3D形状描述符; 以及在运动特性之内的摄像机运动、对象运动轨迹、参数对象运动、 运动行为和运动轨迹的多个方面(例如速度、方向、加速度)。与音频 采样相关的描述符可以包括在语音注释特性中的词语以及音素加元 数据的晶格;在音质特性中的偶谐音与奇谐音之比以及谐音起音连贯 性;以及在旋律特性之内的旋律轮廓和节奏。目前在MPEG-7中有十七个时间和空间描述符用于描述音频采 样基础、基础谱、信号参数、音质时间、音质谱和语基。此外,静 音描述符已经在标识音频采样的内容中证明其价值。两个基础音频描 述符是是用于 一 般用途的在时间上采样的标量值,适用于所有种类的 音频采样。波形描述符描述了通常用于显示目的的音频波形包络(最 小和最大)。功率描述符描述了在时间上平滑的瞬时功率,该描述符可 用作为对信号或者采样的快速概括而且与功率谱相结合。 [39]四个基础谱音频描述符都共享共同的基础,都从音频信号或者采样的单个时间-频率分析中导出。它们都通过第一描述符来通知,第一 描述符即音频语包络描述符,该描述符是由二的幂次方的除数或者倍 频程的倍数间隔开的对数频率语。该音频镨包络是对音频采样的短期 功率谙进行描述的矢量。它可以用来显示声镨图,以便合成数据的原
本"听觉化",或者用作为用于搜索和比较的通用描述符。其它i瞽音频 描述符表示了对数频率功率谱的重心(质心或者形状的中心)、围绕质 心扩展的语、以及许多频率带或者仓中的每个频率带或者仓的谱平坦 度。.两个信号参数描述符主要应用于周期信号或者准周期信号。这些 描述符描述了音频釆样的基本频率(置信量度)及其谐音(用以区分 例如乐音音调或者浊音语音、金属性或者钟似声音、如'f这样的摩 擦音、或者乐器的密集混合)。两个音质时间描述符描述了声音分段的时间特性,而且尤其有助 于对于乐音音质的描述,该乐音音质是与音调和响度无关的具有特性 的音品。 一个这样的描述符对声音的"起音"(信号从静音升到最大幅 度所花费的时间)进行表征,而另一描述符对信号包络或者质心进行 表征,表示了信号能量何时聚焦。当衰落的钢琴音符与维系的风琴音 符的长度和起音雷同时,后 一描述符例如可以在这两个音符之间加以 区别。五个音质谱描述符是在线性频率空间中的镨特性,尤其适用于对 乐音音质的感知。 一 个描述符是线性功率谱中各仓的频率的幂加权平 均,而且类似于如上所述的质心描述符,但是又因不同的乐器而对声 音的"锐度"有所区别。其余的音质谱描述符对信号或者采样的谐音 规则间隔成分进行操作。为此,描述符是在线性频率空间中计算的, 而且包括谱质心、谱偏差和谱扩展描述符。两个谱基础描述符表示了高维度谱空间的低维度投影以便有助于 紧致和识别。 一个这样的描述符是从规一化功率语的奇值分解中导出 的一连串(潜在地随时间变化和/或在统计上独立的)基础函数。另一 描述符(在与第一描述符相组合时)表示了在秩缩减的基础上进行投影之后的语的低玮度特性。静音分段简单地将"静音"(即没有显著的 声音)的语义隶属于音频分段。虽然这极为简单,但它却是非常有效 的描述符。它可以用来帮助将音频流进一步分段,或者用作为不对分 段进行处理的提示。描述符可以 一起用来查看和紧致地表示声谦图的独立子空间。这 些独立的子空间(或者它们的分组)常常强相关于不同声源。因此在 使用较少的空间时从声镨图中获得更多的突显和结构。 [45]描述方案DS反映了在描述符之间的或者在若干频率仓或者谱切 片之上的同类描述符之间的相互关系。以这一方式,DS以某一程度的 一般性换来了描述上的丰富性。 一旦在MS 26处从采样或者该釆样的 分段中提取足量描述符,就无需发送经数字化的音频采样;识别服务 34仅需要用以从中提取附加特征的提取特征。这些附加特征在本发明 的某些实施例中类似于MPEG7的DS。例如,音频签名DS在统计上 概括谱平坦度描述符。这可以针对音频采样的鲁棒自动标识来提供唯 一的内容标识符。音质DS着眼于描述乐器声音的感知特性。音质是使两个声音具 有同一音调和响度而听上去不同的感知特性。音质DS用缩减的描述 符集来描述这些感知特性,该描述符集能涉及比如声音的"起音"、"亮 度"或者"丰富度"这样的概念,涉及特定乐器或者乐曲组(打击乐 器)的谐音、连贯、维系音和非维系音等。另一音质DS使用距离度 量将音质时间描述符与谱质心描述符做比较。旋律DS包括对于单音旋律信息的丰富表示以便有助于有效、鲁 棒和富于表现力的旋律相似度匹配,而且包括用于极为扼要、有效的 旋律轮廓表示的旋律轮廓DS( 5阶轮廓表示了相邻音符之间的间隔差, 其中间隔被向上、向下量化成或大或小或相同大小的间隔)以及用于 更为详细、完整和富于表现力的旋律表示的旋律序列DS(扩展的描述 符集和较高精确度的音调间隔编码)。任一个描述符或者二者都可以扩 展为包括关于旋律的支持信息。在这些核心描述符周围排列的是应用 所希望使用的一连串可选的支持描述符,比如歌词、基调、韵律和起始音符。—些"识别"DS专门地辅助对基本媒体文件进行搜索和编索引, 而且使用低级的镨基础描述符作为它们的根基,由该根基形成了统计 模型,比如隐含马尔可夫或者高斯混合模型。所得的概率分类器可以 识别广泛的声音分类,比如语音和音乐,或者它们可以被训练用以识 别较窄的类别,比如男性、女性、喇叭或者小提琴。其它应用包括风 格分类和语音识别。更多DS详述了在音频流之内的口头内容。 [49]与可以提取的特征有关的更多细节可以在2002年6月27日公布 的美国专利申请第US2002/0083060 Al号中找到,通过参考将其结合 于此。MS 26中预处理202的量在范围上可以从无到特征矢量的完整 提取。用于每个特征的整个特征提取过程优选地分成若干阶段, 一些 阶段与未提取的信号(例如在MS26处接收的'现场,音乐采样24) 相比而言减少了随后发送的数据量。例如,用于语特征的第一阶段可 以是通过计算瞬时自相关矢量而且在时间段上将它们平均来估计数字 化输入信号201的自相关。后继的阶段然后执行傅立叶变换而且对之 进行进一步处理。整个特征提取过程在MS 26与服务器34之间划分。 MS 26选择它执行的阶段的数目,而且将作为辅助信息执行的阶段的 数目M连同预处理的结果(由MS提取的特征) 一起进行打包203。 优选地,MS26自适应地选择它提取的特征的数目和/或类型,这可以 基于媒体采样的类型(音频、视频、静态图像等)和/或它将用来发送 这些提取特征的信道特性。也可以如上所述从MS 26发送MS 26没有 从中提取特征的媒体采样24的分段,以供如上所述在识别服务34处 的进一步分析。根据典型的无线协议(星座映射、纠错等)对分组进 行编码204。在处理能力与传输带宽之间的适当平衡是基于接入网32 和MS 26的功能来选择的。经由一个或多个信道通过无线链路28发 送经编码的分组。如图2B中所示,对分组进行接收和解码205。在端到端画外音的 互联网协议设置中,无线链路28所特有的解码可以由通信服务器30B 完成,而单独分组的开启206可以由歌曲识别服务34完成。歌曲识别服务34的服务器然后提取标识歌曲标识所需的进一步参数207,该参 数可以根据从MS 26接收的特征和/或者也从MS 26接收的数字化媒体 釆样的分段中来提取。在图2A-2B的例子中,提取了总计N〉M个特 征以实现媒体采样的正标识。许多的M个特征由MS26提取,而其余 的N-M个特征由服务器34提取,其中M优选地表示较低级特征,而 N-M代表较高级特征,该较高级特征是从较低级特征中提取的,但是 不形成媒体采样的数字化版本。歌曲识别服务服务器34然后在提取的 特征与存储于歌曲签名数据库36处的、各自表示基本媒体文件的特征 集之间进行比较208。理想地,数据库中的一个且仅一个特征集将匹 配于提取特征组,而这样匹配的特征集表示了从中获取过媒体采样的 文件。基于提取的特征,通过将媒体采样24的N个提取特征与歌曲 签名数据库36提供的基本文件的特征矢量或者矢量集做比较来识别 该媒体采样。图3A-3D以流程图的形式图示了根据本发明的方法的各种步骤或 者优选实施例,每个流程图如图所示地联系到另一图。图3A描述在 MS 26之内初始地接收和处理々某体采样24的方法。在这一实施例中, 将媒体采样解析成两个分段, 一个分段存储于MS26的緩冲器中,而 在MS26处接收时实时地处理另一分段。在MS26处接收302第一媒 体采样分段、将之数字化和存储于緩冲器中。这一存储是连续的,因 为没有用户输入通知MS 26它应当根据这里的教导来执行分析或者用 别的方式处理该输入。用户按压识别键304,触发MS 26优选同时地 执行三个功能MS26建立306通向基站30A的无线链路28,它从媒 体采样24的緩沖第一分段中提取308较低级特征,而且它接收310媒 体采样的第二分段、将之数字化,并且从中提取较低级特征。可以瞬 态地存储第二分段。MS 26然后通过在步骤306建立的无线链路28来 发送312所提取的特征(以及如上所述如果适用则还发送由MS26在 提取特定特征时执行的步骤数目)。替选地,从第一分段中提取特征, 也可能从第二分段中提取特征,而且提取的特征连同第二分段一起发 送,该第二分段可以仅仅是数字化媒体采样的谱切片或者 一连串谱切片。该方法在图3B中继续314。图3B详述了在系统20的网络32侧处的步骤。服务器34从MS 26 接收316在图3A的步骤312发送的消息。通信服务器30B可以对打 包消息的无线具体部分进行解码,而且优选地通过网络32仅重发带有 实质数据的未开启分组。歌曲识别服务34开启分组,接收已经提取的 较低级特征,而且在签名数据库36中搜索318如下文件以求唯一匹配 320,该文件承载了与从MS 26接收的那些较低级特征相匹配的特征 集。暂时存储该搜索的结果。如果仅使用由MS提取的特征找不到唯 一匹配,则将(在方块316初始化的)索引K与最大值做比较,而且 如果没有超过最大值,则在方块326从接收的较低级特征中提取一个 或更多较高级特征。在方块328,使用由服务器提取的第K个特征来 搜索与由MS提取的特征相匹配的来自数据库的(而且在方块318暂 时存储的)那些特征,使得在当前的搜索迭代中无需再次搜索整个数 据库36。在方块322暂时存储该第K次搜索的结果,在方块330对K 进行索引加一,而且如果再次没有找到唯一的匹配320,则针对甚至 更多的提取特征继续该循环,直至K超过最大值为止,其中将"没有 找到匹配"消息发送334到MS。 一旦在方块320找到唯一匹配,就 将答复消息336发送到MS 26,该答复消息带有与匹配于提取特征的 数据库特征集唯一对应的歌曲或者文件的标题(或者其它标识)。答复 消息336也优选地带有直接通向歌曲或者文件存储数据库40处的匹配 文件的链接,该存储数据库40可以与签名数据库36在一起,也可以 不这样。在MS 26与歌曲识别服务34之间的通信链路优选地在MS 26首 次发送它提取的特征的时间与识别服务34发送它的带有唯一文件标 识符的答复消息336的时间之间保持开路。在一个实施例中,MS 26 发送具有第 一提取特征集的第 一消息,而识别服务34搜索它的数据库 (提取附加特征或者不这样)。在没有找到唯一匹配的情形下,识别服 务34可以向MS 26发送请求消息,该消息可以指定它要求MS 26提 取的附加特征的数目和/或类型(MS 26可以从存储于緩沖器中的媒体采样的数字版本中提取附加特征)。例如,假设识别服务34返回来自 数据库的四个匹配结果。然后识别服务能确定可以用来对四个匹配结 果唯一地进行区别的一个或多个特定特^正,该特征可以是较低级特征, 比如信号包络或者质心,或者是较高级特征,比如在音质时间质心之 间的音质时间距离。在前者中,识别服务.34可以针对特定谱切片来具 体地要求将在四个匹配结果之间直接地进行区别的质心特征;在后者 中,它可以要求遗漏的音质时间质心,使得识别服务然后可以提取将 在四个匹配结果之间进行区别的附加特征(例如质心之间的距离)。 MS 26发送具有在该第二次提取中提取的第二特征集的另一消息,而 识别服务34再次搜索数据库。对数据库的第二次搜索可以使用第二提 取特征集,可以使用从第二特征集中提取的第二附加特征集,或者其 组合。以这一方式,可以在MS26与识别服务34之间继续'对话,, 每当数据库搜索未能返回唯一匹配时识别服务34就要求附加特征。优 选地,在它们之间的通信链路保持开路;由于没有发送分组,所以在 识别服务搜索数据库的时间期间,分组交换网络无需消耗显著的带宽。 [54]优选地,歌曲或者文件标识和对应的音乐l良务URI纟皮返回到通信 服务30A-B,该通信服务编写对MS 26的答复消息而且将它作为 SMS/MMS或者类似消息发送到MS 26。识别服务服务器34也发送消 息338到音乐服务器38 (其中音乐服务器与识别服务服务器相分离), 该消息具有MS 26的唯一标识符以及对匹配文件的链接。 [55]方块342引向图3C,音乐服务器38。音乐服务器38从图3B的 方块338接收334消息,而且在下载管理器346处存储346该信息, 这是因为MS26可能无法立即地请求下载匹配文件或者歌曲。 一旦优 选地在MS 26从识别服务服务器34接收它的答复消息336之后不久 音乐服务器38就从MS 26接收请求(见图3D),它将MS 26的唯一 标识符匹配350于在下载管理器346中存储的MS ID,而且取回对匹 配文件的关联链接。确认支付信息(优选地在该MS26进行第一购买 之后保留存档和匹配到MS ID),而且匹配文件或者歌曲下栽352到 MS 26。购买发票提交354到该MS 26的通信服务器30B,而该过程对于该方法的网络侧而言就此结束356。图3B的方块340引向在MS26看来则是继续的图3D。 MS 26从 (图3B的)方块336接收答复消息和链接,而且将歌曲或者文件标题 或者其它标识符连同对它的链接一起显示360。用户可能是在选择用 户已经存储可以同时显示的若干链接之后按压362下载键,这就发送 了 364对于在图3C的方块348处提到的对文件或者歌曲的请求,也构 成了对先前透露账户进行借记或者货记的授权。用户在SM26处接收 336下载的文件或者歌曲,而该方法对于该交易的MS 26侧而言就此 结束368。 MS 26的具体部件将参照图4来详述。用于接收音频输入(先前 提到的媒体采样24)的第一转换器或者麦克风48耦合到将采样数字 化而且开始提取特征的处理器50,这些特征存储于计算机可读主储存 器54中。用于特征提取的特定算法可以存储于储存器54中作为计算 机可读指令,而主储存器54可以不是单个一致的存储介质,而可以是 分布于若干不同存储部件之间。媒体采样可以穿过缓冲器储存器52, 该储存器在采样被处理之前持续地存储有限数据容量的采样。緩冲器 储存器52持续地存储在麦克风48处最近接收的信号,使得当媒体采 样要使得特征在用户命令之下被提取时,处理器50可以立即开始从当 前在緩沖器储存器52之内的该部分媒体采样中提取特征。以这一方 式,可以从采样的如下部分或者分段中提取特征,该部分或者分段在 时间上领先于用以标识歌曲或者文件的用户命令。由于在用户命令要 求这么做之前,对于在緩沖器存储器中存储的信号就不进行附加处理, 所以消耗了最少的额外功率。处理器50以及MS 26的所有部件是通过比如可充电电池56或者 可更换燃料电池这样的便携电源来供电的。用户接口 58包括用以将来 自处理器的输出转换成用户可辨认的文本消息和图像的显示器接口 58A以及由其用户可以向处理器50输入命令/i青求的比如4安钮的输入 机制58B。处理器50通过开关64耦合到发送器60和接收器62,使得 无法同时出现发送和接收。发送器60和接收器62各自耦合到天线66,该天线可以内置或者外置于包裹处理器50的外壳。处理器也可以在第 二转换器或者扬声器68处向用户提供输出。为了接收视频,MS26可 以包括用以向处理器50提供可视媒体采样的摄像机70或者其它图像 捕获设备。虽然未示出,但是摄像机70也可以向视频緩冲器存储器(未 示出)提供输入,该存储器的工作方式类似于与麦克风48相关联的緩 冲器存储器52。图5是对于在MS 26处緩沖输入时获得的优点进行描绘的时序 图。在开始502处开始在MS 26处接收媒体采样501。在该开始502 处用户开始收听,而且在确定它是他/她想要其拷贝的歌曲或者文件之 后,用户在请求时间504例如按压专用识别按钮86。假设对于MS26 而言需要最少的(时间有限的)媒体采样AT以执行它的预处理。这 并不是处理时间而是为了提取用来标识整个歌曲或者文件的足够特征 而必需的歌曲量(例如十秒)。当利用了緩沖器52时,AT开始于先于 用户请求时间504的时间506,而且将必不可少的最少采样时间扩展 到緩冲采样结束时间508。在没有利用緩冲器时,可以捕获媒体采样 的最早时间就在请求时间504。必不可少的最少采样时间则必须结束 510于迟于緩冲采样结束时间508的时间。取决于MS 26对媒体采样 24的緩沖分段进4亍处理所花费的时间量,两个结束时间508、 510之 差512可以与媒体采样开始时间506、 504之差一般大。由于MS 26 优选地从它发送预处理特征和接收答复消息起维持连续的无线链路 28,所以该差512仅能通过减少延迟来增强用户的体验。 [60]总而言之,适应于音乐文件的本发明包括一种无缝音乐识别和购 买系统和方法,该系统和方法实施了无缝的使用链,该使用链涵盖了 从聆听感兴趣的音乐到空中购买该特定一个音乐的所有步骤。在歌曲 识别设置于MS 26的单个按钮上的情况下具有新颖功能。按压该按钮 促使MS从采样中提取和发送一个或多个特征,而且作为响应,最终 接收如下消息,该消息不仅标识从中获取媒体采样的基本歌曲,而且 在音乐服务中提供对音轨的直接链接。按压该链接将用户带到可以用 来立即空中购买和下载特定 一 个艺术品的音乐服务。音乐识别过程的特征提取部分在MS与服务器之间进行划分,使得MS可以执行第一 阶段,由此减少发送到服务器的数据量。阶段数目可由MS选择,而 且作为辅助信息发送到服务器,使得它知道从哪里继续特征提取。在 从媒体采样中提取特征时的计算负荷由此分布于MS与服务器之间 (或者至少在服务器处有所减少,因为MS在某些实例中可以执行所 有特征提取,而服务器仅将已经提取的特征匹配于它的数据库)。优选 地,这一特征提取分布自适应地实.施于MS处,比如通过使用从力艮务 器接收的反馈、对网络的链接中可用信道容量的测量和/或基于MS对 于待标识的媒体采样的类型或者复杂性的确定。MS 26的终端用户可以标识和购买他/她在进行活动时听到的音 乐。用户没有放开在识别的歌曲信息与可以购买实际歌曲文件的处所 之间的链接。在MS中执行部分信号分析(特征提取)减少了向服务 器发送(OTA)的数据量,由此减少所涉及的传输费用。尽管已经图 示和描述了当前被认为是请求保护的发明的优选实施例的内容,但是 将理解到许多变化和改型可以由本领域技术人员想到。意图在于所附 权利要求涵盖落入于请求保护的本发明的精神和范围之内的所有这些 变化和改型。
权利要求
1. 一种移动台MS,包括接口,用以接收媒体采样;处理器,用以从所述媒体采样的数字版本中提取至少一个特征;发送器,用以通过无线通信链路发送所述至少一个提取特征。
2. 如权利要求1所述的MS,其中所述接口包括转换器。
3. 如权利要求2所述的MS,其中所述转换器包括麦克风,而所述媒体采样包括音频采样。
4. 如权利要求2所述的MS,其中所述转换器包括摄像机,而所述媒体采样包括可视采样。
5. 如权利要求1所述的MS,其中所述接口包括有线链路和无线链^各之一。
6. 如权利要求5所述的MS,其中所述接口接收的所述媒体采样是所述数字版本。
7. 如权利要求1所述的MS,其中所述发送器还用以发送消息,所述消息包括所述至少一个提取特征而不包括所述媒体采样的所述数字版本的部分。
8. 如权利要求1所述的MS,其中所述处理器还用以自适应地基邻
9. 如权利要求1所述的MS,其中所述处理器还用以自适应地基于所述媒体采样的所述数字版本来选择要提取的至少 一 个特征类型,所述处理器提取所述自适应地选择的类型的至少一个特征,以及其中所述发送器还用以发送所述选择的特征类型的标识符。
10. 如权利要求1所述的MS,其中所述接收的媒体采样的所述数字版本限定了第 一时间受限分段和第二时间受限分段,而所述处理器仅从所述第一分段中提取所述至少一个特征,还发送所述笫二分段而不发送所述第一分段。
11. 如权利要求10所述的MS,其中所述处理器还从所述第二分段中提取第二特征。
12. 如权利要求1所述的MS,还包括用户接口,用户可以通过所述用户接口启动所述处理器进行这样的提取;以及緩沖器,用以本的至少一部分。
13. 如权利要求1所述的MS,其中所述至少一个特征在所述媒体采样的所述数字版本之内限定了时间点,所述处理器用以从所述媒体采样的所述数字版本中提取数目为"的多个时间点,而所述发送器用以发送所述多媒体采样的所述数字版本的至少"个谱切片以及将每个谱切片链接到至少 一个时间点的标识符。
14. 如权利要求13所述的MS,其中每个(n+l)谱切片比先前第w切片对应于所述媒体采样的所述数字版本的更大一部分。
15. 如权利要求13所述的MS,还包括用于4妾收采样标识消息的接收器,而所述处理器还用以响应于接收所述采样标识消息而终止发送更多的时间点和谱切片。
16. 如权利要求1所述的MS,还包括用户接口,单个用户输入通过所述用户接口来启动所述处理器提取所述至少一个特征,在所述MS与通信服务之间建立无线通信链路,以及通过所述无线通信链路发送所述至少一个提取特征。
17. 如权利要求16所述的MS,其中所述单个用户输入还启动在所述转换器与所述处理器之间设置的緩冲器开始存储所述媒体采样的所述数字版本的至少 一 部分。
18. 如权利要求1所述的MS,其中所述处理器还用以从所述媒体采样的所述数字版本中^是取一连串MPEG-7描述符。
19. 如权利要求1所述的MS,其中所述至少一个特征是所述媒体采样的所述数字版本的非重建特征。
20. 如权利要求1所述的MS,其中要从所述发送器发送的所有提取特征是所述媒体采样的所述数字版本的非重建特征。
21. 如权利要求1所述的MS,还包括在所述转换器与所述处理器之间设置的緩冲器,用以存储所述媒体采样的所述数字版本和所述 媒体采样之一 的至少 一部分。
22. 如权利要求21所述的MS,还包括用以接收对于更多特征消 息的请求的接收器,其中响应于接收所述请求消息,所述处理器从存 储于所述緩冲器中的所述至少一部分中提取至少第二特征,以及其中 所述发送器还发送所述至少第二特征。
23. —种计算机程序,实施于在移动台之内的计算机可读介质上, 用以处理媒体采样,包括第一计算机指令集,用以从数字媒体采样中提取至少一个特征;以及第二计算机指令集,用以通过无线通信链路发送所述至少一个提 取特征。
24. 如权利要求23所述的计算机程序,其中所述第二计算机指令 集还用以发送消息,所述消息携带所述至少一个提取特征而不携带所 述数字媒体采样的部分。
25. 如权利要求23所述的计算机程序,其中所述第一计算机指令及提取所选数目。
26. 如权利要求23所述的计算机程序,其中 所述第一计算机指令集用以自适应地基于所述数字媒体采样来选择要提取的特征类型,以及提取所述自适应地选择的类型的至少 一个 特征,以及所述第二计算机指令集用以发送所述至少一个提取特征和所述选择的特征类型的标识符。
27. 如权利要求23所述的计算机程序,其中所述第 一计算机指令集用以从所述数字媒体采样的第 一时间受限 分段中提取所述特征,以及所述第二计算机指令集用以发送第二时间受限分段而不发送所述第一时间受限分段。
28. 如权利要求27所述的计算机程序,其中所述第一计算机指令 集还用以从所述第二分段中提取第二特征。
29. 如权利要求23所述的计算机程序,其中所述第一计算机指令 集用以响应于在所述移动台处的用户输入而提取至少一个特征,所述 计算机程序还包括用以在緩沖器中持续地存储所述数字媒体采样的至 少一部分的第三计算机指令集,以及其中所述第一计算机指令集还用 以从存储于所述緩沖器中的所述数字媒体采样的所述部分中提取所述 特征。
30. 如权利要求23所述的计算机程序,其中所述至少一个特征限 定了时间点,所述第一计算机指令集用以从所述数字媒体采样中提取 数目为w的多个时间点,而所述第二计算机指令集用以发送所述数字 媒体采样的至少w个谱切片以及将每个谱切片链接到时间点的标识对 付。
31. 如权利要求30所述的计算机程序,其中每个(n+l )谱切片 比先前第w切片对应于所述数字媒体采样的更大一部分。
32. 如权利要求30所述的计算机程序,其中所述第二计算机指令 集包括如下指令,所述指令用以在收到标识所述数字媒体采样的答复 消息时终止发送所述数字媒体采样的所述"个谱切片和将每个谱切片 链接到时间点的标识符。
33. 如权利要求23所述的计算机程序,其中所述第一计算机指令 集响应于在所述移动台处的单个用户输入而开始提取至少一个特征。
34. 如权利要求33所述的计算机程序,其中所述第一计算机指令 集还包括如下指令,所述指令用以在所述MS的緩沖器中开始存储所 述数字媒体采样的至少一部分。
35. 如权利要求23所述的计算机程序,其中所述第一计算机指令 集用以从数字媒体采样中提取至少 一个特征,所述至少 一个特征是所 述数字媒体采样的非重建特征。
36. 如权利要求23所述的计算机程序,其中所述第一计算机指令 集还用以在所述MS的緩冲器中存储所述数字媒体采样的至少一部
37. —种实施于计算机可读介质上的计算机程序,用以将多个提 取特征唯一地匹配于在数据库中存储的特征集,包括第一计算机指令集,用以通过网络接收消息,所述消息包括接收 的特征;第二计算机指令集,用以从所述消息中提取附加特征;以及 第三计算机指令集,用以搜索特征集的数据库,直至与提取的附加特征相组合的多个接收特征唯一地匹配于所述数据库的^f叉一个特征集。
38. 如权利要求37所述的计算机程序,其中每个特征集与媒体文 件标题相关联,所述计算机程序还包括第四计算机指令集,用以通过 所述网络向所述消息的发送方发送包括所述媒体文件标题的答复。
39. 如权利要求37所述的计算机程序,其中在包括所述接收特征 的所述消息的发送方与如权利要求34所述的计算机程序之间的通信 链路在至少第 一时间与第二时间之间保持开路,所述第 一时间限定为 包括接收特征的所述消息的接收时间,而所述第二时间限定为传输所 述答复的时间。
40. 如权利要求38所述的计算机程序,其中所述第三计算机指令 集还用以针对与所述仅一个特征集唯一地相关联的媒体文件确定链接 地址,以及其中所述第四计算机指令集还用以在所述答复中发送所述 链接地址。
41. 如权利要求37所述的计算机程序,其中所述第三计算机指令 集包括如下指令,所述指令用以仅使用所述接收特征来搜索特征集的 所述数据库,随后利用所述提取的附加特征来搜索所述数据库。
42. 如权利要求41所述的计算机程序,其中所述第三计算机指令 集包括如下指令,所述指令用以仅使用所述接收特征来搜索文件特征 集的所述数据库,以及同时从所述消息中提取附加特征。
43. 如权利要求37所述的计算机程序,其中所述第二计算机指令 集用以从所述接收特征中提取附加特征。
44. 如权利要求37所述的计算机程序,其中所述第二计算机指令 集用以从包括数字媒体采样分段在内的所述消息的 一部分中提取附加 特征。
45. 如权利要求44所述的计算机程序,其中所述第二计算机指令 集还用以从所述接收特征中提取附加特征。
46. 如权利要求37所述的计算机程序,还包括第五计算机指令集, 用以在所述第三计算机指令集无法在所述数据库中找到唯一匹配时发 送请求更多特征的请求消息,以及在收到第二消息时重新执行至少所 述第一计算机指令集和第三计算机指令集,所述第二消息包括接收的 更多特征。
47. 如权利要求46所述的计算机程序,其中所述请求消息包括所 述更多特征的数目和类型之一。
48. —种移动台,包括 用于接收媒体采样的装置;用于从所述媒体采样的数字版本中提取至少一个特征的装置; 用于通过无线通信链路发送所述至少一个提取特征的装置。
49. 如权利要求48所述的移动台,其中所述用于接收的装置包括 转换器,而所述用于提取的装置包括数字处理器。
50. —种用于将关于媒体文件的信息用信号发送到远程数据库的 方法,包括在便携无线设备处接收媒体采样;在所述便携无线设备处从所述媒体采样的数字版本中提取多个特征;从所述便携无线设备发送消息,所述消息包括所述提取的多个特 征而不包括所述媒体采样的所述数字版本。
全文摘要
一种移动台MS具有用以接收媒体采样的转换器或者其它接口、用以从媒体采样的数字版本中提取特征的处理器、用以发送那些提取特征的发送器,还优选地具有缓冲器,使得可以在用以标识媒体文件的用户输入之前针对一部分接收音乐开始特征提取。特征描述了媒体文件的数字版本的内容。服务器从MS接收所提取的特征,提取附加特征,该附加特征可以是从由MS提取的特征中提取的较高级特征和/或从由MS发送的数字媒体采样的分段中提取的较低级特征。服务器使用所有提取特征来搜索数据库和标识从中获取媒体采样的基本文件。在MS处的单个用户输入启动了特征提取、链接设置和特征发送。进一步的输入则购买向MS下载的整个媒体文件的拷贝。
文档编号H04B1/38GK101461146SQ200580016426
公开日2009年6月17日 申请日期2005年3月22日 优先权日2004年3月26日
发明者托尼·科普拉, 莫里·瓦纳南, 马基帕阿·米克科 申请人:诺基亚公司