专利名称:用于自动调整音频数据的播放速度的方法和装置的制作方法
技术领域:
本发明的实施例涉及用于播放音频数据的々某体播放器。更具体地 说,本发明的实施例涉及用于自动调整音频数据的播^t速度的方法和 装置。
背景技术:
存在具有允许以比正常速率快的速率播放音频和音频-视频会话 的记录的功能部件的媒体播放器。这允许用户在较短的时间周期内收 听或观看这些会话。这些功能部件的使用在商业应用中很常见,例如 在员工观看和/或收听培训会话、会议、会谈和报告时。这些功能部件 的使用在娱乐应用中也很常见,例如在用户听收音机或播客、或看电
视时。这些功能部件允许快速回放而无音频和视频小故障(glitch)。 通常,用户认为以正常回》文速率的约1.2-1.9倍的回》文速率回i文音 频数据是可以听清楚和理解的。但是,由于发言者的语速、背景噪声、 沉默或填补式停顿的存在、和在音频数据回放过程中发生改变的其它 标准,最佳速率会在回放期间改变。
现有的々某体播放器允许用户手动地调整音频数据的回放速率。当 最佳回放速率在回放音频数据的过程中频繁改变时,手动做出调整会 很不方便。此外,当做出手动调整时,收听者只会对音频数据的变化 做出反应。在检测音频数据的变化和对此做出反应时体验到的延迟会 导致以收听者不可理解的速率回放音频数据的部分。这会使收听者重 新播放音频数据,并且因此否定了快速播放的一些益处。
举例说明了本发明的实施例的特征和优点,不希望它们将本发明 的实施例的范围限制在所示的特定实施例。
图1是可以在其中实现本发明的一个示范实施例的示例性系统的 框图。
图2是根据本发明的一个示范实施例的播放速度调整单元的框图。
图3是根据本发明的一个示范实施例的变化速率积分器单元的框图。
图4是说明根据本发明的第 一实施例用于管理音频数据的方法的 流程图。
图5是说明根据本发明的第二实施例用于管理音频数据的方法的 流程图。
图6是说明根据本发明的一个实施例用于生成播放速度控制值的 方法的流程图。
具体实施例方式
在以下描述中,出于说明的目的,阐述了特定术语,以便充分理 解本发明的实施例。但是,本领域的技术人员将明白,不需要这些具 体细节也可以实现本发明的实施例。在其它情况下,以框图形式示出 熟知的电路、设备和过程,以免不必要地使本发明的实施例晦涩难懂。
图1是可以在其中实现本发明的实施例的系统的第一实施例的框 图。该系统是计算机系统100。计算机系统IOO包括用于处理数据信 号的一个或多个处理器。如图所示,计算机系统100包括第一处理器 和第n个处理器105,其中n可以;l任何数字。处理器101和105可 以是复杂指令集计算机微处理器、精简指令集计算微处理器、超长指 令字微处理器、用于实现指令集的组合的处理器或其它处理器设备。 处理器101和105可以是在每个芯片上具有多个处理器核的多核处理器。处理器101和105耦合到CPU总线110, CPU总线IIO用于在处 理器101和105与计算机系统100内的其它组件之间传送数据信号。
计算机系统100包括存储器113。存储器113包括可以是动态随 机存取存储器(DRAM)设备的主存储器。存储器113可以存储由数 据信号表示的指令和代码,这些指令和代码可由处理器101和105执 行。高速緩存存储器(处理器高速緩存)可驻留在每个处理器101和 105内以存储来自存储器113的数据信号。高速緩存可以通过利用它 的存取局部性来加速处理器101和105的存储器存取。在计算机系统 100的一个备选实施例中,高速緩存可驻留在处理器101和105的外 部。
桥存储器控制器111耦合到CPU总线110和存储器113。桥存储 器控制器111指挥处理器101和105、存储器113与计算机系统100 内的其它组件之间的数据信号,并桥接CPU总线llO、存储器113与 第一输入输出(10)总线120之间的数据信号。
第一IO总线120可以是单个总线或多个总线的组合。第一IO总 线120提供计算机系统100中的组件之间的通信链接。网络控制器121 耦合到第一 10总线120。网络控制器121可以将计算机系统100链接 到计算机网络(未示出),并支持机器间的通信。显示设备控制器122 耦合到第一 10总线120。显示设备控制器122允许将显示设备(未示 出)耦合到计算机系统100,并充当显示设备与计算机系统100之间 的接口。
笫二 10总线130可以是单个总线或多个总线的组合。第二 10总 线130提供计算机系统100中的组件之间的通信链接。数据存储设备 131耦合到第二 10总线130。数据存储设备131可以是硬盘驱动器、 软盘驱动器、CD-ROM设备、闪存设备或其它大容量存储设备。输入 接口 132耦合到第二IO总线130。输入接口 132可以是例如键盘和/ 或鼠标控制器或其它输入接口。输入接口 132可以是专用设备,或者 可以驻留在诸如总线控制器或其它控制器的另 一 设备内。输入接口132允许将输入设备耦合到计算机系统100,并将数据信号从输入设 备传送到计算机系统100。音频控制器133耦合到第二 10总线130。 音频控制器133进行操作以便协调声音的记录和播放。总线桥123将 第一 10总线120耦合到第二 10总线130。总线桥123进行操作以便 緩冲和桥接第一 IO总线120与第二 10总线130之间的数据信号。
根据本发明的一个实施例,可以在计算机系统100上实现播放速 度调整单元140。根据一个实施例,响应处理器101执行存储器113 中由播放速度调整单元140表示的指令序列,计算机系统100执行音 频数据管理。这些指令可从诸如数据存储设备131的其它计算机可读 介质或从经由网络控制器112连接到网络的计算机读入到存储器113 中。存储器113中的指令序列的执行使处理器支持音频数据的管理。 根据本发明的一个实施例,播放速度调整单元140识别音频数据的状 况。响应识别到状况,播^:速度调整单元140自动调整音频数据的回 放速率。状况可以是例如语速(rateofspeech)、背景噪声、填补式停顿 (filled pause)或其它状况。
图2是根据本发明的一个示范实施例的播放速度调整单元200的 框图。播放速度调整单元200可用于实现如图l所示的播放速度调整 单元140。应明白,播放速度调整单元200可驻留在其它类型的系统 中。播放速度调整单元200包括能以软件实现的多个模块。在备选实 施例中,硬接线电路可以替代软件或与软件组合用于执行音频数据管 理。因此,本发明的实施例不限于硬件电路和软件的任何特定组合。
播放速度调整单元200包括特征提取器单元210。特征提取器单 元210从它接收的音频数据中提取特征。根据本发明的一个实施例, 特征提取器单元210将音频数据从时域变^:到频域,并在频域中识别 特征。在一个实施例中,特征可以基于子带能量。在该实施例中,可 以利用Mel频率倒镨系数或通过利用其它技术或过程来识别特征。根 据一个备选实施例,特征可以基于音位特性。在该实施例中,音位特 性可通过利用隐马尔可夫才莫型、维特比排列或动态时间规整相对于基
7准语音信号进行才莫式匹配或^^莫式分类、或通过利用其它技术或过程来 识别。应明白,特征可以基于其它性质并利用其它技术来识别。
播放速度调整单元200包括变化速率积分器单元220。变化速率 积分器单元220辨识其中音频数据包含以发生变化的速率产生的语音 的状况。根据一个实施例,变化速率积分器单元220产生对应于来自 单元210的特征的在时间上平均的变化速率的输出。变化速率积分器 220可以生成可用于调整音频数据的回放速率的播放速度控制值。根 据其中特征是基于子带能量的实施例,变化速率积分器单元220可以 测量特征的连续样本之间的差。通过对来自多个特征的测量结果取平 均值,识別特征的总的变化速率。变化速率可用于确定语音变化速率 和要生成的合适的播放速度控制值。根据其中特征是基于音位的实施
速度控制值。
播放速度调整单元200可包括比较器单元230。比较器单元230 辨识音频数据中何时存在其它状况。比较器单元230可以生成一个或 多个播放速度控制值,这个或这些控制值可用于基于状况调整音频数 据的回放速率。根据播放速度调整单元200的一个实施例,比较器单 元230可以将音频数据的特征与反映不同状况的语音模型中的特征进 行比较。可以将音频数据的特征与反映背景噪声的高、低量的语音才莫 型进行比较,以便确定音频数据中存在的背景噪声的程度和录音的质 量。根据本发明的一个实施例,如果音频数据中存在较大程度的背景 噪声,则比较器单元230生成减緩回放速率的播放速度控制值。可以 将音频数据的特征与反映语音停顿或用不会对音频数据的内容造成 影响的措辞填补的停顿的语音模型进行比较,以便确定音频数据的一 部分是否可在回》文期间加速或进行编辑。应明白,还可类似地检测其 它状况。例如,比较器单元230可以生成用于基于视频图像的变化来 调整音频数据的回放速率的播放速度控制值。
播》欠速度调整单元200包括音频数据处理单元240。音频数据处理单元240接收一个或多个播放速度控制值。当音频数据处理单元240 接收到多于一个播放速度控制值时,它可以取这些值的平均值,计算 这些值的加权平均值,或取最小或最大值。音频数据处理单元240还 接收待播放的音频数据,并响应上述一个或多个播》文速度控制值而调 整音频数据的回放速率。根据本发明的一个实施例,音频数据处理单 元240可以通过执行选择性采样、同步重叠相加(synchronized overlap-add)、谐波定标(harmonic scaling)、或通过执行其它过程或技 术来调整回;^文速率。
播》文速度调整单元200可包括时间延迟单元250。时间延迟单元 250延迟音频数据处理单元240接收音频数据的时间。通过插入延迟,
通过音频数据处理单元240播放音频数据之前分析音频数据的特征并 生成合适的播放速度控制值。
根据播放速度调整单元200的一个实施例,特征提取器单元210、 变化速率积分器单元220、比较器单元230、音频数据处理单元240 和时间延迟单元250可利用任何合适的过程、技术或电路来实现。应 明白,所示的一些组件是可选的.,如比较器单元230和时间延迟单元 250。
图3 ;l根据本发明的一个示范实施例的变化速率积分器单元300 的框图。变化速率积分器单元300可以作为如图2所示的变化速率积 分器单元220的一个实施例来实现。变化速率积分器单元300包括多 个差单元。根据变化速率积分器单元300的一个实施例,为通过变化 速率积分器单元300处理的每个特征类型提供一个差(difference)单 元。方框310表示第一差单元。方框311表示第n个差单元,其中n 可以是任何数字。差单元310和311将在不同时间周期从特征提取器 单元接收的特征的性质进行比较,并计算差的绝对值(绝对差值)。 例如,差单元310可以计算在时间t识别的第一类型的特征与在t-l 识别的第一类型的特征的绝对差值。差单元311可以计算在时间t识别的第二类型的特征与在t-l识别的第二类型的特征的绝对差值。
变化速率积分器单元300可包括多个可选的加权单元。根据变化 速率积分器单元300的一个实施例,为通过变化速率积分器单元300 处理的每个特征类型提供一个加权单元。方框320表示第一加权单元。 方框321表示第n个加权单元。每个加权单元对特征类型的绝对差值 加权。加权单元320和321可以基于特征的性质对绝对差值加权。
变化速率积分器单元300包括求和单元330。求和单元330将由 加权单元320和321接收的加权后的绝对差值求和。
变化速率积分器单元300包括播放速度控制单元340。播放速度 控制单元340根据加权后的绝对差值的和生成播放速度控制值。根据 变化速率积分器单元300的一个实施例,播》丈速度控制单元340对加 权后的绝对差值的和取平均值。根据一个备选实施例,播放速度控制 单元340在一定时间周期内对加权后的绝对差值的和求积分。
图4是说明根据本发明的第一实施例用于管理音频数据的方法的 流程图。在401,将音频数据从时域变换到频域。根据本发明的一个 实施例,可以对音频数据施加快速傅里叶变换以将它从时域变换到频 域。
在402,从变换到频域的音频数据识别特征。根据本发明的一个 实施例,特征可以基于子带能量。在该实施例中,利用Mel频率倒谱 系数来识别特征。根据本发明的一个备选实施例,频率可以基于音位 特性(phoneme characteristics)。
在403,生成特征的变化速率的测量值(measure)。根据本发明的 一个实施例,可以通过分析音频数据的特征来生成特征的变化速率的 测量值。特征的变化速率的测量值可用于识别其中发言者的语速发生 改变的状况。根据本发明的一个实施例,生成播放速度控制值。
在404,调整音频数据的回^L速率。该调整可以基于在403确定 的如播;故速度控制值所反映的特征的变化速率。根据本发明的一个实 施例,可以通过执行选择性采样、同步重叠相加、谐波定标、或通过执行其它过程来调整音频的回放速率。
图5是说明根据本发明的第二实施例用于管理音频数据的方法的
流程图。在501,将音频数据从时域变换到频域。根据本发明的一个 实施例,可以对音频数据施加快速傅里叶变换以将它从时域变换到频 域。
在502,从变换到频域的音频数据识别特征。根据本发明的一个 实施例,特征可以基于子带能量。在该实施例中,利用Mel频率倒谱 系数来识别特征。根据本发明的一个实施例,特征也可以基于音位特 性。
在503,生成特征的变化速率的测量值。根椐本发明的一个实施 例,可以通过分析音频数据的特征来生成特征的变化速率的测量值。 特征的变化速率的测量值可用于识别其中发言者的语速发生改变的 状况。根据本发明的一个实施例,生成播放速度控制值。
在504,将在502识别的音频数据的特征与反映不同状况的语音 才莫型中的特征进行比较,以便确定状况的存在。例如,可以将音频数 据的特征与反映背景噪声的高、低量的语音模型进行比较,以便确定 音频数据中存在的背景噪声的程度。也可以将音频数据的特征与反映 语音停顿或用不会对音频数据的内容造成影响的措辞填补的停顿的 语音才莫型进行比较,以便确定音频数据的一部分是否可在回放过程中 加速或剪去或删去。应明白,还可检测其它状况。根据本发明的一个 实施例,生成一个或多个播放速度控制值。
在505,根据所生成的播放速度控制值来确定播放速度调整。根 据本发明的一个实施例,对播放速度控制值求平均值以便确定要对音 频数据的回放速率做出调整的程度。根据本发明的一个备选实施例, 取播放速度控制值的加权平均值以便确定要对音频数据的回放速率 做出调整的程度。
在506,调整音频数据的回放速率。该调整可以基于所生成的播 放速度控制值的平均值或加权平均值。根据本发明的一个实施例,可以通过执行选择性釆样、同步重叠相加、谐波定标、或通过执行其它 过程来调整音频的回放速率。
图6是说明根据本发明的一个实施例用于生成播》文速度控制值的
方法的流程图。如图6所示的方法可用于实现如图4和5所示的403 和503。在601,确定多个特征类型的绝对差值。根据本发明的一个 实施例,取在第 一时间和第二时间测量的每个特征类型的差的绝对 值。
在602,对特征类型的绝对差值加权。根据本发明的一个实施例, 基于特征的性质对特征类型的绝对差值加权。 在603,对加冲又后的绝对差值一起求和。
在604,根据加权后的绝对差值的和生成播放速度控制值。根据 本发明的一个实施例,取加权后的绝对差值的和的平均值。根据一个 备选实施例,在一定时间周期内对加权后的绝对差值的和求积分。
根据本发明的一个实施例,用于管理音频数据的方法包括识别 音频数据的状况;以及响应识别状况,自动调整音频数据的回放速率。 状况可以包括产生语音的速率的变化、背景噪声的存在、语音中停顿 或填补式停顿的存在。通过自动调整回放速率,本发明的实施例允i午 收听者专心于正在播放的音频数据,而不必因必须手动调整回放速度 而分神。
图4-6是说明根据本发明的实施例的方法的流程图。这些图中说 明的一些技术可以连续、并行或按照与所描述的顺序不同的顺序执 行。应明白,不需要执行所描述的所有技术,可以增加额外的技术, 并且可以用其它技术来代替所说明的 一些技术。
本发明的实施例可以作为计算机程序产品或软件提供,它可以包 括具有指令的机器可访问或机器可读介质上的制造品。机器可访问或 机器可读介质上的指令可用于对计算机系统或其它电子设备编程。机 器可读介质可包括但不限于软盘、光盘、CD-ROM和磁-光盘或其它 类型的适于存储或传送电子指令的介质/机器可读介质。本文描述的技
12术不限于任何特定的软件配置。它们可以应用于任何计算或处理环 境。本文所用的术语"机器可访问介质"或"机器可读介质"应包括 能够存储、编码或传送可供机器执行并使机器执行本文描述的任何一 种方法的指令序列的任何介质。此外,本领域中常说一种或另一种形 式的软件(例如,程序、过程、进程、应用程序、模块、单元、逻辑 等)采取动作或导致结果。这些表述只是用来陈述通过处理系统执行 软件而使处理器执行动作或产生结果的一种简略的方式。
在以上说明书中,参照其具体示例性实施例描述了本发明的实施 例。但是,很明显,在不偏离本发明的实施例的广泛精神和范围的情 况下,可以对此作出各种修改和改变。因此,应将说明书和附图视为 是具说明性而不是限制性意义的。
权利要求
1. 一种用于管理音频数据的方法,包括识别所述音频数据中的状况;以及响应识别所述状况,自动调整所述音频数据的回放速率。
2. 如权利要求l所述的方法,其中所述状况是语速。
3. 如权利要求l所述的方法,其中所述状况是噪声。
4. 如权利要求l所述的方法,其中所述状况是填补式停顿。
5. 如权利要求l所述的方法,其中识别所述状况包括 将所述音频数据从时域转换到频域; 在所述频域中提取所述音频数据的特征;以及 分析所述音频数据的特征。
6. 如权利要求l所述的方法,其中识别所述状况包括 将所述音频数据从时域转换到频域; 在所述频域中提取所述音频数据的特征;以及 将所迷音频数据的特征与4莫型进行比较。
7..如权利要求5所述的方法,其中所述特征包括子带能量。
8. 如权利要求5所述的方法,其中所述特征包括音位特性。
9. 如权利要求1所述的方法,还包括 识别所述音频数据的第二状况;以及响应识别所述第一和第二状况,自动调整所述音频数据的回i丈速率。
10. 如权利要求1所述的方法: 率包括执行选择性釆样。
11. 如权利要求1所述的方法, 率包括执行同步重叠相加。
12. 如权利要求1所述的方法, 率包括执行谐波定标。其中调整所述音频数据的回i丈速其中调整所述音频数据的回放速其中调整所述音频数据的回放速
13. —种包括机器可访问介质的制造品,所述机器可访问介质包括指令序列,所述指令序列包括在执行时使所述机器执行以下操作的 指令识别音频数据中的状况;以及响应识别所述状况,自动调整所述音频数据的回》文速率。
14. 如权利要求13所述的制造品,其中识别所迷状况包括 将所述音频数据从时域转换到频域; 在所述频域中提取所述音频数据的特征;以及 分析所述音频数据的特征。
15. 如权利要求13所述的制造品,还包括在执行时使所述机器执 行以下操作的指令识别所述音频数据的第二状况;以及响应识别所述第一和第二状况,自动调整所述音频数据的回》文速率。
16. 如权利要求13所述的制造品,其中所述状况是语速。
17. —种播放速度调整单元,包括用于识别音频数据的语速变化的变化速率积分器单元;以及 用于响应所述语速变化而调整所述音频数据的回放速率的音频 数据处理单元。
18. 如权利要求17所述的播放速度调整单元,还包括用于识别所 述音频数据中的状况的比较器单元,其中所述音频数据处理单元响应 所述语速变化和所述状况而调整回;^速率。
19. 如权利要求17所述的播放速度调整单元,其中所述状况是背 景噪声。
20. 如权利要求17所述的播i丈速度调整单元,还包括用于识别所 述音频数据中的特征的特征提取器单元。
全文摘要
一种管理音频数据的方法包括识别音频数据中的状况。响应识别状况,自动调整音频数据的回放速率。还公开其它实施例。
文档编号G11B20/10GK101427314SQ200780014500
公开日2009年5月6日 申请日期2007年4月19日 优先权日2006年4月25日
发明者G·希尔斯 申请人:英特尔公司