来自音乐音频信号的拍子、和弦和强拍的评估的制作方法
【专利摘要】提供了服务器系统500,其用于接收具有用于在该服务器系统处理的相关联的音频/音乐音轨的视频片段。该系统包括:拍子跟踪模块,其用于识别音频信号中的拍子时刻(ti),以及和弦变化估计模块,其用于从在所述拍子时刻(ti)的所述音频信号中的色度重音信息确定和弦变化似然。此外,提供了基于第一重音和第二重音的估计模块,其用于使用各自不同算法从在所述拍子时刻(ti)的所述音频信号确定各自的基于第一重音和第二重音的强拍似然值。处理的最后阶段使用预定义的基于分数的算法识别在拍子时刻(ti)出现的强拍,该预定义的基于分数的算法采用在所述拍子时刻(ti)的和弦变化似然和所述基于第一重音和第二重音的强拍似然的数值表示作为输入。
【专利说明】来自音乐音频信号的拍子、和弦和强拍的评估
【技术领域】
[0001] 本发明涉及用于音频信号分析的方法和系统,以及特别是涉及用于识别音乐信号 中的强拍的方法和系统。
【背景技术】
[0002] 在音乐术语中,强拍是小节线划分的节(还被称为小节)的第一拍或脉冲。它频 繁地,尽管不总是,携带有节奏的循环的最强重音。因为当舞者使他们的移动跟随音乐时, 音乐家演奏音乐以及为舞者伴奏,因此对于音乐家而言,强拍是重要的。
[0003] 有许多实际应用,在该实际应用中,期望的是从音乐音频信号识别强拍的时间位 置。此类应用包含:音乐推荐应用,在音乐推荐应用中,搜索与参考音轨类似的音乐,在唱片 节目选播员(DJ)应用中,其中例如,要求在播放列表中的歌曲之间的无缝拍子混合过渡, 以及要求以自动循环技术。
[0004] 在使用强拍以帮助同步自动视频场景剪辑至音乐上有意义的点中,已经识别了特 别有用的应用。例如,在从与相同音乐表演有关的不同源获得多个视频(具有音频)片段的 地方,将期望的是,自动加入来自不同源的片段以及以美观的方式提供视频片段,就像创建 专业音乐视频的方式。在这种情况下,有利的是,将视频镜头之间的切换同步到音乐强拍。
[0005] 以下词语用于理解下面描述的某些概念。
[0006] 首商:首符的基本频率(fQ)的生理关联。
[0007] 色度(Chroma),还被称为音级(pitch class):由属于共同音级的整数八度分离 的音乐音高。在西方音乐中,使用12音级。
[0008] 拍子或基本拍(tactus):音乐中的时间的基本单位,它能够被认为是速率,当听 到一段音乐时,大多数人在该速率将使他们的脚轻打地面。该词语还用于表示属于单个拍 子的音乐部分。
[0009] 音乐速度:以每分钟拍子数(BPM)为单位表示的拍子或基本拍脉冲的速率。
[0010] 小节或小节线划分的节:被定义成给定时间期间的给定数目的拍子的时间分割。 例如,在具有4/4拍子记号的音乐中,每个小节包括4个拍子。
[0011] 强拍:小节或小节线划分的节的第一拍子。
[0012] 重音或基于重音的音频分析:分析音频信号以检测音乐中的事件和/或变化,包 含但不限于所有离散声音事件的开始,尤其是长音高声音的起始,音色(timbre)的响度中 的突然变化,以及和声变化。以下给出进一步的细节。
[0013] 音乐节拍的人感知涉及推断来自音乐强音(即重音)的时刻的脉冲的有规律的模 式。重音是由音乐中的各种事件导致的,包含所有离散声音事件的开始,尤其是长音高声音 的起始,响度或音色中的突然变化,以及和声变化。自动音乐速度、拍子或强拍估计器可以 通过测量音乐音频加重、估计潜在脉冲的时间段和阶段以及选择对应于音乐速度或感兴趣 的一些其它韵律水平的水平,来试图模仿音乐节拍的人感知。因为重音与音乐中的事件有 关,因此基于重音的音频分析指的是音乐中的事件和/或变化的检测。此类变化可以与信 号的响度、频谱和/或音高内容中的变化有关。作为示例,基于重音的分析可以有关于检测 来自信号的频谱变化、计算来自该信号的新奇度或起始检测函数、检测来自该信号的离散 起始或检测该信号的音高和/或和声内容中的变化,例如使用色度特征。当执行频谱变化 检测时,可以使用各种变换或滤波器组分解,诸如快速傅里叶变换或多速率滤波器组,或甚 至基本频率f〇或音高显著估计器。作为简单示例,可以通过计算在信号上的短帧中的一组 频带上的信号的短时能量,以及接着计算每两个相邻帧之间的差,诸如欧式距离,来执行重 音检测。为了增加针对各种音乐类型的鲁棒性,已经开发了许多不同重音信号分析方法。
[0014] 下文中将描述的系统和方法利用在以下出版物中描述的背景知识,通过引用将以 下出版物并入本文。
【权利要求】
1. 装置,包括: 拍子跟踪模块,其用于识别音频信号中的拍子时刻(ti); 和弦变化估计模块,其用于从在所述拍子时刻(ti)或在所述拍子时刻(ti)之间的所述 音频信号确定至少一个和弦变化似然; 基于第一重音的估计模块,其用于从在所述拍子时刻(ti)或在所述拍子时刻(ti)之间 的所述音频信号确定至少一个基于第一重音的强拍似然;以及 强拍识别器,其用于使用在所述拍子时刻(ti)或在所述拍子时刻(ti)之间的所确定的 和弦变化似然和所述基于第一重音的强拍似然来识别在拍子时刻(ti)出现的强拍。
2. 根据权利要求1所述的装置,其中所述强拍识别器被配置为使用预定义的基于分数 的算法,该预定义的基于分数的算法采用在所述拍子时刻(tj或在所述拍子时刻(tj之间 的所确定的和弦变化似然和所述基于第一重音的强拍似然的数值表示作为输入。
3. 根据权利要求1所述的装置,其中所述强拍识别器被配置为使用基于判决的逻辑电 路,该基于判决的逻辑电路采用在所述拍子时刻(tj或在所述拍子时刻(tj之间的所确定 的和弦变化似然和所述基于第一重音的强拍似然的数值表示作为输入。
4. 根据任何前述权利要求所述的装置,其中所述拍子跟踪模块被配置为从所述音频信 号提取重音特征以生成重音信号,从所述重音信号来估计所述音频信号的音乐速度以及从 所述音乐速度和所述重音信号来估计所述拍子时刻(t)。
5. 根据权利要求4所述的装置,其中所述拍子跟踪模块被配置为:借助于基于基本频 率(&)的显著性分析提取色度重音特征,来生成所述重音信号。
6. 根据权利要求4所述的装置,其中所述拍子跟踪模块被配置为:借助于所述音频信 号的多速率滤波器组类型分解,来生成所述重音信号。
7. 根据权利要求2所述的装置,其中所述拍子跟踪模块被配置为:借助于基于基本频 率显著性分析提取色度重音特征结合所述音频信号的多速率滤波器组类型分解,生成所述 重音信号。
8. 根据任何前述权利要求所述的装置,其中所述和弦变化估计模块使用预定义的算 法,该预定义的算法采用在当前拍子时刻(tj或在当前拍子时刻(tj之间的音高色度的值 以及在之前的和/或随后拍子时刻或在之前的和/或随后拍子时刻之间的音高色度的一个 或多个值作为输入。
9. 根据权利要求8所述的装置,其中所述预定义的算法采用在所述当前拍子时刻(tj 或在所述当前拍子时刻Ui)之间以及在预定数目的在前和随后拍子时刻或在预定数目的 在前和随后拍子时刻之间的音高色度的值作为输入,以使用差的和或相似性计算来生成和 弦变化似然。
10. 根据权利要求8或权利要求9所述的装置,其中所述预定义的算法采用在当前的以 及在前和/或随后的拍子时刻或在当前的以及在前和/或随后的拍子时刻之间的平均音高 色度的值作为输入。
11. 根据权利要求10所述的装置,其中所述预定义的算法被定义成:
其中X是色度或音级的数目,y是在前拍子时刻的数目以及Z是随后拍子时刻的数目。
12. 根据权利要求8至11中的任何一项所述的装置,其中所述和弦变化估计模块被配 置为:借助于基于基本频率(&)的显著性分析提取色度特征来计算所述音高色度或平均音 高色度。
13. 根据任何前述权利要求所述的装置,所述装置还包括:基于第二重音的估计模块, 其用于从在所述拍子时刻(tj或在所述拍子时刻(tj之间的所述音频信号确定基于第二, 不同的,重音的强拍似然,以及其中所述强拍识别器还被配置为采用所述基于第二重音的 强拍似然作为至所述基于分数的算法的输入。
14. 根据权利要求13所述的装置,其中基于重音的估计模块中的一个基于重音的估计 模块被配置为将从针对所述拍子时刻(tj或在所述拍子时刻(tj之间的所述音频信号提 取色度重音特征应用于预定义的似然算法或变换,使用基本频率(f〇)的显著性分析来提取 所述色度重音特征。
15. 根据权利要求14所述的装置,其中所述基于重音的估计模块中的另一个基于重音 的估计模块被配置为将从所述音频信号的多个子带中的每个子带提取的重音特征应用于 预定义的似然算法或变换。
16. 根据权利要求14或权利要求15所述的装置,其中所述重音估计模块或每个重音估 计模块被配置为在所述拍子时刻(tj或在所述拍子时刻(tj之间将所述重音特征应用于 线性判别分析(LDA)变换,以获得各自的基于重音的数字似然。
17. 根据任何前述权利要求所述的装置,所述装置还包括:用于在输入到所述强拍识 别器之前正规化和弦变化似然以及所述基于重音的强拍似然或每个基于重音的强拍似然 的值的构件。
18. 根据权利要求17所述的装置,其中所述正规化构件被配置为使用值的最大绝对值 除这些值中的每个值。
19. 根据任何前述权利要求所述的装置,其中所述强拍识别器被配置为:针对一组拍 子时刻中的每个时刻,生成表示或包含所述和弦变化似然值和所述基于重音的强拍似然或 每个基于重音的强拍似然的和的分数,以及从在所述一组拍子时刻上的最高的生成的似然 值来识别强拍。
20. 根据权利要求19所述的装置,其中所述强拍识别器应用以下算法:
s(tn)是拍子时亥Ij tn,tn+M,tn+2M,· · ·,的集合,M是小节中的拍子的数目,以及wc,Wa和Wm 分别是针对所述和弦变化概率、基于第一重音的强拍似然和基于第二重音的强拍似然的权 重。
21. 根据任何前述权利要求所述的装置,所述装置包括: 用于接收多个视频片段的构件,每个视频片段具有各自的具有共同内容的音频信号; 以及 视频编辑模块,其用于使用所识别的强拍来识别针对所述视频片段的可能的编辑点。
22. 根据权利要求21所述的装置,其中所述视频编辑模块还被配置为:在一个或多个 编辑点加入多个视频片段以生成加入的视频片段。
23. 用于处理音频信号的装置,所述装置包括: 拍子跟踪模块,其用于识别所述音频信号中的拍子时刻(h); 和弦变化估计模块,其用于从在所述拍子时刻(h)或在所述拍子时刻(tj之间的所述 音频信号中的色度重音信息确定至少一个和弦变化似然; 基于第一重音和第二重音的估计模块,其用于使用各自不同的算法从在所述拍子时刻 (tj或在所述拍子时刻(tj之间的所述音频信号确定各自的基于第一重音和第二重音的 强拍似然值;以及 强拍识别器,其用于使用在所述拍子时刻(t)或在所述拍子时刻(tj之间的和弦变化 似然的数值表示和所述基于第一重音和第二重音的强拍似然值来识别在拍子时刻(h)出 现的强拍。
24. -种方法,包括: 识别音频信号中的拍子时刻(tj ; 从在所述拍子时刻(tj或在所述拍子时刻(tj之间的所述音频信号确定至少一个和 弦变化似然; 从在所述拍子时刻(tj或在所述拍子时刻(tj之间的所述音频信号确定至少一个基 于第一重音的强拍似然;以及 使用在所述拍子时刻(tj或在所述拍子时刻(tj之间的所述和弦变化似然和所述基 于第一重音的强拍似然来识别在拍子时刻(tj出现的强拍。
25. 根据权利要求24所述的方法,其中识别强拍使用预定义的基于分数的算法,该预 定义的基于分数的算法采用在所述拍子时刻(tj或在所述拍子时刻(tj之间的所确定的 和弦变化似然和所述基于第一重音的强拍似然的数值表示作为输入。
26. 根据权利要求24所述的方法,其中识别强拍使用基于判决的逻辑,该基于判决的 逻辑采用在所述拍子时刻(tj或在所述拍子时刻(tj之间的所确定的和弦变化似然和所 述基于第一重音的强拍似然的数值表示作为输入。
27. 根据权利要求24至26中的任何一项所述的方法,其中识别拍子时刻(tj包括:从 所述音频信号提取重音特征以生成重音信号,从所述重音信号来估计所述音频信号的音乐 速度以及从所述音乐速度和所述重音信号来估计所述拍子时刻(tj。
28. 根据权利要求27所述的方法,包括:借助于基于基本频率(&)的显著性分析提取 色度重音特征来生成所述重音信号。
29. 根据权利要求28所述的方法,包括:借助于所述音频信号的多速率滤波器组类型 分解,来生成所述重音信号。
30. 根据权利要求28或权利要求29所述的方法,包括:借助于基于基本频率显著性分 析提取色度重音特征结合所述音频信号的多速率滤波器组类型分解,生成所述重音信号。
31. 根据权利要求24至30中的任何一项所述的方法,其中确定和弦变化似然使用预定 义的算法,该预定义的算法采用在当前拍子时刻(tj或在当前拍子时刻(tj之间的音高色 度的值以及在之前的和/或随后拍子时刻U i)或在之前的和/或随后拍子时刻Ui)之间 的音高色度的一个或多个值作为输入。
32. 根据权利要求31所述的方法,其中所述预定义的算法采用在当前拍子时刻(h)或 在当前拍子时刻Ui)之间以及在预定数目的在前和随后拍子时刻或在预定数目的在前和 随后拍子时刻之间的音高色度的值作为输入,以使用差的和或相似性计算来生成和弦变化 似然。
33. 根据权利要求31或权利要求32所述的方法,其中所述预定义的算法采用在当前的 以及在前和/或随后的拍子时刻或在当前的以及在前和/或随后的拍子时刻之间的平均音 高色度的值作为输入。
34. 根据权利要求33所述的方法,其中所述预定义的算法被定义成:
其中X是色度或音级的数目,y是在前拍子时刻的数目以及z是随后拍子时刻的数目。
35. 根据权利要求31至34中的任何一项所述的方法,其中确定和弦变化似然借助于基 于基本频率(4)的显著性分析提取色度特征来计算所述音高色度或平均音高色度。
36. 根据权利要求24至35中的任何一项所述的方法,还包括:从在所述拍子时刻(tj 或在所述拍子时刻(tj之间的所述音频信号确定的基于第二,不同的,重音的强拍似然,以 及其中识别强拍还包括采用所述基于第二重音的强拍似然作为至所述基于分数的算法的 输入。
37. 根据权利要求36所述的方法,其中确定所述基于重音的强拍似然中的一个基于重 音的强拍似然包括:将从针对所述拍子时刻(h)或在所述拍子时刻(tj之间的所述音频信 号提取色度重音特征应用于预定义的似然算法或变换,使用基本频率(f〇)的显著性分析来 提取所述色度重音特征。
38. 根据权利要求37所述的方法,其中确定所述基于重音的强拍似然中的另一个基于 重音的强拍似然包括:将从所述音频信号的多个子带中的每个子带提取的重音特征应用于 预定义的似然算法或变换。
39. 根据权利要求37或权利要求38所述的方法,其中确定所述基于重音的强拍似然包 括:在所述拍子时刻(tj或在所述拍子时刻(tj之间将所述重音特征应用于线性判别分析 (LDA)变换,以获得各自的基于重音的数字似然。
40. 根据权利要求24至39中的任何一项所述的方法,还包括:在识别强拍之前正规化 和弦变化似然以及所述基于重音的强拍似然或每个基于重音的强拍似然的值。
41. 根据权利要求40所述的方法,其中所述正规化步骤包括:使用值的最大绝对值除 这些值中的每个值。
42. 根据权利要求24至41中的任何一项所述的方法,其中识别强拍包括:针对一组拍 子时刻中的每个时刻,生成表示或包含所述和弦变化似然值和所述基于重音的强拍似然或 每个基于重音的强拍似然的和的分数,以及从在所述一组拍子时刻上的最高的生成的似然 值来识别强拍。
43. 根据权利要求42所述的方法,其中识别强拍使用以下算法:
其中S(tn)是拍子时刻tn,tn+M,tn+2M,...,的集合,M是小节中的拍子的数目,以及WyW a 和wm分别是针对所述和弦变化概率、基于第一重音的强拍似然和基于第二重音的强拍似然 的权重。
44. 一种处理视频片段的方法,所述方法包括: 接收多个视频片段,每个视频片段具有各自的具有共同内容的音频信号; 执行根据权利要求20至35中的任何一项所述的方法以识别强拍;以及 使用所识别的强拍来识别针对所述视频片段的编辑点。
45. 根据权利要求44所述的方法,还包括:在所述编辑点处加入多个视频片段以生成 加入的视频片段。
46. 一种方法,包括: 识别音频信号中的拍子时刻(tj ; 从在所述拍子时刻(tj或在所述拍子时刻(tj之间的所述音频信号中的色度重音信 息确定至少一个和弦变化似然; 使用各自不同的算法从在所述拍子时刻(h)的所述音频信号确定各自的基于第一重 音和第二重音的强拍似然值;以及 使用在所述拍子时刻(h)或在所述拍子时刻(tj之间的和弦变化似然的数值表示和 所述基于第一重音和第二重音的强拍似然值来识别在拍子时刻(tj出现的强拍。
47. -种包括指令的计算机程序,当由计算机装置运行该指令时,该指令控制所述计算 机装置执行权利要求24至46中的任何一项所述的方法。
48. -种非短暂性的计算机可读存储介质,该非短暂性的计算机可读存储介质具有存 储在其上的计算机可读代码,当由计算装置运行该计算机可读代码时,该计算机可读代码 使得所述计算装置执行一种方法,所述方法包括: 识别音频信号中的拍子时刻(ti); 从在所述拍子时刻(ti)或在所述拍子时刻(ti)之间的所述音频信号确定至少一个和 弦变化似然; 从在所述拍子时刻(ti)或在所述拍子时刻(ti)之间的所述音频信号确定至少一个基 于第一重音的强拍似然;以及 使用在所述拍子时刻(ti)或在所述拍子时刻(ti)之间的和弦变化似然和所述基于第 一重音的强拍似然的数值表示来识别在拍子时刻(ti)出现的强拍。
49. 装置,所述装置具有至少一个处理器以及至少一个存储器,所述至少一个存储器具 有存储在其上的计算机可读代码,当运行所述计算机可读代码时,所述计算机可读代码控 制所述至少一个处理器: 识别音频信号中的拍子时刻(tj ; 从在所述拍子时刻(tj或在所述拍子时刻(tj之间的所述音频信号确定至少一个和 弦变化似然; 从在所述拍子时刻(tj或在所述拍子时刻(tj之间的所述音频信号确定至少一个基 于第一重音的强拍似然;以及 使用在所述拍子时刻(h)或在所述拍子时刻(tj之间的和弦变化似然和所述基于第 一重音的强拍似然的数值表示来识别在拍子时刻(h)出现的强拍。
【文档编号】G10H1/40GK104395953SQ201280074293
【公开日】2015年3月4日 申请日期:2012年4月30日 优先权日:2012年4月30日
【发明者】A·J·埃罗宁 申请人:诺基亚公司