信息处理装置、旋律线提取方法、低音线提取方法及程序的制作方法

文档序号:2822505阅读:242来源:国知局
专利名称:信息处理装置、旋律线提取方法、低音线提取方法及程序的制作方法
技术领域
本发明涉及信息处理装置、旋律线提取方法、低音线提取方法及程序。
背景技术
近年来,用于从任意音乐数据提取音乐数据特有的特征量(亦称为“FQ”)的技术 引起了关注。作为这里的对象的独特特征量例如包括音乐片段的轻快度、节拍、旋律部分、 低音部分、和弦的进行等。然而,直接从音乐数据中提取特征量是极难的。对于从音乐数据 提取旋律部分和低音部分的技术,JP-A-2008-209579和JP-A-2008-58755公开了从同时包 括语音和多种类型的乐器声音的音响信号中估计旋律部分或低音部分的音高(Pitch)的 技术。具体地,文献中公开的技术用于利用期望值最大化(EM)算法来估计旋律部分或低音 部分的音高。

发明内容
然而,即使使用JP-A-2008-209579和JP-A-2008-58755中公开的技术,也极难从
音乐数据准确地提取旋律线和低音线。因此,鉴于前面的问题,希望提供能够从音乐数据准 确地提取旋律线或低音线的新颖的经改进的信息处理装置、旋律线/低音线提取方法及程序。根据本发明的一个实施例,提供了一种信息处理装置,包括信号转换单元,用于 将音频信号转换为表示各个音高的信号强度的音高信号;旋律概率估计单元,用于基于音 频信号来针对每帧估计各个音高是旋律音符的概率;以及旋律线确定单元,用于基于各个 音高是旋律音符的概率,即由旋律概率估计单元针对每帧估计出的概率,来从自音频信号 的开始帧到结束帧的音高的路径中,检测最大似然路径(maximum likelihood path),并且 将最大似然路径确定为旋律线。此外,信息处理装置还可以包括中心提取单元,用于在所述音频信号为立体声信 号的情况中,从所述立体声信号提取中心信号。在这种情况中,所述信号转换单元将所述中 心提取单元提取的所述中心信号转换为所述音高信号。此外,信息处理装置还可以包括信号分类单元,用于将所述音频信号分到特定类 别中。在此情况中,所述旋律概率估计单元基于所述信号分类单元的分类结果来估计各个 音高是旋律音符的概率。此外,所述旋律线确定单元基于所述信号分类单元的分类结果来 检测所述最大似然路径。此外,信息处理装置还可以包括音高分布估计单元,用于针对所述音高信号来估 计特定时段的每个时段中作为旋律音符的音高的分布。在此情况中,所述旋律线确定单元 基于所述音高分布估计单元的估计结果来检测所述最大似然路径。此外,信息处理装置还可以包括平滑单元,用于针对每个节拍区间,对由所述旋律 线确定单元确定的旋律线的音高进行平滑。此外,所述旋律概率估计单元可以通过将旋律线以及已知其旋律线的多个音频信
4号提供到能够自动地生成用于提取任意音频信号的特征量的计算公式的计算公式生成装 置中,来生成用于提取各个音高是旋律音符的概率的计算公式,并且通过利用计算公式来 针对每帧估计出各个音高是旋律音符的概率,所述计算公式生成装置利用多个音频信号以 及每个音频信号的特征量来自动地生成计算公式。此外,信息处理装置还可以包括节拍检测单元,用于检测音频信号的每个节拍区 间;和弦概率检测单元,用于针对由所述节拍检测单元检测到的每个节拍区间,来检测每个 和弦被演奏的概率;以及基调检测单元,用于利用由所述和弦概率检测单元针对每个节拍 区间检测到的每个和弦被演奏的概率,来检测音频信号的基调。在此情况中,所述旋律线确 定单元基于由所述基调检测单元检测到的基调来检测最大似然路径。根据本发明的另一实施例,提供了一种信息处理装置,包括信号转换单元,用于 将音频信号转换为表示各个音高的信号强度的音高信号;低音概率估计单元,用于基于所 述音高信号来针对每帧估计各个音高是低音音符的概率;以及低音线确定单元,用于基于 各个音高是低音音符的概率,即由所述低音概率估计单元针对每帧估计出的概率,来从自 音频信号的开始帧到结束帧的音高的路径中,检测最大似然路径,并且将所述最大似然路 径确定为低音线。根据本发明的另一实施例,提供了一种旋律线提取方法,包括以下步骤将音频信 号转换为表示各个音高的信号强度的音高信号;基于所述音高信号来针对每帧估计各个音 高是旋律音符的概率;以及基于各个音高是旋律音符的概率,即由估计各个音高是旋律音 符的步骤针对每帧估计出的概率,来从自音频信号的开始帧到结束帧的音高的路径中,检 测最大似然路径,并且将所述最大似然路径确定为旋律线。步骤由信息处理装置来执行。根据本发明的另一实施例,提供了一种低音线提取方法,包括以下步骤将音频信 号转换为表示各个音高的信号强度的音高信号;基于所述音高信号来针对每帧估计各个音 高是低音音符的概率;以及基于各个音高是低音音符的概率,即由估计各个音高是低音音 符的概率的步骤针对每帧估计出的概率,来从自音频信号的开始帧到结束帧的音高的路径 中,检测最大似然路径,并且将所述最大似然路径确定为低音线。步骤由信息处理装置来执 行。根据本发明的另一实施例,提供了一种用于使得计算机执行以下步骤的程序将 音频信号转换为表示各个音高的信号强度的音高信号;基于所述音高信号来针对每帧估计 各个音高是旋律音符的概率;以及基于各个音高是旋律音符的概率,即由估计各个音高是 旋律音符的步骤针对每帧估计出的概率,来从自音频信号的开始帧到结束帧的音高的路径 中,检测最大似然路径,并且将所述最大似然路径确定为旋律线。根据本发明的另一实施例,提供了一种用于使得计算机执行以下步骤的程序将 音频信号转换为表示各个音高的信号强度的音高信号;基于所述音高信号来针对每帧估计 各个音高是低音音符的概率;以及基于各个音高是低音音符的概率,即由估计各个音高是 低音音符的概率的步骤针对每帧估计出的概率,来从自音频信号的开始帧到结束帧的音高 的路径中,检测最大似然路径,并且将所述最大似然路径确定为低音线。根据本发明的另一实施例,可以提供一种存储可由计算机读取的程序的记录介 质。根据上述本发明的实施例,可以准确地从音乐数据中提取旋律线或低音线。


图1是示出用于自动生成计算特征量的算法的特征量计算公式生成装置的配置 示例的说明图;图2是示出根据本发明实施例的信息处理装置(旋律线提取装置)的功能配置示 例的说明图;图3是示出根据本实施例的中心提取方法的示例的说明图;图4是示出根据本实施例的对数谱生成方法的示例的说明图;图5是示出根据本实施例由对数谱生成方法生成的对数谱的示例的说明图;图6是示出根据本实施例的音乐分类示例的说明图;图7是示出根据本实施例类别估计方法的示例的说明图;图8是示出根据本实施例执行对数谱方法的示例的说明图;图9是示出由根据本实施例的旋律线的分布估计方法估计出的旋律线的期望值 和标准偏差的示例的说明图;图10是示出根据本实施例的旋律概率估计方法的示例的说明图;图11是示出根据本实施例的旋律概率估计方法的示例的说明图;图12是示出根据本实施例的旋律概率估计方法的示例的说明图;图13是示出旋律线确定方法的示例的说明图;图14是示出旋律线确定方法的示例的说明图;图15是示出旋律线确定方法的示例的说明图;图16是示出根据本实施例用于检测供旋律线确定方法使用的节拍的节拍检测单 元的详细功能配置示例的说明图;图17是示出根据本实施例的节拍检测方法的示例的说明图
图18是示出根据本实施例的节拍检测方法的示例的说明图
图19是示出根据本实施例的节拍检测方法的示例的说明图
图20是示出根据本实施例的节拍检测方法的示例的说明图
图21是示出根据本实施例的节拍检测方法的示例的说明图
图22是示出根据本实施例的节拍检测方法的示例的说明图
图23是示出根据本实施例的节拍检测方法的示例的说明图
图24是示出根据本实施例的节拍检测方法的示例的说明图
图25是示出根据本实施例的节拍检测方法的示例的说明图
图26是示出根据本实施例的节拍检测方法的示例的说明图
图27是示出根据本实施例的节拍检测方法的示例的说明图
图28是示出根据本实施例的节拍检测方法的示例的说明图
图29是示出根据本实施例的节拍检测方法的示例的说明图
图30是示出根据本实施例的节拍检测方法的示例的说明图
图31是示出根据本实施例的节拍检测方法的示例的说明图
图32是示出根据本实施例的节拍检测方法的示例的说明图
图33是示出根据本实施例的节拍检测方法的示例的说明图
6
图34是示出根据本实施列的节拍检测方法的示例的说明图
图35是示出根据本实施列的节拍检测方法的示例的说明图
图36是示出根据本实施列的节拍检测方法的示例的说明图
图37是示出根据本实施列的节拍检测方法的示例的说明图
图38是示出根据本实施列的节拍检测方法的示例的说明图
图39是示出根据本实施列的和弦概率计算单元的详细功能配置示例的说明图40是示出根据本实施列的和弦概率计算方法的示例的说明图41是示出根据本实施列的和弦概率计算方法的示例的说明图42是示出根据本实施列的和弦概率计算方法的示例的说明图43是示出根据本实施列的和弦概率计算方法的示例的说明图44是示出根据本实施列的和弦概率计算方法的示例的说明图45是示出根据本实施列的基调检测单元的详细功能配置示例的说明图46是示出根据本实施列的基调检测方法的示例的说明图
图47是示出根据本实施列的基调检测方法的示例的说明图
图48是示出根据本实施列的基调检测方法的示例的说明图
图49是示出根据本实施列的基调检测方法的示例的说明图
图50是示出根据本实施列的基调检测方法的示例的说明图
图51是示出根据本实施列的基调检测方法的示例的说明图
图52是示出根据本实施列的基调检测方法的示例的说明图
图53是示出根据本实施列的基调检测方法的示例的说明图
图54是示出根据本实施列的基调检测方法的示例的说明图以及
图55是示出根据本实施列的信息处理装置的硬件配置示例的说明图。
具体实施例方式下面,将参考附图详细描述本发明的优选实施例。注意,在本说明书和附图中,具 有基本上相同的功能和结构的结构元件用相同的标号表示,并且省略对这些结构元件的重 复说明。在本说明书中,将以如下所示顺序进行说明。(说明项)1.基础技术1-1.特征量计算公式生成装置10的配置示例2.实施例
2--1.信息处理装置100的整体配置
2--2.中心提取单元102的配置
2--3.对数谱分析单元104的配置
2--4.类别估计单元106的配置
2--5.音高分布估计单元108的配置
2--6.旋律概率估计单元110的配置
2--7.旋律线确定单元112的配置
2-8.平滑单元114的配置2-9.节拍检测单元116和基调(key)检测单元1182-9-1.节拍检测单元116的配置2-9-2.和弦概率检测单元120的配置2-9-3.基调检测单元118的配置2-10.硬件配置示例2-11.总结<1.基础技术〉首先,在描述根据本发明实施例的技术之前,将简要描述用于实现本实施例的技 术性配置的基础技术。这里描述的基础技术涉及算法的自动生成方法,该算法以特征量形 式对任意输入数据的特征定量。例如可以将诸如音频信号的信号波形或者包括在图像中 的每种颜色的亮度数据之类的各种类型的数据用作输入数据。此外,当以音乐片段为例 时,通过采用基础技术,从音乐数据的波形自动地生成用于计算指示音乐片段的轻快度或 者节奏的特征量的算法。此外,还可以将JP-A-2008-123011中公开的学习算法(learning algorithm)用来代替下面描述的特征量计算公式生成装置10的配置示例。(1-1.特征量计算公式生成装置10的配置示例)首先,参考图1,将描述根据上述基础技术的特征量计算公式生成装置10的功能 配置。图1是示出根据上述基础技术的特征量计算公式生成装置10的配置示例的说明图。 这里描述的特征量计算公式生成装置10是用于自动生成如下算法(此后,称为计算公式) 的装置(学习算法)的示例用于利用任意输入数据以特征量的形式对输入数据的特征进
行定量。如图1所示,特征量计算公式生成装置10主要具有操作符存储单元12、提取公式 生成单元14、提取公式列表生成单元20、提取公式选择单元22以及计算公式设置单元24。 此外,特征量计算公式生成装置10包括计算公式生成单元26、特征量选择单元32、评估数 据获取单元34、教员数据获取单元36以及公式估计单元38。此外,提取公式生成单元14 包括操作符选择单元16。而且,计算公式生成单元26包括提取公式计算单元28和系数计 算单元30。此外,公式估计单元38包括计算公式评估单元40和提取公式评估单元42。首先,提取公式生成单元14通过组合存储在操作符存储单元12中的多个操作符 来生成特征量提取公式(此后,称为提取公式),该提取公式作为计算公式的基础。这里的 “操作符”是用于对输入数据的数据值执行特定操作处理的操作符。由操作符执行的操作类 型包括差分计算、最大值提取、低通滤波、无偏方差计算、快速傅里叶变换、标准偏差计算、 平均值计算等。当然,不限于上面例示出的这些类型的操作,并且可以包括可对输入数据的 数据值执行的任何类型的操作。此外,针对每个操作符设置操作类型、操作对象轴以及用于操作的参数。操作对象 轴是指定义输入数据的各个数据值的轴中作为操作处理对象的轴。例如,当以音乐数据为 例时,音乐数据在由时间轴和音高轴(频率轴)形成的空间中被给出为音量的波形。当对 音乐数据执行差分操作时,必须确定是沿着时间轴执行差分操作还是沿着频率轴执行差分 操作。因此,每个参数包括与形成了定义输入数据的空间的轴中将作为操作处理对象的轴 有关的信息。
8
此外,参数取决于操作类型而成为必要的。例如,在低通滤波的情况中,定义将通 过的数据值的范围的阈值必须被固定为参数。由于这些原因,除了操作类型外,操作对象轴 和必要参数被包括在每个操作符中。例如,将操作符表达为在指示操作对象轴的操作符的 开始处添加的 F#Differential,F#MaxIndex, T#LPF_1 ;0. 861,T#UVariance, .... F 等等。 例如,F是指频率轴,并且T是指时间轴。操作对象轴之后的由#分割的所添加的Differential (差分)等指示操作类型。 例如,Differential是指差分计算操作,MaxIndex是指最大值提取操作,LPF是指低通滤 波,并且UVariance是指无偏方差计算操作。操作类型之后的数字表示参数。例如,LPF_1 ; 0. 861表示以1至0. 861的范围作为通带的低通滤波器。这些各个操作符存储在操作符存 储单元12中,并且由提取公式生成单元14读取并使用。提取公式生成单元14首先通过操 作符选择单元16选择任意操作符,并且通过组合所选操作符来生成提取公式。例如,操作符选择单元16 选择了 F#Differential,F#MaxIndex, T#LPF_1 ; 0. 861and TiiUVariance,并且提取公式生成单元14生成表达为下面的式(1)的提取公式f。 然而,添加在开始处的12Tones表示作为处理对象的输入数据的类型。例如,当12Tones被 描述时,使通过分析输入数据的波形获得的时间音高空间中的信号数据(后面描述的对数 谱)成为操作处理对象。即,表达为下面的式(1)的提取公式指示后面描述的对数谱是处 理对象,并且对于输入数据,沿着频率轴(音高轴方向)顺序地执行差分操作和最大值提取 并且沿着时间轴顺序地执行低通滤波和无偏方差操作。[公式1]f = {12Tones, F#Differential, F#MaxIndex, T#LPF_1 ;0.861, T#UVariance} ...(1)如上所述,提取公式生成单元14生成针对操作符的各种组合的如上述式(1)所示 的提取公式。将详细描述生成方法。首先,提取公式生成单元14利用操作符选择单元16 选择操作符。此时,操作符选择单元16判断通过组合所选操作符(提取公式)对输入数据 的操作结果是特定大小或更小的标量还是特定大小或更小的矢量(是否收敛)。此外,上述判决处理是基于每个操作符中包括的操作类型和操作对象轴的类型来 执行的。当操作符的组合由操作符选择单元16选择时,针对每种组合执行判决处理。然后, 当操作符选择单元16判定操作结果收敛时,提取公式生成单元14利用由操作符选择单元 16选择的使操作结果收敛的操作符的组合,来生成提取公式。提取公式生成单元14针对提 取公式的生成处理被执行直到生成了特定数目(此后,称为所选提取公式数目)的提取公 式为止。由提取公式生成单元14生成的提取公式被输入提取公式列表生成单元20。当提取公式从提取公式生成单元14被输入提取公式列表生成单元20时,从输入 的提取公式中选择特定数目的提取公式(此后,列表中的提取公式数目 <所选提取公式数 目),并且生成提取公式列表。此时,提取公式列表生成单元20的生成处理被执行,直到生 成了特定数目的提取公式列表(此后,称为列表数目)为止。然后,由提取公式列表生成单 元20生成的提取公式列表被输入提取公式选择单元22。将描述与提取公式生成单元14和提取公式列表生成单元20的处理有关的具体示 例。首先,输入数据的类型被提取公式生成单元14确定为例如音乐数据。接下来,由操作 符选择单元16随机选择操作符OPp OP2, OP3和0P4。然后,执行与通过所选操作符的组合,对音乐数据的操作结果是否收敛有关的判决处理。当判定音乐数据的操作结果收敛时,利 用OP1至OP4的组合生成提取公式f”由提取公式生成单元14生成的提取公式被输入 提取公式列表生成单元20。此外,提取公式生成单元14重复与提取公式的生成处理相同的处理,并且生成 例如提取公式f2、f3和f4。以这种方式生成的提取公式f2、f3和f4被输入提取公式列表生 成单元20。当提取公式f2、f3和f4被输入时,提取公式列表生成单元20例如生成提取公式 列表L1 = {fi; f2,f4}和取公式列表L2 = {f1; f3,f4}。由提取公式列表生成单元20生成的 提取公式列表L1和L2被输入提取公式选择单元22。如上通过具体示例所述的,提取公式 由提取公式生成单元14生成,并且提取公式列表由提取公式列表生成单元20生成,并被输 入提取公式选择单元22。然而,虽然在上述示例中描述了所选提取公式数目为4,列表中的 提取公式数目为3并且列表数目为2的情况,然而,应当主要,实际上,会生成极大数目的提 取公式和提取公式列表。现在,当提取公式列表从提取公式列表生成单元20输入时,提取公式选择单元22 从输入的提取公式中选择将插入后面描述的计算公式中的提取公式。例如,当上述提取公 式列表L1中的提取公式和f4将被插入计算公式中时,提取公式选择单元22相对于提取 公式列表L1选择提取公式和f4。提取公式选择单元22针对每个提取公式列表执行上述 选择处理。然后,当选择处理完成时,提取公式选择单元22的选择处理结果以及各个提取 公式列表被输入计算公式设置单元24。当选择结果和各个提取公式列表从提取公式选择单元22被输入时,计算公式设 置单元24在考虑提取公式选择单元22的选择结果的情况下,来设置与各个提取公式相对 应的计算公式。例如,如下面的式(2)所示,计算公式设置单元24通过线性结合(couple) 包括在各个提取公式列表Lm = {f1;...,fK}中的提取公式fk,来设置计算公式Fm。此外,m =1,. . .,M(M为列表数目),k = 1,. . .,K(K为列表中的提取公式数目),并且Β。,. . .,Bk 为结合系数。[公式2]Fm = BdBJ1+…+BKfK. . . (2)此外,还可以将计算公式FmS置为提取公式fk(k= 1 to K)的非线性函数。然而, 由计算公式设置单元24设置的计算公式Fm的函数形式取决于由后面描述的计算公式生成 单元26所使用的结合系数估计算法。因此,计算公式设置单元24被配置为根据计算公式 生成单元26可以使用的估计算法来设置计算公式Fm的函数形式。例如,计算公式设置单 元24可以被配置为根据输入数据的类型来改变函数形式。然而,在本说明书中,为了说明 的方便,将使用表达为上述式(2)的线性结合。由计算公式设置单元24设置的计算公式的 信息被输入到计算公式生成单元26。此外,希望由计算公式计算的特征量的类型从特征量选择单元32输入计算公式 生成单元26。特征量选择单元32是用于选择希望由计算公式计算的特征量的类型的装置。 此外,与输入数据的类型相对应的评估数据从评估数据获取单元34输入计算公式生成单 元26。例如,在输入数据的类型为音乐的情况中,多段音乐数据被输入为评估数据。而且, 与各个评估数据相对应的教员数据从教员数据获取单元36输入计算公式生成单元26。这 里的教员数据是各个评估数据的特征量。具体地,针对特征量选择单元32所选类型的教员
10数据被输入计算公式生成单元26。例如,在输入数据为音乐数据并且特征量的类型为节奏 的情况中,各个评估数据的正确节奏值被输入计算公式生成单元26中作为教员数据。当评估数据、教员数据、特征量类型、计算公式等被输入时,计算公式生成单元26 首先将各个评估数据输入包括在计算公式Fm中的提取公式f1; . . .,fK中,并且通过提取公 式计算单元28获取各个提取公式的计算结果(此后称为提取公式计算结果)。当与各个 评估数据有关的各个提取公式的提取公式计算结果由提取公式计算单元28计算出时,各 个提取公式计算结果从提取公式计算单元28被输入到系数计算单元30。系数计算单元30 利用与各个评估数据相对应的教员数据以及输入的提取公式计算结果,并且计算在上述式 (2)中表达为Btl,...,Bk的结合系数。例如,可以利用最小平方方法来确定系数Btl,...,BK。 此时,系数计算单元30还计算诸如均方误差之类的评估值。针对特征量的每个类型以及针对列表的数目计算出了提取公式计算结果、结合系 数、均方误差等。由提取公式计算单元28计算出的提取公式计算结果、由系数计算单元30 计算出的结合系数以及诸如均方误差之类的评估值被输入公式估计单元38。当这些计算结 果被输入时,公式估计单元38利用输入的计算结果来计算用于判断各个计算公式的有效 性的评估值。如上所述,在确定对各个计算公式进行配置的提取公式以及对提取公式进行 配置的操作符的处理中,包括了随机选择处理。即,对于在确定处理中是否选择了最优提取 公式和最优操作符,存在不确定性。因此,由公式估计单元38执行评估,以对计算结果进行 评估并且适当地执行重计算或校正计算结果。在图1的公式估计单元38中设置了用于计算各个计算公式的评估值的计算公式 评估单元40以及用于计算各个提取公式的贡献度(contributiondegree)的提取公式评估 单元42。计算公式评估单元40例如利用称为AIC或BIC的评估方法来评估各个计算公式。 这里的AIC是赤池(Akaike)信息准则的缩写。另一方面,BIC是贝叶斯(Bayesian)信息准 则的缩写。当使用AIC时,通过利用各个计算公式的教员数据段数(此后称为教员数)以 及均方误差来计算针对各个计算公式的评估值。例如,基于由下面的式(3)表达的值(AIC) 来计算评估值。[公式3]AIC =教员数 X{log 2n + l + log(均方误差)}+2(Κ+1) …⑶根据上述式(3),随着AIC越小,计算公式的准确度就越高。因此,随着AIC越小, 针对使用AIC的情况的评估值被设为变得越大。例如,通过上述式(3)所表达的AIC的逆 数(inverse number)来计算评估值。此外,计算公式评估单元40针对特征量类型的数目 来计算评估值。因此,计算公式评估单元40针对每个计算公式的特征量类型数目来执行平 均操作,并且计算平均评估值。即,在此阶段中计算出各个计算公式的平均评估值。由计算 公式评估单元40计算出的平均评估值作为计算公式的评估结果被输入提取公式列表生成 单元20。另一方面,提取公式评估单元42基于提取公式计算结果和结合系数,来计算各个 提取公式在各个计算公式中的贡献比,作为评估值。例如,提取公式评估单元42根据下面 的式(4)来计算贡献比。提取公式&的提取公式计算结果的标准偏差是从针对各个评估 值计算出的提取公式计算结果获得的。由提取公式评估单元42根据下面的式(4)针对各个计算公式计算出的各个提取公式的贡献比被输入提取公式列表生成单元20来作为提取 公式的评估结果。[公式4]
&的贡献比
二_Bk χ StDev(评估对象的Fg )_
二 StDev( fk的计算结果)xPearSOn( fk的计算结果,评估对象FQ) ...(4)这里,StDevC ..)表示标准偏差。此外,评估对象的特征量是音乐数据的节奏等。 例如,在100个音乐片段的对数谱被给出为评估数据并且每个音乐片段的节奏被给出为教 员数据的情况中,StDev (评估对象的特征量)表示100个音乐片段的节奏的标准偏差。此 外,包括在上述式(4)中的Pearson (...)表示相关函数。例如,Pearson (fK的计算结果fK, 评估对象FQ)表示用于计算的计算结果与评估对象特征量之间的相关系数的相关函数。此 外,虽然音乐片段的节奏被表示为特征量的示例,然而,评估对象特征量不限于此。当评估结果以这种方式从公式估计单元38输入提取公式列表生成单元20时,用 于构成新的计算公式的提取公式列表被生成。首先,提取公式列表生成单元20按由计算公 式评估单元40计算出的平均评估值的降序来选择特定数目的计算公式,并且设置与所选 计算公式相对应的提取公式列表作为新的提取公式列表(选择)。此外,提取公式列表生成 单元20按由计算公式评估单元40计算出的平均评估值的降序通过加权来选择两个计算公 式,并且通过组合提取公式列表中与计算公式相对应的提取公式来生成新的提取公式列表 (交叉)。此外,提取公式列表生成单元20按由计算公式评估单元40计算出的平均评估值 的降序通过加权来选择一个计算公式,并且通过部分地改变提取公式列表中与计算公式相 对应的提取公式来生成新的提取公式列表(突变)。此外,提取公式列表生成单元20通过 随机选择提取公式来生成新的提取公式列表。在上述交叉中,提取公式的贡献比越低,就越适于将提取公式被设置得没有可能 被选择。此外,在上述的突变中,当提取公式的贡献比越低时,越倾向于提取公式易于被改 变的设置。利用以这种方式新生成的或新设置的提供公式列表,来再次执行提取公式选择 单元22、计算公式设置单元24、计算公式生成单元26和公式估计单元38的处理。重复执 行处理序列,直到公式估计单元38的评估结果中的改进程度收敛为某个程度为止。然后, 当公式估计单元38的评估结果中的改进程度收敛为某个程度时,此时的计算公式被输出 为计算结果。通过利用输出的计算公式,从与上述评估值不同的任意输入数据中高准确度 地计算出表示输入数据的目标特征的特征量。如上所述,特征量计算公式生成装置10的处理是基于如下遗传算法的,该遗传算 法用于在考虑诸如交叉或突变之类的因素的情况下,重复执行处理同时从一代前进到下一 代。通过利用遗传算法可以获得能够高准确度地估计特征量的计算公式。然而,在后面描述 的实施例中,可以使用用于通过比遗传算法简单的方法来计算出计算公式的学习算法。例 如,不用提取公式列表生成单元20执行诸如上述的选择、交叉和突变之类的处理,而是可
12以构想这样的方法,该方法通过改变将由提取公式选择单元22使用的提取公式来选出使 计算公式评估单元40的评估值最高的组合。在此情况中,可以省略提取公式评估单元42 的配置。此外,可以根据操作负荷以及所希望的评估准确度来适当地改变配置。<2.实施例〉下面,描述本发明的一个实施例。本实施例与用于自动地从以Wav数据等形式提 供的音乐数据中提取音乐片段的旋律线的技术有关。具体地,在本实施例中,提出了用于提 高旋律线的提取准确度的技术。例如,根据这种技术,能够减小将乐器的音高而非旋律错误 地检测为旋律的错误检测频率。还能够减小由于颤音等而将从原始旋律被位移了半音的音 高错误地检测为旋律的频率。此外,还能够减小将不同八音度中的音高错误地检测为旋律 的频率。还可以将这种技术应用到高准确度地从音乐数据提取低音线的技术中。(2-1.信息处理装置100的整体配置)首先,参考图2,描述根据本实施例的信息处理装置100的功能配置。图2是示出 根据本实施例的信息处理装置100的功能配置示例的说明图。此外,这里描述的信息处理 装置100用作能够从音乐数据提取旋律线的旋律线提取装置。下面,在描述了信息处理装 置100的整体配置后,将分别描述各个结构元件的详细配置。如图2所示,信息处理装置100具有中心提取单元102、对数谱分析单元104、类别 估计单元106、音高分布估计单元108以及旋律概率估计单元110。此外,信息处理装置100 具有旋律线确定单元112、平滑单元114、节拍检测单元116、基调检测单元118以及和弦概 率检测单元120。此外,特征量计算公式生成装置10被包括在图2所示的信息处理装置100中。特 征量计算公式生成装置10可以被设置在信息处理装置100内或者可以作为外部设备连接 到信息处理装置100。下面,为了方便起见,假设将特征量计算公式生成装置10内置于信息 处理装置100中。此外,信息处理装置100可以不用特征量计算公式生成装置10,而使用能 够生成针对特征量的计算公式的各种学习算法。处理的整体流程如下面所述的。首先,音乐数据被输入到中心提取单元102中。在 包括在音乐数据中的立体声分量中,仅中心分量(centrecomponent)被中心提取单元102 提取。音乐数据的中心分量被输入到对数谱分析单元104。音乐数据的中心分量被对数谱 分析单元104转换为后面将描述的对数谱。从对数谱分析单元104输出的对数谱被输入到 特征量计算公式生成装置10、旋律概率估计单元110等中。此外,对数谱还可以由除特征量 计算公式生成装置10、旋律概率估计单元110以外的结构元件使用。在此情况中,从对数谱 分析单元104直接或间接地将所希望的对数谱适当地提供给各个结构元件。例如,对数谱被输入到类别估计单元106中,并且通过利用特征量计算公式生成 装置10将与对数谱相对应的音乐片段归类为特定类别。而且,对数谱被输入音高分布估计 单元108,并且通过利用特征量计算公式生成装置10来从对数谱中粗略地估计出旋律线的 分布概率。此外,旋律概率估计单元110从输入的对数谱中估计对数谱的各个音高是旋律 线的概率。此时,由类别估计单元106估计出的音乐类别被考虑在内。由旋律概率估计单 元110估计出的旋律线的概率被输入到旋律线确定单元112中。然后,由旋律线确定单元 112来确定旋律线。平滑单元114针对每个节拍来对确定出的旋律线进行平滑,并且随后将 其输出到外面。
上面粗略地描述了与旋律线提取处理有关的流程。对于每个结构元件的处理,例 如使用了音乐片段的节拍、基调行进(key progression)等。因此,节拍由节拍检测单元 116来检测,并且基调行进由基调检测单元118检测。而且,在基调检测处理中使用的和弦 概率(后面将描述)由弦概率检测单元120来检测。下面,首先,将详细描述除节拍检测单 元116、基调检测单元118以及和弦概率检测单元120之外的结构元件,并且将详细描述主 要用于从音乐数据提取旋律线的功能。然后,将详细描述节拍检测单元116、基调检测单元 118以及和弦概率检测单元120的功能配置。(2-2.中心提取单元102的配置)首先,描述中心提取单元102。中心提取单元102是用于从输入的立体声信号中 提取位于中心周围的音频信号(此后称为中心信号)的装置。例如,中心提取单元102计 算中心信号与位于非中心部分的音频信号(此后称为非中心信号)之间的音量差,并且 根据计算结果来抑制非中心信号。这里的中心信号是指左右声道之间的电平差(level difference)和相位差较小的信号。图3示出了声音源分离单元的配置示例(中心提取方法)。参考图3,将详细描述 描述中心提取单元102的配置。如图3所示,描述中心提取单元102可以由左声道频带分 割单元122、右声道频带分割单元124、带通滤波器126、左声道频带合成单元128以及右声 道频带合成单元130构成。首先,输入到中心提取单元102的立体声信号的左声道信号、被输入左声道频带 分割单元122。左声道的非中心信号L和中心信号C以混合的形式出现在左声道信号、中。 此外,左声道信号&是随着时间改变的音量级信号。因此,左声道频带分割单元122对输 入的左声道信号&执行DFT处理,并且将其从时域信号转换为频域信号(此后,称为多频 带信号4(0),. . .,fL (N-D)0这里,fL(K)是与第k(k = 0,. . .,N-1)个频带相对应的子频 带信号。此外,上述DFT是离散傅里叶变换的缩写。从左声道频带分割单元122输出的左 声道多频带信号被输入到带通滤波器126中。以类似的方式,输入到中心提取单元102的立体声信号的右声道信号sK被输入右 声道频带分割单元124。右声道的非中心信号R和中心信号C以混合的形式出现在右声道 信号sK中。此外,右声道信号sK是随着时间改变的音量级信号。因此,右声道频带分割单 元124对输入的右声道信号sK执行DFT处理,并且将其从时域信号转换为频域信号(此后, 称为多频带信号fK(0),. . .,fE(N-D)0这里,fK(k’ )是与第k’(k = 0,. . .,N-1)个频带 相对应的子频带信号。从右声道频带分割单元124输出的右声道多频带信号被输入到带通 滤波器126中。此外,每个声道的多频带信号被分割的频带数目为N(例如,N = 8192)。如上所述,各个声道的多频带信号fL(k) (k = 0,. . .,N-1)和fK(k,)(k,= 0,..., N-1)被输入带通滤波器126中。下面,按诸如k = 0,. . .,N-I或k’ = 0,. . .,N-I的升序 来对频率进行标注。此外,将各个信号分量fjk)和fK(k’)称为子声道信号。首先,在带通 滤波器126中,从两个声道的多频带信号中选出同一频带中的子声道信号fV(k)和fK(k’), 并且计算子声道信号之间的类似度a(k)。例如根据下面的式(5)和(6)来计算类似度 a(k)。这里,幅度分量和相位分量被包括在子声道信号中。因此,将幅度分量的类似度表达 为ap (k),并且将相位分量的类似度表达为ai (k)。[公式5]
ai(k)=
COS^
=Re[fR(k)fL(k)*: |fR(k) ||fL(k)|
5
ap(k)=
jfR(k)丨 |fL(k)|
IAM |fR(k)|
|fR(k) |<|fL(k)|
|fR(k) |>|fL(k)| 这里,I... I表示“...”的范数。θ表示
(O彡I θ I彡JI)。上标*表示复共轭。Re[...]表示“. 楚的,在子声道信号f^(k)与fK(k)的范数一致的情况中, 之,在子声道信号fjk)与fK(k)的范数不一致的情况中 一方面,对于相位分量的类似度ai(k),当θ相位差为O 差为^!/^时,类似度^仏)为O ;并且当θ相位差为π 声道信号fjk) %fE(k)的相位一致的情况中,类似度ai 与fK(k)的相位不一致的情况中,类似度ai(k)取小于1
...(6)
fL(k)与fE(k)之间的相位差 .· ”的实部。如从上述式(6)可清 幅度分量的类似度ap(k)为1。反 ,类似度ap(k)取小于1的值。另 时,类似度ai(k)为1 ;当θ相位 时,类似度ai(k)为-1。即,在子 (k)为1,并且在子声道信号fL(k) 的值。当通过上述方法计算出每个频带k(k = 0,. . .,N-1)的类似度a(k)时,带通滤波 器126提取出与ap (q)相对应的频带q以及小于特定阈值的ai (q) (ο ^ q ^ N_l)。然后,仅 位于由带通滤波器126提取出的频带q中的子声道信号被输入左声道频带合成单元128或 右声道频带合成单元130。例如,子声道信号fjq) (q = q0,. . .,Qn^1)被输入左声道频带合 成单元128。因此,左声道频带合成单元128对从带通滤波器126输入的子声道信号
(q =如,...,q」执行IDFT处理,并且将其从频域转换为时域。此外,上述IDFT是逆离散 傅里叶变换的缩写。以类似的方式,子声道信号fK(q) (q = qQ,. . .,Qn^1)被输入右声道频带合成单元 130。因此,右声道频带合成单元130对从带通滤波器126输入的子声道信号fK(q) (q = qQ,. . .,qn-i)执行IDFT处理,并且将其从频域转换为时域。从左声道频带合成单元128输 出包括在左声道信号、中的中心信号分量、,。另一方面,从右声道频带合成单元130输出 包括在右声道信号sK中的中心信号分量sK,。中心提取单元102通过上述方法从立体声信 号中提取中心信号。然后,由中心提取单元102提取出的中心信号被输入到对数谱分析单 元104中(参考图2)。(2-3.对数谱分析单元104的配置)接下来,将描述对数谱分析单元104。对数谱分析单元104是用于将输入音频信号 转换为各个音高的强度分布的装置。每八音度的音频信号中包括12个音高(C,C#, D,D#, E,F,F#,G,G#,A,A#,B)。此外,每个音高的中心频率成对数分布。例如,当以音高A3的中 心频率fA3作为标准时,将A#3的中心频率表达为fA#3 = fA3*2"12。类似地,将音高B3的中心
频率 fB3 表达为 fB3 = fAfl3*21/12c
以这种方式,相邻音高的中心频率之比为1 21Λ2。然而,当处理音频信号时,将音频信号作为时间频率空间中的信号强度分布将使频率轴作为对数 轴,从而,使得对音频信号的处理变得复杂。因此,对数谱分析单元104分析音频信号,并且 将其从时间频率空间中的信号转换为时间音高空间中的信号(此后称为对数谱)。图4示出了对数谱分析单元104的配置示例。参考图4,将详细描述对数谱分析单 元104的配置。如图4所示,对数谱分析单元104可以由重采样单元132、八音度分割单元 134和多个带通滤波器组(BPFB) 136。首先,音频信号被输入到重采样单元132中。然后,重采样单元132将输入音频信 号的采样频率(例如,44. IkHz)转换为特定采样频率。将通过以八音度之间的边界处的频 率作为标准并且将边界频率乘以二的幂所获得的频率作为特定采样频率。例如,音频信号 的采样频率取八音度4和八音度5之间的边界频率1016. 7Hz作为标准,并且被转换为标准 的25倍的采样频率(32534.7Hz)。通过以这种方式来转换采样频率,作为随后由重采样单 元132执行的频带分割处理和下采样(down sampling)处理的结果而获得的最高和最低频 率将与某个八音度的最高和最低频率一致。结果,可以简化从音频信号提取针对每个音高 的信号的处理。由重采样单元132对其采样频率进行了转换的音频信号被输入八音度分割单 元134。然后,八音度分割单元134通过重复地执行频带分割处理和下采样处理来将输入 的音频信号分割为针对各个八音度的信号。通过八音度分割单元134的分割而获得的每 个信号被输入到为各个八音度(01,...,08)的设置的带通滤波器组136 (BPFB(Ol) BPFB(OS))中。每个带通滤波器组136由12个带通滤波器构成,每个带通滤波器具有针对 12个音高之一的通频带,以便从针对各个八音度的输入音频信号中提取出针对每个音高的 信号。例如,在通过八音度8的带通滤波器组136 (BPFB(OS))后,从八音度8的音频信号中 提取出 了针对 12 个音高(C8, C#8, D8, D#8, E8, F8, F#8, G8, G#8, A8, A#8, B)的信号。示出了每个八音度中的12个音高的信号强度(此后称为能量)的对数谱可以通 过从各个带通滤波器组136输出的信号来获得。图5是示出从对数谱分析单元104输出的 对数谱的示例的说明图。参考图5的纵轴(音高),输入音频信号被分割为7个八音度,并且每个八音度进 一步被分割为 12 个音高:"C, ” “C#,” ‘‘D,” ‘‘D#,” ‘ ,” “F,” “F#,” “G,” “G#,” “A,” “A#,” 和“B”。另一方面,图5的横轴(时间)示出了沿着时间轴采样音频信号时的帧数目。 例如,当重采样单元132以127. 0888 (Hz)的采样频率对音频信号重采样时,1帧将为 1 (sec)/127. 0888 = 7. 8686 (msec)所对应的时间段。此外,图5所示的对数谱的颜色浓度 表示各帧处的各音高的能量强度。例如,位置Sl以暗色示出,因此,可以理解为,位置Sl所 对应的音高处的音符(note)是在位置Sl所对应的时间处强烈地产生的。此外,图5是在 将某个音频信号作为输入信号时所获得的对数谱的示例。因此,如果输入信号不同,则获得 不同的对数谱。以这种方式获得的对数谱被输入类别估计单元106 (参考图2)。(2-4.类别估计单元106的配置)接下来,描述类别估计单元106。类别估计单元106是用于在音乐片段信号被输入 时估计输入信号所属的类别的装置。如后面所述的,通过将各个输入信号所属的音乐类别 考虑在内,可以提高后面执行的旋律线检测处理中的检测准确度。如图6所示,音乐片段例 如被分为“古典片段”、“男声乐、高声背景(BG) ”、“男声乐、柔和背景(BG) ”、“女声乐、高声
16背景(BG) ”等类。例如,“古典片段”具有如下特征由于记录时的记录设备和声音设施的 技术水平与当前的技术水平不同,因此,音质较差或者背景中的音量比例较小。对于其它类 别,针对各个类别存在如图6所示的特征。因此,输入信号基于各个音乐片段的特征而被分 类。此外,音乐类别不限于图6所示的那些类别。例如,还可以基于语音质量等来使用更精 细的类别。类别估计单元106执行如图7所示的处理以估计音乐类别。首先,类别估计单元 106具有多个音频信号(音乐片段1,...,音乐片段4),供用作被对数谱分析单元104转换 为对数谱的评估数据。然后,类别估计单元106将多个音频信号(音乐片段1,...,音乐片 段4)的对数谱作为评估数据输入到特征量计算公式生成装置10中。此外,将用作评估值 的每个音频信号(音乐片段1,...,音乐片段4)的类别给出为如图7所示的类别值(0或 1)。类别值0表示不相符(non-correspondence),并且类别值1表示相符。例如,音频信 号(音乐片段1)不符合类别“古典片段”和“男声乐,柔和BG”,而符合“男声乐,高声BG”。 类别估计单元106生成用于计算类别值的估计算法(计算公式),如利用特征量计算公式生 成装置10所述的。因此,类别估计单元106在将多个音频信号(音乐片段1,...,音乐片段4)的对 数谱输入作为评估值的同时,将各个类别的类别值作为教员数据输入到特征量计算公式生 成装置10中。因此,音频信号(音乐片段1,...,音乐片段4)的对数谱作为评估值并且各 个类别的类别值作为教员数据被输入到特征量计算公式生成装置10中。此外,将一个音乐 片段的对数谱用作与各个音频信号相对应的评估数据。当如所述的评估数据和教员数据被 输入时,特征量计算公式生成装置10针对各个类别生成计算公式GA,该公式用于从任意音 频信号的对数谱中计算出各个类别的类别值。此时,特征量计算公式生成装置10同时输出 由作为最终输出的每个计算公式GA输出的评估值(概率)。当由特征量计算公式生成装置10生成各个类别的计算公式GA时,类别估计单元 106使实际上希望被分类的音乐片段的音频信号(此后称为处理过的片段)被对数谱分析 单元104转换为对数谱。然后,类别估计单元106将处理过的片段的对数谱输入到由特征 量计算公式生成装置10生成的各个类别的计算公式GA中,并且计算处理过的片段的各个 类别的类别值。当计算出了各个类别的类别值后,类别估计单元106将处理过的片段归类 为具有最高类别值的类别。类别估计单元106还可以被配置为在分类时,将每个计算公式 计算出的概率考虑在内。在此情况中,类别估计单元106利用由各个类别所对应的计算公 式计算出的类别值以及计算公式计算出的概率,来计算与各个类别相对应的处理过的片段 的概率(此后,称为相符概率)。然后,类别估计单元106将处理过的片段指派到相符概率 最高的类别中。结果,获得了图7所示的分类结果。以这种方式获得的分类结果被输入到 音高分布估计单元108、旋律概率估计单元110和旋律线确定单元112中(参考图2)。(2-5.音高分布估计单元108的配置示例)接下来,参考图8和9描述音高分布估计单元108的配置。音高分布估计单元108 是用于自动估计旋律线的分布的装置。用针对随着时间改变的旋律线的各个区段计算出的 期望值以及针对整个音乐片段计算出的标准偏差来表示旋律线的分布。为了估计如根据对 数谱所描述的旋律线的分布,音高分布估计单元108利用特征量计算公式生成装置10生成 用于计算每个区段中的旋律线的期望值的计算公式。
首先,与类别估计单元106—样,音高分布估计单元108将多个音频信号的对数谱 作为评估值输入到特征量计算公式生成装置10中。此外,音高分布估计单元108切出每个 区段中的每个音频信号的正确旋律线作为教员数据(参考图8),并将其输入到特征量计算 公式生成装置10中。当以这种方式输入评估值和教员数据后,从特征量计算公式生成装置 10中输出用于计算每个区段中的旋律线的期望值的计算公式。此外,类别估计单元106相 对于用作评估数据的每个音频信号的对数谱,来计算由计算公式计算出的输出值与用作教 员数据的正确旋律线之间的误差。此外,类别估计单元106通过利用正态分布来近似所获 得的误差,从而计算出标准偏差。将由期望值以及音高分布估计单元108计算出的旋律线 的标准偏差所定义的范围例如表达为图9所示的曲线图。以这种方式,音高分布估计单元108利用特征量计算公式生成装置10生成用于从 对数谱的区段(时间段)估计出该区段中的旋律线的计算公式,并且利用该计算公式估计 旋律线的分布。此时,音高分布估计单元108生成针对类别估计单元106所估计出的每个 音乐类别的计算公式。然后,音高分布估计单元108在逐渐移动时间的同时,从对数谱中切 出时间段,并且将切出的对数谱输入到计算公式中,并且计算期望值和旋律线的标准偏差。 结果,针对对数谱的每个区段计算出了旋律线的估计值。以这种方式由音高分布估计单元 108计算出的旋律线的估计值被输入到旋律线确定单元112中(参考图2)。(2-6.旋律概率估计单元110的配置示例)接下来,参考图10至12,描述旋律概率估计单元110的配置。旋律概率估计单元 110是用于将从对数谱分析单元104输出的对数谱转换为旋律概率的装置。例如,旋律概率 估计单元110将图10(A)所示的对数谱转换为图10(B)所示的旋律概率分布。即,旋律概 率估计单元110计算基于对数谱的时间音高空间中的每个坐标位置处的旋律概率。这里的 旋律概率是指旋律线所对应的每个坐标位置处的对数谱的值的概率。首先,旋律概率估计 单元110利用预先知道了其正确旋律线的音乐数据的对数谱来执行logistic回归,以估计 出各个坐标位置处的旋律概率。通过该logistic回归来获得用于从对数谱计算出旋律线 的函数f。然后,旋律概率估计单元110利用所获得函数来计算如图10(B)所示的旋律概率 分布。这里,参考图11和12分别详细描述旋律概率估计单元110的上述函数f的生成 方法以及使用函数f的旋律概率计算方法。首先,如图11所示,在定义了对数谱的值的时 间音高空间中,旋律概率估计单元110取将估计其旋律概率的坐标位置作为基准点,并且 选择具有特定大小的范围(此后称为基准范围)。例如,旋律概率估计单元110以各个估 计位置为基准点,选择在音高轴方向上具有-12至+36个半音并且在时间轴方向上具有_2 至+2帧的基准范围。图11示意性地示出了由旋律概率估计单元110选出的基准范围的示 例。在此示例中,以黑色绘制的坐标位置是估计位置,而估计位置周围的阴影部分为基准范 围。当以这种方式选出针对每个估计位置的基准范围时,旋律概率估计单元110计算 与所选基准范围中的每个坐标位置相对应的对数谱值的对数值(能量)。此外,旋律概率估 计单元110以如下方式来归一化各个坐标位置的对数值针对基准范围内的各个坐标位置 计算出的对数值的平均值变为0。归一化后的对数值x(在图11的示例中,X= (X1,
x245) ;49个音高X5帧)被用于对旋律概率进行估计的函数f(x)的生成处理。利用预先给
18出了其正确旋律线的多段音乐数据(此后称为用于学习的音乐数据)来执行函数f(x)的 生成处理。首先,旋律概率估计单元110使用用于学习的音乐数据的对数谱,并且针对每个 估计位置计算归一化后的对数值x(此后,称为归一化对数值X)。此外,旋律概率估计单元 110判断正确的旋律线是否包括在各个基准范围中。下面,在正确的旋律线包括在基准范 围的情况中,将判决结构表达为真(true);并且在正确的旋律线未包括在基准范围的情况 中,将判决结构表达为假(false)。当获得了归一化对数值χ和判决结果后,旋律概率估计单元110使用这些结果并 生成“供输出的函数f (X),其中,归一化对数值X被输入,针对与归一化对数值X相对应的 基准范围判决结果的概率为真”。旋律概率估计单元110例如可以利用logistic回归来生 成函数f(x)。logistic回归是用于通过回归分析来计算结合系数的方法,假设可以通过输 入变量的线性结合来表达判决结果为真或假的概率的分对数(Iogit)。例如,当将输入变 量表达为χ = (X1, . . · , xn)时,判决结果为真的概率为P (True),并且结合系数为 ^,..., βη,logistic回归模式表达为下面的式(7)。当对下面的式(7)进行修改后,获得了下面 的式(8),并且获得了用于根据输入变量χ计算判决结果为真的概率P (True)的函数f(x)。[公式6]
-I-P(Tme)J…(7)f (x) = P(True)
__1_=l + exp[-(^0+Ax1+- + ^nXn)]…⑴旋律概率估计单元110向上面的式(7)输入从用于学习的音乐数据获得的针 对每个基准范围的判决结果以及归一化的对数值χ = (x17 ...,x245),并且计算结合系数 βο,...,β 245。利用以这种方式确定的结合系数β ο,...,β 245,获得了用于从归一化对数 值X计算判决结果为真的概率P (True)的函数f(x)。由于函数f(x)是在0.0至1.0的范 围中定义的概率并且同一时间处的正确旋律线的音高数目为1,因此,以同一时间的合计值 变为1的方式来使函数f(x)归一化。而且,优选地,针对每个音乐类别生成函数f(x)。因 此,旋律概率估计单元110利用针对各个类别给出的用于学习的音乐数据,来计算针对每 个类别的函数f(x)。当通过这种方法生成了针对每个类别的函数f(x)后,当处理过的片段数据的对 数谱被输入时,旋律概率估计单元110选择将针对处理过的片段数据的从类别估计单元 106输入的类别考虑在内的函数f(x)。例如,在处理过的片段被归类为“古典片段”的情况 中,选择用于针对“古典片段”进行学习的从音乐数据获得的函数f (χ)。然后,旋律概率估 计单元110在将处理过的片段数据的对数谱值转换为归一化对数值χ之后,通过所选函数 f(x)来计算旋律概率。当由旋律概率估计单元110计算出了时间音高空间中的每个坐标位 置的旋律概率时,就获得了如图10(B)所示的旋律概率分布。以这种方式获得的旋律概率 分布被输入到旋律线确定单元112 (参考图2)。(函数f(χ)生成处理的流程)
这里,参考图12,简要描述旋律概率估计单元110的函数f (χ)生成方法的处理流程。如图12所示,首先,旋律概率估计单元110针对时间轴方向开始循环处理(S102)。 此时,表示时间轴方向上的估计位置的时间t(帧编号t)被设置。然后,旋律概率估计单 元110开始针对音高轴方向的循环处理(S104)。此时,表示音高轴方向上的估计位置的 音高ο被设置。然后,旋律概率估计单元110获取在步骤S102和S104中设置的时间t 和音高O所表示的估计位置的基准范围的归一化对数值X(Sioe)。例如,估计位置(t,ο) 的周围(t-2至t+2,0-12至0+36)被选作基准范围,并且归一化对数值X = {x(t+At, ο+Δο) ;-2 ^ At^ 2,-12彡ο彡36}被计算出来。接下来,旋律概率估计单元110利用 通过使用用于学习的音乐数据的学习处理预先获得的函数f(x),来计算时间t和音高ο处 的旋律概率(S108)。由时间t和音高ο指示的估计位置的旋律概率由步骤S106和S108估计出。现 在,旋律概率估计单元110返回步骤S104的步骤(SllO),并且将估计位置的音高O递增1 个半音并重复步骤S106和S108的处理。旋律概率估计单元110通过每次使估计位置的音 高ο递增1个半音来针对特定音高范围(例如,ο = 12至72)执行步骤S106和S108的处 理。针对特定音高范围执行了步骤S106和S108的处理之后,旋律概率估计单元110前进 到步骤Sl 12的处理。在步骤S112,旋律概率估计单元110在时间t处归一化旋律概率,以使得旋律概率 的和变为1(S112)。S卩,相对于步骤S102中设置的估计位置的时间t,在步骤S112中以使 针对特定音高范围计算出的旋律概率的和变为1的方式来归一化每个音高ο的旋律概率。 然后,旋律概率估计单元110返回步骤S102的处理(S114),并且在使估计位置的时间t递 增1帧后重复步骤S104至S112的处理。旋律概率估计单元110通过每次使估计位置的时 间t递增1帧来针对特定时间范围(例如,t = 1至T)执行步骤S104至S112的处理。当 针对特定时间范围执行了步骤S104至S112的处理之后,旋律概率估计单元110结束旋律 概率的估计处理。(2-7.旋律线确定单元112的配置示例)接下来,参考图13至15,描述旋律线确定单元112的配置。图13示出旋律概率分 布。旋律线确定单元112是用于基于由旋律概率估计单元110估计出的旋律概率以及由音 高分布估计单元108估计出的期望值、标准偏差等来确定可能的旋律线的装置。为了确定 可能的旋律线,旋律线确定单元112在时间音高空间中执行搜索具有最高旋律概率的路径 的处理。针对要执行的路径搜索,使用了下面示出的概率Ρ(Δο)和P(IltIrvi)以及音高分 布估计单元108计算出的P(o|Wt)。如已经描述过的,概率P(o|Wt)是在某个时间t处的音 高ο处的旋律的概率。首先,旋律线确定单元112计算改变量为△ ο的音高转变在每个音乐数据的正确 旋律线处的出现率。当计算出了多段音乐数据的每个音高转变Δο的出现率之后,旋律线 确定单元112针对每个音高转变△ O,计算所有段音乐数据的出现率的平均值和标准偏差。 然后,通过利用以上述方式计算出的与每个音高转变△ ο有关的出现率的平均值和标准偏 差,旋律线确定单元112通过具有平均值和标准偏差的高斯分布来近似概率P(A0)o接下来,对概率ρ (IitIrv1)进行说明。概率Ρ(η>Η)表示反映了从音高IV1转变
20为音高nt时的转变方向的概率。音高nt取如下值中的任一个Cdown,Cftdown,. . . , Bdown, Cup,C#up,···,Bup。这里,“down”是指音高向下,并且“up”是指音高向上。另一方面,Iv1 不将音高的向上和向下考虑在内,并且取值C,C#,...,B中的任一个。例如,概率p(Dup|C) 表示音高C上升为音高D的概率。通过将实际基调(例如D)转移为特定基调(例如C)来 使用概率P (nt I Iv1)。例如,在当前基调为D并且特定基调为C的情况中,针对F# — Adown 的转变概率参照了概率P (Gdown IE),这是因为因基调的转移而使F#变为E并且A变为G。同样,对于概率ρ (nt I Iv1),如在概率ρ ( Δ 0)的情况中一样,旋律线确定单元112 计算每个音高转变Iv1 — nt在每个音乐数据的正确旋律线中的出现率。在针对多段音乐数 据计算出了每个音高转变IV1 — nt的出现率之后,旋律线确定单元112针对每个音高转变 IV1 — nt,来计算针对所有段音乐数据的出现率的平均值和标准偏差。然后,通过利用以上 述方式计算出的与每个音高转变IV1 — nt有关的出现率的平均值和标准偏差,旋律线确定 单元112通过具有平均值和标准偏差的高斯分布来近似概率ρ (IitIrv1)。图14概念性地示出了这些概率。在图14的示例中,旋律线的当前音高为C4。在 时间、处的旋律线的音高转变情况中,参考了概率ρ(Δ0)和P(IltIrvi)tj例如,在从音高 C4到音高D4的转变的情况中,音高之差为+2半音。而且,在图14的示例中,转变是去往同 一八音度中的较高音高的。因此,参考了概率Ρ(Δο = +2)和概率p(Dup|C)。另一方面,在 从音高C4到音高G3的转变情况中,音高之差为-5半音。而且,在图14的示例中,转变是 去往较低八音度中的较低音高的。因此,参考了概率Ρ(Δο = -2)和概率ρ (Gdown I C)。类 似地,在旋律在时间、时转变到音高D4然后在时间t2时到音高G3的情况中,参考了概率 P ( Δ ο = -7)和概率ρ (Gdown ID)。此外,作为音高C4、D4和G3的每个的概率,参考了概率 P(o|Wt)。旋律线是通过利用以上述方式获得的概率P(o|Wt),ρ(Δ0)和P(IltIrvi)来确定 的。然而,为了使用概率P (nt ι IV1),要对其旋律线进行估计的音乐数据的基调成为必要。因 此,旋律线确定单元112利用基调检测单元118来检测音乐数据的基调。后面将描述基调 检测单元118的配置。这里,在假设已经给出音乐数据的基调的情况下,来描述旋律线的确 定方法。旋律线确定单元112利用维特比搜索(Viterbi serch)来确定旋律线。Viterbi搜 索本身是基于隐式马可夫模型的公知路径搜索方法。除概率P(o|Wt),ρ(Δ0)和ρ (IltIrvi) 外,旋律线确定单元112还将由旋律概率估计单元110针对每个估计位置估计出的旋律概 率用于维特比搜索。下面,将时间t和音高ο处的旋律概率表达为ρ (Mt| o,t)。利用这些概 率,将某个时间t处的音高ο为旋律的概率P (o,t)表达为下面的式(9)。将从音高ο转变 为同一音高ο的概率P(t+At,o|t, ο)表达为下面的式(10)。此外,将从音高0转变为不 同音高ο+Δ ο的概率P(t+At,o+A0|t,ο)表达为下面的式(11)。[公式7]P (o, t) = ρ (Mt I ο, t) P (ο I Wt). . . (9)P(o, t+At|o, t) = (I-EP(HtIn^1))P(A0) . . . (10)P (ο+ Δ ο, t+ Δ 11 ο, t) = ρ (nt | η^) ρ ( Δ ο)…(11)当利用这些表达式时,从节点 (时间、,音高O27)转移到节点(时间t2,音高O26) 的情况的概率 P(q1; Q2)表达为 P(q” q2) = ρ (nt21 ntl) ρ ( Δ ο = -1) ρ (Ml | O27,、) ρ (O271 Wtl)。如上那样表达的概率在音乐片段中为最大的路径被提取为可能的旋律线。这里,将每条 维特比路径的概率的对数值作为路径搜索的基准。例如,诸如log (P (nt21 ntl)) +log (ρ ( Δ ο ="I)) +log (ρ (Ml I o27, tl)) +log (p (O271 Wtl))之类的对数值之和将用于 log (P) (Ql, q2))。此外,旋律线确定单元112可以被配置为将通过对各种类型的概率执行加权获得 的相加的经加权对数值作为维特比搜索的基准,而不是简单地将对数值之和用作基准。例 如,旋律线确定单元112将通过节点的log(p(Mt|o,t),Mlog(P(C)Iwt))以及通过节点之 间的转变的I^log(PntIrv1) *b3*log(p(A0))相加之和,用作维特比搜索的基准。这里, bl、b2和b3是给予每种类型的概率的权重参数。即,旋律线确定单元112计算遍及音乐片 段的上述相加的经加权对数值,并且提取相加后的对数值最大的路径。由旋律线确定单元 112提取的路径被确定为旋律线。此外,优选地,用于维特比搜索的概率和权重参数根据类别估计单元106估计出 的音乐类别而不同。例如,对于针对被归类为“古典片段”的音乐片段的旋律线的维特比 搜索,最好使用从预先给出了正确旋律线的大量“古典片段”中获得的概率以及针对“古典 片段”调谐过的参数。由旋律线确定单元112以这种方式确定的旋律线被输入平滑单元 114(参考图2)。(2-8.平滑单元114的配置示例)接下来,描述平滑单元114的配置。平滑单元114是用于针对由音乐片段的节拍 所确定的每个区段来对由旋律线确定单元112确定的旋律线进行平滑的装置。音乐数据的 节拍是由节拍检测单元116检测到的。将在后面描述节拍检测单元116的配置。例如,当 由节拍检测单元116检测到节拍时,平滑单元114针对每个八音度音符的旋律线执行投票, 并且取最频繁出现的音高作为旋律线。节拍区段可以包括多个音高作为旋律线。因此,平 滑单元114在每个节拍区段中检测被确定为旋律线的音高的出现频率,并且通过最频繁出 现的音高来平滑每个节拍区段的音高。以这种方式针对每个节拍区段平滑过的音高作为旋 律线被输出到外面。(2-9.节拍检测单元116和基调检测单元118的配置示例)下面描述尚未描述的节拍检测单元116和基调检测单元118的配置。这里,还将 描述用于计算在基调检测单元118的基调检测处理中使用的和弦概率的和弦概率检测单 元120的配置示例。如后面所述的,和弦概率检测单元120的处理结果是基调检测单元118 的处理所需要的。而且,节拍检测单元116的处理结果是和弦概率检测单元120的处理所 需要的。因此,将以节拍检测单元116、和弦概率检测单元120和基调检测单元118的顺序 来进行描述。(2-9-1.节拍检测单元116的配置示例)首先,描述节拍检测单元116的配置。如上所述,节拍检测单元116的处理结果被 用于和弦概率检测单元120的处理以及检测将由平滑单元114使用的音乐片段的节拍的处 理。如图16所示,节拍检测单元116由节拍概率计算单元142和节拍分析单元144构成。 节拍概率计算单元142是用于基于音乐数据的对数谱计算每帧作为节拍位置的概率的装 置。而且,节拍分析单元144是用于基于由节拍概率计算单元142计算出的每帧的节拍概 率来检测节拍位置的装置。下面,将详细描述这些结构元件的功能。首先,将描述节拍概率计算单元142。节拍概率计算单元142针对从对数谱分析单元104输入的对数谱的特定时间单元(例如,1帧)的每个,来计算节拍包括在时间单位中 的概率(此后称为“节拍概率”)。此外,当特定时间单元为1帧时,可以认为节拍概率是每 帧与节拍位置(节拍在时间轴上的位置)相符的概率。由节拍概率计算单元142用来计算 节拍概率的公式是通过特征量计算公式生成装置10使用学习算法而生成的。而且,诸如图 17所示的那些数据之类的数据被给予特征量计算公式生成装置10作为供学习的教员数据 和评估数据。在图17中,用于计算节拍概率的时间单位为1帧。如图17所示,从节拍位置已知的音乐片段的音频信号转换来的对数谱的片段(此 后称为“部分对数谱”)以及各个部分对数谱的节拍概率被提供给特征量计算公式生成装置 10。即,部分对数谱被提供给特征量计算公式生成装置10作为评估数据,并且节拍概率作 为教员数据。这里,在将节拍概率的计算准确度与处理成本之间的折中考虑在内的情况下, 来确定部分对数谱的窗宽度。例如,部分对数谱的窗宽度可以包括将计算其节拍概率的帧 之前和之后的7帧(S卩,总计15帧)。此外,被提供作为教员数据的节拍概率例如基于已知的节拍位置并且利用真值 (1)和假值(0)来指示节拍是否包括在每个部分对数谱的中心帧中。这里,未考虑节线 (bar)的位置,并且当中心帧对应于节拍位置时,节拍概率为1 ;并且当中心帧与节拍位置 不相对应时,节拍概率为0。在图17所示示例中,部分对数谱彻,113,1(3,...的节拍概率分 布给出为1,0,1,...,O0用于从部分对数谱计算节拍概率的节拍概率公式P(W)是由特征 量计算公式生成装置10基于多组评估数据和教员数据生成的。当以这种方式生成节拍概 率公式P (W)时,节拍概率计算单元142从处理过的音乐数据的对数谱中切出针对每帧的部 分对数谱,并且通过将节拍概率公式P (W)应用到各个部分对数谱来顺序地计算节拍概率。图18是示出由节拍概率计算单元142计算出的节拍概率的示例的说明图。图 18(A)示出了将从对数谱分析单元104输入到节拍概率计算单元142中的对数谱的示例。 另一方面,在图18 (B)中,用时间轴上的多边形线示出了节拍概率计算单元142基于对数谱 (A)计算出的节拍概率。例如,参考帧位置F1,可见,部分对数谱Wl对应于帧位置F1。艮口, 帧Fl的节拍概率P(Wl) =0.95是根据对数谱Wl计算出来的。类似地,基于从对数谱切出 的部分对数谱W2将帧位置F2的节拍概率P (W2)计算为0. 1。帧位置Fl的节拍概率P (Wl) 较高而帧位置F2的节拍概率P (W2)较低,因此,可以说帧位置Fl与节拍位置相对应的概率 较高,而帧位置F2与节拍位置相对应的概率较低。此外,可以通过另一学习算法来生成由节拍概率计算单元142使用的节拍概率 公式。然而,应当注意,通常,对数谱包括多种参数,例如鼓声的频谱、因说话引起的频谱, 以及因和弦的改变引起的频谱的改变。在鼓声频谱的情况中,很有可能击鼓的时间点为 节拍位置。另一方面,在语音频谱的情况中,很有可能发声的开始时间点为节拍位置。为 了总地利用多种参数来高准确度地计算节拍概率,使用特征量计算公式生成装置10或者 JP-A-2008-123011中公开的学习算法是合适的。由节拍概率计算单元142以上述方式计算 出的节拍概率被输入节拍分析单元144。节拍分析单元144基于从节拍概率计算单元142输入的各帧的节拍概率来确定节 拍位置。如图16所示,节拍分析单元144包括突起(onset)检测单元152、节拍得分计算单 元154、节拍搜索单元156、恒定节奏判定单元158、针对恒定节奏的节拍重搜索单元160、节 拍确定单元162以及节奏修订单元164。各帧的节拍概率从节拍概率计算单元142输入突
23起检测单元152、节拍得分计算单元154和节奏修订单元164。突起检测单元152基于从节拍概率计算单元142输入的节拍概率来检测包括在音 频信号中的突起。这里的突起是指音频信号中产生声音的时间点。更具体地,节拍概率高 于特定阈值并且取最大值的点称为突起。例如,在图19中,示出了基于针对音频信号计算 出的节拍概率而检测到的突起的示例。在图19中,与图18(B) —样,用时间轴上的多边形 线来示出由节拍概率计算单元142计算出的节拍概率。在图19所示的节拍概率曲线图的 情况中,取最大值的点为三个点,即,帧F3、F4和F5。其中,对于帧F3和F5,这些时间点处 的节拍概率高于预先给出的特定阈值Thl。另一方面,帧F4的时间点处的节拍概率低于阈 值Thl。在这种情况中,两个点,即帧F3和F5被检测为突起。这里,参考图20,简要描述突起检测单元152的突起检测处理流程。如图20所示, 首先,突起检测单元152相对于针对各帧计算出的节拍概率,从第一帧开始,顺序地执行针 对帧的循环(S1322)。然后,突起检测单元152相对于每帧,判断节拍概率是否高于特定阈 值(S1324),以及节拍概率是否指示了最大值(S1326)。这里,当节拍概率高于特定阈值并 且节拍概率最大时,突起检测单元152前进到步骤S1328。另一方面,当节拍概率低于特定 阈值或者节拍概率不是最大的时,则跳过步骤S1328的处理。在步骤S1328,当前时间(或 者帧编号)被添加到突起位置的列表中(S1328)。然后,当对于所有帧的处理结束时,突起 检测处理的循环终止(S1330)。通过如上所述的突起检测单元152的突起检测处理,生成了包括在音频信号中的 突起的位置列表(各个突起的时间或帧编号的列表)。而且,通过上述突起检测处理,例如 检测到了如图21所示的突起的位置。图21示出了与节拍概率有关的由突起检测单元152 检测到的突起的位置。在图21中,利用示出了节拍概率的多边形线之上的圆圈示出了由突 起检测单元152检测到的突起的位置。在图21的示例中,将节拍概率高于阈值Thl中的最 大值检测为15个突起。由突起检测单元152以这种方式检测到的突起的位置被输出到节 拍得分计算单元154(参考图16)。节拍得分计算单元154针对突起检测单元152检测到的每个突起,来计算指示形 成节拍序列的节拍中的节拍与恒定节奏(或恒定节拍间隔)的相符程度的节拍得分。首先,节拍得分计算单元154设置所关注突起,如图22所示。在图22的示例中, 在由突起检测单元152检测到的突起中,帧位置Fk(帧编号k)处的突起被设为所关注突 起。此外,参考了离帧位置Fk特定距离d的整数倍处的帧位置序列Fk_3,Fk_2,Fk_1; Fk, Fk+1, Fk+2和Fk+3。下面,将特定距离d称为转移量,并且将相隔转移量d整数倍处的帧位置称为 转移位置。节拍得分计算单元154取包括在已计算出节拍概率的帧的群组F中的所有转移 位置(...Fk_3,Fk_2,Fk_1; Fk,Fk+1,Fk+2和Fk+3...)处的节拍概率之和作为所关注突起的节拍得 分。例如,当帧位置Fi处的节拍概率为P(Fi)时,与针对所关注突起的帧编号k和转移量d 相关的节拍得分BS (k,d)用下面的式(12)来表达。可以将由下面的式(12)表达的节拍得 分BS(k,d)说成是这样的得分,该得分指示音频信号的第k帧处的突起与以转移量d作为 节拍间隔的恒定节奏同步的概率。[公式8] 这里,参考图23,将简要描述节拍得分计算单元154的节拍得分计算处理流程。如图23所示,首先,节拍得分计算单元154相对于突起检测单元152检测到的突 起,从第一个突起开始,顺序地执行针对突起的循环(S1322)。此外,得分计算单元154相对 于所关注突起执行针对所有转移量d的循环(S1344)。作为循环对象的转移量d是可以用 在音乐演奏中的所有节拍的间隔值。节拍得分计算单元154随后初始化节拍得分BS(k,d) (即,将0代入节拍得分BS(k,d))(S1346)。接下来,节拍得分计算单元154执行针对转移 系数η的循环,转移系数η用于转移所关注突起的帧位置Fd (S1348)。然后,节拍得分计算单 元154顺序地将各个转移位置处的节拍概率P (Fk+nd)添加到节拍得分BS (k,d)中(S1350)。 然后,当针对所有转移系数η的循环结束时(S1352),节拍得分计算单元154记录所关注突 起的帧位置(帧编号k)、转移量d和节拍得分BS (k,d) (S1354)。节拍得分计算单元154针 对所有突起的每个转移量重复这种节拍得分BS (k,d)计算(S1356,S1358)。通过如上所述的节拍得分计算单元154的节拍得分计算处理,针对由突起检测单 元152检测到的每个突起输出遍及多个转移量d的节拍得分BS(k,d)。通过上述节拍得分 计算处理获得了如图24所示的节拍得分分布图。节拍得分分布图使从节拍得分计算单元 154输出的节拍得分可视化。在图24中,在沿着横轴的时间序列中示出了由突起检测单元 152检测到的突起。图24中的纵轴表示已针对其计算出了针对每个突起的节拍得分的转移 量。此外,图中每个点的颜色浓度表示针对转移量处的突起计算出的节拍得分的水平。在 图24的示例中,在转移量dl的附近,所有突起的节拍得分都较高。当假设以转移量dl处 的节奏来演奏音乐片段时,很有可能检测到的突起中的许多突起对应于节拍。由节拍得分 计算单元154计算出的节拍得分被输入到节拍搜索单元156。节拍搜索单元156基于由节拍得分计算单元154计算出的节拍得分,搜索示出了 可能的节奏波动的突起位置的路径。例如,可以将基于隐式马可夫模型的维特比搜索算法 用作节拍搜索单元156的路径搜索方法。对于节拍搜索单元156的维特比搜索,例如突起 编号被设置为时间轴(横轴)的单位,并且在节拍得分计算时使用的转移量被设为观察序 列(纵轴),如图25示意性地示出的。节拍搜索单元156搜索连接了分别由观察序列和时 间轴的值定义的节点的维特比路径。换言之,节拍搜索单元156取用在节拍得分计算单元 154计算节拍得分时使用的转移量和突起的所有组合中的每种组合来作为目标节点。此外, 每个节点的转移量等同于针对节点假设的节拍间隔。因此,下面,可以将每个节点的转移量 称为节拍间隔。对于如上所述的节点,节拍搜索单元156沿着时间轴顺序地选择节点中的任意节 点,并且评估由所选节点序列形成的路径。此时,在节点选择中,允许节拍搜索单元156跳 过突起。例如,在图25的示例中,在第k-Ι个突起之后,第k个突起被跳过,而第k+Ι个突 起被选择。这是因为通常,在突起中混合了是节拍的突起以及不是节拍的突起,并且必须从 包括不经过不是节拍的突起的路径在内的路径中搜索可能路径。例如,对于路径的评估,可以使用四个评估值,SP⑴节拍得分,(2)节奏改变得 分,⑶突起移动得分以及⑷跳过的代价(penalty)。其中,⑴节拍得分是节拍得分计 算单元154针对每个节点计算出来的节拍得分。另一方面,(2)节奏改变得分,(3)突起移 动得分以及(4)给出了节点之间的转变。在给出节点之间的转变的评估值中,(2)节奏改 变得分是基于经验知识(通常,节奏在音乐片段中逐渐地波动)给出的评估值。因此,当转变之前的节点处的节拍间隔与转换之后的节点处的节拍间隔之差越小时,给予节奏改变得 分的值就越高。这里,参考图26,详细描述(2)节奏改变得分。在图26的示例中,当前选择了节 点W。节拍搜索单元156可能选择节点N2至N5中的任一节点作为下一节点。虽然还可 以选择除N2至N5之外的节点,然而,为了方便描述,将描述四个节点,即节点N2至N5。这 里,当节拍搜索单元156选择节点N4时,由于节点m和节点N4处的节拍间隔之间不存在 差异,因此,将给出最高值作为节奏改变得分。另一方面,当节拍搜索单元156选择节点N3 或N5时,由于节点m和节点N3或N5处的节拍间隔之间存在差异,因此,与选择节点N4时 相比而言给出了较低的节奏改变得分。此外,当节拍搜索单元156选择节点N2时,节点m 和节点N2处的节拍间隔之差比选择节点N3或N5时大。因此,将给出甚至更低的节奏改变 得分。接下来,参考图27,详细描述(3)突起移动得分。突起移动得分是根据转变之前 和之后的节点的突起位置之间的间隔是否与转变之前的节点处的节拍间隔相匹配来给出 的评估值。在图27(A)中,当前选择了针对第k个突起的具有节拍间隔d2的节点N6。而 且,两个节点N7和N8被示为可供节拍搜索单元156接下来选择的节点。其中,节点N7是 第k+Ι个突起的节点,并且第k个突起与第k+Ι个突起之间的间隔(例如,帧编号之差)为 D7。另一方面,节点N8是第k+2个突起的节点,并且第k个突起与第k+2个突起之间的间 隔为D8。这里,当假设路径上的所有节点一定与恒定节奏中的节拍位置相对应的理想路径 时,相邻节点的突起位置之间的间隔是各个节点处的节拍间隔的整数倍(当不存在休止符 时为相同间隔)。因此,如图27(B)所示,关于当前节点N6,当突起位置之间的间隔越接近 节点N6处的节拍间隔d2的整数倍时,将给出越高的突起移动得分。在图27(B)的示例中, 由于节点N6和N8之间的间隔D8比节点N6和N7之间的间隔D7更接近节点N6处的节拍 间隔d2的整数倍时,越高的突起移动得分被给予从节点N6到节点N8的转变。接下来,参考图28,详细描述(4)跳过的代价。跳过的代价是用于在节点之间的转 变中限制过多地跳过突起的评估值。因此,当在一次转变中跳过越多的突起时,得分越低, 而在一次转变中跳过越少的突起时,得分越高。这里,越低的得分意味着越高的代价。在 图28的示例中,第k个突起的节点N9被选为当前节点。而且,在图28的示例中,三个节点 N10.N11和N12被示为可供节拍搜索单元156接下来选择的节点。节点NlO是第k+Ι个突 起的节点,节点Nll是第k+2个突起的节点,并且节点N12是第k+3个突起的节点。因此,在从节点N9到节点NlO的转变情况中,未跳过突起。另一方面,在从节点N9 到节点Nll的转变情况中,跳过了第k+Ι个突起。此外,在从节点N9到节点N12的转变的 情况中,跳过了第k+Ι和第k+2个突起。因此,跳过的代价在从节点N9到节点NlO的转变 情况中取相对高的值,在从节点N9到节点Nll的转变情况中取中间值,并且在从节点N9到 节点W2的转变的情况中取较低的值。结果,在路径搜索时,可以防止大量突起被跳过从而 使节点之间的间隔保持恒定的现象。到此为止,已描述了用于评估由节拍搜索单元156搜索出的路径的四种评估值。 相对于所选路径,通过顺序地将给予每个节点或给予包括在路径中的节点之间的转变的上 述评估值⑴至⑷彼此相乘,来执行利用图25描述的路径的评估。节拍搜索单元156将
26所有可想到的路径中评估值之积最大的路径确定为最优路径。以这种方式确定的路径例如 如图29所示。图29示出了被节拍搜索单元156确定为最优路径的维特比路径的示例。在 图29的示例中,在图24所示的节拍得分分布图上用虚线描绘出了由节拍搜索单元156确 定的最优路径的轮廓。在图29的示例中,可见,由节拍搜索单元156针对其进行了搜索的 音乐片段的节奏以节拍间隔d3为中心波动。由节拍搜索单元156确定的最优路径(包括 在最优路径中的节点列表)被输入恒定节奏判定单元158、针对恒定节奏的节拍重搜索单 元160以及节拍确定单元162。恒定节奏判定单元158判断由节拍搜索单元156确定的最优路径是否表示针对各 个节点所假设的节拍间隔的方差较小的恒定节奏。首先,恒定节奏判定单元158计算包括 在从节拍搜索单元156输入的最优路径中的节点处的一组节拍间隔的方差。然后,当计算 出的方差小于预先给定的特定阈值时,恒定节奏判定单元158判定节奏恒定,并且当计算 出的方差大于特定阈值时,恒定节奏判定单元158判定节奏不恒定。例如,恒定节奏判定单 元158如图30所示那样来判定节奏。例如,在图30(A)所示的示例中,在由虚线勾绘出的最优路径中的突起位置的节 拍间隔随着时间而变化。对于这样的路径,可以如恒定节奏判定单元158的与阈值相关的 判定结果一样,将节奏判定为不恒定。另一方面,在图30(B)所示的示例中,在由虚线勾绘 出的最优路径中的突起位置的节拍间隔在整个音乐片段中几乎恒定。如恒定节奏判定单元 158的与阈值相关的判定结果一样,可以将这种路径判定为恒定的。以这种方式获得的恒 定节奏判定单元158的与阈值相关的判定结果被输入针对恒定节奏的节拍重搜索单元160 中。当由节拍搜索单元156提取出的最优路径被恒定节奏判定单元158判定为指示恒 定节奏时,针对恒定节奏的节拍重搜索单元160通过将作为搜索对象的节点限制为仅在最 频繁出现的节拍间隔周围的那些节点,来重新执行路径搜索。例如,针对恒定节奏的节拍重 搜索单元160通过图31所示的方法来执行针对路径的重新搜索处理。此外,与图25 —样, 针对恒定节奏的节拍重搜索单元160针对以节拍间隔作为观察序列的时间轴(突起编号) 的一组节点来执行针对路径的重新搜索处理。例如,假设包括在被节拍搜索单元156确定为最优路径的路径中的节点处的节拍 间隔的最频值(mode)为d4,并且路径的节奏被恒定节奏判定单元158判定为恒定。在此情 况中,针对恒定节奏的节拍重搜索单元160仅以节拍间隔d满足d4-Th2 ^ d ^ d4+Th2 (Th2 是特定阈值)的节点作为搜索对象来再次搜索路径。在图31的示例中,示出了针对第k个 突起的五个节点N12至附6。其中,N13至N15处的节拍间隔包括在针对恒定节奏的节拍重 搜索单元160的搜索范围(d4-Th2 ^ d^ d4+Th2)内。反之,N12和N16处的节拍间隔未 包括在上述搜索范围中。因此,对于第k个突起,仅三个节点N13至N15成为针对恒定节奏 的节拍重搜索单元160的重执行对象。此外,除要成为搜索对象的节点范围之外,针对恒定节奏的节拍重搜索单元160 的重搜索处理的流程类似于节拍搜索单元156的路径搜索处理。根据如上所述的针对恒定 节奏的节拍重搜索单元160的路径重搜索处理,对于具有恒定节奏的音乐片段,可以减少 路径搜索结果中可能部分地出现的与节拍位置有关的错误。由针对恒定节奏的节拍重搜索 单元160重新确定的最优路径被输入节拍确定单元162中。
节拍确定单元162基于由节拍搜索单元156确定的最优路径或由针对恒定节奏的 节拍重搜索单元160重新确定的最优路径以及包括在路径中的每个节点处的节拍间隔,来 确定包括在音频信号中的节拍位置。例如,节拍确定单元162利用如图32所示的方法来确 定节拍位置。在图32(A)中,示出了由突起检测单元152检测到的第k个突起附近的14个 突起。在该示例中,示出了由突起检测单元152检测出的在第k个突起附近的14个突起。 作为对比,图32(B)示出了由节拍搜索单元156或针对恒定节奏的节拍重搜索单元160确 定的最优路径中所包括的突起。在(B)的示例中,图(A)所示的14个突起中的第k-7个突 起、第k个突起和第k+6个突起(帧编号Fk_7,Fk, Fk+6)包括在最优路径中。此外,第k-7个 突起处的节拍间隔(等同于在相对应节点处的节拍间隔)为dk_7,并且第k个突起处的节拍 间隔为dk。对于这些突起,首先,节拍确定单元162取包括在最优路径中的突起的位置作为 音乐片段的节拍位置。然后,节拍确定单元162根据各个突起处的节拍间隔在包括在最优 路径中的相邻突起之间布置补充节拍。此时,节拍确定单元162首先确定补充节拍的数目 以在最优路径上彼此相邻的突起之间布置节拍。例如,如图33所示,节拍确定单元162取 两个相邻突起的位置为Fh和Fh+1,并且突起位置Fh处的节拍间隔为dh。在此情况中,将布置 在Fh和间的补充节拍的数目Bfill由下面的等式给出。[公式9] Bfill = Round
广 F -F、 1h+l 1h
ν dh y
...(13)这里,RoimdC..)表示将“...”圆整为最近的整数。根据上面的式(13),将由节 拍确定单元162布置的补充节拍的数目为通过以下计算获得数将相邻突起之间的间隔除 以节拍间隔获得的值圆整为最近的整数,然后考虑到栅栏(fenc印ost)问题而从所获得的 整数中减去1。接下来,节拍确定单元162通过所确定的节拍数目将补充节拍布置在最优路径上 彼此相邻的突起之间,以使得节拍以相等的间隔排列。在图32(C)中,示出了布置了补充节 拍后的突起。在(C)的示例中,两个补充节拍被布置在第k-7个突起与第k个突起之间,并 且两个补充节拍被布置在第k个突起与第k+6个突起之间。应当注意,由节拍确定单元162 提供的补充节拍的位置不一定与突起检测单元152检测到的突起的位置相对应。利用这种 配置,可以确定节拍的位置,而不受节拍位置之外的局部产生的声音的影响。此外,甚至在 节拍位置处存在休止符而不产生声音的情况中,也可以适当地掌握节拍位置。以这种方式 由节拍确定单元162确定的节拍位置的列表(包括最优路径上的突起以及由节拍确定单元 162布置的补充节拍)被输入节奏修订单元164中。节奏修订单元164修订由节拍确定单元162确定的节拍位置所指示的节奏。修订 之前的节奏可能是音乐片段的原始节奏的恒定倍数,例如2倍、1/2倍、3/2倍、2/3倍等(参 考图34)。因此,节奏修订单元164修订被错误地掌握为恒定倍数的节奏,并重现音乐片段 的原始节奏。这里,参考示出了由节拍确定单元162确定的节拍位置的图案的图34的示例。 在图34的示例中,在图中所示的时间范围中,6个节拍被包括用于图案(A)。作为对比,对 于图案(B),12个节拍包括在相同的时间范围中。S卩,以图案(A)的节拍位置为基准,图案
28(B)的节拍位置指示了 2倍的节奏。另一方面,对于图案(C_l),3个节拍包括在相同时间范围中。S卩,以图案㈧的节 拍位置为基准,图案(C-I)的节拍位置指示了 1/2倍的节奏。此外,对于图案(C-2),与图案 (C-I) 一样,3个节拍包括在相同时间范围中,并且因此,以图案㈧的节拍位置为基准指示 了 1/2倍的节奏。然而,图案(C-I)和图案(C-2)因在根据基准节奏改变节奏时将余下的 节拍位置而彼此不同。例如通过下面的过程(Si)至(S3)来执行节奏修订单元164的节奏 修订。(Si)确定基于波形估计出的估计节奏(S2)确定多个倍率中的最优基本倍率(S3)重复(S2)直到基本倍率为1首先,将对(Si)确定基于波形估计出的估计节奏进行说明。节奏修订单元164确 定估计节奏,该估计节奏是根据出现在音频信号的波形中的声音特征被估计为是适当的。 例如,由中公开的学习算法生成的特征量计算公式生成装置10或用于估计节奏辨别的计 算公式(估计节奏辨别公式)被用于估计节奏的确定。例如,如图35所示,多个音乐片段 的对数谱作为评估数据被提供到特征量计算公式生成装置10中。在图35的示例中,提供 了对数谱LSl和LSn。此外,通过人类听音乐片段而判定为正确的节奏被提供作为教员数 据。在图35的示例中,提供了每个对数谱的正确节奏(LSI 100, ...,LSn 60)。基于多组 这种评估数据和教员数据生成了估计节奏辨别公式。节奏修订单元164利用所生成的估计 节奏辨别公式来计算处理过的片段的估计节奏。接下来,将说明(S2)确定多个倍率中的最优基本倍率。节奏修订单元164从多个 基本倍率中确定使修订后的节奏最接近音乐片段的原始节奏的基本倍率。这里,基本倍率 是作为用于修订节奏的恒定比的基本单位的倍率。例如,将七种类型的倍率,即,1/3,1/2, 2/3,1,3/2,2和3中的任一种用作基本倍率。然而,本发明的应用范围不限于这些示例,并 且基本倍率例如可以是五种类型的倍率,即1/3,1/2,1,2和3中的任一种。为了确定最优 基本倍率,节奏修订单元164首先通过各个基本倍率计算修订了节拍位置后的平均节拍概 率。然而,在基本倍率为1的情况中,平均节拍概率是针对未修订节拍位置的情况来计算 的。例如,由节奏修订单元164通过如图36所示的方法来针对每个基本倍率计算平均节拍 概率。在图36中,在时间轴上用多边形线示出了由节拍概率计算单元142计算出的节拍 概率。此外,在纵轴上示出了根据倍率中的任意一个修订后的三个节拍的帧编号Fh_1; Fh和 Fh+1。这里,当帧编号Fh处的节拍概率为BP (h)时,根据倍率r修订过的节拍位置组F (r)的 平均节拍概率BPAve(r)由下面的式(14)给出。这里,m(r)是包括在组F(r)中的帧编号的 片段数。[公式10] BPAVG(r)=Z_;)BP(h)
m(r) ... (14) 如利用图34的图案(C-I)和(C-2)所述的,在基本倍率r为1/2的情况中,存在用于节拍位置的两种类型的候选图案。在这种情况中,节奏修订单元164计算用于节拍位 置的两种类型的候选图案中的每种的平均节拍概率BPAve(r),并且采用具有较高平均节拍 概率BPAve(r)的节拍位置作为根据倍率r = 1/2修订过的节拍位置。类似地,在倍率为1/3 的情况中,存在用于节拍位置的三种类型的候选图案。因此,节奏修订单元164计算用于节 拍位置的三种类型的候选图案中的每种的平均节拍概率BPAve(r),并且采用具有最高平均 节拍概率BPAve(r)的节拍位置作为根据倍率r = 1/3修订过的节拍位置。在计算出了针对每个基本倍率的平均节拍概率之后,节奏修订单元164基于估计 出的节奏和平均节拍概率,计算针对每个基本倍率的修订后的节奏的似然度(likelihood) (此后,称为节奏似然度)。可以用平均节拍概率与以估计出的节奏为中心的高斯分布所示 的节奏概率之积来表达节奏似然度。例如,图37所示的节奏似然度是由节奏修订单元164 计算出的。图37 (A)示出了节奏修订单元164针对各个倍率计算出的平均节拍概率。此外,图 37(B)以高斯分布的形式示出了节奏概率,该高斯分布是由预先给出的特定方差Ql确定 的并且以节奏修订单元164基于音频信号的波形估计出的估计节奏为中心。此外,图37(A) 和37 (B)的横轴表示根据每个倍率对节拍位置进行修订后的节奏的对数。节奏修订单元 164通过将平均节拍概率与节奏概率彼此相乘来针对各个基本倍率计算(C)中所示的节奏 似然度。在图37的示例中,虽然平均节拍概率在基本倍率为1和基本倍率为1/2时几乎相 同,然而,被修订为1/2倍的节奏更接近于估计出的节奏(节奏概率更高)。因此,针对被修 订为1/2倍的节奏,计算出的节奏似然度更高。节奏修订单元164以这种方式计算节奏似 然度,并且将产生最高节奏似然度的基本倍率确定为用来使修订后的节奏最接近音乐片段 的原始节奏的基本倍率。以这种方式,通过在确定可能节奏时将可从估计节奏获得的节奏概率考虑在内, 可以从作为恒定倍数关系的节奏的并且基于声音的局部波形难以辨别彼此的候选者中,准 确地确定适当的节奏。当以这种方式对节奏进行修订后,节奏修订单元164执行(S3)重复 (S2)直到基本倍率为1。具体地,节奏修订单元164重复平均节拍概率的计算以及针对每 个基本倍率的节奏似然度的计算,直到产生最高节奏似然度的基本倍率为1为止。结果,即 使在节奏修订单元164修订之前的节奏为音乐片段的原始节奏的1/4倍、1/6倍、4倍、6倍 等,也可以利用通过基本倍率的组合(例如,1/2倍X 1/2倍=1/4倍)获得的用于修订的 适当倍率来修订节奏。这里,参考图38,简要描述节奏修订单元164的修订处理。如图38所示,首先,节 奏修订单元164利用由特征量计算公式生成装置10预先获得的估计节奏辨别公式来从音 频信号确定估计节奏(S1442)。接下来,节奏修订单元164顺序地执行针对多个基本倍率 (例如1/3、1/2等)的循环(S1444)。在循环中,节奏修订单元164根据每个基本倍率来改 变节拍位置并且修订节奏(S1446)。接下来,节奏修订单元164计算修订后的节拍位置的平 均节拍概率(S1448)。接下来,节奏修订单元164基于在S1448处计算出的平均节拍概率以 及在S1442处确定的估计出的节奏来计算针对每个基本倍率的节奏似然度(S1450)。然后,当针对所有基本倍率的循环结束后(S1452),节奏修订单元164确定产生最 高节奏似然度的基本倍率(S1454)。然后,节奏修订单元164判断产生最高节奏似然度的基 本倍率是否为1(S1456)。如果产生最高节奏似然度的基本倍率为1,则节奏修订单元164
30结束修订处理。另一方面,当产生最高节奏似然度的基本倍率不为1时,节奏修订单元164 返回步骤S1444的处理。由此,基于根据产生最高节奏似然度的基本倍率修订的节奏(节 拍位置)来再次进行根据任一基本倍率的节奏的修订。到此为止,已描述了节拍检测单元116的配置。平滑单元114基于以上述方式检 测到的节拍位置信息来对每个节拍区间的旋律线进行平滑,并且将其输出为旋律线的检测 结果。此外,节拍检测单元116的检测结果被输入到和弦概率检测单元120中(参考图2)。(2-9-2.和弦概率检测单元120的配置示例)和弦概率检测单元120计算在节拍分析单元144检测到的每个节拍的节拍区间中 演奏的每个和弦的概率(此后称为和弦概率)。如上所述,由和弦概率检测单元120计算 出的和弦概率供基调检测单元118的基调检测处理使用。如图39所示,和弦概率检测单元 120包括节拍区间特征量计算单元172、根音(root)特征量准备单元174和和弦概率计算 单元176。如上所述,对数谱以及由节拍检测单元116检测到的节拍位置的信息被输入到和 弦概率检测单元120中。因此,节拍区间特征量计算单元172相对于节拍分析单元144检 测到的每个节拍,计算每个音符的能量,作为表示节拍区间中的音频信号的特征的节拍区 间特征量。节拍区间特征量计算单元172计算每个音符的能量作为节拍区间特征量,并且 将其输入根音特征量准备单元174。根音特征量准备单元174基于从节拍区间特征量计算 单元172输入的每个音符的能量,来针对每个节拍区间生成用于计算和弦概率的根音特征 量。例如,根音特征量准备单元174通过图40和41所示的方法生成根音特征量。首先,根音特征量准备单元174针对所关注的节拍区间BDi,提取所关注节拍区间 BDi以及之前和之后的N个区间的每12个音符的能量(亦称为“2N+1个区间”)(参考图 40)。所关注节拍区间BDi以及之前和之后的N个区间的每12个音符的能量可以被当作和 弦的以音符C为根音(基本音符)的特征量。在图40的示例中,由于N为2,因此,提取出 以音符C为根音的五个区间(12X5个维度)的根音特征量。接下来,根音特征量准备单元 174通过将以音符C为根音的五个区间的根音特征量的12个音符的元素位置转移特定数 目,来生成11个分离的根音特征量,每个根音特征量针对五个区间并且每个根音特征量以 音符C#至音符B中的任一个作为根音(参考图41)。此外,对于以音符C#作为根音的情 况,元素位置被转移的转移数目为1,对于以音符D作为根音的情况转移数目为2,...,并且 对于以音符B作为根音的情况转移数目为11。结果,由根音特征量准备单元174针对每12 个音符生成了分别以12个音符(从音符C到音符B)中的一个作为根音的根音特征量(分 别为12X5维)。根音特征量准备单元174针对所有节拍区间执行如上所述的根音特征量生成处 理,并且准备供计算每个区间的和弦概率使用的根音特征量。此外,在图40和41的示例中, 为一个节拍区间准备的特征量为12X5X12维的向量。由根音特征量准备单元174生成的 根音特征量被输入和弦概率计算单元176。和弦概率计算单元176利用从根音特征量准备 单元174输入的根音特征量,针对每个节拍区间计算每个和弦被演奏的概率(和弦概率)。 这里的“每个和弦”例如是指基于根音(C,C#,D,...)、组分音符的数目(三和弦、第7和弦、 第9和弦)、音调性(大/小)等进行辨别的和弦的每个。例如可以将通过logistic回归 分析预先学习到的和弦概率公式用于计算和弦概率。
例如,和弦概率计算单元176通过图42所示的方法来生成用于计算和弦概率的和 弦概率公式。针对每种类型的和弦来执行和弦概率公式的学习。即,针对如下和弦概率公 式的每个来执行下述的学习处理例如,针对大和弦(major chord)的和弦概率公式、针对 小和弦(minor chord)的和弦概率公式、针对第7和弦的和弦概率公式以及针对第9和弦 的和弦概率公式。首先,用于已知了其正确和弦的节拍区间的多个根音特征量(例如,利用图41描 述的12X5X12维向量)被提供作为用于logistic回归分析的独立变量。此外,用于预测 logistic回归分析的生成概率的伪数据(dummydata)被提供用于每个节拍区间的根音特 征量的每个。例如,当针对大和弦学习和弦概率公式时,如果已知和弦为大和弦,则伪数据 的值为真值(1),并且对于任何其它情况伪数据的值为假值(0)。另一方面,当针对小和弦 学习和弦概率公式时,如果已知和弦为小和弦则伪数据的值为真值(1),并且对于任何其它 情况伪数据的值为假值(0)。对于第7和弦和第9和弦也可以如此。通过例如如上所述的独立变量和伪数据来针对足够数目的根音特征量(其每个 针对一节拍区间)执行logistic回归分析,生成了用于从每个节拍区间的根音特征量计算 和弦概率的和弦概率公式。然后,和弦概率计算单元176将从根音特征量生产单元174输 入的根音特征量应用于所生成的和弦概率公式,并且顺序地计算针对每个节拍区间的各个 类型的和弦的和弦概率。例如通过图43所示的方法来执行和弦概率计算单元176的和弦 概率计算处理。在图43(A)中,示出了每个节拍区间的根音特征量中以音符C为根音的根 音特征量。例如,和弦概率计算单元176将针对大和弦的和弦概率公式应用于以音符C为根 音的根音特征量,并且针对每个节拍区计算和弦为“C”的和弦概率CP。。此外,和弦概率计 算单元176将针对小和弦的和弦概率公式应用于以音符C为根音的根音特征量,并且针对 每个节拍区计算和弦为“Cm”的和弦概率CP。m。以类似方式,和弦概率计算单元176将针对 大和弦的和弦概率公式以及针对小和弦的和弦概率公式应用于以音符C#为根音的根音特 征量,并且可以计算和弦为“C#”的和弦概率CPra以及和弦为“C#m”的和弦概率CPc#m。以相 同的方式(C),计算出针对和弦“B”的和弦概率CPb以及针对和弦“Bm”的和弦概率CPBm。如图44所示的和弦概率是通过上述方法由和弦概率计算单元176计算出的。 参考图44,对于从音符C到音符B的12个音符的每个,针对某个节拍区间、针对诸如 "Maj (major),” "m (minor),” “7 (7th) ” 和"m7minor (7th) ” 之类的和弦来计算和弦概率。 根据图44的示例,和弦概率CPe为0. 88,和弦概率CPem为0. 08,和弦概率CPe7为0. 01,和弦 概率CPqii7* 0.02,并且弦概率CPb* 0.01。其他类型的和弦概率都指示为0。此外,当以 上述方式改变针对多个类型的和弦的和弦概率后,和弦概率计算单元176以使得每个节拍 区间的计算出的概率值的总和变为1的方式来归一化概率值。针对包括在音频信号中的所 有节拍区间来重复如上所述的和弦概率计算单元176针对和弦概率的计算和归一化处理。和弦概率检测单元120通过如上所述的节拍区间特征量计算单元172、根音特征 量准备单元174和和弦概率计算单元176的处理来计算和弦概率。然后,由和弦概率检测 单元120计算出的和弦概率被输入到基调检测单元118(参考图2)。(2-9-3.基调检测单元118的配置示例)接下来,将描述基调检测单元118的配置。如上所述,由和弦概率检测单元120计单元118。基调检测单元118是用于利用和弦概率检测 单元120针对每个节拍区间计算出的和弦概率检测每个节拍区间的基调(音调性/基本音 阶)的装置。如图45所示,基调检测单元118包括相对和弦概率生成单元182、特征量准备 单元184、基调概率计算单元186以及基调确定单元188。首先,和弦概率由和弦概率检测单元120输入到相对和弦概率生成单元182。相 对和弦概率生成单元182根据从和弦概率检测单元120输入的针对每个节拍区间的和弦概 率,来生成用于计算每个节拍区间的基调概率的相对和弦概率。例如,相对和弦概率生成单 元182通过如图46所示的方法来生成相对和弦概率。首先,相对和弦概率生成单元182从 某个所关注节拍区间的和弦概率中,提取与大和弦和小和弦有关的和弦概率。这里所提取 的和弦概率值被表达为总计24维度的向量,S卩,用于大和弦的12个音符以及用于小和弦的 12个音符。下面,把包括这里所提取的和弦概率值的24维向量当作假设以音符C作为基调 的相对和弦概率。接下来,相对和弦概率生成单元182将针对大和弦和小和弦的所提取和弦概率的 12个音符的元素位置转移特定数目。通过以这种方式进行转移,生成了 11个分离的相对和 弦概率。此外,转移元素位置的转移数目与例如图41所述的生成根音特征量时的转移数目 相同。以这种方式,相对和弦概率生成单元182生成了 12个分离的相对和弦概率,每个和 弦概率假设以从音符C到音符B的12个音符之一作为基调。相对和弦概率生成单元182 针对所有节拍区间执行如上所述的相对和弦概率生成处理,并且将所生产的相对和弦概率 输入到特征量准备单元184。特征量准备单元184生成用于计算每个节拍区间的基调概率的特征量。从相对和 弦概率生成单元182输入到特征量准备单元184的根据相对和弦概率生成的针对每个节拍 区间的和弦出现得分以及和弦转变出现得分被用作将由特征量准备单元184生成的特征量。首先,特征量准备单元184通过如图47所示的方法生成每个节拍区间的和弦出现 得分。首先,特征量准备单元184为所关注节拍区间以及之前和之后的M个节拍区间提供假 设音符C为基调的相对和弦概率CP。然后,特征量准备单元184将所关注节拍区间以及之 前和之后的M个区间中的相同位置处的元素的概率值(概率值包括在假设音符C为基调的 相对和弦概率中)加起来。结果,获得了和弦出现得分(CEc,CEcfl, ... , CEbJ (24维向量), 这是根据每个和弦的出现概率的,出现概率是针对所关注节拍区间以及所关注节拍区间周 围的多个节拍区间的并且假设音符C为基调。特征量准备单元184针对假设以从音符C到 音符B的12个音符之一为基调的每个情况,执行如上所述的和弦出现得分计算。根据该计 算,获得了针对一个所关注节拍区间的12个分离的和弦出现得分。接下来,特征量准备单元184通过如图48所示的方法来生成针对每个节拍区间 的和弦转变出现得分。首先,特征量准备单元184首先相对于节拍区间BDi和相邻的节拍 区间BDi+1之间的所有对的和弦(所有和弦转变),将和弦转变之前和之后的相对和弦概率 彼此相乘,相对和弦概率假设音符C为基调。这里,“所有对的和弦”是指24X 24对,即, “C”一 “C,” “C”一 “C#,” “C”一 “D,”...,“B”一 “B”。接下来,特征量准备单元 184 针对 所关注节拍区间以及之前和之后的M个区间,将和弦转换之前和之后的相对和弦概率的相 乘结果加起来。结果,获得了 24X24维和弦转变出现得分(24X24维向量),这是根据每个
33和弦转变的出现概率的,出现概率是针对所关注节拍区间以及所关注节拍区间周围的多个 节拍区间的并且假设音符C为基调。例如,针对所关注节拍区间BDi的与从“C”到“C#”的 和弦转变有关的和弦转变出现得分CTpc#(i)由下面的式(15)给出。[公式11]CTc —c#(i) = CPc(i-M) · CPc#(i-M+l)+. . . +CPc(i+M) · CPc#(i+M+l) ...(15)以这种方式,特征量准备单元184针对假设以从音符C到音符B的12个音符之一 为基调的每个情况,执行上述24X24个针对和弦转变出现得分CT的单独计算。根据该计 算,获得了针对所关注节拍区间的12个分离的和弦转变出现得分。此外,与易于针对每个 节线改变的基调不同,在较长时段的许多情况中,音乐片段的基调保持不变。因此,定义了 将用于计算和弦出现得分或和弦转变出现得分的相对和弦概率范围的值M例如适当地为 可以包括诸如数十个节拍之类的多个节线的值。特征量准备单元184将针对每个节拍区间 计算出的24维和弦出现得分CE以及24X24维和弦转变出现得分作为用于计算基调概率 的特征量输入到基调概率计算单元186。基调概率计算单元186利用从特征量准备单元184输入的和弦出现得分以及和 弦转变出现得分,针对每个节拍区间计算指示每个基调被演奏的概率的基调概率。“每个基 调”是指例如基于12个音符(C,C#, D,...)或音调性(大/小)进行辨别的基调。例如, 通过logistic回归分析预先学习到的基调概率公式被用于计算基调概率。例如,基调概率 计算单元186通过如图49所示的方法来生成用于计算基调概率的基调概率公式。独立地 针对大调和小调来执行基调概率公式的学习。因此,生成了大调概率公式和小调概率公式。如图49所示,已知了其正确基调的各个节拍区间的多个和弦出现得分以及和弦 行进出现得分被提供作为logistic回归分析中的独立变量。接下来,为所提供的每对和弦 出现得分以及和弦行进出现得分提供用于预测logistic回归分析的生成概率的伪数据。 例如,当学习大调概率公式时,如果已知基调为大调,则伪数据的值为真值(1),并且对于任 何其他情况,伪数据的值为假值(0)。此外,当学习小调概率公式时,如果已知基调为小调, 则伪数据的值为真值(1),并且对于任何其他情况,伪数据的值为假值(0)。通过利用足够数目的独立变量对以及伪数据来执行logistic回归分析,从每个 节拍区间的和弦出现得分与和弦行进出现得分对,生成了用于计算大调或小调的概率的基 调概率公式。基调概率计算单元186将从特征量准备单元184输入的和弦出现得分与和弦 行进出现得分对应用到每个基调概率公式,并且顺序地计算每个节拍区间的各个基调的基 调概率。例如,通过如图50所示的方法来计算基调概率。例如,在图50 (A)中,基调概率计算单元186将假设音符C为基调的和弦出现得分 与和弦行进出现得分对应用到通过学习预先获得的大调概率公式,并且针对每个节拍区间 计算基调为“C”的基调概率KP。。此外,基调概率计算单元186将假设音符C为基调的和弦 出现得分与和弦行进出现得分对应用到小调概率公式,并且针对相对应的节拍区间计算基 调为“Cm”的基调概率KP。m。类似地,基调概率计算单元186将假设音符C#为基调的和弦 出现得分与和弦行进出现得分对应用到大调概率公式和小调概率公式,并且计算基调概率 KPcfl和KPesm(B)。基调概率KPb和KPBm的计算也可以如此(C)。通过这种计算,例如计算出了如图51所示的基调概率。参考图51,针对从音符C到音符B的12个音符的每个的某个节拍区间计算了两种类型的基调概率,每种都针对 "Maj (major),,和“m (minor) ”。根据图51的示例,基调概率KPc为0. 90,并且基调概率KPcm 为0.03。此外,除上述基调概率之外的基调概率值都指示0。在计算了所有类型的基调的 基调概率之后,基调概率计算单元186以使得每个节拍区间的计算出的概率值的总和变为 1的方式来归一化概率值。针对包括在音频信号中的所有节拍区间重复如上所述的基调概 率计算单元186的计算和归一化处理。以这种方式针对每个节拍区间计算出的每个基调的 基调概率被输入到基调确定单元188。基调确定单元188基于基调概率计算单元186针对每个节拍区间计算出的每个基 调的基调概率,来通过路径搜索确定可能的基调行进。例如将上述的维特比算法用作基调 确定单元188的路径搜索方法。例如通过如图52所示的方法来执行针对维特比路径的路 径搜索。此时,将节拍顺序地排列作为时间轴(横轴),并且将基调类型排列作为观察序列 (纵轴)。因此,基调确定单元188将所有对的基调类型与已由基调概率计算单元186计算 出了其基调概率的节拍中的每对作为路径搜索的对象节点。相对于如上所述的节点,基调确定单元188在时间轴中顺序地选择节点中的任何 节点,并且利用两个评估值(1)基调概率和(2)基调转变概率来评估由所选择的节点序列 形成的路径。此外,在基调确定单元188选择节点时,不允许跳过节拍。这里,将用于评估 的(1)基调概率是由基调概率计算单元186计算出的基调概率。向图52所示的每个节点 给出基调概率。另一方面,(2)基调转变概率是给予节点之间的转变的评估值。基于已知 了其正确基调的音乐片段中的转调(modulation)出现概率,来针对每种模式的转调预先 定义基调转变概率。根据转变的转调量将12个单独的值定义作为针对如下四种模式的基调转变中的 每种的基调转变概率从大到大,从大到小,从小到小以及从小到大。图53示出了根据从大 到大的基调转变的转调量的12个单独的概率值的示例。在图53的示例中,当与转调量Ak 有关的基调转变概率为Pr (Ak)时,基调转变概率Pr(O)为0. 9987。这表明音乐片段中的基 调改变概率很小。另一方面,基调转变概率Pr(I)为0.0002。这表明基调通过一个音高升 高(或通过11个音高降低)的概率为0.02%。类似地,在图53的示1例中,Pr⑵,Pr (3), Pr (4),Pr (5),Pr (7),Pr (8),Pr (9)禾口 Pr(IO)分别为 0.0001。此夕hPr(6)禾口 Pr(Il)分别 为0. 0000。还分别针对如下转变模式中的每种模式定义了根据转调量的12个单独的概率 值从大到小,从小到大,以及从小到小。基调确定单元188相对于表示基调行进的每条路径,顺序地将包括在路径中的每 个节点的(1)基调概率与给予节点之间的转变的(2)基调转变概率彼此相乘。然后,基调 确定单元188将作为路径评估值的乘法结果最大的路径确定为表示可能的基调行进的最 优路径。例如,基调确定单元188确定了如图54所示的基调行进。在图54中,在从音乐片 段的开始到结束的时间量程下,示出了由基调确定单元188确定的音乐片段的基调行进示 例。在此示例中,在从音乐片段开始起的三分钟内,音乐片段的基调为“Cm”。然后,音乐片 段的基调改变为“C#m”,并且基调保持不变直到音乐片段结束为止。以这种方式通过相对和 弦概率生成单元182、特征量准备单元184、基调概率计算单元186以及基调确定单元188 的处理确定的基调行进被输入到旋律线确定单元112中(参考图2)。到此为止,已详细描述了节拍检测单元116、和弦概率检测单元120和基调检测单
35元118的配置。如上所述,由节拍检测单元116检测到的音乐片段的节拍供和弦概率检测 单元120和平滑单元114使用。此外,由和弦概率检测单元120计算出的和弦概率供基调 检测单元118使用。此外,由基调检测单元118检测到的基调行进供旋律线确定单元112 使用。根据这种配置,可由信息处理装置100从音乐数据中高准确度地提取出旋律线。(2-10.硬件配置(信息处理装置100))例如可以通过图55所示的硬件配置以及利用用于实现上述功能的计算机程序来 实现上述装置的各个结构元件的功能。图55是示出能够实现上述装置的各个结构元件的 能够的信息处理装置的硬件配置的说明图。信息处理装置的模式是任意的,并且包括诸如 移动信息终端(例如个人计算机、移动电话、PHS或PDA)、游戏机或各种类型的信息应用之 类的模式。此外,PHS是个人手持电话系统的缩写。而且,PDA是个人数字助理的缩写。如图55所示,信息处理装置100包括CPU 902,ROM 904、RAM906、主机总线908、桥 接器910、外部总线912和接口 914。此外,信息处理装置100包括输入单元916、输出单元 918、存储单元920、驱动器922、连接端口 924以及通信单元926。此外,CPU是中央处理单 元的缩写。此外,ROM是只读存储器的缩写。此外,RAM是随机存取存储器的缩写。CPU 902用作例如运算处理单元或控制单元,并且基于记录在R0M904、RAM 906、 存储单元920或可移除记录介质928上的各种程序来控制结构元件的整体操作或结构元件 的一些。ROM 904例如存储载入CPU902的程序以及在运算操作中使用的数据等。RAM 906 例如临时地或永久地存储载入CPU 902的程序或者在程序执行时任意改变的各种参数等。 这些结构元件例如通过可以执行高速数据传输的主机总线908彼此相连。主机总线908例 如通过桥接器910连接到数据传输速度相对低的外部总线912。输入单元916例如是诸如鼠标、键盘、触控板、按钮、开关或操作杆之类的操作装 置。输入单元916可以是利用红外线或其它电波发送控制信号的遥控装置(所谓的遥控 器)。输入单元916包括输入控制电路等,来将利用上述操作装置输入的信息作为输入信号 发送到CPU 902。输出单元918例如是显示设备,例如CRT、IXD、PDP或ELD。此外,输出单元918是 这种设备诸如扬声器或耳机之类的音频输出设备、打印机、移动电话,或者可以通过视觉 或听觉向用户通知所获取的信息的传真机。存储单元920是存储各种数据的设备,并且包 括例如诸如HDD之类的磁存储设备、半导体存储设备、光存储设备或者磁至光存储设备。此 外,CRT是阴极射线管的缩写。而且,IXD是液晶显示器的缩写。此外,PDP是等离子显示面 板的缩写。此外,ELD是电致发光显示器的缩写。此外,HDD是硬盘驱动器的缩写。驱动器922是读取记录在可移除记录介质928上的信息或者将信息写入可移除记 录介质928的设备,可移除记录介质928例如是磁盘、光盘、磁至光盘或半导体存储器。可 移除记录介质928例如是DVD介质、蓝光介质或者HD-DVD介质。此外,可移除记录介质928 例如是致密闪存(CF;CompactFlash)(注册商标)、存储棒或者SD存储卡。当然,可移除记 录介质928例如可以是安装有非接触式IC芯片的IC卡。此外,SD是安全数字的缩写。而 且,IC是集成电路的缩写。连接端口 924 是诸如 USB 端 口、IEEE1394 端 口、SCSI、RS-232C 端口之类的端 口, 或者用于连接诸如光学音频端子之类的外部连接设备930的端口。外部连接设备930例如 是打印机、移动音乐播放器、数字相机、数字摄像机或IC记录器。此外,USB是通用串行总线的缩写。而且,SCSI是小型计算机系统接口的缩写。通信单元926是连接到网络932的通信设备。通信单元926例如是用于有线或无 线LAN、蓝牙(注册商标)或WUSB的通信卡、光通信路由器、ADSL路由器或各种通信调制解 调器。连接到通信单元926的网络932包括有线连接的或无线连接的网络。网络932例如 是因特网、家庭用LAN、红外通信、可见光通信、广播或者卫星通信。此外,LAN是局域网的缩 写。而且,WUSB是无线USB的缩写。此外,ADSL是非对称数字订户线的缩写。(2-11.总结)最后,简要描述本实施例的信息处理装置的功能配置以及由该功能配置获得的效^ ο首先,根据本实施例的信息处理装置的功能配置可以被描述为如下。信息处理装 置包括如下的信号转换单元、旋律线估计单元和旋律线确定单元。信号转换单元用于将音 频信号转换为指示每个音高的信号强度的音高信号。通常将音频信号给出为时间频率空间 中的信号强度分布。然而,由于每个音高的中心频率是成对数地分布的,因此,信号处理变 得复杂。因此,由信号转换单元执行到音高信号的转换。将音频信号转换为时间频率空间 中的音高信号使得能够提高后面执行的处理的效率。此外,旋律线概率估计单元用于估计音高信号的每个音高是旋律音符的概率(旋 律概率)。此时,旋律线概率估计单元针对音高信号的每帧(时间单位)来估计旋律概率。 例如,将已经描述过的学习算法用于旋律概率的估计。针对每帧估计出的旋律概率供旋律 线确定单元使用。旋律线确定单元用于基于每个音高是旋律音符的概率、由旋律概率估计 单元针对每帧估计出的概率,从音频信号的开始帧到结束帧的音高的路径中检测最大似然 路径,并且将最大似然路径确定为旋律线。如所述的,旋律线不是通过使用学习算法并估计 整个旋律线而估计出的,而是通过利用学习算法基于针对每帧估计出的旋律概率来执行路 径搜索而估计出来的。结果,可以提高旋律线的估计准确度。此外,上述信息处理装置还可以包括中心提取单元,用于在音频信号为立体声信 号的情况中,从立体声信号中提取中心信号。通过包括中心提取单元,可以在从立体声信号 估计旋律线时提高估计准确度。此外,在包括中心提取单元的情况中,信号转换单元将中心 提取单元提取出的中心信号转换为音高信号。然后,基于从中心信号转换来的音高信号执 行后续处理。此外,上述信息处理装置还可以包括信号分类单元,用于将音频信号归为特定类 别。在这种情况中,旋律概率估计单元基于信号分类单元的分类结果来估计每个音高是旋 律音符的概率。此外,旋律线确定单元基于信号分类单元的分类结果来检测最大似然路径。 如上所述,旋律概率的估计是利用学习算法实现的。因此,通过分类来缩窄给予学习算法的 音频信号(以及特征量),可以估计出更可能的旋律概率。此外,在根据每个类别、每个节点 (每帧的音高)的概率以及节点之间的转变的概率,通过加权来执行路径搜索时,可以提高 最大似然路径(旋律线)的估计准确度。此外,上述信息处理装置还包括音高分布估计单元,用于相对于音高信号在针对 每帧估计作为旋律音符的音高的期望值的同时,估计作为旋律音符的音高的标准偏差。可 以根据由音高分布估计单元估计出的期望值与标准偏差来获得粗略的旋律概率分布。由 此,旋律线确定单元基于音高分布估计单元的估计结果来检测最大似然路径。以这种方式,
37通过将粗略旋律概率分布考虑在内,可以减少与八音度有关的检测误差。此外,还可以包括平滑单元,用于针对每个节拍区间对由旋律线确定单元确定的 旋律线的音高进行平滑。如所述的,由旋律线确定单元确定的旋律线是通过针对旋律概率 的估计处理以及路径搜索处理估计出来的。因此,以每帧为单位包括了音高中的微小波动。 因此,平滑单元对每个节拍区间的音高进行平滑并且对旋律线成形。通过这种成形处理,输 出了接近于实际旋律线的整洁的旋律线。此外,旋律概率估计单元可以被配置为通过将旋律线以及已知其旋律线的多个音 频信号提供到能够自动地生成用于提取任意音频信号的特征量的计算公式的计算公式生 成装置中,来生成用于提取每个音高是旋律音符的概率的计算公式,并且通过利用计算公 式来针对每帧估计出每个音高是旋律音符的概率,计算公式生成装置利用多个音频信号以 及每个音频信号的特征量来自动地生成计算公式。如上所述,例如,利用特征量已知的音频 信号进行学习处理而生成的计算公式被用于旋律概率的估计处理。通过使用足够数量的音 频信号进行学习处理,以高的准确率估计了旋律概率。此外,上述信息处理装置还可以包括节拍检测单元,用于检测音频信号的每个节 拍区间;和弦概率检测单元,用于针对由所述节拍检测单元检测到的每个节拍区间,来检测 每个和弦被演奏的概率;以及基调检测单元,用于利用由所述和弦概率检测单元针对每个 节拍区间检测到的每个和弦被演奏的概率,来检测音频信号的基调。在此情况中,所述旋律 线确定单元基于由所述基调检测单元检测到的基调来检测最大似然路径。以这种方式,通 过在将音频信号的基调考虑在内的情况下执行路径搜索,可以提高旋律线的估计准确度。 特别地,可以减小因颤音等引起的出现半音单位的检测误差的频率。此外,上述信息处理装置还可以包括信号转换单元,用于将音频信号转换为表示 每个音高的信号强度的音高信号;低音概率估计单元,用于基于所述音高信号来针对每帧 估计每个音高是低音音符的概率;以及低音线确定单元,用于基于每个音高是低音音符的 概率,即由所述低音概率估计单元针对每帧估计出的概率,来从自音频信号的开始帧到结 束帧的音高的路径中,检测最大似然路径,并且将所述最大似然路径确定为低音线。以这种 方式,上述信息处理装置还可以以与旋律线的估计处理类似的方式来估计低音线。(备注)上述对数谱是音高信号的示例。上述对数谱分析单元104是信号转换单元的示 例。上述维特比搜索是最大似然路径检测方法的示例。上述特征量计算公式生成装置10 是计算公式生成装置的示例。本领域的技术人员应当明白,可以根据设计要求和其它因素进行各种修改、组合、 子组合和变更,只要它们在所附权利要求或其等同物的范围之内。在对实施例的说明中,描述了用于提取音乐片段的旋律线的方法。然而,本实施例 的技术还可以应用于用于提取低音线的方法。例如,通过将给出作为学习数据的有关旋律 线的信息改变为有关低音线的信息,可以利用基本上相同的配置从音乐数据中高准确度地 提取出低音线。本申请包含与2008年12月5日向日本特许厅提交的日本优先专利申请JP 2008-311566中公开的主题有关的主题,该申请的全部内容通过引用结合于此。
权利要求
一种信息处理装置,包括信号转换单元,用于将音频信号转换为表示各个音高的信号强度的音高信号;旋律概率估计单元,用于基于所述音高信号来针对每帧估计各个音高是旋律音符的概率;以及旋律线确定单元,用于基于各个音高是旋律音符的概率,即由所述旋律概率估计单元针对每帧估计出的概率,来在从音频信号的开始帧到结束帧的音高的路径中,检测最大似然路径,并且将所述最大似然路径确定为旋律线。
2.根据权利要求1所述的信息处理装置,还包括中心提取单元,用于在所述音频信号为立体声信号的情况下,从所述立体声信号提取 中心信号, 其中所述信号转换单元将所述中心提取单元提取出的所述中心信号转换为所述音高信号。
3.根据权利要求1所述的信息处理装置,还包括 信号分类单元,用于将所述音频信号分类为特定类别,其中,所述旋律概率估计单元基于所述信号分类单元的分类结果来估计各个音高是旋 律音符的概率,并且所述旋律线确定单元基于所述信号分类单元的分类结果来检测所述最大似然路径。
4.根据权利要求3所述的信息处理装置,还包括音高分布估计单元,用于针对所述音高信号来估计每个特定时段中作为旋律音符的音 高的分布, 其中所述旋律线确定单元基于所述音高分布估计单元的估计结果来检测所述最大似然路径。
5.根据权利要求4所述的信息处理装置,还包括平滑单元,用于针对每个节拍区间,对由所述旋律线确定单元确定的旋律线的音高进 行平滑。
6.根据权利要求1所述的信息处理装置,其中所述旋律概率估计单元通过将旋律线已知的多个音频信号以及旋律线提供到能自动 生成用于提取任意音频信号的特征量的计算公式的计算公式生成装置,来生成用于提取各 个音高是旋律音符的概率的计算公式,并且所述旋律概率估计单元通过利用所述计算公式 来针对每帧估计出各个音高是旋律音符的概率,所述计算公式生成装置通过利用多个音频 信号以及每个音频信号的特征量来自动生成所述计算公式。
7.根据权利要求5所述的信息处理装置,还包括 节拍检测单元,用于检测音频信号的每个节拍区间;和弦概率检测单元,用于针对由所述节拍检测单元检测到的每个节拍区间,来检测每 个和弦被演奏的概率;以及基调检测单元,用于利用由所述和弦概率检测单元针对每个节拍区间检测到的每个和 弦被演奏的概率,来检测音频信号的基调, 其中所述旋律线确定单元基于由所述基调检测单元检测到的基调来检测最大似然路径。
8.一种信息处理装置,包括信号转换单元,用于将音频信号转换为表示各个音高的信号强度的音高信号; 低音概率估计单元,用于基于所述音高信号来针对每帧估计各个音高是低音音符的概 率;以及低音线确定单元,用于基于各个音高是低音音符的概率,即由所述低音概率估计单元 针对每帧估计出的概率,在来从音频信号的开始帧到结束帧的音高的路径中,检测最大似 然路径,并且将所述最大似然路径确定为低音线。
9.一种旋律线提取方法,包括以下步骤将音频信号转换为表示各个音高的信号强度的音高信号; 基于所述音高信号来针对每帧估计各个音高是旋律音符的概率;以及 基于各个音高是旋律音符的概率,即由估计各个音高是旋律音符的步骤针对每帧估计 出的概率,来在从音频信号的开始帧到结束帧的音高的路径中,检测最大似然路径,并且将 所述最大似然路径确定为旋律线, 其中步骤由信息处理装置来执行。
10.一种低音线提取方法,包括以下步骤将音频信号转换为表示各个音高的信号强度的音高信号; 基于所述音高信号来针对每帧估计各个音高是低音音符的概率;以及 基于各个音高是低音音符的概率,即由估计各个音高是低音音符的概率的步骤针对每 帧估计出的概率,来在从音频信号的开始帧到结束帧的音高的路径中,检测最大似然路径, 并且将所述最大似然路径确定为低音线, 其中步骤由信息处理装置来执行。
11.一种用于使得计算机执行以下步骤的程序 将音频信号转换为表示各个音高的信号强度的音高信号;基于所述音高信号来针对每帧估计各个音高是旋律音符的概率;以及 基于各个音高是旋律音符的概率,即由估计各个音高是旋律音符的步骤针对每帧估计 出的概率,来在从音频信号的开始帧到结束帧的音高的路径中,检测最大似然路径,并且将 所述最大似然路径确定为旋律线。
12.一种用于使得计算机执行以下步骤的程序 将音频信号转换为表示各个音高的信号强度的音高信号;基于所述音高信号来针对每帧估计各个音高是低音音符的概率;以及 基于各个音高是低音音符的概率,即由估计各个音高是低音音符的概率的步骤针对每 帧估计出的概率,来在从音频信号的开始帧到结束帧的音高的路径中,检测最大似然路径, 并且将所述最大似然路径确定为低音线。
全文摘要
本发明公开了信息处理装置、旋律线提取方法、低音线提取方法及程序。提供了一种信息处理装置,包括信号转换单元,用于将音频信号转换为表示每个音高的信号强度的音高信号;旋律概率估计单元,用于基于音频信号来针对每帧估计每个音高是旋律音符的概率;以及旋律线确定单元,用于基于每个音高是旋律音符的概率,即由旋律概率估计单元针对每帧估计出的概率,来从自音频信号的开始帧到结束帧的音高的路径中,检测最大似然路径,并且将最大似然路径确定为旋律线。
文档编号G10G3/04GK101916564SQ200910253629
公开日2010年12月15日 申请日期2009年12月7日 优先权日2008年12月5日
发明者小林由幸 申请人:索尼株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1