拍子分析装置和拍子分析方法

文档序号：2834554阅读：396来源：国知局

专利名称：拍子分析装置和拍子分析方法
技术领域：
本发明涉及能够从乐曲等声音信号提取演奏乐曲的速度、即拍子加以利用的拍子分析装置和拍子分析方法。
本申请以日本国的2003年3月31日的、申请号2003-094100的日本专利申请为基础，主张该优先权，本申请参考、援引该申请。
背景技术：
以往，通过对乐曲的声音数据进行分析，自动提取出该乐曲的拍子，将该提取出的拍子使用于例如制作乐谱，或使用于编曲等。这种提取乐曲拍子的技术之一记载于日本特开2002-116754号公报。
这种专利文献中记载的技术，将乐曲的声音数据作为时间系列数据取入，通过计算出该声音数据的自相关，检测该声音数据的峰值位置，取得拍子的候补，另一方面，根据自相关图案的峰值位置与其电平分析该乐曲的节拍(beat)结构，根据拍子的候补和节拍结构的分析结果，推定被认为最确切的拍子。
通过利用该专利文献中记载的技术，即使是预先对音乐知识不熟悉的人，也能够比较简单而且正确地提取所要的乐曲的拍子加以利用。
但是，最近，对于车载用音频系统(汽车立体声系统)和家庭用音频系统，也提出了检测重放的乐曲的拍子提供与该拍子相应的信息，或根据检测出的拍子，进行各种控制的方案。
上述专利文献中记载的技术对声音数据计算自相关，或对节拍结构进行分析等，运算处理复杂而且处理量庞大，实际进行运算处理的CPU负担很大。
因此，上述专利文献中记载的技术有时候不适合使用于规模比较小的车载用音频系统和家庭用音频系统。又，在想要使用上述专利文献中记载的技术的情况下，有必要使用处理能力高的CPU，或加大存储器容量等，可能导致音频系统的成本上升。

发明内容
本发明目的在于，提供能够解决如上所述的已有技术所存在的问题的新的拍子(tempo)分析装置和拍子分析方法。
本发明的另一目的是提供使CPU不承受大的负荷，而且也不导致成本上升，能够简单而且正确地检测出乐曲等声音的拍子使用的拍子分析装置以及拍子分析方法。
为实现上述目的而提出的拍子分析装置，具备检测输入声音信号的电平变化的峰值中，比规定以阈值大的多个峰值的位置的峰值检测单元、在规定的单位时间区间，检测由峰值检测单元检测出的峰值位置之间的时间间隔的间隔检测单元、以及根据间隔检测单元检测出的时间间隔中发生频度多的时间间隔，确定利用声音信号重放的声音的拍子的确定单元。
本发明的拍子分析装置，利用峰值检测单元对声音信号的电平依序检测从上升转向下降前瞬间的峰值位置(电平变化的顶点)。然后对利用时间间隔检测单元在规定的单位时间区间检测出的通常多个峰值位置至少以规定的一个峰值位置为基准，检测出该峰值位置与其他峰值位置的时间间隔(峰值间隔)。其后利用确定单元根据时间间隔检测单元的检测结果，检测发生频度多的时间间隔，根据该时间间隔确定利用处理对象的声音信号重放的乐曲等声音的拍子。以此不进行自相关运算等复杂的运算处理就能够简单而且正确地确定乐曲等声音的拍子。
本发明的构成拍子分析装置的确定单元，更具体地说，累积在多个单位时间区间中检测出的峰值位置间的时间间隔的发生频度，根据该累积的发生频度确定重放的声音的所述拍子。
本发明的拍子分析装置，还具备将输入信号分离为多个频带的频带分离单元，峰值检测单元是对于频带分离单元分离的多个频带中的至少一个或一个以上的频带中的每一个检测峰值位置的单元，间隔检测单元是检测峰值检测单元检测出的至少一个或一个以上的频带的每一个频带的峰值位置的时间间隔的单元，确定单元根据对于至少一个或一个以上的频带检测出的时间间隔中发生频度大的时间间隔，确定重放的声音的所述拍子。
又，本发明的拍子分析装置，具备计算声音信号的音量的音量计算单元、以及以音量计算单元计算出的音量为基准，设定检测峰值位置时使用的所述阈值的阈值设定单元。
在这种拍子分析装置中，也可以具备计算频带分离单元分离的多个频带中的至少一个或一个以上的频带的声音信号的音量的音量计算单元、以及以音量计算单元计算出的音量为基准，设定检测峰值位置时使用的所述阈值的阈值设定单元。
本发明的拍子分析装置，也可以还具备从输入声音信号提取规定的频带区域的声音信号的频带提取单元，形成峰值检测单元能够对于频带提取单元提取出的声音信号检测峰值位置的结构。在该拍子分析装置中，设置计算频带提取单元提取的声音信号的音量的音量计算单元、以及以音量计算单元计算出的音量为基准，设定检测峰值位置时使用的阈值的阈值设定单元。
本发明的拍子分析装置，还具备图像显示元件、存储能够在图像显示元件上显示的多个图像的图像数据的存储单元、以及根据确定单元确定的所述拍子，从存储单元选择读出图像数据，在图像显示元件上显示与读出的所述图像数据相应的图像的显示控制单元。
这种拍子分析装置的显示单元，控制相应于从存储单元读出的图像数据的图像显示于图像显示元件上的图像的大小、移动速度、移动模式中的至少一个。
又可以是显示单元根据确定单元确定的拍子与音量计算单元计算出的音量，从存储单元选择图像数据读出。
而且本发明的拍子分析方法，检测输入声音信号的电平变化中比规定的阈值大的多个峰值的位置，检测在规定的单位时间区间中检测出的所述峰值位置之间的时间间隔，根据在检测出的所述时间间隔中发生频度多的时间间隔，确定利用输入声音信号重放的声音的拍子。在确定拍子时，累积多个所述单位时间区间中检测出的峰值位置之间的时间间隔的发生频度，根据该累积的发生频度确定重放的声音的所述拍子。
本发明的拍子分析方法，还将输入声音信号分离为多个频带，在检测峰值的位置时，对分离的所述多个频带的至少一个或一个以上的频带中的每一个检测所述峰值位置，在检测所述时间间隔时，检测至少一或一个以上的所述频带中的每一个的峰值位置的时间间隔，在进行拍子的确定时，根据对至少一个或一个以上的频带的每一个检测出的所述时间间隔中发生频度多的时间间隔，确定重放的声音的拍子。
又，本发明的拍子分析方法，从输入声音信号提取规定的频带的声音信号，在检测峰值位置时，对提取的声音信号的峰值位置进行检测。
还有，本发明的拍子分析方法，也可以计算出输入声音信号的音量，根据算出的音量设定检测峰值位置时使用的阈值。
本发明的拍子分析方法，根据确定的拍子，从存储单元中存储的多个图像数据中选择图像数据读出，在图像显示元件上显示与读出的所述图像数据相应的图像。这种拍子分析方法，根据确定的拍子，控制图像显示元件上显示的图像的大小、移动速度、移动模式。又可以根据确定的拍子和计算出的音量，选择并读出存储单元中存储的多个图像数据。
本发明其它的目的、特征及优点，经参照附图对本发明的以下详细说明将会充分理解。

图1是使用本发明的车载立体声装置的方框图。
图2是搭载于车载立体声装置的拍子分析装置的方框图。
图3是说明在控制部执行的主要处理用的流程图。
图4是图3所示的步骤S1中执行的总音量计算处理的说明用的流程图。
图5是图3所示的步骤S2中执行的总拍子提取处理的说明用的流程图。
图6是图5所示的步骤S21中执行的阈值(threshold)处理的说明用的流程图。
图7是图5所示的步骤S23中执行的峰值位置提取处理的说明用的流程图。
图8是峰值位置提取处理的说明图。
图9是图5所示的步骤S25中执行的峰值间隔(周期)一览表的作成和拍子绝对处理的说明用的流程图。
图10是说明周期一览表(峰值间隔一览表)用的说明图。
图11是说明周期一览表的第1次筛选落选处理用的说明图。
图12是对于每一帧的发生频度最高的峰值间隔的保持和利用的说明图。
图13是对根据决定的拍子和音量确定可利用的图像数据的结构进行说明用的说明图。
图14表示利用决定的拍子进行选择、显示的图像的显示例。
具体实施形态以下参照附图对本发明的拍子分析装置和分析方法进行说明。
在下述说明中，举出将本发明使用于车载立体声装置(车载音频系统)的例子进行说明。
首先对本发明的车载立体声装置进行说明。使用本发明的车载立体声装置，如图1所示，具备无线电广播的接收天线ANT、AM/FM调谐部1、CD重放部2、MD(Mini Disc)重放部3、外部连接端子4、输入选择器5、音频放大器部6、左右扬声器7L、7R、控制部9、LCD(液晶显示器)10、键操作部11。
控制部9如图1所示，是CPU91、ROM92、RAM93、非易失性存储器94利用CPU总线95累积形成的微机，对该车载立体声装置的各部分进行控制。
在这里，ROM92是存储利用CUP91执行的程序和处理时必须的数据、显示时使用的图像数据和文字字体数据等的存储器。RAM93主要作为工作区域使用。非意识性存储器94是例如EEPROM(Electrically Erasable andPromgrammable ROM)和闪存存储器，存储即使是该车载立体声装置的电源脱落也必须保持的数据，例如，各种设定参数等。
又，在控制部9上，如图1所示，连接LCD10、键操作部11。LCD10具有比较大的显示画面，可以显示该车载立体声装置的状态和操作指南等，同时在通过例如外部输入端子，连接GPS(Global Positioning System)或DVD(DigitalVersatile Disc)的重放装置的情况下，利用控制部的控制显示地图信息或东海信息等。
键操作部11具备各种操作键和功能键、操作拨号盘等，能够接收来自用户的操作输入，将其变换为电信号，通知控制部9。借助于此，控制部9能够根据用户来的指示对该车载立体声装置的各部进行控制。
而且，如图1所示，该车载立体声装置具备AM/FM调谐部1、CD重放部2、MD重放部3、以及外部输入端子4作为声音信号等的供应端子。AM/FM调谐部1根据来自控制部9的选台控制信号，接收选择AM无线电广播或FM无线电广播中的目标频道，对该接收、选择的无线电广播信号进行解调，将解调的声音信号提供给选择器5。
CD重放部2具备主轴电动机、光头部等，对装入其中的CD进行旋转驱动，对该CD照射激光，接收其反射光，以此读出在CD上作为微小凹凸的连续的槽图案记录的声音数据。然后，将读出的数据变换为电信号，加以解调形成重放用的声音信号，然后将其提供给选择器5。
MD重放部3，与CD重放部的情况相同，具备主轴电动机、光头等，对装入其中的MD进行旋转驱动，对该MD照射激光，通过接收其反射光读出在该MD上作为磁化变化记录的声音数据，将其变换为电信号。读出的声音数据通常受到数据压缩，因此对其进行数据扩展处理(压缩解除处理)，形成重放用的声音信号将其提供给选择器5。
又，在外部连接端子4上，如上所述连接例如GPS和DVD重放装置等外部设备，将这些设备来的声音信号提供给选择器5。
而且，选择器5利用控制部进行切换控制，对将从AM/FM调谐部1、CD重放部2、MD重放部3、外部输入端子4中哪一个进行部分来的声音信号输出进行切换。以此将AM/FM调谐部1、CD重放部2、MD重放部3、外部输入端子4中的作为目的的部分来的声音信号提供给音频放大部。
音频放大器部6大致上分为输出信号处理部61和分析数据处理部62。输出信号处理部61根据控制部9来的控制信号，对要输出的声音信号进行音量调整、音质调整等各种调整处理，形成输出用的声音信号，将其提供给扬声器7L和7R。
这样就能够从扬声器7L和7R发出来自图1中符号1到4所示的部分中的作为目的的供给部分的声音信号对应的声音。
另一方面，分析数据提取部62将对其提供的声音信号分割为多个频带，向控制部9提供表示各频带的声音信号的电平的信息。控制部9根据分析数据提取部62来的分析数据检测声音信号的峰值位置，计算出规定的单位时间内的峰值位置之间的时间间隔，根据该计算结果确定输出的声音的拍子。关于控制部62的详细情况将在后面叙述。
而且，本例中的控制部9从例如ROM92或非易失性存储器94中存储的静止图像数据中选择与如上所述进行确定的拍子相应的数据，将其显示于LCD10上。又，控制部9在LCD10上显示的静止图像上重叠显示例如图形或字符等图形，而且是以相应于确定的拍子运动的状态进行显示。
这样，在本发明的车载立体声装置中，音频放大器部6的分析数据提取部62与控制部9构成拍子分析装置，通过这些部分协同工作，可以确定重放的乐曲等的声音拍子，将其加以利用。
也就是说，分析数据提取部62与控制部9构成的拍子分析装置部使用本发明的拍子分析装置的一实施形态，在这里使用的方法是使用本发明的拍子分析方法的一实施形态的方法。
而且，在本发明中，如下所述在确定要重放的乐曲等的声音拍子时，不像以往那样进行自相关等复杂的压缩，而是以简单的处理正确决定作为目的的声音的拍子。
下面对本发明的车载立体声装置中搭载的拍子分析装置部进行说明。
图2是表示在该车载立体声装置中搭载的拍子分析装置部的方框图。如上所述，本发明的拍子分析装置由设置于车载立体声装置中的音频放大器6中的分析数据提取部62与控制部9构成。
如图2所示，在分析数据提取部62与控制部9之间设置A/D变换部12。该A/D变换部12将分析数据提取部62输出的表示声音信号的电平的信息(例如电压值)变换为例如0～1023的1024级(step)的数字数据提供给控制部9。
该A/D变换部12如图2所示，也可以设置于分析数据提取部62与控制部9之间，可以使其作为数据分析提取部62起作用设置，也可以使其作为控制部92起作用设置。
在该实施形态中，分析数据提取部62由将对其提供的声音信号分离为多个频带的频带分离部621和检测分离为多个频带的声音信号的各信号电平，将其作为电平信息输出的电平检测部622构成。
频带分离部621如图2所示，进行分离时将其分离为中心频率为62Hz、157Hz、396Hz、1kHz、2.51kHz、6.34kHz、16kHz的7个频带(7band)。
在频带分离部621，分离为各频带的各声音信号如图2所示，被提供给电平检测部622，对其分别检测电平。在电平检测部622检测出的表示各频带的声音信号的电平的信息，通过A/D变换部12提供给控制部9。也就是被频带分割的各频带的声音信号的电平波形(声音电平波形)作为数字数据被提供给控制部9。
还有，分析数据提取部62可以利用例如IC A633AB(STMicroelectronics)等实现。又，通过用微电脑构成分析数据提取部62能够利用在该处执行的软件进行声音信号的频带分割和信号电平的检测。
而且，控制部9利用从分析数据提取部62来的各频带的声音信号的电平(声音电平波形)，通过以极简单的比较处理为中心的处理确定处理对象的声音拍子。然后，根据特定的拍子，控制部9从例如ROM92中准备的静止图像数据中提取与该拍子对应的静止图像形成用的图像数据，将其显示于LCD10的显示画面上。
同时，控制部9在将规定的图形或字符等显示于LCD10的显示画面的同时，进行使该图形或字符相应于确定的拍子移动等动作。
下面对如上所述作为控制部9的功能进行的利用处理对象的声音信号进行重放的声音的拍子的确定处理进行具体说明。图3是表示本发明的车载立体声装置中进行的利用处理图像的声音信号进行重放的声音的拍子进行确定的情况下的处理步骤的流程图。
在该车载立体声装置中，控制部9首先进行作为最后确定的拍子同时成为图像数据的显示用的参数的输入声音信号的音量电平(总音量)的计算处理(步骤S1)。
接着，控制部9对处理对象的声音进行拍子的提取和确定用的处理(步骤S2)。利用该步骤S1、S2求得的参数(总音量和拍子)，决定显示的图像数据和显示内容。
然后，在本发明中的车载立体声装置中，如上所述将处理对象的声音信号分割为7个频带(7band)，将规定的时间单位区间(1帧)作为处理单位进行处理。在这里，时间单位区间(1帧)是连续的，例如4秒钟的区间。
然后，对1帧(4秒钟)的区间用取样频率为20Hz的时钟信号进行取样，这样对于1帧能够得到80个取样。而且，例如10帧、20帧那样累积规定帧数的信息，根据该累积的信息进行总音量的计算和拍子的决定。
下面对图3所示的处理的步骤S1的处理和步骤S2的处理进行详细说明。
首先对步骤S1的总音量的计算处理进行说明。图4是图3所示的步骤S中进行的处理的说明用流程图。
在这里，也如图4所示，作为累积处理结果的连续的多个帧的各帧中的7个频带的总计音量的数据缓存器记为VolData[Frame]，各频带的音量数据(电平数据)存储用的缓存器记为data[band]，总音量值存储用的缓存器记为TotalVol。
又，[Frame]是总音量的作为计算对象的帧数，相当于[Frame]编号的帧是累积的处理结果的连续的多个帧中最旧的帧。[band]也是表示某一频带的频带编号。
然后，作为当前处理的对象的最新的帧的音量缓存器记为VolData[1]，累积处理结果的连续的多个帧中最旧的帧的音量缓存器记为VolData[Frame]，则如图4所示，控制部9的CPU91首先从总音量TotalVol中减去最旧的帧的音量(步骤S11)。
接着，使存储数据在缓存器VolData[1]～VolData[Frame]中逐个缓存器移动(步骤S12)。例如，以VolData[Frame]＝VolData[5]的情况为例时，使VolData[4]向VolData[5]移动，使VolData[3]的数据向VolData[4]移动，使VolData[2]的数据向VolData[3]移动，使VolData[1]的数据向VolData[2]移动。
然后，将从分析数据提取部62来的最新的帧的各频带的电平数据Data[1]、Data[2]、Data[3]、Data[4]、Data[5]、Data[6]、Data[7]相加，将该合计结果表示作为最新的帧的音量的数据设定于缓存器VolData[1](步骤S13)。
然后将在步骤S13中求得的最新的处理对象的帧的音量值与保持总音量值的TotalVol的数值相加，以此在从最新的帧向过去追溯的方向上求计算的[Frame]的份额的帧为对象的总音量(步骤S14)。
这样计算出处理对象的声音信号的总音量，将该计算出的总音量作为参数之一使用，，这样能够进行图像数据的选择、显示。
还有，上述总音量的计算处理从分割为多个频带的声音电平波形求得，但是除此以外也可以从对于提供的声音信号的声音电平波形求得，例如也可以准备取出例如中音域那样的特定频带成分的滤波器，从对于该频带的声音信号的声音电平波形求得。
下面对图3所示的步骤S2中进行的拍子提取处理进行具体说明。图5是图3所示的在步骤S2进行的拍子提取处理的说明用的流程图。如图5所示，从步骤S21到步骤S24的各处理以进行了频带分割的各频带的声音信号为对象进行。
也就是控制部9的CPU对每一频带进行设定阈值的处理(步骤S21)，执行在例如RAM93或非易失性存储器94中设置的峰值位置检测用缓存器、即峰值缓存器的内容的移动处理(步骤S22)。然后，进行提取在步骤S21设定的阈值以上的电平的峰值位置的处理(步骤S23)，根据提取的峰值位置，求各峰值位置之间的峰值间隔(峰值位置之间的时间间隔)(步骤S24)。
在对各频带进行的步骤S21～S24的处理之后，控制部9的CUP91进行将每一频带的峰值间隔汇总于1个一览表的处理，将检测频度(发生频度)最高的峰值间隔(峰值周期)作为重放的声音的拍子确定(步骤S25)。
接着，进行图5所示的拍子提取处理的步骤S21的阈值处理，对于步骤S23的峰值提取处理、步骤S25的确定拍子的处理，在下面将分别进行更详细的说明。
图6是在图5所示的拍子提取处理的步骤21中进行的阈值处理的说明用的流程图。在该实施形态中，与图3所示的步骤S1中执行的处理类似的处理、即对于进行了频带分割的各频带在一帧(4秒钟)的区间分别求最大音量电平，将其值作为MaxVol[band]加以保持。对接着的一帧(4秒钟)的区间进行阈值处理时，呼出保持的MaxVol[band]，在该值上乘以例如0.8，以此求出最大音量MaxVol[band]的80％的电平，判断该求得的电平是否大于对前面一个帧(4秒钟)的区间求得的阈值Thres(步骤S211)。
在步骤S211的判断处理中，阈值Thres被判断为比最大音量MaxVol[band]的80％的电平大的情况下，判定为音量低下，在阈值Thres设定该阈值Thres的90％的电平(步骤S212)。
在步骤S211的处理中，判断为阈值Thres比音量MaxVol[band]的80％的电平小的情况下，判定为音量偏高，将这次的新的最大音量MaxVol[band]的80％的电平设定于阈值Thres(步骤S213)。
这样，在本发明的车载立体声装置中，在对于每一频带音量低下的情况和音量上升的情况两种情况下，可以适当改变阈值Thres。通过将该阈值Thres作为检测声音信号的峰值位置时的基准使用，可以正确确定声音的拍子。
下面对图5所示的拍子提取处理的步骤S23中进行的峰值位置提取处理进行说明。图7是图5所示的步骤S23中执行的峰值位置提取处理的说明用的流程图。如上所述，在该实施形态中，在作为1帧的4秒钟取样80次，对其电平进行检测。然后对于各取样进行图7所示的处理。
首先，控制部9判断当前的取样的电平是否低于用图6说明那样设定的阈值Thres(步骤S231)。在该步骤S231的判定处理中，当前的取样的电平被判断为不低于阈值Thres时，有可能当前的取样的电平是最大值，因此将已经作为最大值的候补暂时加以登记的电平与现在的取样的电平加以比较，判断当前的取样的电平是否比较高(步骤S232)。
在该步骤S232的处理中，如果已经登记的最大值的候补的电平高于当前的取样的电平，则什么也不做，跳过该图7所示的处理。在步骤S232的判断处理中，当前的取样的电平高于已经登记的最大值的候补的电平的情况下，暂时登记当前的取样的电平与该取样的位置(步骤S233)，然后，跳过放下该图7所示的处理。还有，暂时登记于例如RAM93或非易失性存储器94的暂时登记区域。
又，在步骤S231的判断处理中，判断为当前的取样的电平低于阈值Thres时，在步骤S233中判断暂时登记的电平的取样位置是否在当前的处理对象的帧内(步骤S234)。
在步骤S234的判断处理中，判断为暂时登记的电平的取样位置不是当前的处理对象的帧内时，作为处理对象的帧转移到下一帧，因此什么也不做就跳过该图7所示的处理。
步骤S234的判断处理中，判断为暂时登记的电平的取样位置是在当前的处理对象的帧内时，将作为峰值候补暂时登记的电平及其取样位置作为峰值电平及峰值位置追加记录于规定区域(最大值位置信息区域)，同时将峰值数记述为1，跳过该图7所示的处理。
这样，在本发明的车载立体声装置中，不计算自相关，只用比较简单的比较处理，就能够检测出峰值电平，提取其峰值电平的位置(峰值位置)。
然后，在该车载立体声装置中，根据在图5所示的处理的步骤S23中进行图7所示的处理得到的峰值位置，在图5所示的步骤S24中，求得峰值间隔(峰值位置间的时间间隔)。
图8是本发明中进行的峰值间隔检测处理的说明图。如图8所示，以在1帧内存在4个阈值以上的峰值位置(峰值点)的情况为例，对求峰值间隔的处理进行说明。
控制部9根据表示在例如RAM93或非易失性存储器中存储保持的峰值的位置的信息，如图8中字母A、B、C、D、E、F所示，相同区间不重复地求峰值间隔。
在图8所示的例子中，以4个峰值位置的各位置为基准，求与其他峰值位置之间的间隔。但是，只有作为基准的峰值位置与其他峰值位置逆转的区间，由于区间的重复，在实质上区间重复的情况下进行只使其一方起作用的处理。
因此，图8所示的例子的情况下，对于4个峰值位置的各个位置求与其他3个峰值位置之间的峰值间隔，因此能够检测出12个峰值间隔，对于重复的区间只使其中一个起作用，因此如图8所示，能够检查出6个峰值间隔A、B、C、D、E、F。
该处理以处理对象的帧区间的各频带的电平数据为对象进行。然后，将该处理对象的帧区间的各频带中求得的峰值间隔展开为峰值间隔(周期)一览表(以下称为周期一览表)，根据该周期一览表能够决定重放的乐曲的拍子。
图9是图5所示的步骤25中执行的周期一览表生成和拍子决定处理的说明用的流程图。图9所示的流程图的处理是在控制部9执行的处理。
首先，控制部9判断当前音量是否为0(步骤S251)。该判断可以通过核对上述总音量TotalVol进行，也可以另行检测输入声音信号的音量电平，对其进行核对。
还有，设想也存在音量不完全为0的情况，在步骤S251的处理中，在规定阈值以下的声音电平的声音信号持续规定取样以上的情况下，判断为音量为0，也就是乐曲的重放结束。
在步骤S251的处理中，判断为音量不为0时，控制部一边在得分(score)上加权一边将用图7如上所述求出的所有的峰值间隔展开为周期一览表(步骤S252)。周期一览表例如图10所示，以横轴表示峰值间隔，以纵轴表示得分(检测数)，对于在处理对象的帧区间中的各频带中检测出的各峰值间隔，累积其检测次数。
在这里，加权是对每一频带根据峰值间隔的大小预先设定规定的值。例如，也可以对于高音域的频带的权重赋予比对于中音域的频带的权重小的值。或对于各频带的权重采用相同的值。
还有，在该例子中，如图10所示，每一频带的权重用W1、W2、W3、…表示，用AA、BB表示每一峰值间隔的权重。在这里得分(score)的计算例如下所述。
峰值间隔的B、E的得分＝AA*(第1频带的得分*W1+第2频带的得分*W2+…+第6频带的得分*W6+第7频带的得分*W7)在这一例子中，进行每一峰值间隔的加权和每一频带的加权，能够得到各峰值间隔的得分。
然后，在图9所示的周期一览表中，可知如使用图8所述的那样检测出的峰值的间隔中相同间隔的峰值间隔B、E的被检测出的次数最多。控制部9根据生成的周期一览表，将检测次数、即累计的分数最高的峰值间隔作为拍子确定(步骤S253)。
接着，控制部9判断周期一览表的得分最高值是否超过预定的规定值(步骤S254)。拍子的决定必须根据周期一览表迅速进行，因此在周期一览表上积累需要以上的数据有可能导致处理的延迟、存储器使用的浪费等，所以是不理想的。
在步骤S254的判断处理中，在周期一览表的得分的最大值不超过预定值的情况下，结束图9所示的处理。又，在步骤S254的判断处理中，判断为周期一览表的得分的最大值超过预定的规定值的情况下，对周期一览表的数据进行第1次筛选落选处理(步骤S255)，其后结束该图9所示的处理。
在步骤S255中进行的周期一览表的第1次筛选落选处理，如上所述，或如图11所示，在累计下去的各峰值间隔的得分数超过规定值的情况下进行。具体地说，利用下述方法进行，即或从周期一览表的各峰值间隔的得分中减去规定的得分，或在展开为周期一览表的数据中减去例如最旧的帧的各峰值间隔的得分，或从最旧的帧在新帧放下上减去多个帧的峰值间隔的得分。
又，在图9所示的步骤251的判断处理中，在判断为音量为0时，可以判断为乐曲的重放结束，因此重新安排图10所示生成的周期一览表(步骤S256)，使新重放的乐曲的拍子的分析处理中具备该周期一览表，然后结束该图9中所示的处理。
还有，在该车载立体声装置中，控制部9存储多个帧的、例如1000帧的，在各帧中检测出的表示该帧中的检测频度的最高峰值间隔的信息。例如图12所示，保持表示各帧的检测频度最高的峰值间隔的数据。
这样，即使对于成为处理对象的过去的帧，也通过保持表示间隔的信息，在例如在某一帧中峰值间隔突然变大的情况下，也能够通过参照表示其前后的帧的峰值间隔的信息，不受峰值间隔的突然变动太大影响地恰当决定重放对象乐曲的拍子。
然后，在本发明的车载立体声装置中，一旦控制部9如上所述决定重放对象乐曲的步骤的拍子，就根据该决定的拍子读出保持于ROM中的例如静止图像的图像数据，将该读出的图像数据的静止图像显示于LCD10。
在该车载立体声装置中，LCD10上显示的静止图像根据重放的乐曲的拍子和音量决定。也就是说，如图13所示，设想横轴表示拍子，纵轴表示音量的坐标平面，在该平面上设置9个数据块×9个数据块的区域。
然后，对应于利用拍子和音量决定的数据块，一义地决定形成图像的图像数据。也就是对图13所示的81个数据块分别决定形成规定图像的图像数据。
因此，例如如图13所示，如果了解到拍子TP和音量V，就从ROM92读出由其表示的坐标(TP，V)所述的数据块中分配的图像数据，该读出的图像数据的静止图像利用控制部的控制显示于LCD10的显示画面上。
还有，在这里，例如ROM92中，存储着与至少如图13所示设定的91个数据块中的各数据块对应的91个静止图像的图像数据。而且，实际上也有可能发生不属于图13所示的任何数据块的情况，因此也可以存储保持不属于任何数据块的情况下使用的静止图像的多个图像数据，将其加以利用。因此，例如ROM92在本实施形态的情况下存储保持着100个左右的静止图像的图像数据。
又，上面说明了在本发明的车载立体声装置中将与拍子和音量相应的静止图像显示于LCD10的显示画面上的例子，但是当然也可以显示规定时间份额的动画图像，或进行反复显示该规定时间份额的动画等动画图像的显示。
还有，在本发明的车载立体声装置中，不仅在重放乐曲时如上所述在LCD10的显示画面上显示与拍子和音量相对应的图像，而且例如在图14中对象Ob所示，将预先决定的图形或字符等显示对象显示于LCD10的显示画面上，并使其移动。
在这种情况下，对象Ob的移动模式和移动速度等根据所确定的拍子决定，控制为拍子越快，越是激烈移动，拍子越慢，则缓慢移动。当然，也可以根据拍子和音量选择移动模式和移动速度。又，对于要使其显示移动的显示对象本身，也可以预先准备多个，根据决定的拍子或决定的拍子和音量选择使用的显示对象。
这样，在本发明的车载立体声装置中，可以不进行自相关等复杂的运算处理，就能够简单而且迅速、正确地确定重放的乐曲等声音的拍子。因而能够不使车载立体声装置的控制部受到很大负荷就能够确定重放的声音的拍子。
而且，能够对应于确定的拍子确定LCD10上显示的图像，将其显示向用户提供。又能够根据确定的拍子，使显示对象显示于LCD的显示画面上，使其对应于拍子移动。也就是说，不同于利用物理上的信息的图表均衡器，能够以新的方式提供可相应于作为音乐信息的确定的拍子提供图像信息的信息。
在上述实施形态中，将重放的声音信号分割为7个频带区域，对每一个频带进行处理，但是并不限于此。分割的频带数目不管几个都可以。也就是说，当然也可以不分割频带，对具有全部频带的声音信号进行如上所述的处理。
又，即使是将处理对象的声音信号分割为多个频带的情况下，也可以不将所分割的全部频带的声音信号作为处理对象，可以选择分割的频带的一个或一个以上的频带作为处理对象。或是也可以利用带通滤波器提取作为处理对象的频带的声音信号，进行如上所述的处理。
又，在进行峰值位置的检测时，声音波形的电平的阈值根据前帧区间的最大音量计算出，但是，不限于此。也可以对声音波形的阈值用规定值预先设定。又可以相应于所选择的音量电平等，从预先决定的多个数值中选择规定的值使用。
上述实施形态中，峰值间隔的检测，以全部峰值的位置为基准，并且将实质上重复的间隔除外，但是并不限于此。例如也可以以各帧中的任意一个或一个以上的峰值位置为基准检测峰值间隔，使用这样求得的峰值期间。也就是说，不必一定要与全部的峰值位置为基准使用检测峰值间隔。
又，在上述实施形态中，1帧是4秒钟，使用20Hz的取样频率的时钟信号，但是，并不限于此。也可以是帧的时间长度、取样频率根据车载立体声装置等设备上搭载的CPU的性能等选择适当的值。
还有，在上述实施形态中，根据确定的拍子和总音量在LCD上显示例如静止图像，同时也将显示对象加以显示，使该显示对象移动，但是与确定拍子相应的处理并不限于此。
也可以例如或在重放拍子比较快的乐曲的情况下强调低音域和高音域，或在重放拍子比较慢的乐曲的情况下选择环绕模式，或加强混响等，进行各种调整。
也就是能够根据确定的拍子，进行均化器的调整、环绕模式的切换、音量的调整等各种控制。
在上述实施形态中，举出将本发明使用于车载立体声装置的例子进行了说明，但是，本发明不限于此。可以将本发明使用于家用立体声装置、CD播放器、MD播放器、DVD播放器、个人电脑等的声音信号重放和输出那样的各种音频装置、音频/视频装置。
将本发明使用于例如家用立体声装置的情况下，也可以相应于确定的拍子进行室内照明的亮度调整和室温调整等。
又，在上述实施形态中，以声音信号的频带分割用已有的集成电路(IC)进行的例子进行说明，但是本发明不限于此，声音信号的频带分割也可以利用例如在控制部9中执行的程序进行。
本发明也可以利用软件充分实现。如果将其具体表示，作为第1个程序，生成执行下述步骤的程序，所示步骤即对作为处理声音信号的装置的计算机提供的声音信号的电平比规定阈值大，而且成为电平的变化顶点的峰值位置的检测步骤、在规定的单位时间区间与检测出的上述峰值位置为对象，至少检测出规定的峰值位置与其他的峰值位置之间的时间间隔的时间间隔检测步骤、根据检测出的所述时间间隔中发生频度多的时间间隔，确定利用所述声音信号重放的声音的拍子的确定步骤，将其通过有线、无线、或记录媒体提供给立体声设备和音频/视频设备，使其能够执行，以此能够实现本发明的装置、方法。
又，也可以生成这样的程序作为第2程序，即在上述第1程序，在特定的步骤中累计在多个上述单位时间区间检测出的峰值位置之间的时间间隔的发生频度，根据该累计的发生频度，也可以确定重放的声音的拍子。
又可以与上述车载立体声装置的情况相同，生成如下所述程序作为第3程序，即设置将所提供的所述声音信号分离为多个频带的频带分离步骤，在检测步骤中，对于分离的所述多个频带的至少一个或一个以上频带的每一个检测所述峰值位置，在时间间隔检测步骤中，以至少一个或一个以上的频带的每一个的峰值位置为对象，对于每一个频带检测时间间隔，在确定步骤中，根据对于至少一个或一个以上的频带的每一个检测出的时间间隔中发生频带多的时间间隔，确定重放的声音的所述拍子。
又可以生成如下所述的程序作为第4程序，即第4程序设置下述步骤，也就是根据要输出的声音信号，计算出要输出的声音的音量计算步骤、以及与计算出的音量为基准设定在检测峰值位置的情况下使用的阈值的阈值设定步骤。
又可以生成如下所述的程序作为第5程序，即第5程序设置下述步骤，也就是根据确定的拍子，从存储器中存储的图像数据中提取图像显示元件上显示的图像的图像数据的图像提取步骤、以及将相应于提取的图像数据的图像显示于图像显示元件上的显示步骤。
又可以生成如下所述的程序作为第6程序，即第6程序具备根据确定的上述拍子，控制在图像显示元件上显示的图像的大小、移动速度、移动模式(pattern)的步骤。
这样，本发明的拍子分析装置和拍子分析方法也可以利用程序实现，生成的程序可以利用互联网和电话网等各种电气通讯线路和数据广播提供给用户，又可以通过分布记录具有上述步骤的程序的记录媒体向用户提供。
工业上的实用性如上所述，采用本发明，能够不进行自相关运算等复杂的运算处理，简单而且正确地检测乐曲等声音的拍子。又，能够根据检测出的拍子提供信息，或进行各种控制等。由于能够检测使用硬件中断进行网络的连接，然后再确立链接，因此能够使系统的负荷最小化，同时能够在连接网络电缆时立即使用网络。
权利要求
1.一种拍子分析装置，其特征在于，具备检测输入声音信号的电平变化的峰值中，比规定阈值大的多个峰值的位置的峰值检测单元、在规定的单位时间区间，检测由所述峰值检测单元检测出的所述峰值位置之间的时间间隔的间隔检测单元、以及根据所述间隔检测单元检测出的所述时间间隔中发生频度多的所述时间间隔，确定利用所述声音信号重放的声音的拍子的确定单元。
2.根据权利要求1所述的拍子分析装置，其特征在于，所述确定单元累积在多个所述单位时间区间中检测出的峰值位置间的所述时间间隔的发生频度，根据该累积的发生频度确定重放的声音的所述拍子。
3.根据权利要求1所述的拍子分析装置，其特征在于，具备将所述输入信号分离为多个频带的频带分离单元，所述峰值检测单元是对于所述频带分离单元分离的多个频带中的至少一个或一个以上的频带中的每一个检测所述峰值位置的单元，所述间隔检测单元是检测所述峰值检测单元检测出的至少一个或一个以上的所述频带的每一个频带的所述峰值位置的所述时间间隔的单元，所述确定单元根据对于至少一个或一个以上的所述频带检测出的所述时间间隔中发生频度大的时间间隔，确定重放的声音的所述拍子。
4.根据权利要求1所述的拍子分析装置，其特征在于，具备从所述输入声音信号提取规定的频带区域的声音信号的频带提取单元，所述峰值检测单元对于所述频带提取单元提取出的声音信号检测所述峰值位置。
5.根据权利要求1所述的拍子分析装置，其特征在于，具备计算所述输入声音信号的音量的音量计算单元、以及以所述音量计算单元计算出的音量为基准，设定检测所述峰值位置时使用的所述阈值的阈值设定单元。
6.根据权利要求3所述的拍子分析装置，其特征在于，具备计算所述频带分离单元分离的多个频带中的至少一个或一个以上的频带的声音信号的音量的音量计算单元、以及以所述音量计算单元计算出的音量为基准，设定检测所述峰值位置时使用的所述阈值的阈值设定单元。
7.根据权利要求4所述的拍子分析装置，其特征在于，具备计算所述频带提取单元提取的声音信号的音量的音量计算单元、以及以所述音量计算单元计算出的音量为基准，设定检测所述峰值位置时使用的所述阈值的阈值设定单元。
8.根据权利要求1所述的拍子分析装置，其特征在于，具备图像显示元件、存储能够在所述图像显示元件上显示的多个图像的图像数据的存储单元、以及根据所述确定单元确定的所述拍子，从所述存储单元有选择地读出图像数据，在所述图像显示元件上显示与读出的所述图像数据相应的图像的显示控制单元。
9.根据权利要求8所述的拍子分析装置，其特征在于，所述显示单元控制相应于从所述存储单元读出的所述图像数据的图像显示于所述图像显示元件上的所述图像的大小、移动速度、移动模式中的至少一个。
10.根据权利要求8所述的拍子分析装置，其特征在于，所述显示单元根据所述确定单元确定的所述拍子与所述音量计算单元计算出的音量，从存储单元选择图像数据读出。
11.一种拍子分析方法，其特征在于，检测输入声音信号的电平变化中比所述阈值大的多个峰值的位置，检测在规定的单位时间区间中检测出的所述峰值位置之间的时间间隔，根据在检测出的所述时间间隔中发生频度多的时间间隔，确定利用所述输入声音信号重放的声音的拍子。
12.根据权利要求11所述的拍子分析方法，其特征在于，在确定所述拍子时，累积多个所述单位时间区间中检测出的所述峰值位置之间的所述时间间隔的发生频度，根据该累积的发生频度确定重放的声音的所述拍子。
13.根据权利要求11所述的拍子分析方法，其特征在于，将所述输入声音信号分离为多个频带，在检测所述峰值的位置时，对分离的所述多个频带的至少一个或一个以上的频带中的每一个检测所述峰值位置，在检测所述时间间隔时，检测至少一或一个以上的所述频带中的每一个的所述峰值位置的所述时间间隔，在进行所述拍子的确定时，根据对于至少一个或一个以上的所述频带的每一个检测出的所述时间间隔中发生频度多的时间间隔，确定重放的声音的所述拍子。
14.根据权利要求11所述的拍子分析方法，其特征在于，从所述输入声音信号提取规定的频带的声音信号，在检测所述峰值位置时，对所述提取的声音信号的所述峰值位置进行检测。
15.根据权利要求11所述的拍子分析方法，其特征在于，计算出所述输入声音信号的音量，根据算出的所述音量设定检测所述峰值位置时使用的所述阈值。
16.根据权利要求13所述的拍子分析方法，其特征在于，计算所述分离的多个频带中的至少一个或一个以上的频带的声音信号的音量，根据计算出的所述音量设定检测所述峰值位置时使用的所述阈值。
17.根据权利要求14所述的拍子分析方法，其特征在于，计算所述计算出的所述音量的音量，以计算出的所述音量为基准，设定检测所述峰值位置的情况下使用的所述阈值。
18.根据权利要求11所述的拍子分析方法，其特征在于，根据确定的所述拍子，从存储单元中存储的多个图像数据中选择图像数据读出，在所述图像显示元件上显示与读出的所述图像数据相应的图像。
19.根据权利要求18所述的拍子分析方法，其特征在于，根据确定的所述拍子，控制图像显示元件上显示的图像的大小、移动速度、移动模式。
20.根据权利要求18所述的拍子分析方法，其特征在于，根据确定的所述拍子和计算出的所述音量，选择并读出所述存储单元中存储的多个图像数据。
全文摘要
本发明是对乐曲等声音的拍子进行分析的拍子分析装置，根据从分析数据提取部(62)来的声音信号的电平信息，在控制部(9)以作为规定的单位时间区间的帧作为处理单位，检测出在规定电平以上的峰值位置(电平变化的顶点)，求该帧区间中的各峰值位置之间的间隔(峰值间隔)，将发生频度高的峰值间隔决定为拍子。
文档编号G10G3/04GK1764940SQ20048000822
公开日2006年4月26日申请日期2004年3月9日优先权日2003年3月31日
发明者白石吾朗, 关根千绘, 增田九美子, 森邦晴申请人:索尼株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：白石吾朗;关根千绘;增田九美子;森邦晴
技术所有人：索尼株式会社
我是此专利的发明人

上一篇：键盘乐器的功能性能的制作方法
上一篇：扬声器系统用声波导向结构及喇叭扬声器的制作方法