音频信号处理装置、音频信号处理方法及非易失性计算机可读记录介质与流程

文档序号:23552579发布日期:2021-01-05 21:12阅读:189来源:国知局
音频信号处理装置、音频信号处理方法及非易失性计算机可读记录介质与流程

本发明涉及音频信号处理装置、音频信号处理方法及非易失性计算机可读记录介质。



背景技术:

已知这样一种技术:其通过将声学传递函数卷积为声音(例如,人的声音或音乐)的音频信号并将关于声音的到达方向的信息(换句话说,声像的位置)添加到音频信号来定位声像。在日本专利临时公开no.jp2010-157954中公开了应用该技术的传统音频信号处理装置的示例。

传统的音频信号处理装置配置为存储分别对应于不同的到达方向的多个声学传递函数。每个声学传递函数包含频谱特性的信息,所述频谱特性是为收听者提供感知声音定位的频率特征的特征部分(例如,频域上的波峰或陷波)。在高频区域中存在许多频谱特性。传统的音频信号处理装置配置为合成对应于多个到达方向的声学传递函数,并将合成的声学传递函数卷积为音频信号,从而通过多个虚拟扬声器模拟声像定位,并且通过真实扬声器弱化声像定位。



技术实现要素:

在传统技术中,一对扬声器布置在收听者的头部后面。在这样的收听环境中,当播放音频信号时,通过在音频信号中卷积从虚拟扬声器输出的声音的声学传递函数而对音频信号添加了关于到达方向的信息,因为频率区域越高,音频信号的相位越容易移动,因此播放的声音到达收听者时不会将从虚拟扬声器输出的声音的频谱特性的大部分进行正确地再现。

下面将进一步描述上述相移。鉴于有两种情况:情况1和情况2。在情况1中,假设两个扬声器分别布置于收听者头部的右前方和左前方,而在情况2中,假设两个扬声器分别布置于收听者头部的右后方和左后方。在情况2中,收听者的耳垂位于从每个扬声器输出的声音的传播路径上。声音的频率越高,波长越短,并且耳垂对声音的衍射和吸收的影响越大。具体地,在情况2中,串扰路径(即,左扬声器与右耳之间的路径以及右扬声器与左耳之间的路径)中的相移大于情况1。此外,在情况2中,与情况1相比,相移量在频率轴上非线性地变化。在对应于传统技术的情况2中,由于高频范围内的较大的相移,再加上频率轴上的非线性相移,难以正确地再现频谱特性,并且难以获得期望的声像定位。

鉴于上述情况做出了本发明,并且本发明的目的是提供一种能够容易地获得期望的声像定位的音频信号处理装置、音频信号处理方法及音频信号处理程序。

根据本发明的一方面,提供一种音频信号处理装置,音频信号处理装置配置为处理音频信号,所述音频信号处理装置包括调节电路和处理电路,所述调节电路配置为对基于到达声音获得的声学传递函数进行调节,所述到达声音是从相对于声音收集器形成特定角度的方向到达的、由声音收集器收集,所述调节电路通过对声学传递函数的振幅频谱应用增强处理来调节声学传递函数,所述增强处理包括:当振幅大于特定参考水平时,将振幅频谱的振幅分量更多地放大,当振幅小于特定参考水平时,将振幅频谱的振幅分量更多地衰减;所述处理电路配置为基于调节电路调节的声学传递函数将表示声音的到达方向的信息添加到音频信号。

根据如上所述配置的音频信号处理装置,即使当发生高频范围内的相移或频率轴上的非线性相移时,由于表示声音的到达方向的信息几乎不丢失,例如,即使在收听者收听从布置在他/她的头部后面的一对扬声器输出的声音的收听环境中,收听者可以感觉到期望的声像定位。

所述音频信号处理装置可以包括函数控制电路,所述函数控制电路配置为:将调节电路调节的声学传递函数分为低频分量和高频分量,所述高频分量是频率高于所述低频分量的分量;将所述低频分量比高频分量更多地衰减;在将低频分量进行衰减后,将低频分量与高频分量进行合成。

根据如上所述配置的音频信号处理装置通过控制音频信号的低频分量的衰减程度,能够调节要施加到音频信号的声音的距离感(即,收听者与声音的输出位置之间的距离)。

所述音频信号处理装置可以包括:存储部,其配置为存储到达声音的脉冲响应;以及获得电路,其配置为从脉冲响应中获得包括频谱特性的声学传递函数。在这种情况下,所述调节电路通过对获得电路获得的声学传递函数的振幅频谱应用增强处理来扩大频谱特性的波峰与陷波之间的水平差。

根据如上所述配置的音频信号处理装置,例如,通过扩大形成频谱特性的波峰和陷波的振幅频谱上的水平差,即使当发生高频范围内的相移或频率轴上的非线性相移时,频谱特性的陷波图案和波峰图案也不会完全失真(换句话说,陷波图案和波峰图案的形状得到保持)。因此,即使在收听者收听从布置在他/她的头部后面的一对扬声器输出的声音的收听环境中,收听者也可以感觉到期望的声像定位。

所述存储部可以存储多个到达声音的多个脉冲响应,每个到达声音具有不同的到达方向。所述获得电路可以执行:从多个脉冲响应的至少两个脉冲响应中获得至少两个声学传递函数;对所述至少两个声学传递函数进行加权;在对所述至少两个声学传递函数进行加权之后,对至少两个声学传递函数进行合成。

根据如上所述配置的音频信号处理装置,能够模拟未存储在存储部中的到达方向的脉冲响应。

所述存储部可以存储多个到达声音的多个脉冲响应,每个到达声音的输出位置与声音收集器之间的每个距离是不同的。所述获得电路可以执行:从多个脉冲响应的至少两个脉冲响应中获得至少两个声学传递函数;对所述至少两个声学传递函数进行加权;在对所述至少两个声学传递函数进行加权之后,对至少两个声学传递函数进行合成。

根据如上所述配置的音频信号处理装置,能够模拟未存储在存储部中的距离(即,从到达声音的输出位置到声音收集器的距离)的脉冲响应。

所述音频信号处理装置可以包括变换电路,所述变换电路配置为对所述音频信号进行傅立叶变换。在这种情况下,所述获得电路通过将傅立叶变换应用于到达声音的脉冲响应来获得声学传递函数。所述处理电路执行:将调节电路调节的声学传递函数卷积为应用了傅里叶变换的音频信号,并且通过对卷积的音频信号进行傅里叶逆变换来获得添加了表示到达方向的信息的音频信号。

根据本发明的一方面,提供一种音频信号处理装置,其配置为处理音频信号,所述音频信号处理装置包括调节电路和处理电路,所述调节电路配置为对基于到达声音获得的声学传递函数进行调节,所述到达声音是从相对于声音收集器形成特定角度的方向到达的、由声音收集器收集,所述调节电路通过对以声学传递函数的振幅频谱表示的频谱特性的波峰和陷波进行增强来调节声学传递函数;所述处理电路配置为基于调节电路调节的声学传递函数将表示声音的到达方向的信息添加到音频信号。

根据如上所述配置的音频信号处理装置,通过增强频谱特性的波峰和陷波,即使当发生高频范围内的相移或频率轴上的非线性相移时,频谱特性的陷波图案和波峰图案也不会完全失真。因此,即使在收听者收听从布置在他/她的头部后面的一对扬声器输出的声音的收听环境中,收听者也可以感觉到期望的声像定位。

根据本发明的一方面,提供一种音频信号处理方法,所述方法用于配置为处理音频信号的音频信号处理装置,所述方法包括:对基于到达声音获得的声学传递函数进行调节,所述到达声音是从相对于声音收集器形成特定角度的方向到达的、由声音收集器收集,通过对声学传递函数的振幅频谱应用增强处理来调节声学传递函数,所述增强处理包括:当振幅大于特定参考水平时,将振幅频谱的振幅分量更多地放大,当振幅小于特定参考水平时,将振幅频谱的振幅分量更多地衰减;以及基于调节的声学传递函数将表示声音的到达方向的信息添加到音频信号。

根据本发明的一方面,提供了一种非易失性计算机记录介质,其用于音频信号处理装置,所述记录介质包含计算机可执行程序,在由计算机执行所述计算机可执行程序时使得音频信号处理装置执行上述音频信号处理方法。

根据本发明的实施方案,提供了能够容易地获得期望的声像定位的音频信号处理装置、音频信号处理方法及音频信号处理程序。

附图说明

图1为示出安装有根据本发明的本实施方案的音频信号处理装置的汽车内部的示意图。

图2为示出根据本实施方案的音频信号处理装置的配置的框图。

图3a为用于说明设置在根据本实施方案的音频信号处理装置中的参考信息提取电路的运行的曲线图。

图3b为用于说明设置在根据本实施方案的音频信号处理装置中的参考信息提取电路的运行的曲线图。

图3c为用于说明设置在根据本实施方案的音频信号处理装置中的参考信息提取电路的运行的曲线图。

图4a为示出从设置在根据本实施方案的音频信号处理装置中的fft电路输出的参考频谱的曲线图。

图4b为示出从设置在根据本实施方案的音频信号处理装置中的fft电路输出的参考频谱的曲线图。

图5a为示出从根据本实施方案的fft电路输出的参考频谱的曲线图。

图5b为示出从根据本实施方案的fft电路输出的参考频谱的曲线图。

图6a为示出从设置在根据本实施方案的音频信号处理装置中的生成电路输出的参考频谱的曲线图。

图6b为示出从设置在根据本实施方案的音频信号处理装置中的生成电路输出的参考频谱的曲线图。

图7a为示出在方位角为40°并且仰角为0°的情况下的第一参考频谱的振幅频谱的曲线图。

图7b为示出在方位角为40°并且仰角为0°的情况下的第二参考频谱的振幅频谱的曲线图。

图7c为示出在方位角为40°并且仰角为0°的情况下的参考频谱的振幅频谱的曲线图。

图7d为示出在方位角为40°并且仰角为0°的情况下测量出的脉冲响应的参考频谱的振幅频谱的曲线图。

图7e为示出图7c示出的振幅频谱与图7d示出的振幅频谱之间的差的曲线图。

图8a为示出在声音的输出位置与收听者之间的距离为0.25m的情况下的参考频谱的振幅频谱的曲线图。

图8b为示出在声音的输出位置与收听者之间的距离为1.0m的情况下的第二参考频谱的振幅频谱的曲线图。

图8c为示出在声音的输出位置与收听者之间的距离为0.50m的情况下的参考频谱的振幅频谱的曲线图。

图8d为示出在声音的输出位置与收听者之间的距离为0.50m的情况下测量出的脉冲响应的参考频谱的振幅频谱的曲线图。

图8e为示出图8c示出的振幅频谱与图8d示出的振幅频谱之间的差的曲线图。

图9a为示出通过设置在根据本实施方案的音频信号处理装置中的增强电路调节图6a和图6b示出的参考频谱而获得的标准频谱的曲线图。

图9b为示出通过设置在根据本实施方案的音频信号处理装置中的增强电路调节图6a和图6b示出的参考频谱而获得的标准频谱的曲线图。

图10a为示出标准频谱的示例的曲线图。

图10b为示出标准频谱的示例的曲线图。

图10c为示出标准频谱的示例的曲线图。

图11a为示出通过设置在根据本实施方案的音频信号处理装置中的声像区域控制器处理图10a至图10c示出的标准频谱而获得的标准卷积滤波器的曲线图。

图11b为示出通过设置在根据本实施方案的音频信号处理装置中的声像区域控制器处理图10a至图10c示出的标准频谱而获得的标准卷积滤波器的曲线图。

图11c为示出通过设置在根据本实施方案的音频信号处理装置中的声像区域控制器处理图10a至图10c示出的标准频谱而获得的标准卷积滤波器的曲线图。

图12a为示出通过根据本实施方案的声像区域控制器处理图10示出的参考频谱而获得的标准卷积滤波器的曲线图。

图12b为示出通过根据本实施方案的声像区域控制器处理图10示出的参考频谱而获得的标准卷积滤波器的曲线图。

图12c为示出通过根据本实施方案的声像区域控制器处理图10示出的参考频谱而获得的标准卷积滤波器的曲线图。

图13a为示出通过根据本实施方案的声像区域控制器处理图9示出的参考频谱而获得的标准卷积滤波器的曲线图。

图13b为示出通过根据本实施方案的声像区域控制器处理图9示出的参考频谱而获得的标准卷积滤波器的曲线图。

图14为示出通过设置在本实施方案的音频信号处理装置中的系统控制器执行的处理的流程图。

具体实施方式

下面将参考附图描述本发明的说明性实施方案。下文中,将描述安装在汽车中的音频信号处理装置1作为本发明的说明性实施方案。根据本发明的音频信号处理装置1不必限于安装在汽车中的一种。

图1为示出安装有根据本发明的实施方案的音频信号处理装置1的汽车a的内部的示意图。为了便于描述,在图1中示出坐在驾驶员座椅上的乘客b的头部c。

如图1所示,一对扬声器spl和spr嵌入安装在驾驶员座椅中的头枕hrs中。扬声器spl位于相对于头部c的左后侧,扬声器spr位于相对于头部c的右后侧。尽管图1示出安装在驾驶员座椅中的头枕hr中的扬声器spl和spr,但是这些扬声器spl和spr可以安装在另一个座椅的头枕中。

音频信号处理装置1是用于处理从配置为输出音频信号的声源装置输入的音频信号的装置,并且音频信号处理装置1布置在例如汽车的仪表板中。例如,声源装置是导航装置或车载音频装置。

音频信号处理装置1配置为通过执行对在声学传递函数的振幅频谱中出现的频谱特性的波峰和陷波进行增强的处理来调节对应于要模拟的声音的到达方向的声学传递函数。音频信号处理装置1在基于调节的声学传递函数将关于声音的到达方向的信息添加到音频信号之后执行串扰消除处理。因此,当添加到音频信号的到达方向的信息表示右前侧中对角向上的方向时,乘客b感觉到从扬声器spl和spr输出的声音是从右前侧中对角向上方向到达的声音。

图2为示出音频信号处理装置1的配置的框图。如图2所示,音频信号处理装置1包括:快速傅立叶变换(fastfouriertransform,fft)电路12、乘法电路14、快速傅立叶逆变换(inversefastfouriertransform,ifft)电路16、声场信号数据库18、参考信息提取电路20、标准生成单元22、声像区域控制器24、系统控制器26以及操作部28。

应当注意的是,音频信号处理装置1可以是与导航装置和车载音频装置分开的装置,或者可以是安装在导航装置或车载音频装置中的dsp。在后一种情况下,系统控制器26和操作部28设置在导航装置或车载音频装置中,而不设置在作为dsp的音频信号处理装置1中。

fft电路12配置为通过傅立叶变换处理将从声源装置输入的以时域表示的音频信号(下文中,为方便起见,称为“输入信号x”)变换为以频域表示的输入频谱x,并且将输入频谱x输出到乘法电路14。

因此,fft电路12操作为配置为对音频信号进行傅立叶变换的变换电路。

乘法电路14配置为将从声像区域控制器24输入的标准卷积滤波器h卷积为从fft电路12输入的输入频谱x,并且将通过卷积获得的标准卷积频谱y输出到ifft电路16。通过该卷积处理,将声音的到达方向的信息添加到输入频谱x。

ifft电路16配置为通过傅立叶逆变换处理将从乘法电路14输入的以频域表示的标准卷积频谱y变换为以时域表示的输出信号y,并且将输出信号y输出到后续电路。在本实施方案中,通过fft电路12进行的傅立叶变换处理和通过ifft电路16进行的傅立叶逆变换处理通过8192个采样的傅立叶变换长度来执行。

例如,位于ifft电路16的后级的电路是包括在导航装置或车载音频装置中的电路,以及配置为对从ifft电路16输入的输出信号y进行诸如串扰消除处理的已知处理,并且将输出信号y输出到扬声器spl和spr。因此,乘客b将从扬声器spl和spr输出的声音感知为从音频信号处理装置1所模拟的方向到达的声音。

从声像区域控制器24输出的标准卷积滤波器h是用于将要模拟的声音的到达方向的信息添加到音频信号的声学传递函数。下面将详细描述直到标准卷积滤波器h的生成的一系列处理。

已知一种用于测量脉冲响应的系统。在这种类型的系统中,安装有模拟人脸、耳朵、头部、躯干等的传声器的仿真头部(为方便起见,称为“仿真头部传声器”)布置在测量室中,并且多个扬声器定位成从右到左或向上和向下360度围绕仿真头部传声器(例如,在以仿真头部传声器为中心的球形轨迹上)。构成扬声器阵列的各个扬声器相对于仿真头部传声器的位置以例如方位角30°和仰角30°的间隔定位。每个扬声器可以在以仿真头部传声器为中心的球形轨迹的轨道上移动,并且还可以在接近或远离仿真头部传声器的方向上移动。

声场信号数据库18预先存储通过上述系统中的仿真头部传声器顺序地收集从构成扬声器阵列的每个扬声器输出的声音而获得的多个脉冲响应(换句话说,来自相对于作为拾音单元的仿真头部传声器形成预定角度(即,方位角和仰角)的方向的到达声音)。即,声场信号数据库18预先存储从不同方向到达的多个到达声音的多个脉冲响应。在本实施方案中,预先存储了从到达方向的方位角和仰角分别相差30度的方向到达的多个声音的多个脉冲响应。声场信号数据库18可以具有存储区域,并且多个脉冲响应可以存储在该存储区域中。

在上述系统中,每个扬声器在接近或远离仿真头部传声器的方向移动,并且测量了移动之后从每个位置的每个扬声器输出的声音的脉冲响应(换句话说,对于扬声器与仿真头部传声器之间的每个距离)。声场信号数据库18存储对于每个到达方向在扬声器与仿真头部传声器之间的每个距离(例如,0.25m、1.0m……)的脉冲响应。即,声场信号数据库18存储多个声音的多个脉冲响应,并且声音的输出位置(即,每个扬声器)与收集位置(即,仿真头部传声器)之间的每种声音的距离是不同的。

在这种方式中,声场信号数据库18操作为存储部,其存储到达声音的脉冲响应(更具体地,表示脉冲响应的数据)。

在本实施方案中,假设输入信号x包括如下的元信息,其表示声音的到达方向和声音的输出位置与收听者之间的距离(在本实施方案中,该距离是当乘客b坐在驾驶员座椅上时,要模拟的到达方向和要模拟的从声音的输出位置到乘客b的头部c的传播距离)。声场信号数据库18在系统控制器26的控制下基于包括在输入信号x中的元信息来输出至少一个脉冲响应。

作为示例,将在下面说明要模拟的到达方向是“方位角40°、仰角0°”的情况。声场信号数据库18不存储从该到达方向(即,从方位角40°和仰角0°的方向)到达的声音的脉冲响应。声场信号数据库18输出对应于将到达方向夹在中间的一对扬声器的脉冲响应(即,对应于“方位角30°、仰角0°”的脉冲响应和对应于“方位角60°,仰角0°”的脉冲响应),以模拟对应于到达方向的脉冲响应(换句话说,声学传递函数)。在下文中,为了方便起见,将输出的两个脉冲响应称为“第一脉冲响应i1”和“第二脉冲响应i2”。顺便地,例如,当要模拟的到达方向是“方位角30°和仰角0°”时,声场信号数据库18仅输出对应于“方位角30°、仰角0°”的脉冲响应。

在另一个实施方案中,声场信号数据库18可以输出三个或更多个脉冲响应,每个脉冲响应对应于接近“方位角40°,仰角0°”的到达方向,以模拟对应于“方位角40°,仰角0°”的脉冲响应。

从声场信号数据库18输出的脉冲响应可以由收听者(例如,乘客b)通过操作部28上的操作来任意地设置,或者可以由系统控制器26根据在导航装置或车载音频装置中设置的声场来自动地设置。例如,要模拟的到达方向或传播距离可以由收听者任意地设置,或者可以由系统控制器26自动地设置。

出现在声学传递函数中包括的与头部相关的传递函数的高频范围内的频谱特性(例如,频域上的陷波或波峰)称为特征部分,所述特征部分为收听者提供感知声像定位的线索。据说陷波和波峰的图案主要由收听者的耳廓确定。由于耳廓与观察点(即外耳道的入口)的位置关系,因此认为耳廓的影响主要包括在关于头部的脉冲响应的早期部分中。例如,非专利文献1(k.iida,y.ishii和s.nishioka:基于收听者耳廓的人体测量学的在中位平面中与头部相关的传递函数的个性化特性(personalizationofhead-relatedtransferfunctionsinthemedianplanebasedontheanthropometryofthelistener’spinnae),jacoust.soc.am.,136,第317-333页(2014))公开了一种从与头部相关的脉冲响应的早期部分提取作为频谱特性的陷波和波峰的方法。

参考信息提取电路20通过非专利文献1中描述的方法从声场信号数据库18输入的脉冲响应中提取用于提取作为频谱特性的陷波和波峰的参考信息。

图3a至图3c是用于说明参考信息提取电路20的操作的曲线图。在图3a至图3c中,每个曲线图的竖直轴表示振幅,水平轴表示时间。应当注意的是,图3a至图3c是用于说明参考信息提取电路20的操作的示意图,因此未示出各个坐标轴的单位。

参考信息提取电路20配置为检测第一脉冲响应i1和第二脉冲响应i2的振幅的最大值,第一脉冲响应i1和第二脉冲响应i2是包括与头部相关的传递函数的声学传递函数。更具体地,参考信息提取电路20配置为检测l通道和r通道中的每一个的第一脉冲响应i1的振幅的最大值,并且检测l通道和r通道中的每一个的第二脉冲响应i2的振幅的最大值。图3a中示出的曲线图表示由参考信息提取电路20检测到的r通道的第一脉冲响应i1具有最大值的最大值采样ar和l通道的第一脉冲响应i1具有最大值的最大值采样al。

参考信息提取电路20对第一脉冲响应i1和第二脉冲响应i2执行相同的处理。在下文中,将描述用于第一脉冲响应i1的处理,并且将省略用于第二脉冲响应i2的处理。

参考信息提取电路20配置为对l通道的第一脉冲响应i1和r通道的第一脉冲响应i1进行剪切,同时将四阶blackman-harris窗的中心和96个点匹配到每个最大值采样al和ar的时间。因此,第一脉冲响应i1由blackman-harris窗进行加窗。参考信息提取电路20生成其中所有值均为零的两个512个采样的阵列,将剪切的l通道的第一脉冲响应i1叠加在其中一个阵列上,并且将剪切的r通道的第一脉冲响应i1叠加在另一个阵列上。此时,将l通道的第一脉冲响应i1和r通道的第一脉冲响应i1叠加在阵列上,使得最大值采样al和ar分别位于两个阵列的中心采样(即,第257个采样)。图3b示出的曲线图表示l通道和r通道的第一脉冲响应i1,以及通过blackman-harris窗进行加窗的效果范围(线性虚线)和效果量(丘形虚线)。

通过执行上述处理(即,加窗和整形为具有512个采样),对第一脉冲响应i1进行平滑。第一脉冲响应i1(和第二脉冲响应i2)的平滑有助于改善声音质量。

应当注意的是,在l通道的音频信号和r通道的音频信号之间存在时间差(换句话说,偏移)。为了保留表示该时间差的信息(在本实施方案中,最大值采样al的时间与最大值采样ar的时间之间的时间差),对脉冲响应应用零填充,以便获得8192个信息采样。在下文中,为了方便起见,叠加在阵列上的l通道的应用了零填充的第一脉冲响应i1称为“第一参考信号r1”,叠加在阵列上的r通道的应用了零填充的第一脉冲响应称为“第二参考信号r2”。图3c的曲线图示出第一参考信号r1和第二参考信号r2。

标准生成电路22包括:fft电路22a、生成电路22b以及增强电路22c。

fft电路22a配置为:通过傅立叶变换处理,将从参考信息提取电路20输入第一参考信号r1和第二参考信号r2(均为时域信号)分别变换为第一参考频谱r1和第二参考频谱r2(均为频域信号),并且将变换的信号输出到生成电路22b。

参考信息提取电路20和fft电路22a操作为获得电路,所述获得电路从脉冲响应获取包括频谱特性的声学传递函数。

生成电路22b通过对从fft电路22a输入的第一参考频谱r1和第二参考频谱r2中的每一个进行加权并将加权的第一参考频谱r1和加权的第二参考频谱r2进行合成来生成参考频谱r。更具体地,生成电路22b通过执行以下等式(1)表示的处理来获取参考频谱r。在下面的等式(1)中,α是系数,并且x是第一参考频谱r1和第二参考频谱r2的共同分量。

r=(1-α2)(r1-x)+α2(r2-x)+x…(1)

其中

0≤α≤l

应当注意的是,在以上等式(1)中,省略了表示频率点的符号。实际上,生成电路22b通过利用以上等式(1)计算每个频率点的值r来获得参考频谱r。

根据以上等式(1),由系数(1-α2)对第一参考频谱r1(更具体地,第一参考频谱r1减去与第二参考频谱r2的共同分量而获得的分量)进行加权,通过系数α2对第二参考频谱r2(更具体地,第二参考频谱r2减去与第一参考频谱r1的共同分量而获得的分量)进行加权。各个参考频谱乘以的系数不限于(1-α2)和α2,而是可以由总和等于1的其他系数代替。这些系数的示例是(1-α)和α。

图4a至图4b、图5a至图5b以及图6a至图6b是分别示出第一参考频谱r1、第二参考频谱r2和参考频谱r的频率特征的曲线图。图4a、图5a和图6a示出振幅频谱,并且图4b、图5b和图6b示出相位频谱。每个振幅频谱曲线图的竖直轴表示功率(单位:dbfs),水平轴表示频率(单位:hz)。竖直轴的功率是具有0db的满刻度的功率。每个相位频谱的竖直轴表示相位(单位:弧度),水平轴示为频率(单位:hz)。在图4a至图6b的每一个图中,实线表示l通道的特征,并且虚线表示r通道的特征。在图4a至图6b的示例中,系数α设置为0.25。在以下曲线图中,实线表示l通道的特征,虚线表示r通道的特征。

收听者可以通过操作单元28上的操作来任意设置系数α(以及后面描述的系数β、增益因数γ、截止频率fc),或者可以通过系统控制器26根据要模拟的到达方向或输出位置与收听者之间的模拟距离而自动地设置。

在本实施方案中,可以通过改变系数α来调节参考频谱r。

图7a至图7e示出当要模拟的到达方向是“方位角40°、仰角0°”并且第一参考频谱r1和第二参考频谱r2分别对应于“方位角30°、仰角0°”、“方位角60°、仰角0°”时,第一参考频谱r1、第二参考频谱r2和参考频谱r的具体示例。

图7a和7b分别示出第一参考频谱r1的振幅频谱和第二参考频谱r2的振幅频谱。图7c示出模拟通过以上等式(1)获取的“方位角40°、仰角0°”的参考频谱r的振幅频谱(即,参考频谱r的估算的振幅频谱)。在参考频谱r的计算中使用的系数α为0.5774。图7d示出了从“方位角40°、仰角0°”的脉冲响应(实际测量值)获取的参考频谱r的振幅频谱。应当注意的是,图7a至图7e示出的参考频谱是从输出位置到收听者的相同距离的频谱。

图7e示出了图7c的曲线图(即,参考频谱r的估算的振幅频谱)与图7d的曲线图(即,参考频谱r的振幅频谱的实际测量值)之间的差。如图7e的曲线图所示,尽管估算值(图7c)在高频范围内相对于实际测量值(图7d)的误差较大,但是总体上估算值具有接近于实际测量值(图7d)的值,并且相对忠实地再现了波峰或陷波的图案形状。因此,可以说在图7c中准确地估算出了要模拟的到达方向上的振幅频谱。

图8a至图8e示出当要模拟的声音的输出位置与收听者之间的距离为“0.50m”并且第一参考频谱r1和第二参考频谱r2分别对应于“0.25m”和“1.00m”时的第一参考频谱r1、第二参考频谱r2以及参考频谱r的具体示例。

图8a和图8b中的曲线分别示出第一参考频谱r1的振幅频谱和第二参考频谱r2的振幅频谱。图8c示出通过上述等式(1)获取的模拟“0.50m”的参考频谱r的振幅频谱(即,参考频谱r的估算的振幅频谱)。在参考频谱r的计算中使用的系数α为0.8185。图8d的曲线图示出从“0.50m”的脉冲响应(实际测量值)获取的参考频谱r的振幅频谱。应当注意的是,图8a至图8e示出的参考频谱是相同的到达方向的频谱。

图8e示出图8c的曲线图(即,参考频谱r的估算的振幅频谱)与图8d的曲线图(即,参考频谱r的振幅频谱的实际测量值)之间的差。如曲线图8e所示,尽管估算值(图8c)在高频范围内相对于实际测量值(图8d)的误差增大,但是总体上估算值具有接近于实际测量值(图8d)的值,并且相对忠实地再现了波峰或陷波的图案形状。因此,可以说是在声音的输出位置与声音的收集位置之间要模拟的距离的振幅频谱。

顺便地,当从声场信号数据库18输入的脉冲响应的数量为1时,通过生成电路22b输出从fft电路22a输入的参考频谱(换句话说,参考频谱的实际测量值)。

增强电路22c配置为通过执行增强处理来调节参考频谱r,在所述增强处理中,当振幅大于特定水平时,将从生成电路22b输入的参考频谱r的振幅频谱的振幅分量更多地放大,并且当振幅低于特定水平时,将振幅分量更多地衰减。更具体地,增强电路22c通过执行以下等式(2)表示的处理来调节从生成电路22b输入的参考频谱r。

v=mexp(jargr)…(2)

其中

m=sgn(d)·ld|1+β+sgn(c).|c|1+β

d=|r|-c

β>0

为了便于说明,参考频谱r的l通道分量和r通道分量分别称为“参考频谱rl”和“参考频谱rr”,调节的参考频谱r称为“标准频谱v”。在以上等式(2)中,“exp”表示指数函数,并且“arg”表示偏转角。j是虚数单位。“sgn”表示正负号函数。β是系数,c和d分别表示参考频谱rl和参考频谱rr的共同分量和独立分量。在以上等式(2)中,省略了频率点的符号。实际上,增强电路22c通过利用以上等式(2)计算每个频率点的值v来获得标准频谱v。

根据以上等式(2),参考频谱r调节为使得在分贝单位中大于零(即,正)的振幅分量增加更多,而在分贝单位中小于零(即,负)的振幅分量衰减更多,同时保持相位频谱。因此,扩大了形成频谱特性的波峰和陷波的振幅频谱上的水平差(换句话说,增强了频谱特性的波峰和陷波)。

在本实施方案中,通过改变系数β,可以调节频谱特性的波峰和陷波的增强程度。

图9a至图9b示出通过调节图6a至图6b示出的参考频谱r而获得的标准频谱v。图9a示出振幅频谱,图9b示出相位频谱。图9a的竖直轴表示功率(单位:dbfs),水平轴表示频率(单位:hz)。图9b的竖直轴表示相位(单位:弧度),水平轴表示频率(单位:hz)。在图9a至图9b示出的示例中,系数β为0.5。比较图6a至图6b与图9a至图9b,可以看出,增强电路22c的处理扩大了形成主要出现在高频范围内的波峰和陷波的振幅频谱上的水平差。

如上所述,增强电路22c通过对声学传递函数的振幅频谱应用增强处理,操作为用于调节基于到达声音而获得的声学传递函数的调节电路,所述到达声音是从相对于声音收集器形成特定角度的方向到达的、由声音收集器所收集到的声音。增强处理包括将振幅频谱的振幅大于特定参考水平的分量更多地放大,并且将振幅频谱的振幅小于特定参考水平的分量更多地衰减。另一方面,增强电路22c通过执行对以声学传递函数的振幅频谱表示的频谱特性的波峰和陷波进行增强的增强处理,操作为用于调节基于到达声音而获得的声学传递函数的调节电路,所述到达声音是从相对于声音收集器形成特定角度的方向到达的、由声音收集器所收集到的声音。

声像区域控制器24配置为通过对从增强电路22c输入的标准频谱v的每个频带执行不同的增益调节来生成标准卷积滤波器h。具体地,声像区域控制器24通过执行以下等式(3)所表示的处理来生成标准卷积滤波器h。在下面的等式(3)中,lpf表示低通滤波器,并且hpf表示高通滤波器。z、γ和fc分别表示全量程平稳特征(full-scaleflatcharacteristic)、增益因数和截止频率。在本实施方案中,增益因数γ和截止频率fc分别是-30db和500hz。

h(v,fc,γ)=γlpf(z,fc)+hpf(v,fc)…(3)

如以上等式(3)所示,声像区域控制器24由频带划分滤波器组成。由于这些频带划分滤波器用作交叉网络,因此,当增益因数γ为1并且标准频谱v为全量程平稳特征z时,声像区域控制器24配置为满足以下等式(4)。顺便地,构成声像区域控制器24的频带划分滤波器不限于低通滤波器和高通滤波器,并且可以是另一种滤波器(例如,带通滤波器)。

|h(v,fc,γ)|≈|z|…(4)

在通过执行以上等式(3)示出的处理而获得的标准卷积滤波器h中,基本上丢失了在标准频谱v的低频范围中出现的凹凸形状。相反,当声像区域控制器24执行代替上式(3)的下式(5)所示的处理时,获得在标准频谱v的低频范围内出现的凹凸形状基本上没有丢失的标准卷积滤波器h。

h(v,fc,γ)=γv·lpf(z,fc)+hpf(v,fc)…(5)

如上所述,声像区域控制器24操作为功能控制单元,所述功能控制单元将由调节单元调节的声学传递函数(这里,从增强电路22c输入的标准频谱v)划分为低频分量和作为高于低频分量的频率分量的高频分量,并且在将低频分量比高频分量进行更多的衰减之后,将低频分量与高频分量进行合成。

图10a至图10c示出输入到声像区域控制部分24的标准频谱v的示例。图10a至10c示出的标准频谱v是8192个采样的单位脉冲响应。图11a至图11c和图12a至图12c示出当将图10a至图10c示出的标准频谱v输入到声像区域控制部分24时通过声像区域控制部分24输出的标准卷积滤波器h。图10a、图11a和图12a中的每一个示出时域信号,图10b、图11b和图12b中的每一个示出振幅频谱,并且图10c、图11c和图12c的每一个示出相位频谱。图10a、图11a和图12a的竖直轴表示归一化的振幅,并且水平轴表示时间(采样)。图10b、图11b和图12b的竖直轴表示增益(单位:db),并且水平轴表示归一化的频率。图10c、图11c和图12c的竖直轴表示相位(单位:弧度),并且水平轴表示归一化的频率。

在图11a至图11c的示例中,增益因数γ和截止频率fc分别设置为-30db和0.5。因此,当设置增益因数γ和截止频率fc时,声像区域控制器24的滤波器特征具有仅将低频分量进行衰减的特征。

在图12a至图12c的示例中,增益因数γ和截止频率fc分别设置为0db和0.5。在该示例中,振幅频谱等于输入信号(即,图10a至图10c示出的标准频谱v)。在图12a至图12c的示例中,应当理解的是,构成声像区域控制器24的频带划分滤波器用作交叉网络。

图13a至13b示出通过对图9a至图9b示出的标准频谱v进行增益调节而获得的标准卷积滤波器h。图13a示出振幅频谱,并且图13b示出相位频谱。图13a的竖直轴表示功率(单位:dbfs),水平轴表示频率(单位:hz)。图13b的竖直轴表示相位(单位:弧度),水平轴表示频率(单位:hz)。在图13a至图13b的示例中,虽然相对于图9a至图9b示出的标准频谱v,对低频范围进行衰减,但是高频范围没有进行衰减,图13a至图13b示出的标准卷积滤波器h与图9a至图9b示出的标准频谱v几乎相同。

从图8a至图8c示出的每个距离(“0.25m”、“0.50m”或“1.00m”)的曲线图中可以看出,声音输出位置与声音收集位置之间的距离越长,低频范围的水平衰减越大。在本实施方案中,通过改变增益因数γ和截止频率fc来设置低频范围的衰减程度,能够调节要应用于音频信号的声音的距离感(即,从收听者到声音的输出位置的距离)

通过将由此生成的标准卷积滤波器h卷积为输入频谱x,从而获得添加了关于要模拟的声音的到达方向的信息(和/或与要模拟的声音的输出位置的距离)的标准卷积频谱y。即,乘法电路14操作为如下的处理电路,其基于作为声学传递函数的标准卷积滤波器h将关于声音的到达方向(和/或与声音的输出位置的距离)的信息添加到输入频谱x。

在本实施方案中,通过增强频谱特性,即使当在相位频谱中出现高频范围中的相移或频率轴上的非线性相移时,频谱特性的陷波图案和波峰图案也不会完全失真(换句话说,陷波图案和波峰图案的形状得到保持)。因此,例如,即使在收听者收听从布置在他/她的头部后面的一对扬声器输出的声音的收听环境中,收听者也可以感觉到期望的声像定位。

以上是本发明示例性实施方案的描述。应当注意的是,本发明的实施方案不限于上述实施方案,并且可以在本发明的技术思想的范围内进行各种调整。例如,在本申请的实施方案中包括在说明书中示例性地描述的示例、明显的示例等的适当组合。

例如,fft电路12可以利用窗函数对输入信号x执行叠加处理和加权处理,并且通过傅里叶变换处理将应用了利用窗函数执行叠加处理和加权处理的输入信号x从时域信号变换为频域信号。ifft电路16可以通过傅立叶逆变换处理将标准卷积频谱y从频域变换到时域,并且可以利用窗函数来执行叠加处理和加权处理。

以上等式(2)中的β的值不限于以上实施方案中描述的值。以上等式(2)的β的值可以是其他值,例如,-1<β≤1。

作为以上等式(2)的应用示例,可以考虑以下内容。当将以上等式(2)中β的值替换为β=-1时,可以获得具有平稳特征的标准频谱v。另外,当将以上等式(2)中β的值替换为β<-1时,能够获得频谱形状相对于在-1<β的情况下所获得的标准频谱v倒转的标准频谱v。

音频信号处理装置1中的各种处理是通过音频信号处理装置1中设置的软件和硬件的协作来执行的。至少音频信号处理装置1中设置的软件的os部分设置为嵌入式系统,但是其他部分(例如,用于执行对频谱特性的波峰和陷波进行增强的处理的软件模块)可以设置为能够分布在网络上或存储在诸如存储卡的记录介质中的应用程序。

图14示出这样流程图:该流程图示出由系统控制器26利用这种软件模块或应用程序执行的处理。

如图14所示,声场信号数据库18基于在输入信号x中包括的元信息来输出至少一个脉冲响应(步骤s11)。参考信息提取电路20从自声场信号数据库18输入的脉冲响应中提取用于提取作为频谱特性的波峰和陷波的第一参考信号r1和第二参考信号r2(步骤s12)。fft电路22a通过傅立叶变换处理分别将第一参考信号r1和第二参考信号r2(其为从参考信息提取电路20输入的时域信号)变换为第一参考频谱r1和第二参考频谱r2(其为频域信号)(步骤s13)。生成电路22b通过对从fft电路22a输入的第一参考频谱r1和第二参考频谱r2分别加权并对加权的第一参考频谱r1和加权的第二参考频谱r2进行合成来获得参考频谱r(步骤s14)。增强电路22c通过执行增强处理来调节参考频谱r,以获得标准频谱v,在所述增强处理中,当振幅分量大于特定水平时,从生成电路22b输入的参考频谱r的振幅频谱的振幅更多地放大,并且当振幅分量小于特定水平时,从生成电路22b输入的参考频谱r的振幅频谱的振幅更多地衰减(步骤s15)。声像区域控制器24通过对每个频带执行相对于从增强电路22c输入的标准频谱v的不同的增益控制来生成标准卷积滤波器h(步骤s16)。在乘法电路14中,将标准卷积滤波器h卷积为输入频谱x,从而获得了添加了关于声音的到达方向(以及与声音的输出位置的距离)的信息的标准卷积频谱y。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1