根据室内脉冲响应处理音频信号的方法、信号处理单元、音频编码器、音频解码器及立体 ...的制作方法
【技术领域】
[0001] 本发明涉及音频编码/解码领域,特别是涉及空间音频编码和空间音频对象编码, 例如,3D音频编解码系统领域。本发明的实施例涉及根据室内脉冲响应处理音频信号的方 法,以及在这种室内脉冲响应中确定从早期反射音至后期混响音的过渡的方法。
【背景技术】
[0002] 空间音频编码在技术领域被熟知且被标准化,例如,在MPEG环绕标准中。空间音频 编码从多个原始输入开始,例如,五个或七个输入声道,其通过再现设置中的布置来识别, 例如,左声道、中间声道、右声道、左环绕声道、右环绕声道和低频增强声道。空间音频编码 器可以从原始声道获得一个或多个降混声道,另外可以获得关于空间线索的参数数据,例 如,声道相干值中的声道间位准差异、声道间相位差异、声道间时间差异等。一个或多个降 混声道和指示空间线索的参数边信息一起传输至空间音频解码器,空间音频解码器用于解 码降混声道和相关联的参数数据,以最后获得与原始输入声道的近似版本的输出声道。声 道在输出设置中的布置可以是固定的,例如,5.1格式或7.1格式等。
[0003] 空间音频对象编码工具也在技术领域被熟知且被标准化,例如,在MPEG SA0C标准 (SA0C = spatial audio object coding,空间音频对象编码)中。相比于空间音频编码从原 始声道开始,空间音频对象编码从非自动专用为特定渲染再现设置的音频对象开始。相反 地,音频对象在再现场景中的布置是可变化的并且可以由用户设定,例如,通过输入特定渲 染信息到空间音频对象编码的解码器。可选地或附加地,渲染信息可作为附加边信息或元 数据(metadata)传输;渲染信息可以包括特定音频对象所布置在再现设置中的位置的信息 (例如,时间方面)。为了获得特定的数据压缩,使用SA0C编码器来编码一定数量的音频对 象,SA0C编码器根据特定的降混信息来降混对象以从输入对象计算出一个或多个运输声 道。此外,SA0C编码器计算代表对象间线索的参数边信息,例如,对象位准差异(0LD)、对象 相干数值等。当在SAC(SAC = Spatial Audio Coding)中,对象间参数数据针对各个时间平 铺(time tiles)/频率平铺(frequency tiles)来计算。针对音频信号的特定帧(例如1024 或2048个取样值),考虑多个频带(例如24、32或64个频带)使得参数数据能提供给每个帧和 每个频带。例如,当音频片具有20个帧且当每个帧细分成32个频带时,时间/频率平铺的数 量为640。
[0004] 在3D音频系统中,可能期望提供音频信号的空间印象,仿佛音频信号在特定空间 中被聆听。在这样的情况下,例如在测量基础上提供特定空间的室内脉冲响应,用于进行将 音频信号表现给听众的处理。可能期望处理直达声音以及与后期混响音分开表现的早期反 射音。需要确定早期反射音的结束处以及后期混响音的开始处。
【发明内容】
[0005] 本发明的目的是提供用于根据室内脉冲响应处理音频信号的改良方法。
[0006] 该目的通过权利要求1所述的方法、权利要求16所述的信号处理单元、权利要求18 所述的音频编码器、权利要求20所述的音频解码器以及权利要求24所述的立体声渲染器来 达成。
[0007] 本发明根据发明人发现在传统方法中确定出从早期反射音到后期混响音的过渡 有过早的问题,因为在第一反射发生或撞击之前用来判断过渡的发生的相关性已经到达阈 值。基于这些发现以及已知过渡时间必须大于第一反射的到达时间,因为第一反射清楚明 显且能确定不是后期散播混响音,发明人发现有必要避开固定阈值的使用;相反地,根据本 发明的方法,阈值的定义取决于早期反射音中的其中一个的撞击时间上的相关性。确保第 一反射总会在过渡时间之前。
[0008] (1)本发明提供一种用于根据室内脉冲响应处理音频信号的方法,该方法包括:
[0009] 将音频信号进行分别地与室内脉冲响应的早期部分和后期混响音一起处理;以及
[0010] 将与室内脉冲响应的早期部分一起处理的音频信号和混响信号结合,
[0011]其中在室内脉冲响应中从早期部分至后期混响音的过渡通过到达阈值的相关性 测量来确定,阈值根据从室内脉冲响应的早期部分中的早期反射音中选择的一个的相关性 测量来设定。
[0012] 本发明方法的优点在于允许基于鲁棒过渡点进行音频信号的改良处理。本发明方 法无关房间,无关是否使用双声道方法以及入射角。相比于现有技术方法,本发明方法的进 一步优点在于其并非强烈地依赖于双声道脉冲响应的方位角以及直达声音与第一撞击反 射的振幅之间的关系。
[0013] (2)根据实施例,相关性测量描述关于室内脉冲响应的、在包括初期状态的声能中 的衰变的相似点以及在初期状态之后的任何时间开始的在预定义频率范围的声能中的衰 变的相似点。
[0014] (3)根据实施例,确定过渡包括基于室内脉冲响应确定声能的分布,以及确定多个 相关性测量,多个相关性测量用于为确定的分布的多个部分指示在确定的分布的各个部分 中的声能和在初期状态的声能之间的相关性。
[0015] (4)根据实施例,确定分布包括确定声能的时间-频率分布,其中分布的部分包括 预定义长度的时间块,初期状态通过时间-频率分布的多个时间块中的第一个来定义。
[0016] 该优点在于允许在不同时间分析频率分布,从而提供频率分布的特性在时间上的 表不。
[0017] (5)根据实施例,确定分布包括从室内脉冲响应计算能量衰变救援(energy decay relief,EDR),其中EDR如下所示计算:
[0019] 其中
[0020] E(t,ω)=能量衰变救援,
[0021] h(T)=室内脉冲响应,
[0022] ω =2Jif〇
[0023] (6)根据实施例,室内脉冲响应具有预定义的有效长度,其中确定时间-频率分布 包括使用具有对应于室内脉冲响应的有效长度的长度的窗来计算室内脉冲响应的FFT光 谱。
[0024] 该优点在于FFT/DFT能够良好定义且存在有效算法来计算频谱值。如果窗中的数 值是已知的,则FFT/DFT可以在不复杂方式下计算。
[0025] (7)根据实施例,在初期状态的声能通过采取室内脉冲响应的全部有效长度、计算 FFT光谱、采取绝对值的平方来确定,时间块的声能通过将窗移动与时间块相关联的时间、 将窗取样补零至有效长度、计算FFT以及采取绝对值的平方来确定。
[0026] 该优点在于不需要附加滤波器组或其他相似装置用于EDR的窄频带计算;仅需要 进行窗的移动。
[0027] (8)根据实施例,相关性测量为用来描述在包含初期状态的声能中的衰变的相似 点和在初期状态之后任何时间开始的声能中的衰变的相似点的相关性测量。相关性测量可 以如下所示计算:
[0029] 其中
[0030] P(t)=相关性测量,
[0031] Ε(1,ω )=在频率f的全部频率范围的能量衰变救援,
[0032] E(l,o>)=初期全部范围的能量衰变救援的所有频率的平均值,
[0033] E(t,ω )=从时间t开始在频率f处的能量衰变救援,
[0034] Η(?,ω)=在时间t幵始的全部范围的能量衰变救援的所有频率的平均氇,
[0035] ω =2对。
[0036] 该优点在于上述公式参考熟知的Pearson的相关性系数(Pearson的积差相关)。相 关性系数可以直接从H)R计算而得。
[0037] (9)根据实施例,阈值根据常数值和早期反射音中选择的一个的相关性测量来确 定。阈值可以如下所示定义:
[0038] p ⑴=c.p(tF)
[0039] 其中
[0040 ] P (tF )=早期反射音中选择的一个的相关性测量,
[0041] tF =在直达声音撞击之后的早期反射音中选择的一个的时间索引,
[0043]该优点在于阈值并非恒定的,而取决于所选的早期反射音,以确保相关性不会太 早落在阈值以下。
[0044] (10)根据实施例,确定早期反射音中选择的一个的时间,例如,通过运行的峰度运 算符、通过阈值检测或通过攻击检测来确定。
[0045] 该优点在于反射的撞击时间可以直接且自动地从脉冲响应的时域样本中计算。
[0046] (11)根据实施例,早期反射音中选择的一个是直达声音之后的第一个反射音。
[0047] (12)本发明提供一种信号处理单元,包括用于接收音频信号的输入端、被配置或 被程序化用于依本发明方法根据室内脉冲响应处理接收的音频信号的处理器、以及用于结 合接收的音频信号的处理的早期部分和混响信号成输出音频信号的输出端。信号处理单元 可以包括用于根据室内脉冲响应的早期部分处理接收的音频信号的早期部分处理器、以及 用于根据室内脉冲响应的后期混响音处理接收的音频信号的后期混响音处理器。
[0048] (13)本发明提供用于编码音频信号的音频编码器,其中音频编码器被配置或被程 序化用于依本发明方法根据室内脉冲响应处理待编码音频信号。音频编码器可以包括本发 明的信号处理单元。
[0049] (14)本发明提供用于解码编码音频信号的音频解码器,其中音频解码器被配置或 被程序化用于依本发明方法根据室内脉冲响应处理解码音频信号。音频解码器可以包括本 发明的信号处理单元。音频解码器可以包括渲染器,其相似于立体声渲染器,被配置或被程 序化用于接收解码音频信号,并在室内脉冲响应的基础上渲染输出信号。
[0050 ] (15)本发明提供立体声渲染器,包括本发明的信号处理单元。
【附图说明】
[0051]本发明的实施例将参考附图进行描述,其中 [0052]图1显示3D音频系统的3D音频编码器的概要图;
[0053]图2显示3D音频系统的3D音频解码器的概要图;
[0054]图3显示用于实施格式转换器的示例,该格式转换器可以实施在图2的3D音频解码 器中;
[0055]图4显示立体声渲染器的实施例,该立体声渲染器可以实施在图2的3D音频解码器 中;
[0056] 图5显示室内脉冲响应h(t)的示例;
[0057]图6(A)显示根据本发明实施例的用于分别地与室内脉冲响应的早期部分和后期 混响音一起处理音频信号的信号处理单元(例如在图4的立体声渲染器中)的方块图;
[0058]图6(B)显示根据本发明进一步实施例的用于分别地与室内脉冲响应的早期部分 和后期混响音一起处理音频信号的另一信号处理单元(例如在图4的立体声渲染器中)的方 块图;
[0059] 图7显示根据本发明实施例的用于确定在室内脉冲响应中早期反射音和后期混响 音之间的过渡时间的方法的流程图;
[0060] 图8显示达成的用于根据基于FFT的方法所确定的脉冲响应的能量衰变救援 (EDR);
[0061 ]图9显示根据本发明实施例的过渡时间的确定;
[0062]图10显示使用现有方法所确定的测量的双声道室内脉冲响应的左声道和右声道 的过渡时间;
[0063]图11显示使用本发明方法所确定的测量的双声道室内脉冲响应的左声道和右声 道的过渡时间;
[0064]图12大略地显示根据本发明实施例的立体声渲染器中的音频信号的双声道处理; [0065]图13大略