根据室内脉冲响应处理音频信号的方法、信号处理单元、音频编码器、音频解码器及立体...的制作方法

文档序号：9816454阅读：609来源：国知局

根据室内脉冲响应处理音频信号的方法、信号处理单元、音频编码器、音频解码器及立体 ...的制作方法
【技术领域】
[0001] 本发明涉及音频编码/解码领域，特别是涉及空间音频编码和空间音频对象编码，例如，3D音频编解码系统领域。本发明的实施例涉及根据室内脉冲响应处理音频信号的方法，以及在这种室内脉冲响应中确定从早期反射音至后期混响音的过渡的方法。
【背景技术】
[0002] 空间音频编码在技术领域被熟知且被标准化，例如，在MPEG环绕标准中。空间音频编码从多个原始输入开始，例如，五个或七个输入声道，其通过再现设置中的布置来识别，例如，左声道、中间声道、右声道、左环绕声道、右环绕声道和低频增强声道。空间音频编码器可以从原始声道获得一个或多个降混声道，另外可以获得关于空间线索的参数数据，例如，声道相干值中的声道间位准差异、声道间相位差异、声道间时间差异等。一个或多个降混声道和指示空间线索的参数边信息一起传输至空间音频解码器，空间音频解码器用于解码降混声道和相关联的参数数据，以最后获得与原始输入声道的近似版本的输出声道。声道在输出设置中的布置可以是固定的，例如，5.1格式或7.1格式等。
[0003] 空间音频对象编码工具也在技术领域被熟知且被标准化，例如，在MPEG SA0C标准 (SA0C = spatial audio object coding，空间音频对象编码）中。相比于空间音频编码从原始声道开始，空间音频对象编码从非自动专用为特定渲染再现设置的音频对象开始。相反地，音频对象在再现场景中的布置是可变化的并且可以由用户设定，例如，通过输入特定渲染信息到空间音频对象编码的解码器。可选地或附加地，渲染信息可作为附加边信息或元数据(metadata)传输;渲染信息可以包括特定音频对象所布置在再现设置中的位置的信息 (例如，时间方面）。为了获得特定的数据压缩，使用SA0C编码器来编码一定数量的音频对象，SA0C编码器根据特定的降混信息来降混对象以从输入对象计算出一个或多个运输声道。此外，SA0C编码器计算代表对象间线索的参数边信息，例如，对象位准差异(0LD)、对象相干数值等。当在SAC(SAC = Spatial Audio Coding)中，对象间参数数据针对各个时间平铺(time tiles)/频率平铺(frequency tiles)来计算。针对音频信号的特定帧（例如1024 或2048个取样值），考虑多个频带(例如24、32或64个频带)使得参数数据能提供给每个帧和每个频带。例如，当音频片具有20个帧且当每个帧细分成32个频带时，时间/频率平铺的数量为640。
[0004] 在3D音频系统中，可能期望提供音频信号的空间印象，仿佛音频信号在特定空间中被聆听。在这样的情况下，例如在测量基础上提供特定空间的室内脉冲响应，用于进行将音频信号表现给听众的处理。可能期望处理直达声音以及与后期混响音分开表现的早期反射音。需要确定早期反射音的结束处以及后期混响音的开始处。

【发明内容】

[0005] 本发明的目的是提供用于根据室内脉冲响应处理音频信号的改良方法。
[0006] 该目的通过权利要求1所述的方法、权利要求16所述的信号处理单元、权利要求18 所述的音频编码器、权利要求20所述的音频解码器以及权利要求24所述的立体声渲染器来达成。
[0007] 本发明根据发明人发现在传统方法中确定出从早期反射音到后期混响音的过渡有过早的问题，因为在第一反射发生或撞击之前用来判断过渡的发生的相关性已经到达阈值。基于这些发现以及已知过渡时间必须大于第一反射的到达时间，因为第一反射清楚明显且能确定不是后期散播混响音，发明人发现有必要避开固定阈值的使用;相反地，根据本发明的方法，阈值的定义取决于早期反射音中的其中一个的撞击时间上的相关性。确保第一反射总会在过渡时间之前。
[0008] (1)本发明提供一种用于根据室内脉冲响应处理音频信号的方法，该方法包括：
[0009] 将音频信号进行分别地与室内脉冲响应的早期部分和后期混响音一起处理；以及
[0010] 将与室内脉冲响应的早期部分一起处理的音频信号和混响信号结合，
[0011]其中在室内脉冲响应中从早期部分至后期混响音的过渡通过到达阈值的相关性测量来确定，阈值根据从室内脉冲响应的早期部分中的早期反射音中选择的一个的相关性测量来设定。
[0012] 本发明方法的优点在于允许基于鲁棒过渡点进行音频信号的改良处理。本发明方法无关房间，无关是否使用双声道方法以及入射角。相比于现有技术方法，本发明方法的进一步优点在于其并非强烈地依赖于双声道脉冲响应的方位角以及直达声音与第一撞击反射的振幅之间的关系。
[0013] (2)根据实施例，相关性测量描述关于室内脉冲响应的、在包括初期状态的声能中的衰变的相似点以及在初期状态之后的任何时间开始的在预定义频率范围的声能中的衰变的相似点。
[0014] (3)根据实施例，确定过渡包括基于室内脉冲响应确定声能的分布，以及确定多个相关性测量，多个相关性测量用于为确定的分布的多个部分指示在确定的分布的各个部分中的声能和在初期状态的声能之间的相关性。
[0015] (4)根据实施例，确定分布包括确定声能的时间-频率分布，其中分布的部分包括预定义长度的时间块，初期状态通过时间-频率分布的多个时间块中的第一个来定义。
[0016] 该优点在于允许在不同时间分析频率分布，从而提供频率分布的特性在时间上的表不。
[0017] (5)根据实施例，确定分布包括从室内脉冲响应计算能量衰变救援(energy decay relief，EDR)，其中EDR如下所示计算：
[0019] 其中
[0020] E(t，ω)=能量衰变救援，
[0021] h(T)=室内脉冲响应，
[0022] ω =2Jif〇
[0023] (6)根据实施例，室内脉冲响应具有预定义的有效长度，其中确定时间-频率分布包括使用具有对应于室内脉冲响应的有效长度的长度的窗来计算室内脉冲响应的FFT光谱。
[0024] 该优点在于FFT/DFT能够良好定义且存在有效算法来计算频谱值。如果窗中的数值是已知的，则FFT/DFT可以在不复杂方式下计算。
[0025] (7)根据实施例，在初期状态的声能通过采取室内脉冲响应的全部有效长度、计算 FFT光谱、采取绝对值的平方来确定，时间块的声能通过将窗移动与时间块相关联的时间、将窗取样补零至有效长度、计算FFT以及采取绝对值的平方来确定。
[0026] 该优点在于不需要附加滤波器组或其他相似装置用于EDR的窄频带计算;仅需要进行窗的移动。
[0027] (8)根据实施例，相关性测量为用来描述在包含初期状态的声能中的衰变的相似点和在初期状态之后任何时间开始的声能中的衰变的相似点的相关性测量。相关性测量可以如下所示计算：
[0029] 其中
[0030] P(t)=相关性测量，
[0031] Ε(1，ω )=在频率f的全部频率范围的能量衰变救援，
[0032] E(l,o>)=初期全部范围的能量衰变救援的所有频率的平均值，
[0033] E(t，ω )=从时间t开始在频率f处的能量衰变救援，
[0034] Η(?,ω)=在时间t幵始的全部范围的能量衰变救援的所有频率的平均氇，
[0035] ω =2对。
[0036] 该优点在于上述公式参考熟知的Pearson的相关性系数(Pearson的积差相关）。相关性系数可以直接从H)R计算而得。
[0037] (9)根据实施例，阈值根据常数值和早期反射音中选择的一个的相关性测量来确定。阈值可以如下所示定义：
[0038] p ⑴=c.p(tF)
[0039] 其中
[0040 ] P (tF )=早期反射音中选择的一个的相关性测量，
[0041] tF =在直达声音撞击之后的早期反射音中选择的一个的时间索引，
[0043]该优点在于阈值并非恒定的，而取决于所选的早期反射音，以确保相关性不会太早落在阈值以下。
[0044] (10)根据实施例，确定早期反射音中选择的一个的时间，例如，通过运行的峰度运算符、通过阈值检测或通过攻击检测来确定。
[0045] 该优点在于反射的撞击时间可以直接且自动地从脉冲响应的时域样本中计算。
[0046] (11)根据实施例，早期反射音中选择的一个是直达声音之后的第一个反射音。
[0047] (12)本发明提供一种信号处理单元，包括用于接收音频信号的输入端、被配置或被程序化用于依本发明方法根据室内脉冲响应处理接收的音频信号的处理器、以及用于结合接收的音频信号的处理的早期部分和混响信号成输出音频信号的输出端。信号处理单元可以包括用于根据室内脉冲响应的早期部分处理接收的音频信号的早期部分处理器、以及用于根据室内脉冲响应的后期混响音处理接收的音频信号的后期混响音处理器。
[0048] (13)本发明提供用于编码音频信号的音频编码器，其中音频编码器被配置或被程序化用于依本发明方法根据室内脉冲响应处理待编码音频信号。音频编码器可以包括本发明的信号处理单元。
[0049] (14)本发明提供用于解码编码音频信号的音频解码器，其中音频解码器被配置或被程序化用于依本发明方法根据室内脉冲响应处理解码音频信号。音频解码器可以包括本发明的信号处理单元。音频解码器可以包括渲染器，其相似于立体声渲染器，被配置或被程序化用于接收解码音频信号，并在室内脉冲响应的基础上渲染输出信号。
[0050 ] (15)本发明提供立体声渲染器，包括本发明的信号处理单元。
【附图说明】
[0051]本发明的实施例将参考附图进行描述，其中 [0052]图1显示3D音频系统的3D音频编码器的概要图；
[0053]图2显示3D音频系统的3D音频解码器的概要图；
[0054]图3显示用于实施格式转换器的示例，该格式转换器可以实施在图2的3D音频解码器中；
[0055]图4显示立体声渲染器的实施例，该立体声渲染器可以实施在图2的3D音频解码器中；
[0056] 图5显示室内脉冲响应h(t)的示例；
[0057]图6(A)显示根据本发明实施例的用于分别地与室内脉冲响应的早期部分和后期混响音一起处理音频信号的信号处理单元(例如在图4的立体声渲染器中）的方块图；
[0058]图6(B)显示根据本发明进一步实施例的用于分别地与室内脉冲响应的早期部分和后期混响音一起处理音频信号的另一信号处理单元(例如在图4的立体声渲染器中）的方块图；
[0059] 图7显示根据本发明实施例的用于确定在室内脉冲响应中早期反射音和后期混响音之间的过渡时间的方法的流程图；
[0060] 图8显示达成的用于根据基于FFT的方法所确定的脉冲响应的能量衰变救援 (EDR);
[0061 ]图9显示根据本发明实施例的过渡时间的确定；
[0062]图10显示使用现有方法所确定的测量的双声道室内脉冲响应的左声道和右声道的过渡时间；
[0063]图11显示使用本发明方法所确定的测量的双声道室内脉冲响应的左声道和右声道的过渡时间；
[0064]图12大略地显示根据本发明实施例的立体声渲染器中的音频信号的双声道处理； [0065]图13大略

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：西蒙·法格;简·普洛格施蒂斯;
技术所有人：弗朗霍夫应用科学研究促进协会;
我是此专利的发明人

上一篇：用于训练声音识别模型数据库的方法和装置的制造方法
上一篇：信息终端的显示控制器和信息终端的显示控制方法