分离和渲染话音信号和周围环境信号的制作方法

文档序号：29810139发布日期：2022-04-27 03:35阅读：来源：国知局

技术特征：
1.一种由具有多个麦克风的设备的处理器执行的方法，包括：从所述多个麦克风接收多个音频信号，所述多个麦克风捕获声场；将所述音频信号处理成多个频域信号；从所述频域信号提取主语音信号；从所述频域信号提取一个或多个周围环境音频信号；生成一个或多个空间参数，所述一个或多个空间参数限定所述一个或多个周围环境音频信号中的周围环境声音的空间特性；以及将所述主语音信号、所述一个或多个周围环境音频信号和所述空间参数编码到一个或多个编码数据流中。2.根据权利要求1所述的方法，还包括基于跟踪数据来修改所述一个或多个空间参数，所述跟踪数据包括所述设备的位置或取向。3.根据权利要求2所述的方法，其中通过抵消周围环境声音的相对移动，用所述跟踪数据修改所述空间参数以在回放期间维持所述周围环境声音的恒定虚拟空间位置，所述相对移动由所述设备的所述位置或所述取向的改变引起。4.根据权利要求2所述的方法，其中基于一个或多个传感器来生成所述跟踪数据，所述传感器包括以下中的一者或多者：相机、麦克风组、陀螺仪、加速度计和gps接收器。5.根据权利要求2所述的方法，其中基于由相机捕获的图像来生成所述跟踪数据，包括将第一图像与第二图像进行比较，以及基于所述比较来确定所述设备的所述位置或所述取向的改变。6.根据权利要求2所述的方法，其中基于对所述声场中的声源位置的估计以及所述声场中的所述声源位置的检测变化来生成所述跟踪数据，从而指示所述设备的所述位置或所述取向的改变。7.根据权利要求1所述的方法，还包括对所述编码数据流中的跟踪数据进行编码，所述跟踪数据包括所述设备的位置或取向，其中回放设备基于所述跟踪数据来修改所述一个或多个周围环境音频信号的所述空间参数。8.根据权利要求1所述的方法，其中所述主语音信号在没有对应空间参数的情况下被编码并且将在没有空间化的情况下由回放设备回放。9.根据权利要求1所述的方法，其中基于所检测的说话者相对于所述设备的位置，所述主语音信号被识别为所述主语音信号。10.根据权利要求1所述的方法，还包括将所述编码数据流实时传输到回放设备，其中所述编码数据流还包括与所述主语音信号和所述周围环境音频信号同步的图像流。11.一种由回放设备执行以用于回放由捕获设备捕获的声音的方法，包括：接收一个或多个编码数据流；对所述一个或多个编码数据流进行解码以提取主语音信号、一个或多个周围环境音频信号，以及所述一个或多个周围环境音频信号的空间参数；基于所述空间参数来确定一个或多个脉冲响应；将所述一个或多个周围环境音频信号中的每一者与所述一个或多个脉冲响应进行卷积，从而产生空间化周围环境音频信号；处理所述空间化周围环境音频信号和所述主语音信号以产生多个时域信道信号；以及
基于所述多个时域信道信号来驱动多个扬声器。12.根据权利要求11所述的方法，还包括基于在所述编码数据流中接收并从所述编码数据流解码的跟踪数据来修改所述一个或多个周围环境音频信号的所述空间参数，所述跟踪数据包括所述捕获设备的位置或取向。13.根据权利要求12所述的方法，其中通过抵消由所述捕获设备的所述位置或取向的改变引起的周围环境声源的相对移动，用所述跟踪数据修改所述一个或多个周围环境音频信号的所述空间参数，以在回放期间维持所述周围环境声源的虚拟空间位置。14.根据权利要求12所述的方法，其中基于所述捕获设备的一个或多个传感器来生成所述跟踪数据，所述传感器包括以下中的一者或多者：相机、麦克风组、陀螺仪、加速度计和gps接收器。15.根据权利要求11所述的方法，还包括基于用户输入来限定或修改所述一个或多个周围环境音频信号的回放水平。16.根据权利要求15所述的方法，其中通过所述回放设备的图形用户界面来接收所述用户输入。17.根据权利要求11所述的方法，还包括基于a)语音与噪声比、b)内容类型、或c)在所述回放周围环境中的检测到的噪声来限定或修改所述一个或多个周围环境音频信号的回放水平。18.根据权利要求11所述的方法，其中所述主语音信号在没有空间化的情况下直接通过所述多个扬声器播放。19.一种由回放设备执行的方法，包括：接收具有音频和视觉数据的编码数据流；对所述编码数据流进行解码以提取主语音信号和一个或多个周围环境音频信号；基于限定所述回放设备的位置或取向的跟踪数据来修改所述主语音信号的空间参数，所述空间参数限定所述主语音信号的虚拟位置或取向，使得所述主语音信号的虚拟位置或取向遵循跟踪的所述回放设备的所述位置或所述取向；基于所述空间参数来确定一个或多个脉冲响应；将所述主语音信号与所述一个或多个脉冲响应进行卷积，从而产生空间化主语音；处理所述周围环境音频信号和所述空间化主语音以产生多个时域信道信号；基于所述多个时域信道信号来驱动头戴式耳机扬声器；以及通过所述视觉数据驱动显示器。20.一种制品，包括：在其中存储有指令的机器可读介质，所述指令在由音频捕获设备的处理器执行时致使所述制品执行以下操作：从捕获声场的多个麦克风接收多个音频信号；将所述音频信号处理成多个频域信号；从所述频域信号提取主语音信号；从所述频域信号提取一个或多个周围环境音频信号；生成一个或多个空间参数，所述一个或多个空间参数限定所述一个或多个周围环境音频信号中的周围环境的空间特性；以及将所述主语音信号、所述周围环境音频信号和所述空间参数编码到一个或多个编码数
据流中。21.一种制品，包括：在其中存储有指令的机器可读介质，所述指令在由回放设备的处理器执行时致使所述制品执行以下操作：接收一个或多个编码数据流；对所述一个或多个编码数据流进行解码以提取主语音信号、一个或多个周围环境音频信号，以及所述一个或多个周围环境音频信号的空间参数；基于所述空间参数来确定一个或多个脉冲响应；以及将所述一个或多个周围环境音频信号中的每一者与所述一个或多个脉冲响应进行卷积，从而产生空间化周围环境音频信号；处理所述空间化周围环境音频信号和所述主语音信号以产生多个时域信道信号；以及基于所述多个时域信道信号来驱动多个扬声器。

技术总结
周围环境和语音的处理可包括从音频信号提取周围环境信号和语音信号。可生成一个或多个空间参数，该一个或多个空间参数限定该一个或多个周围环境音频信号中的周围环境声音的空间特性。可将该主语音信号、该一个或多个周围环境音频信号和该空间参数编码到一个或多个编码数据流中。其他方面也有所描述并受权利要求书保护。要求书保护。要求书保护。

技术研发人员：J
受保护的技术使用者：苹果公司
技术研发日：2020.05.09
技术公布日：2022/4/26

完整全部详细技术资料下载

当前第2页1 2