针对多个收听者最佳听音位置的空间音频频域复用的制作方法

文档序号:35650163发布日期:2023-10-06 11:13阅读:57来源:国知局
针对多个收听者最佳听音位置的空间音频频域复用的制作方法

本公开涉及用于渲染音频以由一组扬声器中的一些或所有扬声器(例如,每个激活的扬声器)回放的系统和方法。


背景技术:

1、音频设备被广泛地部署在许多家庭、车辆和其他环境中。尽管用于控制音频设备的现有系统和方法提供了益处,但改进的系统和方法将仍是期望的。

2、符号和术语

3、贯穿本公开,包括在权利要求书中,术语“扬声器(speaker)”、“扩音器(loudspeaker)”和“音频再现换能器”同义地用于表示任何发声换能器(或一组换能器)。一套典型的耳机包括两个扬声器。扬声器可以被实施为包括多个换能器(例如,低音扬声器和高音扬声器),所述换能器可以由单个公共扬声器馈送或多个扬声器馈送驱动。在一些示例中,扬声器馈送可以在耦接到不同换能器的不同电路分支中经历不同处理。

4、贯穿本公开,包括在权利要求中,在广义上使用“对”信号或数据执行操作的表达(例如,对信号或数据进行滤波、缩放、变换或应用增益)来表示直接对信号或数据执行操作或对信号或数据的已处理版本(例如,在对其执行操作之前已经历了初步滤波或预处理的信号版本)执行操作。

5、贯穿本公开,包括在权利要求中,在广义上使用表达“系统”来表示设备、系统或子系统。例如,实施解码器的子系统可以被称为解码器系统,并且包括这样的子系统的系统(例如,响应于多个输入而生成x个输出信号的系统,其中,所述子系统生成m个输入,而其他x-m个输入是从外部源接收的)也可以被称为解码器系统。

6、贯穿本公开,包括在权利要求中,在广义上使用术语“处理器”来表示可编程或以其他方式可配置(例如,用软件或固件)为对数据(例如,音频或视频或其他图像数据)执行操作的系统或设备。处理器的示例包括现场可编程门阵列(或其他可配置集成电路或芯片组)、被编程和/或以其他方式被配置为对音频或其他声音数据执行流水线式处理的数字信号处理器、可编程通用处理器或计算机、以及可编程微处理器芯片或芯片组。

7、如本文所使用的,“智能设备”是可以在某种程度上交互地和/或自主地操作的电子设备,其通常被配置用于经由诸如蓝牙、zigbee、近场通信、wi-fi、光保真(li-fi)、3g、4g、5g等的各种无线协议与一个或多个其他设备(或网络)进行通信。若干种值得注意的智能设备类型是智能电话、智能汽车、智能恒温器、智能门铃、智能锁、智能冰箱、平板手机和平板计算机、智能手表、智能手环、智能钥匙链和智能音频设备。术语“智能设备”还可以是指展现出诸如人工智能的普适计算的一些性质的设备。

8、在本文中,使用表达“智能音频设备”来表示智能设备,其是单一用途音频设备或多用途音频设备(例如,智能扬声器或实施虚拟助理功能的至少一些方面的其他音频设备)。单一用途音频设备是包括或耦接到至少一个麦克风(并且可选地还包括或耦接到至少一个扬声器和/或至少一个相机)并且很大程度上或主要被设计为实现单一用途的设备(例如,电视(tv))。例如,尽管tv通常可以播放(并且被认为能够播放)来自节目素材的音频,但在大多数实例中,现代tv运行某种操作系统,应用程序(包括看电视的应用程序)在所述操作系统上本地运行。从这个意义上说,具有扬声器和麦克风的单一用途音频设备通常被配置为运行本地应用程序和/或服务以直接使用所述扬声器和麦克风。一些单一用途音频设备可以被配置为组合在一起以实现在一定区或用户配置区域上播放音频。

9、一种常见类型的多用途音频设备是实施虚拟助理功能的至少一些方面的音频设备(例如,智能扬声器),尽管虚拟助理功能的其他方面可以由诸如一个或多个服务器的一个或多个其他设备来实施,多用途音频设备被配置用于与所述一个或多个服务器通信。这样的多用途音频设备在本文中可以被称为“虚拟助理”。虚拟助理是包括或耦接到至少一个麦克风(并且可选地还包括或耦接到至少一个扬声器和/或至少一个相机)的设备(例如,智能扬声器或语音助理集成设备)。在一些示例中,虚拟助理可以提供将多个设备(不同于虚拟助理)用于某种意义上支持云的应用程序或以其他方式未在虚拟助理本身中或之上完全实施的应用程序的能力。换句话说,虚拟助理功能的至少一些方面(例如,言语识别功能)可以(至少部分地)由一个或多个服务器或其他设备实施,虚拟助理可以经由网络(诸如因特网)与所述一个或多个服务器或其他设备通信。虚拟助理有时可以一起工作,例如,以离散和有条件地定义的方式。例如,两个或更多个虚拟助理可以在其中之一(例如,最确信已经听到唤醒词的虚拟助理)对唤醒词作出响应的意义上一起工作。在一些实施方式中,连接的虚拟助理可以形成一种星座,所述星座可以由一个主应用程序管理,所述主应用程序可以是(或实施)虚拟助理。

10、如本文所使用的,术语“节目流”和“内容流”是指一个或多个音频信号的集合,并且在一些实例中是指视频信号的集合,所述信号的集合的至少一部分是旨在要一起听到的。示例包括音乐选集、电影原声、电影、电视节目、电视节目的音频部分、播客、现场语音通话、来自智能助理的合成语音响应等。在一些实例中,内容流可以包括音频信号的至少一部分的多个版本,例如,超过一种语言的同一对话。在这样的实例中,一次旨在再现音频数据或其部分的仅一个版本(例如,与单一语言相对应的版本)。


技术实现思路

1、本公开的至少一些方面可以经由方法来实施。一些这样的方法可以涉及音频数据处理。例如,一些方法可以涉及由被配置用于实施多个渲染器的控制系统接收音频数据。一些这样的方法可以涉及由所述控制系统接收多个收听配置的收听配置数据。所述多个收听配置中的每个收听配置可以与音频环境中的收听位置和收听取向相对应。一些这样的方法可以涉及由所述多个渲染器中的每个渲染器并根据所述收听配置数据渲染所述音频数据,以针对相对应的收听配置获得渲染器特定的扩音器馈送信号集。每个渲染器可以被配置为针对不同收听配置渲染所述音频数据。

2、一些这样的方法可以涉及由所述控制系统并针对每个渲染器将每个渲染器特定的扩音器馈送信号集分解成渲染器特定的频带集。一些这样的方法可以涉及由所述控制系统组合每个渲染器的所述渲染器特定的频带集,以产生扩音器馈送信号输出集。一些这样的方法可以涉及由所述控制系统将所述扩音器馈送信号输出集输出到多个扩音器。

3、在一些示例中,将每个渲染器特定的扩音器馈送信号集分解成每个渲染器特定的频带集可以涉及:由与每个渲染器相关联的分析滤波器组分析所述渲染器特定的扩音器馈送信号集,以产生全局频带集;以及选择所述全局频带集的频带子集以产生所述渲染器特定的频带集。可以选择所述全局频带集的频带子集,使得当组合所述多个渲染器中的所有渲染器的所述渲染器特定的频带集时,所述全局频带集中的每个频带在所述扩音器馈送信号输出集中仅被表示一次。

4、组合所述渲染器特定的频带集可以涉及由合成滤波器组在时域中合成所述扩音器馈送信号输出集。在一些示例中,所述分析滤波器组可以是短时离散傅里叶变换(stdft)滤波器组、混合复合正交镜(hcqmf)滤波器组或正交镜(qmf)滤波器组。

5、在一些示例中,渲染器特定的频带集中的每个集可以唯一地与所述多个渲染器中的一个渲染器相关联并且唯一地与所述多个收听配置中的一个收听配置相关联。在一些实施方式中,每个收听配置可以与人的收听位置和收听取向相对应。在一些这样的示例中,所述收听位置可以与所述人的头部位置相对应,并且所述收听取向可以与所述人的头部取向相对应。

6、根据一些示例,所述音频数据可以是或者可以包括基于空间声道的音频数据和/或基于空间对象的音频数据。在一些实例中,所述音频数据可以具有以下格式之一:立体声、杜比3.1.2、杜比5.1、杜比5.1.2、杜比7.1、杜比7.1.2、杜比7.1.4、杜比9.1、杜比9.1.6或杜比全景声音频格式。在一些实例中,所述渲染可以涉及在时域中执行双平衡振幅平移或在频域中执行串扰消除。

7、一些方法可以涉及:由控制系统接收音频数据;以及由所述控制系统接收多个收听配置的收听配置数据。例如,每个收听配置可以与收听位置和收听取向相对应。一些这样的方法可以涉及由经由所述控制系统实施的分析滤波器组分析所述音频数据,以产生与所述音频数据相对应的全局频带集。一些这样的方法可以涉及由所述控制系统并针对由所述控制系统实施的多个渲染器中的每个渲染器选择所述全局频带集的子集,以针对每个渲染器产生渲染器特定的频带集。

8、一些这样的方法可以涉及由所述多个渲染器中的每个渲染器并根据所述收听配置数据渲染所述渲染器特定的频带集,以针对相对应的收听配置获得渲染器特定的扩音器馈送信号集。在一些这样的示例中,每个渲染器可以被配置为针对不同收听配置渲染所述渲染器特定的频带集中的频带。一些这样的方法可以涉及由所述控制系统组合所述多个渲染器中的每个渲染器的渲染器特定的扩音器馈送信号集,以产生扩音器馈送信号输出集。一些这样的方法可以涉及由所述控制系统将所述扩音器馈送信号输出集输出到音频环境的多个扩音器。

9、一些这样的方法可以涉及由合成滤波器组将所述扩音器馈送信号输出集从频域变换到时域。在一些这样的示例中,所述分析滤波器组可以是短时离散傅里叶变换(stdft)滤波器组、混合复合正交镜(hcqmf)滤波器组或正交镜(qmf)滤波器组。

10、在一些示例中,每个渲染器特定的扩音器馈送信号集可以唯一地与所述多个渲染器中的一个渲染器相关联。在一些示例中,每个渲染器特定的扩音器馈送信号集可以唯一地与所述多个收听配置中的一个收听配置相关联。根据一些示例,所述收听配置可以是或者可以包括所述音频环境中的人的收听位置和/或收听取向。在一些实例中,所述收听位置可以与所述人的头部位置相对应。在一些示例中,所述收听取向可以与所述人的头部取向相对应。

11、在一些实施方式中,所述收听位置和所述收听取向可以是相对于音频环境坐标系的。在一些实施方式中,所述收听位置和所述收听取向可以是相对于与在所述音频环境内的人相对应(例如,与所述人的头部的位置和取向相对应)的坐标系。在一些实例中,所述收听位置可以是相对于一个或多个扩音器在所述音频环境中的位置的。

12、根据一些实施方式,所述收听配置数据可以与从所述音频环境中的一个或多个传感器获得的传感器数据相对应。在一些示例中,所述传感器可以是或者可以包括相机、移动传感器和/或麦克风。

13、根据一些示例,所述音频数据可以是或者可以包括基于空间声道的音频数据和/或基于空间对象的音频数据。在一些实例中,所述音频数据可以具有以下格式之一:立体声、杜比3.1.2、杜比5.1、杜比5.1.2、杜比7.1、杜比7.1.2、杜比7.1.4、杜比9.1、杜比9.1.6或杜比全景声音频格式。在一些示例中,组合所述扩音器馈送信号集可以涉及对所述渲染器特定的扩音器馈送信号集中的每个进行复用。

14、在一些实例中,所述渲染可以涉及在时域中执行双平衡振幅平移或在频域中执行串扰消除。在一些实例中,所述渲染可以涉及在频域中执行串扰消除。

15、在一些示例中,所述渲染可以涉及产生多个数据结构。例如,每个数据结构可以包括用于相对应的收听配置并且与二维空间或三维空间中的多个点中的每一个相对应的一组渲染器特定的扬声器激活。根据一些这样的示例,所述组合可以涉及将所述多个数据结构组合成单个数据结构。

16、一些实施方式可以涉及一种用于在车辆中渲染音频数据的方法。一些这样的方法可以涉及:由控制系统接收音频数据;以及由所述控制系统接收指示车辆中存在多个人的传感器信号。一些这样的方法可以涉及由所述控制系统并且至少部分地基于所述传感器信号来估计相对于所述车辆中的多个扩音器的多个收听配置。例如,每个收听配置可以与所述多个人中的人的收听位置和收听取向相对应。

17、一些这样的方法可以涉及由所述控制系统针对所述多个收听配置中的每个收听配置渲染接收到的音频数据,以产生扩音器馈送信号输出集。一些这样的方法可以涉及由所述控制系统将所述扩音器馈送信号输出集提供给所述多个扩音器。

18、在一些示例中,所述音频数据的渲染可以由多个渲染器执行。在一些实例中,所述多个渲染器中的每个渲染器可以被配置为针对不同收听配置渲染所述音频数据,以获得渲染器特定的扩音器馈送信号集。在一些这样的示例中,所述方法可以涉及由所述控制系统并针对每个渲染器将每个渲染器特定的扩音器馈送信号集分解成渲染器特定的频带集。一些这样的方法可以涉及由所述控制系统组合每个渲染器的所述渲染器特定的频带集,以产生扩音器馈送信号输出集。一些这样的方法可以涉及由所述控制系统输出所述扩音器馈送信号输出集。

19、在一些示例中,将所述渲染器特定的扩音器馈送信号集分解成所述渲染器特定的频带集可以涉及由与每个渲染器相关联的分析滤波器组分析所述渲染器特定的扩音器馈送信号集,以产生全局频带集。一些这样的方法可以涉及选择所述全局频带集的子集以产生所述渲染器特定的频带集。在一些示例中,可以选择所述全局频带集的子集,使得当组合所述多个渲染器中的每一个的渲染器特定的频带时,所述全局频带集中的每个频带在所述扩音器馈送信号输出集中仅被表示一次。

20、根据一些示例,组合所述多个渲染器特定的频带可以涉及由合成滤波器组在所述时域中合成所述扩音器馈送信号输出集。在一些示例中,所述分析滤波器组可以是短时离散傅里叶变换(stdft)滤波器组、混合复合正交镜(hcqmf)滤波器组或正交镜(qmf)滤波器组。

21、在一些示例中,渲染器特定的频带集中的每个集可以唯一地与所述多个渲染器中的一个渲染器相关联。在一些示例中,渲染器特定的频带集中的每个集可以唯一地与所述多个收听配置中的一个收听配置相关联。根据一些示例,所述渲染可以涉及在所述时域中执行双平衡振幅平移或在所述频域中执行串扰消除。在一些实施方式中,组合渲染器特定的频带集可以涉及对所述渲染器特定的频带集进行复用。

22、根据一些实施方式,所述音频数据的渲染可以由多个渲染器执行。在一些这样的示例中,每个渲染器可以被配置为针对所述多个收听配置中的不同收听配置渲染所述音频数据。根据一些这样的示例,方法可以涉及由所述控制系统所实施的分析滤波器组分析接收到的音频,以产生接收到的音频数据的全局频带集。一些这样的方法可以涉及由所述控制系统并针对所述多个渲染器中的每个渲染器选择所述全局频带集的子集,以针对每个渲染器产生渲染器特定的频带集。一些这样的方法可以涉及由所述多个渲染器中的每个渲染器渲染所述渲染器特定的频带集,以针对相对应的收听配置获得扩音器馈送信号集。一些这样的方法可以涉及组合来自每个渲染器的扩音器馈送信号集,以产生扩音器馈送信号输出集。一些这样的方法可以涉及输出所述扩音器馈送信号输出集。

23、根据一些示例,组合所述扩音器馈送信号集可以涉及由合成滤波器组在时域中合成所述扩音器馈送信号输出集。在一些示例中,所述合成滤波器组可以是短时离散傅里叶变换(stdft)、混合复合正交镜(hcqmf)或正交镜(qmf)滤波器组。

24、在一些实例中,每个渲染器特定的频带集可以唯一地与一个渲染器相关联。在一些示例中,每个渲染器特定的频带集可以唯一地与一个收听配置相关联。根据一些示例,收听位置可以与头部位置相对应。在一些示例中,收听取向可以与头部取向相对应。

25、根据一些示例,所述音频数据可以是或者可以包括基于空间声道的音频数据和/或基于空间对象的音频数据。在一些实例中,所述音频数据可以具有以下格式之一:立体声、杜比3.1.2、杜比5.1、杜比5.1.2、杜比7.1、杜比7.1.2、杜比7.1.4、杜比9.1、杜比9.1.6或杜比全景声音频格式。在一些实例中,所述渲染可以涉及在时域中执行双平衡振幅平移或在频域中执行串扰消除。在一些示例中,组合来自每个渲染器的所述扩音器馈送信号集可以涉及对来自每个渲染器的所述扩音器馈送信号集进行复用。

26、根据一些实施方式,所述传感器信号可以包括来自一个或多个座椅传感器的信号。例如,所述座椅传感器可以包括一个或多个相机、一个或多个安全带传感器、一个或多个头枕传感器、一个或多个座椅靠背传感器、一个或多个座椅底部传感器和/或一个或多个肘靠传感器。

27、一些方法还可以涉及选择多个渲染模式中的渲染模式。在一些示例中,所述多个渲染模式中的每个渲染模式可以基于多个收听配置中的相应收听配置。

28、在一些示例中,至少一个收听配置可以与人的身份相关联。在一些这样的示例中,至少一个这样的收听配置可以存储在车辆的存储器中。

29、根据一些示例,所述渲染可以涉及针对每个渲染器生成与收听配置相对应的一组系数。在一些这样的示例中,所述系数可以用于所述渲染。在一些示例中,所述系数可以是平移器(panner)系数。

30、本文描述的一些或所有操作、功能和/或方法可以由一个或多个设备根据存储在一个或多个非暂时性介质上的指令(例如,软件)来执行。这样的非暂时性介质可以包括如本文描述的存储器设备等存储器设备,包括但不限于随机存取存储器(ram)设备、只读存储器(rom)设备等。因此,本公开中描述的主题的一些创新方面可以在其上存储有软件的非暂时性介质中实施。

31、本公开的至少一些方面可以经由装置来实施。例如,一个或多个设备可以能够至少部分地执行本文公开的方法。在一些实施方式中,装置可以包括接口系统和控制系统。控制系统可以包括一个或多个通用单芯片或多芯片处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或其他可编程逻辑设备、离散门或晶体管逻辑、离散硬件组件或其组合。在一些示例中,所述装置可以是上文引用的音频设备之一。然而,在一些实施方式中,所述装置可以是另一类型的设备,如移动设备、膝上型计算机、服务器、车辆等。例如,车辆控制系统可以被配置为执行至少一些所公开的方法。音频设备控制系统可以被配置为执行至少一些所公开的方法。

32、在以下附图和说明中阐述了本说明书中所描述的主题的一个或多个实施方式的细节。从所述描述、附图和权利要求中,其他特征、方面和优点将变得显而易见。注意,以下附图的相对尺寸可能不是按比例来绘制的。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1