自动声学切换
1.相关申请的交叉引用
2.本技术要求于2021年2月26日提交的美国临时申请第63/154,651号的权益,其公开内容以引用的方式全文并入本文。
技术领域
3.本公开涉及音频通信领域,包括数字信号处理方法,该数字信号处理方法被设计成自动识别并在适应改变的声学环境的各种电声通信模式之间转换。还描述了其他方面。
背景技术:4.音频输出设备(包括可穿戴音频输出设备,诸如头戴式耳机、耳塞、耳机等)广泛用于使用各种电声通信模式向用户提供音频输出。可穿戴音频输出设备可在电话模式下与电话配对或在透明模式下操作,该透明模式允许用户穿过音频输出设备听到环境声音,从而促进与附近说话者的通信而不需要移除音频输出设备。
技术实现要素:5.公开了用于仅基于声学分析在可穿戴音频输出设备的通信模式之间自动转换的方法和系统的方面。当由使用音频输出设备进行通信的用户佩戴时,音频输出设备可以在三种电声模式中的一种电声模式下操作。在透明模式下,音频输出设备可以传递附近用户的语音信号。在对等模式下,音频输出设备可以在射频(rf)链路的通信范围内建立到另一音频输出设备的直接低延时rf链路。在电话模式下,音频输出设备可以使用联网的电话与另一音频输出设备通信。所公开的方法和系统对音频输出设备的本地佩戴者的近场语音信号和远程通话者的远场语音信号执行声学分析以确定音频输出设备的最佳模式,并且随着音频输出设备的本地佩戴者与远程通话者之间的声学环境改变而在模式之间无缝地转换。
6.在一个方面,该方法可以处理由音频输出设备的一个或多个麦克风捕获的近场和远场语音信号以估计声学环境的参数。在一个方面,本地佩戴者的音频输出设备和远程通话者的音频输出设备可以往复地估计环境的声学参数。两个音频输出设备可以各自基于其相应的近场和远场语音信号来估计声学参数和其变化率。两个音频输出设备可以例如通过对等模式的直接rf链路交换估计的声学参数以增加估计的声学参数的置信度。实际上,两个音频输出设备可以充当分布式、非锁相的麦克风阵列以执行对声学参数的往复估计以确定用于在音频输出设备的两个佩戴者之间进行通信的电声模式。在一个方面,如果另一音频输出设备没有处理能力、具有处理限制或想要节省电力,则仅一个音频输出设备可以估计声学参数和其变化率。
7.该方法可以处理估计的声学参数以确定是否有可能允许音频输出设备的佩戴者在透明模式下进行通信,诸如当佩戴者在彼此的可听范围内以进行面对面会话时。该方法可以进一步处理所估计的声学参数以生成远程通话者的空间化元数据。在一个方面,当远场语音信号太弱时,诸如当两个佩戴者之间的距离超过可听通信范围时,本地佩戴者的音
频输出设备可以与远程通话者的音频输出设备在对等模式下建立直接低延时rf链路,以电磁地接收远场语音信号。该方法可以使用空间化元数据来重新空间化通过直接rf链路接收的远场语音信号,以具有空间地模拟远程通话者的水平和感知到达方向。来自直接rf链路的空间化远场语音信号可用于增强由麦克风声学接收的远场语音信号。在一个方面,该方法可以将由麦克风声学接收的远场语音信号与来自rf链路的空间化远场语音信号相加以改善远场语音信号的信噪比(snr)。在一个方面,本地佩戴者的音频输出设备可以在对等模式下经由音频输出设备的扬声器向用户输出增强的远场语音信号。
8.该方法可以估计声学远场语音信号、空间化远场语音信号或增强的远场语音信号的功率谱,诸如通过生成对透明模式或对等模式下的远场语音信号的运行功率谱密度(psd)估计。在一个方面,该方法可以处理所估计的声学参数以确定两个通话者之间的距离超过直接rf链路的通信范围。本地佩戴者的音频输出设备可以从对等模式切换到电话模式,以通过联网的电话从远程通话者的音频输出设备接收远场语音信号。该方法可以使通过电话模式接收的远场语音信号与运行功率谱密度估计平衡以平滑从对等模式到电话模式的转换。在一个方面,该方法可以将电话模式下的均衡的远场语音信号与对等模式下的空间化远场语音信号或增强的远场语音信号求和。在一个方面,该方法可以通过生成对在透明模式下或对等模式下的近场语音信号的运行psd估计来估计声学近场信号的功率谱。该方法可以处理所估计的声学参数、远场语音信号的psd估计值和近场语音信号的psd估计值,以估计两个通话者之间的距离并在透明模式、对等模式和电话模式之间切换。在一个方面,如果音频输出设备中的一个音频输出设备不具有对等模式的直接链路rf的能力,则该方法可以在透明模式与电话模式之间直接切换。
9.在一个方面,公开了一种在佩戴本地耳机的本地通话者与佩戴远程耳机的远程通话者之间进行通信的方法。该方法处理由本地耳机接收的本地通话者的近场语音信号和远程通话者的远场语音信号以估计声学参数。该方法还处理所估计的声学参数以确定本地耳机与远程耳机之间的通信模式。该通信模式包括声学透明模式、对等rf模式或电话模式。如果确定通信模式处于对等模式,则该方法处理通过对等模式接收的远场语音信号以生成空间化语音信号。如果确定通信模式是电话模式,则该方法处理通过电话模式接收的远场语音信号以生成电话语音信号。该方法向本地耳机的扬声器输出通过声学透明模式接收的远场语音信号、对等模式下的空间化语音信号或电话模式下的电话语音信号。
10.在一个方面,公开了一种在佩戴本地耳机的本地通话者与佩戴远程耳机的远程通话者之间进行通信的方法。该方法处理本地通话者的近场语音信号和远程通话者的远场语音信号以估计声学参数。使用本地耳机的麦克风将远场语音信号捕获为声学信号。该方法处理所估计的声学参数以确定是否利用由本地耳机从远程耳机接收的rf传输来增强声学信号。rf传输用于电磁地携载远场语音信号。如果确定增强声学信号,则该方法处理声学信号和在rf传输上接收的远场语音信号以生成增强的声学信号。该方法输出增强的声学信号,或在未增强到本地耳机的扬声器时输出声学信号。
11.上面的概述不包括本发明的所有方面的详尽列表。设想本发明包括可从上面概述的各个方面以及在下面的具体实施方式中公开并在随该专利申请提交的权利要求书中特别指出的各个方面的所有合适的组合而实践的所有系统和方法。此类组合具有未在上面的概述中具体叙述的特定优点。
附图说明
12.本公开的各方面以举例的方式进行说明,而不仅限于各个附图的图示,在附图中类似的附图标号指示类似的元件。应当指出的是,在本公开中提到“一”或“一个”方面未必是同一方面,并且其意指至少一个。另外,为了简洁以及减少附图的总数,可使用给定附图示出本公开的不止一个方面的特征部,并且对于给定方面,可能并非需要该附图中的所有元件。
13.图1描绘了根据本公开的一个方面的使用音频输出设备的透明模式、对等模式或电话模式彼此通信的音频输出设备的两个佩戴者。
14.图2描绘了根据本公开的一个方面的可穿戴音频输出设备和感知的环境声音。
15.图3描绘了根据本公开的一个方面的处理环境声音以仅基于声学分析来确定音频输出设备之间的通信模式并且在通信模式之间进行转换的系统的功能框图,该环境声音包括由本地可穿戴音频输出设备的麦克风阵列声学捕获的语音信号和从远程可穿戴音频输出设备电磁接收的语音信号。
16.图4描绘了根据本公开的一个方面的特征提取器模块的功能框图,该特征提取器模块处理近场语音和远场语音信号以估计用于确定可穿戴音频输出设备的通信模式的声学环境的参数。
17.图5描绘了根据本公开的一个方面的分类器和参数估计器模块的功能框图,该分类器和参数估计器模块处理所估计的参数以确定通信模式和用于重新空间化在对等模式下接收的远端语音信号的空间化元数据。
18.图6描绘了根据本公开的一个方面的空间过滤器模块的功能框图,该空间过滤器模块使用空间化元数据重新空间化在对等模式下接收的远端语音信号,并且生成用于使在电话模式下接收的远端语音信号均衡的功率谱元数据。
19.图7是根据本公开的一个方面的用于仅基于声学分析确定通信模式并在可穿戴音频输出设备的通信模式之间转换的方法的流程图。
20.图8是根据本公开的一个方面的用于用仅基于声学分析在rf传输上携载的远场语音信号来增强由可穿戴音频输出设备的麦克风捕获的远场语音的声学信号的方法的流程图。
具体实施方式
21.可穿戴音频输出设备可以在透明模式下操作,该透明模式允许用户听到环境声音而不需要用户移除音频输出设备。在一些情况下,包括由用户感知到的附近说话者的语音的环境声音可以由于音频输出设备所呈现的物理障碍而减弱。在一个模式下,音频输出设备可以向用户的耳朵传递减弱的环境声音,或者替代地可以通过使用麦克风捕获环境声音并播放捕获的声学信号来放大环境声音。
22.在另一个模式下,当音频输出设备与电话配对时,音频输出设备可以主动取消环境声音以允许用户进行传统的电话呼叫。两种通信模式常规地分离处理。当用户希望在模式之间进行切换时,用户可能必须手动进行。例如,当用户希望中断在透明模式下与附近说话者的会话以进行电话呼叫时,用户可能必须关闭透明模式以进行电话呼叫。在电话呼叫之后,用户可能必须重新激活透明模式以继续与附近说话者的会话。
23.在另一种情况下,即使当用户或附近说话者在会话的可听范围之外时,用户也可能希望与附近说话者进行会话。当来自附近说话者的语音信号由于距离增加变得太弱而听不到时,用户可能必须手动关闭透明模式以呼叫该说话者,从而可能中断会话。因此,要求用户在可穿戴音频输出设备的操作模式之间进行手动切换可能是不方便的,并且可能削弱用户的整体音频体验。
24.期望仅基于声学分析在可穿戴音频输出设备的通信模式之间自动转换,而不需要手动用户干预或命令。例如,当头戴式耳机、耳塞、耳机等的两个穿戴者靠近进行面对面会话时,每个音频输出设备可以在透明模式下操作,以使用保留语音信号的空间特性的麦克风阵列来声学地捕获来自另一个说话者的语音信号。每个音频输出设备可以处理由麦克风阵列捕获的声学信号以提取声学参数及其变化率,以确定随着两个说话者之间的距离或声学环境改变而继续在透明模式下进行该会话是否可行。在一个方面,声学参数可以包括远程通话者的远场语音与本地通话者的近场语音之间的水平差、远场语音信号的直达混响比、远场语音信号的能量分布的量度、隆巴德效应或近场语音信号的水平变化、远场语音信号的到达方向、远场语音信号的可理解性的量度等。
25.音频输出设备可以处理提取的声学参数以确定由于通话者之间的距离增加或由于噪声源,使用透明模式继续会话可能不再可行。音频输出设备可以通过经由将两个设备切换成在对等模式下操作来通过直接低延时rf链路电磁地接收远场语音信号来增强透明模式下的声学信号。音频输出设备可以基于提取的声学参数估计用于重新空间化通过rf链路接收的远场语音信号的所需水平和方向。音频输出设备可以重新空间化通过rf链路接收的远场语音信号,使得其与远程说话者的空间位置一致,使得声学信号能够以无缝方式增强。在一个方面,音频设备可以将通过麦克风声学接收的远场语音信号与通过rf链路接收的空间化远场语音信号相加以改善增强信号中的远场语音的snr。
26.在一个方面,当音频输出设备确定rf链路在超过其操作范围时,音频输出设备可以切换成在与其他音频输出设备的电话模式下操作。音频输出设备可以使由电话信号携载的远场语音信号均衡为具有与空间化远场语音信号相似的功率谱。在一个方面,音频输出设备可以估计透明模式下或对等模式下的空间化远场语音信号的功率谱密度(psd)的运行统计数据。音频输出设备可以使用运行psd估计使由电话信号携载的远场语音信号均衡以平滑到电话模式的转换。透明模式下的原始声学信号、对等模式下的增强的远场语音信号或电话模式下的均衡的远场语音信号可以通过音频输出设备的扬声器输出到用户。在一个方面,音频输出设备可以估计透明模式或对等模式下的近场语音信号的psd。该方法可以将远场语音信号的psd估计值和近场语音信号的psd估计值或其相对变化率进行比较以估计两个通话者之间的距离或声学环境的改变。音频输出设备可以使用该信息来确定何时在透明模式、对等模式和电话模式之间进行切换。
27.以下描述示出了许多具体细节。然而,应当理解,这里可在不需要这些具体细节的情况下来实践本公开的方面。在其他情况下,未详细示出已熟知的电路、结构和技术,以免模糊对此描述的理解。
28.本文中所使用的术语仅仅是为了描述特定方面并非旨在对本发明进行限制。空间相关术语,诸如“在
……
之下”、“在
……
下方”、“下”、“在
……
上方”、“上”等可在本文中用于描述的方便,以描述一个元件或特征部与另外一个或多个元件或一个或多个特征部的关
系,如在附图中示出的。应当理解,空间相对术语旨在涵盖除了在附图所示取向之外的元件或特征部使用或操作过程中的不同取向。例如,如果图中包含多个元件的设备被翻转,则被描述为在其他元件或特征部“下方”或“之下”的元件然后可被取向成在其他元件或特征部“上方”。因此,示例性术语“在
……
下方”可涵盖在
……
上方和在
……
下方这两个取向。设备可以其他方式取向(例如,旋转90度或在其他的取向处),并且在本文中使用的空间相关描述符被相应地解释。
29.如本文所用,单数形式“一个”(“a”,“an”)和“该”旨在同样包括复数形式,除非上下文另外指出。应当进一步理解,术语“包括”和“包含”限定了所述特征、步骤、操作、元件、或部件的存在,但不排除一个或多个其他特征、步骤、操作、元件、部件、或其组的存在或添加。
30.本文所用的术语“或”以及“和/或”应被解释为包含在内或意指任何一个或任何组合。因此,“a、b或c”或“a、b和/或c”指“以下中的任意一种:a;b;c;a和b;a和c;b和c;a、b和c。”仅当元素、功能、步骤或动作的组合以某种方式固有地互相排斥时,才会出现这个定义的例外。
31.图1描绘了根据本公开的一个方面的使用音频输出设备的透明模式、对等模式或电话模式彼此通信的音频输出设备的两个佩戴者。为了简化描述,接收来自其他通话者的语音信号的音频输出设备的穿戴者被称为本地通话者。由本地通话者佩戴的音频输出设备被称为本地音频输出设备。表示本地通话者的语音的信号被称为近场语音信号。相反,另一个通话者被称为远程通话者,由远程通话者佩戴的音频输出设备被称为远程音频输出设备,并且表示远程通话者的语音的信号被称为远场语音信号。
32.在透明模式的子模式下,本地音频输出设备可以输出一个或多个音频分量,诸如环境声音,包括远程通话者的远场语音信号。本地音频输出设备可以使用面向周围声学环境的一个或多个麦克风来捕获远场语音信号。本地音频输出设备可以通过本地音频输出设备的扬声器将捕获的远场语音信号放大并播放给本地通话者。在涉及主动声音再现的透明模式的此子模式下,本地通话者与否则由于本地音频输出设备在本地通话者耳朵中的物理障碍而以环境声音的被动减弱而可听相比可以从周围物理环境听到更大量的环境声音。在一个方面,如果两个通话者足够靠近,则本地音频输出设备可以关闭主动声音再现,使得本地通话者感知到的任何量的环境声音都是由于本地音频输出设备造成的被动减弱。透明模式的这种被动声学泄漏子模式可以被称为传递子模式或“关闭”子模式。与透明模式有关的本公开的方面可以应用于透明模式的主动声音再现子模式或传递子模式,或允许本地通话者通过本地音频输出设备听到自然世界的任何其他模式。类似地,对在透明模式下捕获的声学信号的提及可以指放大信号或在没有主动放大的情况下由麦克风捕获的被动泄漏信号。
33.图2描绘了根据本公开的一个方面的可穿戴音频输出设备和感知的环境声音。可穿戴音频输出设备301包括耳塞303、杆305和耳插物314。用户穿戴了可穿戴音频输出设备301,使得耳塞303和耳插物314在用户的左耳中。耳插物314至少部分地延伸到用户的耳道中。在一个用例中,当耳塞303和耳插物314插入到用户的耳朵中时,在耳插物314和用户的耳朵之间可形成密封,以便将用户的耳道与周围物理环境隔离。在其他用例中,耳塞303和耳插物314一起阻挡周围物理环境中的一些但不一定所有的环境声音到达用户的耳朵。
34.第一麦克风或第一麦克风阵列302-1位于可穿戴音频输出设备301上以捕获环境声音,其由用户周围的物理环境的区域316中的波形322表示。第二麦克风或第二麦克风阵列302-2位于可穿戴音频输出设备301上以捕获由波形324表示的未被耳塞303和耳插物314完全阻挡并且可以在用户耳道内的区域318中听到的任何环境声音。在一个方面,第二麦克风302-2可用于捕获用户的近场语音信号。
35.返回参考图1,如果远程通话者离开本地通话者,则远场语音信号随两个通话者之间的距离而减弱。本地音频输出设备可以分析远场语音信号和近场语音信号以估计本地环境的声学参数和估计的声学参数的变化率。在一个方面,本地音频输出设备和远程音频输出设备可以各自基于其相应的近场语音信号和远场语音信号来估计其相应环境的声学参数及其变化率。两个音频输出设备可以例如通过对等模式的直接rf链路交换估计的声学参数以增加估计的声学参数的置信度。例如,本地音频输出设备可以分析从远程音频输出设备接收的声学参数,其中声学参数由远程音频输出设备基于由远程音频输出设备声学接收的本地通话者的近场语音信号来估计。本地音频输出设备可以往复地估计与由本地音频输出设备声学接收的远程通话者的远场语音信号相关联的声学参数。实际上,两个音频输出设备可以充当分布式、非锁相的麦克风阵列以执行对声学参数的往复估计。在一个方面,如果另一音频输出设备没有处理能力、具有处理限制或想要节省电力,则两个音频输出设备中的仅一个可以估计声学参数和其变化率。估计声学参数的音频输出设备可以通过rf链路将估计的声学参数传输到另一个音频输出设备。
36.本地音频输出设备可以分析估计的声学参数以确定是否有可能在透明模式中继续会话。如果声学参数的分析指示远场语音信号被充分减弱使得其可能不可理解,则本地音频输出设备可以在对等模式下建立与远程音频输出设备的直接低延时rf链路,以通过该直接rf链路电磁接收远场语音信号。为了实现平滑转换,本地音频输出设备可以处理估计的声学参数以生成远程通话者的空间化元数据。
37.该本地音频输出设备可以使用空间化元数据来重新空间化通过直接rf链路接收的远场语音信号,以具有空间地模拟远程通话者的水平和感知到达方向。来自直接rf链路的空间化远场语音信号可用于增强由麦克风在透明模式下声学接收的远场语音信号。在一个方面,本地音频输出设备可以将来自麦克风的远场语音信号与来自直接rf链路的空间化远场语音信号进行时间对准以生成增强的远场语音信号。在一个方面,本地音频设备可以将从麦克风接收的远场语音信号与来自rf链路的空间化远场语音信号相加以改善增强的远场语音的snr。在一个方面,本地音频输出设备可以切换到对等模式以将空间化远场语音信号输出到本地音频输出设备的扬声器,而不会增强透明模式的声学远场语音信号。
38.如果远程通话者进一步远离本地通话者,则本地音频输出设备可以分析估计的声学参数以确定直接rf链路正超过其操作范围。本地音频输出设备可以切换到与远程音频输出设备的电话模式下操作。本地音频输出设备可以使通过电话信号接收的远场语音信号均衡为具有与空间化远场语音信号相似的功率谱。在一个方面,本地音频输出设备可以估计透明模式下或对等模式下的空间化远场语音信号的功率谱密度(psd)的运行统计数据。本地音频输出设备可以使用运行psd估计使通过电话信号接收的远场语音信号均衡以平滑到电话模式的转换。本地音频输出设备可以在电话模式下将均衡的远场语音信号输出到本地音频输出设备的扬声器。在一个方面,如果远程通话者未佩戴音频输出设备,或者远程音频
输出设备不具有对等模式的直接链路rf的能力,则本地音频输出设备可以直接在透明模式和电话模式之间切换。例如,本地音频输出设备可以分析透明模式下的估计的声学参数,以确定从麦克风声学接收的远场语音信号被充分减弱,使得通信模式应从透明模式切换到电话模式。
39.图3描绘了根据本公开的一个方面的处理环境声音以仅基于声学分析来确定音频输出设备之间的通信模式并且在通信模式之间进行转换的系统300的功能框图,该环境声音包括由本地可穿戴音频输出设备的麦克风阵列声学捕获的语音信号和从远程可穿戴音频输出设备电磁接收的语音信号。系统300可以位于本地音频输出设备中或与本地音频输出设备配对的移动设备中。
40.麦克风阵列340可以包括图2中所描绘的可穿戴音频输出设备301的第一麦克风/麦克风阵列302-1和第二麦克风/麦克风阵列302-2。麦克风阵列340可以捕获远程通话者的远场语音信号和本地通话者的近场语音信号。在一个方面,麦克风阵列340中的麦克风可以具有定向灵敏度,以使系统300能够估计远场语音信号的到达方向。
41.特征提取器模块350可以处理远场语音信号和近场语音信号的声学信号以估计声学环境的参数和声学参数的变化率。在一个方面,特征提取模块350可以接收由远程音频输出设备估计的声学参数。本地和远程音频输出设备可以通过对等模式的直接rf链路交换估计的声学参数以增加估计的声学参数的置信度。在一个方面,本地音频输出设备可以使用由远程音频输出设备估计的声学参数来估计其往复声学参数。例如,从远程音频输出设备接收的估计的声学参数可以指示来自本地通话者的远场语音信号由远程音频输出设备在某一语音水平下以某个到达方向接收,并且远程通话者的近场语音信号由远程音频输出设备在另一水平下捕获。基于两个音频输出设备之间的往复关系,特征提取模块350可以使用该信息和关于本地通话者的近端语音信号的估计语音水平的信息来估计远程通话者的远场语音信号的到达方向和语音水平。在一个方面,本地音频输出设备可以在无远程音频输出设备辅助的情况下估计声学参数,并且然后使用由远程音频输出设备估计的声学参数来验证或细化由本地音频输出设备估计的声学参数。
42.图4描绘了根据本公开的一个方面的特征提取器模块350的功能框图,该特征提取器模块处理近场语音和远场语音信号以估计用于确定本地音频输出设备的通信模式的声学环境的参数。
43.过滤模块351可以过滤由麦克风阵列340捕获的声学信号以检测远场语音信号和近场语音信号。例如,过滤模块351可以过滤由图2中所描绘的可穿戴音频输出设备301的第一麦克风/麦克风阵列302-1和第二麦克风/麦克风阵列302-2捕获的声学信号,以分别检测远场语音信号和近场语音信号。在一个方面,过滤模块351可以过滤通过对等模式的直接rf链路接收的信号以检测远场语音信号或由远程音频输出设备估计的声学参数。各种模块可以处理远场和近场语音信号以估计各种声学参数。
44.例如,近场水平变化估计模块352可以处理近场语音信号以估计近场语音信号随时间的变化水平。例如,近场水平变化估计模块352可以测量隆巴德效应,其是本地通话者的非自愿趋势,以增加声音效应,以在较大的噪声下讲话或至远程通话者的距离增加时增强语音的可听性。这种声音效应可以包括增加的响度、更高的间距音高、较慢的速率或更长的音节持续时间等。
45.远场到近场水平差估计模块353可以处理近场和远场语音信号以估计近场和远场语音信号之间的水平或体积差和水平差的变化。例如,当远程通话者远离本地通话者时,近场语音信号与远场语音信号之间的水平差可以很大。在一个方面,远场到近场水平差估计模块353可以估计近场和远场语音信号的psd。可以比较近场和远场语音信号的psd,或者可以分析其相对变化率以估计本地通话者和远程通话者之间的距离,或者估计声学环境的变化。
46.远场直达混响比(drr)估计模块354可以处理远场语音信号以估计远场语音信号的drr和drr的变化。在一个方面,语音活动检测器和近场/远场分类器可以检测远场语音信号,并且可以估计远场语音信号的直达分量和混响分量以估计drr。在一个方面,语音活动检测器和近场/远场分类器可以应用机器学习方法,诸如使用卷积神经网络(cnn)、递归神经网络(rnn)等。在一个方面,语音活动检测器可以检测近场语音信号上的语音。本地音频输出设备可以向远程音频输出设备发射信号,该信号指示对本地通话者的语音的检测以使得远程音频输出设备能够估计从本地通话者接收的语音信号的声学参数。往复地,本地音频输出设备的特征提取器模块350可以从远程音频输出设备接收信号,该信号指示来自远程通话者的语音的检测以使得特征提取器模块350能够估计远场语音信号的声学参数。
47.远场主导估计模块355可以处理远场语音信号以估计其能量分布和能量分布的变化,诸如通过估计空间协方差矩阵和空间协方差矩阵的时间方差。远场主导估计模块355可以测量远场语音信号的能量是由致密源(诸如当远程通话者具有清楚的声学特征时)还是漫射能量(诸如当远程通话者太远而不具有有意义的声学特征时)控制。
48.远场到达方向和定位模块356可以处理远场语音信号以估计其到达方向和到达方向的变化。在一个方面,麦克风阵列340可以具有定向灵敏度以使远场到达方向和定位模块356能够估计远场语音信号的到达方向。在一个方面,远程音频输出设备估计的来自本地通话者的远场语音信号的到达方向可以被用作本地音频输出设备的辅助,以基于两个音频输出设备之间的空间关系的往复性来估计远程通话者的远场语音信号的到达方向。
49.远场语音可理解性指数模块357可以处理远场语音信号以估计可理解性参数和远场语音的可理解性参数的变化。在一个方面,远场语音可理解性指数模块357可以应用机器学习方法,诸如使用cnn、rnn等。
50.返回参考图3,分类器和参数估计器模块360可以分析估计的声学参数以确定本地和远程音频输出设备的最佳通信模式,以供本地和远程通话者用于彼此会话。在一个方面,最佳通信模式可以是远场语音信号的可理解性、方向性、drr、能量分布等的函数。
51.如果分类器和参数估计器模块360对声学参数的分析指示当前通信模式可能不再支持本地通话者和远程通话者之间的会话,则分类器和参数估计器模块360可以请求本地音频输出设备切换到不同的通信模式。例如,当由麦克风阵列340捕获的信号可由于增加的距离或由于噪声源而不再支持透明模式下本地通话者和远程通话者之间的声学通信时,本地音频输出设备可以用经由对等模式的直接低延时rf链路接收的远场语音信号来增强透明模式下的声学信号。分类器和参数估计器模块360可以基于提取的声学参数估计用于重新空间化通过rf链路接收的远场语音信号的所需水平和方向元数据。可以重新空间化通过rf链路接收的远场语音信号,使得其与远程说话者的空间位置一致,使得声学信号可以无缝方式增强。
52.在一个方面,在本地和远程音频输出设备两者上使用的通信模式可以相同。本地音频输出设备可以与远程音频输出设备同步通信模式的切换。在一个方面,在本地和远程音频输出设备上使用的通信模式可以不同。当局部噪声或干扰源仅影响本地或远程音频输出设备时,可能出现这种不对称模式。
53.图5描绘了根据本公开的一个方面的分类器和参数估计器模块360的功能框图,该分类器和参数估计器模块处理所估计的参数以确定通信模式和用于重新空间化在对等模式下接收的远端语音信号的空间化元数据。
54.语音模式确定模块361可以处理估计的声学参数,诸如近场水平变化参数、远场到近场水平差参数、远场drr参数、远场主导参数、远场到达方向和定位参数、远场语音可理解性参数等,以确定最佳通信模式。在一个方面,语音模式确定模块361可以确定来自估计的声学参数的远场语音信号的复合可理解性指数。如果复合可理解性指数高于第一阈值,则语音模式确定模块361可以确定最佳通信模式是透明模式。如果复合可理解性指数下降到低于第一阈值但高于第二阈值,则语音模式确定模块361可以确定最佳通信模式将使用通过直接rf链路接收的远场语音信号来增强透明模式的声学信号。如果复合可理解性指数下降到低于第二阈值,则语音模式确定模块361可以确定最佳通信模式是电话模式。
55.为了使用通过直接低延时rf接收的远场语音信号来增强透明模式下的声学信号,空间参数估计器362可以估计要应用于通过直接低延时rf接收的远场语音信号的空间化元数据。例如,语音模式确定模块361可以向空间参数估计器362提供远场到近场水平差参数、远场到达方向和定位参数、远场语音可理解性参数等,以供空间参数估计器362生成远程通话者的空间化元数据,诸如水平空间元数据和方向空间元数据。
56.返回参考图3,空间过滤器370可以使用空间化元数据重新空间化通过直接rf链路接收的远场语音信号,以具有在空间上模拟远程通话者的水平和感知到达方向。空间过滤器370还可以生成空间化远场语音信号的psd,以用于在将通信模式切换到电话模式时均衡通过电话模式接收的远场语音信号。
57.图6描绘了根据本公开的一个方面的空间过滤器模块370的功能框图,该空间过滤器模块使用空间化元数据重新空间化在对等模式下接收的远端语音信号,并且生成用于使在电话模式下接收的远端语音信号均衡的功率谱元数据。
58.语音空间化过滤器371将由分类器和参数估计器模块360生成的水平空间化元数据和方向空间化元数据应用到在对等模式下从直接rf链路接收的远端语音信号以生成空间化语音信号。来自直接rf链路的空间化远场语音信号可以用于增强由麦克风阵列340在透明模式下声学接收的远场语音信号。在一个方面,语音空间化过滤器371可以将从麦克风接收的远场语音信号与来自rf链路的空间化远场语音信号相加以改善在透明模式或对等模式下增强的远场语音的snr。
59.时间对准/混合器模块372可以将来自麦克风阵列340的远场语音信号与来自直接rf链路的空间化远场语音信号进行时间对准和混合,以生成增强的远场语音信号。在一个方面,如果由于语音空间化过滤器371的长处理延时,来自麦克风阵列340的远场语音信号与来自直接rf链路的空间化远场语音信号相比具有更短的延时,则来自麦克风阵列340的远场语音信号的帧可以由延迟缓冲器延迟以与空间化远场语音信号的帧时间对准。在一个方面,如果来自直接rf链路的空间化远场语音信号与来自麦克风阵列340的远场语音信号
相比具有更短的延时,则空间化远语音信号的帧可以由延迟缓冲器延迟以与来自麦克风阵列340的远场语音信号的帧时间对准。
60.功率谱估计模块372可以估计透明模式或对等模式下的空间化远场语音信号或增强的远场语音信号的psd的运行统计数据,以生成功率谱元数据。功率谱元数据可用于将电话模式下接收的远端语音信号均衡为具有与空间化远场语音信号或增强的远场语音信号相似的功率谱,以平滑到电话模式的转换。在一个方面,功率谱估计模块372可以估计透明模式下近场语音信号的psd的运行统计数据,以生成功率谱元数据。当通信模式直接从透明模式转换为电话模式时,可以使用功率谱元数据来均衡在电话模式下接收的远端语音信号。
61.返回参考图3,求和模块380可以使用功率谱元数据来均衡在电话模式下接收的远端语音信号。求和模块380可以对电话模式下的均衡的远端语音信号和透明模式或对等模式下的空间化远场语音信号或增强的远场语音信号求和,以生成经处理的远场语音信号以驱动本地音频输出设备的扬声器390。替代地,在透明模式或在对等模式下,来自麦克风阵列340的声学信号、空间化远场语音信号或增强的远场语音信号可以被驱动到扬声器390。
62.图7是根据本公开的一个方面的用于仅基于声学分析确定通信模式并在可穿戴音频输出设备诸如耳机的通信模式之间转换的方法700的流程图。方法700可以由图3的系统300实践。
63.在操作701中,方法700处理近场语音信号和由本地耳机接收的远场语音信号,以估计声学环境的声学参数。从本地耳机的本地用户接收近场语音信号,并且从远程耳机的远程用户接收远场语音信号。
64.在操作703中,方法700处理所估计的声学参数以确定本地耳机与远程耳机之间的通信模式。该通信模式包括声学透明模式、对等rf模式或电话模式。
65.在操作705中,方法700确定通信模式是否是透明模式。如果是透明模式,则操作709将远场语音信号输出到本地耳机的本地用户。
66.如果通信模式不是透明模式,则操作707确定通信模式是否在rf对等模式。如果是rf对等模式,则操作709基于到本地耳机的远场语音信号而输出空间化语音信号。在一个方面,方法700可以处理在rf对等模式下接收的远场语音信号,以基于从估计的声学参数确定的远程用户的感知方向来生成空间化语音信号。
67.否则,如果通信模式不是透明模式也不是rf对等模式,则操作709基于到本地耳机的远场语音信号来输出电话语音信号。
68.图8是根据本公开的一个方面的用于用仅基于声学分析在rf传输上携载的远场语音信号来增强由可穿戴音频输出设备诸如耳机的麦克风捕获的远场语音的声学信号的方法800的流程图。方法800可以由图3的系统300实践。
69.在操作801中,方法800处理被麦克风接收为声学信号的近场语音信号和远场语音信号以估计声学环境的声学参数。
70.在操作803中,方法800处理所估计的声学参数以确定是否要使用由rf传输携载的远场语音信号来增强该声学信号。
71.在操作805中,方法800检查决策是否是要增强声学信号。如果没有增强,则操作811将原始远场语音信号输出到耳机的扬声器。
72.如果决策是增强声学信号,则在操作807中,方法通知远程耳机转换到对等模式。
73.在操作809中,方法800处理由麦克风接收的远场语音信号并通过对等rf信号来增强由麦克风接收的远场语音信号。
74.在操作811中,方法800将增强的远场语音信号输出到耳机的扬声器。
75.本文所述的立体声信号标识符和音频信号标识符的实施方案可例如通过网络计算机、网络服务器、平板计算机、智能电话、膝上型计算机、台式计算机、其他消费电子设备、或其他数据处理系统在数据处理系统中实现。具体地讲,描述用于确定用于由可穿戴音频输出设备使用的最佳通信模式的操作是由执行存储在一个或多个存储器中的指令的处理器执行的数字信号处理操作。处理器可从存储器读取所存储的指令并且执行指令以执行所述的操作。这些存储器代表可存储或包含在被执行时使得数据处理系统执行本文所述的一个或多个方法的计算机程序指令的机器可读非暂态存储介质的示例。处理器可为本地设备诸如智能电话中的处理器、远程服务器中的处理器、或本地设备和远程服务器中的多个处理器的分布式处理系统,其中它们的相应存储器包含执行所述的操作所需的指令的各个部分。
76.本文所述的过程和块不限于所述的特定示例,并且不限于在本文中作为示例使用的特定次序。相反,可根据需要对任何处理块进行重新排序、组合或移除、并行或串行地执行,以实现上述结果。与实施音频处理系统相关联的处理块可通过一个或多个可编程处理器执行存储在非暂态计算机可读存储介质上的一个或多个计算机程序来执行,以执行系统的功能。音频处理系统的全部或部分可被实现为专用逻辑电路(例如,fpga(现场可编程门阵列)和/或asic(专用集成电路))。音频系统的全部或部分可利用包括电子设备诸如例如处理器、存储器、可编程逻辑器件或逻辑门中至少一者的电子硬件电路来实现。另外,过程可在任何组合硬件设备和软件部件中实现。
77.虽然附图中描述并且示出了某些示例性实例,但应当理解,这些实例仅为示例性的并对广义发明不具有限制性,并且本发明不限于所示和所述的具体构造和布置,因为本领域的普通技术人员可进行各种其他修改。因此,要将描述视为示例性的而非限制性的。
78.为了帮助专利局和本技术中发布的任何专利的任何读者解译所附权利要求书,申请人希望注意到它们并不意欲所附权利要求书中的任一个或权利要求要素调用35u.s.c.112(f),除非在特定权利要求中明确使用字词“用于......的装置”或“用于......的步骤”。
79.如上所述,本发明技术的一个方面是使用不同通信模式从特定和合法源到音频输出设备的语音或数据的传输和使用。本公开设想到,在一些情况下,该语音或数据可包括唯一地识别或可用于识别具体人员的个人信息数据。此类个人信息数据可包括人口统计数据、基于位置的数据、在线标识符、电话号码、电子邮件地址、家庭地址、与用户的健康或健身级别相关的数据或记录(例如,生命特征测量、药物信息、锻炼信息)、出生日期或任何其他个人信息。本公开认识到在本发明技术中使用此类个人信息数据可用于使用户受益。
80.本公开设想负责收集、分析、公开、传输、存储或其他使用此类个人信息数据的实体将遵守既定的隐私政策和/或隐私实践。具体地,将期望此类实体实现和一贯地应用一般公认为满足或超过维护用户隐私的行业或政府所要求的隐私实践。关于使用个人数据的此类信息应当被突出并能够被用户方便地访问,并应当随数据的收集和/或使用改变而被更
新。用户的个人信息应被收集仅用于合法使用。另外,此类收集/共享应仅发生在接收到用户同意或在适用法律中所规定的其他合法根据之后。此外,此类实体应考虑采取任何必要步骤,保卫和保障对此类个人信息数据的访问,并确保有权访问个人信息数据的其他人遵守其隐私政策和流程。另外,这种实体可使其本身经受第三方评估以证明其遵守广泛接受的隐私政策和实践。此外,应针对被收集和/或访问的特定类型的个人信息数据调整政策和实践,并使其适用于适用法律和标准,包括可用于施加较高标准的辖区专有的考虑因素。例如,在美国,对某些健康数据的收集或获取可能受联邦和/或州法律的管辖,诸如健康保险流通和责任法案(hipaa);而其他国家的健康数据可能受到其他法规和政策的约束并应相应处理。
81.不管前述情况如何,本公开还预期用户选择性地阻止使用或访问个人信息数据的实施方案。即本公开预期可提供硬件元件和/或软件元件,以防止或阻止对此类个人信息数据的访问。
82.此外,本公开的目的是应管理和处理个人信息数据以最小化无意或未经授权访问或使用的风险。一旦不再需要数据,通过限制数据收集和删除数据可最小化风险。此外,并且当适用时,包括在某些健康相关应用程序中,数据去标识可用于保护用户的隐私。可在适当时通过移除标识符、控制所存储数据的量或特异性(例如,在城市级别而不是在地址级别收集位置数据)、控制数据如何被存储(例如,在用户间汇集数据)和/或其他方法诸如差异化隐私来促进去标识。
83.因此,虽然本公开广泛地覆盖了对个人信息数据的使用的传输来实现一个或多个各种所公开的实施方案,但本公开还预期各种实施方案也可在无需访问此类个人信息数据的情况下被实现。即,本发明技术的各种实施方案不会由于缺少此类个人信息数据的全部或一部分而无法正常进行。例如,可基于汇集的非个人信息数据或绝对最低数量的个人信息,诸如仅在用户设备上处理的内容或可用于内容递送服务的其他非个人信息,来选择内容并递送给用户。