专利名称:一种无线电话机及多层描述无线通信传输系统的制作方法
技术领域:
本发明涉及无线通信设备,更具体地说,涉及一种无线电话机。
背景技术:
背景噪音是无线电话通信固有的问题。传统无线电话机包括单麦克风,该麦克风接收近端用户的语音并输出对应的音频信号,随后,音频信号被编码和发送给远端电话机用户。然而,麦克风输出的音频信号通常包括语音分量和背景噪声分量。因此,远端用户常常无法从喧闹的背景噪声分量中分辨出期望的语音分量。
传统无线电话通常包括噪声抑制器以减少背景噪音的不利影响。噪声抑制器根据各种算法处理麦克风产生的音频输出以降低背景噪声的水平。所述算法试图区分音频信号中的语音分量和背景噪声分量,然后削弱背景噪声分量的水平。
传统无线电话器通常也包括语音活动检测器(voice activity detector,VAD),VAD试图分辨音频信号中包括语音分量的那部分信号并仅仅发送该部分信号。VAD的一个优点是节省了通信网络的带宽,因为仅仅发送了音频信号中被选定的部分。
为了有效地操作,噪声抑制器和VAD都必须能够从输入的音频信号中区分语音分量和背景噪声分量。然后实际上要从背景噪声分量中区分出语音分量是有困难的。
除了背景噪声外,传输信道损失也会降低音频信号的质量。例如,被近端用户无线电话机编码和发送的音频信号可能遭受传输信道损失的破坏,导致远端用户无线电话机接收和解码的音频信号的质量下降。这种情况下,近端用户的无线电话机自身不能矫正传输信道损失所带来的不利影响。
因此,有必要开发一种与传统无线电话机相比能够更好地消除输入音频信号中的背景噪声的影响的无线电话机,及一种能够提供冗余以克服传输信道损失的传输系统。
发明内容
本发明涉及具有多麦克风的无线电话机以及提供冗余以克服传输信道损失的多层描述传输系统。多层描述传输系统包括第一和第二无线电话机。所述第一无线电话机包括麦克风阵列、编码器和发射器。所述麦克风阵列中每个麦克风经配置以接收用户的语音输入和产生对应的语音信号。所述编码器与所述麦克风阵列连接,经配置以编码每个语音信号。所述发射器与所述编码器连接,经配置以发射每个已编码的语音信号。所述第二无线电话机包括接收器、解码器和扬声器。所述接收器经配置以接收发射信号。所述解码器与所述接收器连接,经配置以解码接收器所接收的信号,从而产生输出信号。所述扬声器接收所述输出信号并产生对应的声波。
在本发明的第一实施例中,解码器还被配置以对接收器接收的信号进行时差校正,并将时差校正后的信号进行组合以产生输出信号,其中,与所述接收器接收的任一发射信号相比,该输出信号具有更高的信噪比。
在本发明的第二实施例中,解码器还被配置以(1)基于第二无线电话机的接收器接收的信号检测从第一无线电话机的用户嘴部发出的声波的波达方向(DOA);和(2)基于所述DOA自适应地组合所接收的信号以产生输出信号。另外,解码器还被配置以基于所述DOA自适应地组合所接收的信号以有效地控制第一无线电话机的麦克风阵列的最大灵敏性角度,使第一无线电话机的用户嘴部位于该最大灵敏性角度内,其中,所述最大灵敏性角度定义为在该角度范围内,麦克风阵列的灵敏性大于阈值。
在本发明的第三实施例中,对于所接收信号的每个语音帧,解码器还被配置以评估信道损失(如信道的信噪比、误码率以及帧丢失率)和将具有最小信道损失的接收信号解码,从而产生与语音帧对应的输出信号。
在本发明的第四实施例中,对于所接收信号的每个语音帧,解码器还被配置以评估信道损失和动态地丢弃那些信道损失大于阈值的接收信号。所述解码器还被配置以根据上述的第一或第二实施例组合未被丢弃的接收信号。
在本发明的第五实施例中,第一无线电话机的编码器被配置以使用不同的比特率编码语音信号。例如,可配置编码器使其以第一比特率编码一个语音信号(在主信道上)和以与第一比特率不相同的比特率编码其他的语音信号(在辅助信道上)。然后,根据下面的两个例子之一,该主信道和辅助信道被发射并被第二无线电话机的解码器解码。
第一个例子中,对于发射信号的每个语音帧,第二无线电话机的解码器被配置以评估信道损失。如果(1)主信道由于信道损失而被破坏,且(2)至少一个辅助信道没有被信道损失破坏,那么,配置解码器使其解码辅助信道之一,以产生输出信号。
在第二个例子中,对于发射信号的每个语音帧,配置编码器使其评估信道损失。如果(1)主信道的边信息(如滤波系数、音高周期(pitch period)和/和增益)被信道损失破坏,且(2)至少一个辅助信道的对应边信息没有被信道损失破坏,则解码器能够在产生输出信号时同时使用主信道和辅助信道之一来改进隐蔽帧擦除法的性能。
根据本发明的一方面,提供一种无线电话机,包括麦克风阵列,该麦克风阵列中的每个麦克风都被配置以接收用户的语音输入并产生对应的语音信号;编码器,其被配置以编码每个语音信号;和发射器,其被配置以发射每个被编码的语音信号。
优选地,该编码器被配置以用第一比特率编码其中一个语音信号,以与第一比特率不相同的比特率编码其他的语音信号。
根据本发明的一方面,提供一种无线电话机,包括接收器,其被配置以接收语音信号的多重版本,其中,每个版本都由第二无线电话机的麦克风阵列中的麦克风产生;解码器,其连接到所述接收器,被配置以解码所述语音信号的多重版本,以产生输出信号;和扬声器,其被配置以接收所述输出信号和产生对应的声波。
优选地,所述解码器还被配置以对所述语音信号的多重版本进行时差校正以产生输出信号,其中,与该语音信号的多重版本中的任何一个相比,该输出信号具有更高的信噪比。
优选地,所述解码器还被配置以基于所述语音信号的多重版本检测从所述第二无线电话机的用户嘴部发出的声波的波达方向(DOA),和根据该DOA自适应地组合所述多重版本以产生输出信号;和所述解码器还被配置以基于所述DOA自适应地组合所述多重版本以有效地控制所述第二无线电话机的麦克风阵列的最大灵敏性角度,使所述第二无线电话机的用户嘴部位于该最大灵敏性角度范围内,其中,所述最大灵敏性角度定义为在该角度范围内,麦克风阵列的灵敏性大于阈值。
优选地,对于所述语音信号的多重版本中的每个语音帧,解码器还被配置以评估信道损失,并将具有最小信道损失的语音信号的版本解码,该被解码的版本作为相应语音帧的输出信号。
优选地,对于所述语音信号的多重版本中的每个语音帧,所述解码器还被配置以设定信道损失的阈值和动态地丢弃信道损失超过该阈值的每一个版本;和所述解码器还被配置以对所述语音信号的未丢弃版本的接收信号进行时差校正和组合,以产生输出信号,其中,与接收器接收的多重版本语音信号中的任一版本相比,该输出信号具有更高的信噪比。
优选地,对于所述语音信号的多重版本中的每个语音帧,所述解码器还被配置以设定信道损失的阈值和动态地丢弃信道损失超过该阈值的每一个版本;和所述解码器还被配置以基于所述语音信号的未丢弃版本的语音帧检测从第二无线电话机的用户嘴部发出的声波的波达方向(DOA),并基于该DOA自适应地组合未丢弃版的语音帧以产生输出信号;和所述解码器还被配置以基于所述DOA自适应地组合未丢弃版的语音帧,以有效地控制第二无线电话机的麦克风阵列的最大灵敏性角度,使第二无线电话机的用户嘴部位于该最大灵敏性角度范围内,其中,所述最大灵敏性角度定义为在该角度范围内,麦克风阵列的灵敏性大于阈值。
优选地,在所述接收器收到信号之前,所述第二无线电话机以不同的比特率对所述语音信号的多重版本进行编码和发射。
优选地,在所述接收器收到信号之前,所述语音信号中的一个版本在主信道上以第一比特率编码和发射,其他的版本在对应的辅助信道上以与第一比特率不相同的比特率编码和发射;和对于接收器所接收的语音信号的多重版本中的每一语音帧,所述解码器还被配置以评估信道损失,如果(1)主信道由于信道损失而被破坏,且(2)至少一个辅助信道没有被信道损失破坏,则解码辅助信道,以产生输出信号。
优选地,在所述接收器收到信号之前,所述语音信号中的一个版本在主信道上以第一比特率编码和发射,其他的版本在对应的辅助信道上以与第一比特率不相同的比特率编码和发射;和对于接收器所接收的语音信号的多重版本中的每一语音帧,所述编码器还被配置以评估信道损失,如果(1)对应于主信道的边信息由于信道损失被破坏,且(2)与至少一个辅助信道对应的边信息没有被信道损失破坏,则在产生输出信号时同时使用主信道和至少一个辅助信道来改进隐蔽帧擦除法的性能。
根据本发明的一方面,提供一种多层描述无线通信传输系统,包括第一无线电话机,包括麦克风阵列,该麦克风阵列中的每个麦克风都被配置以接收用户的语音输入并产生对应的语音信号;编码器,其与所述麦克风阵列相连接,被配置以编码每个语音信号;和发射器,其与所述编码器相连接,被配置以发射每个被编码的语音信号;第二无线电话机,包括接收器,其被配置以接收发射信号;
解码器,其与所述接收器相连接,被配置以解码所述接收器接收的信号,从而产生输出信号;和扬声器,其被配置以接收所述输出信号和产生对应的声波。
优选地,所述解码器还被配置以对所述接收器接收的信号进行时差校正,并将时差校正后的信号组合以产生输出信号,其中,与所述接收器接收的任一发射信号相比,该输出信号具有更高的信噪比。
优选地,所述解码器还被配置以(1)基于所述第二无线电话机的接收器接收的信号检测从所述第一无线电话机的用户嘴部发出的声波的波达方向(DOA);和(2)基于所述DOA自适应地组合所接收的信号以产生输出信号;和所述解码器还被配置以基于所述DOA自适应地组合所接收的信息以有效地控制所述第一无线电话机的麦克风阵列的最大灵敏性角度,使所述第一无线电话机的用户嘴部位于该最大灵敏性角度内,其中,所述最大灵敏性角度定义为在该角度范围内,麦克风阵列的灵敏性大于阈值。
优选地,对于所述接收器接收的信号的每个语音帧,所述解码器还被配置以评估信道损失,并将接收器所接收的具有最小信道损失的信号解码,从而产生相应语音帧的输出信号。
优选地,对于所述接收器接收的信号的每个语音帧,所述解码器还被配置以评估信道损失和动态地丢弃那些信道损失大于阈值的接收信号;和所述解码器还被配置以对未丢弃的信号的语音帧进行时差校正和组合,以产生输出信号,其中,与该接收器接收的任一发射信号相比,该输出信号具有更高的信噪比。
优选地,对于所述接收器接收的信号的每个语音帧,所述接收器还被配置以评估信道损失和动态地丢弃那些信道损失大于阈值的接收信号;和所述解码器还被配置以基于未丢弃信号的语音帧检测所述第一无线电话机的用户嘴部发出的声波的波达方向(DOA),和基于该DOA自适应地组合未丢弃信号的语音帧以产生输出信号;和所述解码器还被配置以基于所述DOA自适应地组合未丢弃信号的语音帧,以有效地控制第一无线电话机的麦克风阵列的最大灵敏性角度,使第一无线电话机的用户嘴部位于该最大灵敏性角度范围内,其中,所述最大灵敏性校对定义为在该角度范围内,麦克风阵列的灵敏性大于阈值。
优选地,所述编码器被配置以使用不同的比特率编码语音信号。
优选地,所述编码器被配置来使用第一比特率编码一个语音信号以在主信道上传输,使用与第一比特率不相同的比特率编码其他的语音信号以在辅助信道上传输;和对于所述接收器接收的信号的每个语音帧,所述第二无线电话机的解码器还被配置以评估信道损失,如果(1)主信道由于信道损失而被破坏,且(2)至少一个辅助信道没有被信道损失破坏,则解码辅助信道。
优选地,所述编码器被配置来使用第一比特率编码一个语音信号以在主信道上传输,使用与第一比特率不相同的比特率编码其他的语音信号以在辅助信道上传输;和对于接收器接收的信号的每个语音帧,所述解码器还被配置以评估信道损失,如果(1)对应于主信道的边信息由于信道损失被破坏,且(2)与至少一个辅助信道对应的边信息没有被信道损失破坏,则在产生输出信号时同时使用主信道和一个辅助信道来改进隐蔽帧擦除法的性能。
下面将结合附图详述本发明的其他实施例和特征,以及各种实施例的具体实施结构。
下面将结合附图及实施例对本发明作进一步说明,附图中图1A是传统无线电话机的发射路径的功能模块图;图1B是传统无线电话机的接收路径的功能模块图;图2是根据本发明一实施例的无线电话机主视图;图3是根据本发明一实施例的无线电话机后视图;图4是根据本发明一实施例的无线电话机的发射路径的功能模块图;图5是根据本发明一实施例具有第一麦克风和第二麦克风的无线电话机处理音频信号的方法的流程图;图6是根据本发明一实施例的信号处理器的功能模块图;图7是根据本发明一实施例的具有第一麦克风和第二麦克风的无线电话机处理音频信号的方法的流程图;图8是本发明一实施例中从第一和第二麦克风输出的语音分量和噪声分量;图9是根据本发明一实施例的背景噪声消除模块的功能模块图;图10是根据本发明一实施例的信号处理器的功能模块图;图11是根据本发明一实施例具有第一麦克风和第二麦克风的无线电话机处理音频信号的方法的流程图;图12A是本发明一实施例中第一麦克风输出的第一音频信号的语音分量和背景噪声分量的频谱图;图12B是根据本发明一实施例经过噪声抑制处理后的音频信号的频谱图;图13是根据本发明一实施例的无线电话机的发射路径的功能模块图;图14是根据本发明一实施例具有第一麦克风和第二麦克风的无线电话机处理音频信号的方法的流程图;图15是根据本发明一实施例的无线电话机的第一和第二麦克风输出的语音分量和噪声分量的示意图;图16是全向麦克风的极性指向图;图17是亚心型(subcardioid)麦克风的极性指向图;图18是心型麦克风的极性指向图;图19是超心型麦克风的极性指向图;图20是线形麦克风的极性指向图;图21是根据本发明一实施例的麦克风阵列的示意图;图22A、22B、22C、22D是麦克风阵列的极性指向图;图22E是远场和近场响应的指向图;图23是经控制的和未经控制的指向图;图24是根据本发明一实施例的无线电话机的发射路径的功能模块图;
图25是根据本发明一实施例的多层描述(multiple description)传输系统;图26是根据本发明一实施例的可用于多层描述传输系统的无线电话机的发射路径的功能模块图;图27是根据本发明一实施例的第一无线电话机发射的语音信号的多重版本;以下将结合附图对本发明进行阐述。附图中,同一标号表示相同的或类似的元件。其中,标号最左边的部分表示该标号第一次出现时所在的附图号。
具体实施例方式
本发明涉及一种具有多麦克风的无线电话机和多层描述传输系统。正如将要详述的,所述多层描述传输系统提供冗余以克服传输信道的损失。
本发明具体实施方式
的描述分成10部分。第一部分中,讨论了传统无线电话机概况,以便于描述本发明的实施例。第二部分中,描述了使用第一麦克风和第二麦克风的的无线电话机的概况。第三部分中,描述了一个实施例,该实施例中,使用第二麦克风的输出以消除第一麦克风输出的背景噪声分量。第四部分中,描述另一个实施例,该实施例中,使用第二麦克风的输出抑制第一麦克风输出的背景噪声分量。第五部分中,讨论了另外一个实施例,该实施例中,使用第二麦克风的输出来改善结合在无线电话机中的VAD技术。第六部分中,讨论了本发明的替代性实施例。第七部分中,讨论了单向麦克风。第八部分中,讨论了示例性麦克风阵列。第九部分中,描述了使用至少一个麦克风阵列的无线电话机。第十部分中,描述了根据本发明实施例的多层描述传输系统。
一、传统无线电话机中的信号处理传统无线电话机使用通常被称为编码器/解码器的技术。无线电话机的机载麦克风接收音频信号,无线电话机的发射路径对该音频信号进行编码。接着,编码后的音频信号被发送给另一个的电话机。无线电话机的接收路径接收来自其他无线电话机的发射信号。然后,所接收的信号被解码成用户能理解的格式。
图1A是传统数字无线电话机的典型发射路径100的功能模块图。发射路径100包括麦克风109、模拟-数字(A/D)转换器101、噪声抑制器102、语音活动检测器(voice activity detector,VAD)103、语音编码器104、信道编码器105、调制器106、射频(RF)模块107和天线108。
麦克风109接收近端用户的语音和输出对应的音频信号,该音频信号通常包括语音分量和背景噪声分量。A/D转换器101将音频信号从模拟形式转为数字形式。接着,噪声抑制器102处理该音频信号。噪声抑制器102使用业内技术人员公知的算法抑制混在该音频信号中的背景噪声分量的水平。
语音编码器104将噪声抑制器102的输出转换成信道索引。语音编码器104编码音频信号时所使用的特定格式取决于其所使用的技术类型。例如,可以使用兼容GSM(全球移动通信标准)、CDMA(码分多址),或其他常用的通信技术的格式编码信号。这些不同的编码格式已为相关领域的技术人员所知,故不在此赘述。
如图1A所示,VAD 103也接收噪声抑制器102的输出。VAD 103使用相关领域技术人员所知的算法分析噪声抑制器102输出的音频信号,并确定用户何时在说话。VAD 103通常一帧一帧地进行处理,以产生指示某帧是否包括语音内容的信号。这一信号被传给语音编码器104,语音编码器104使用该信号确定如果最佳地处理信号帧。例如,如果VAD 103指示某个帧不包括语音内容,那么语音编码器103将不对该帧进行编码。
使用信道编码器105来降低信号经语音编码器104处理后出现的误码率。即,信道编码器105通过添加冗余位到信号中使该信号更稳健。例如,使用原始GSM技术的无线电话机中,语音编码器输出的比特率一般是13kb/s,而信道编码器输出的比特率一般是22kb/s。信道编码后信号中增加的比特不携带任何与语音相关的信息,这些比特仅仅使该信号更稳健,有助于降低误码率。
调制器106将来自信道编码器的数字信号组合成符号,这些符号变成模拟波形。最后,RF模块107将这些模拟波形转变成射频(RF),接着通过天线108将这些RF信号发射给其他电话机。
图1B是传统无线电话机典型的接收路径120的功能模块图。接收路径120以与发射路径100几乎相反的方法处理呼入的信号。如图1B所示,接收路径120包括天线128、RF模块127、解调器126、信道解码器125,语音解码器124、数字-模拟(D/A)转换器122和扬声器129。
在操作时,天线128接收模拟输入信号,RF模块127将这些射频转换成基带频。解调器126将模拟波形转换成数字信号。信道解码器125将这些数字信号解码后恢复成信道索引。语音解码器124将这些信道索引转换回数字语音。D/A转换器122将数字语音变换成模拟语音。最后,扬声器129将模拟语音信号转换成用户能听到的声波。
二、根据本发明具有双麦克风的无线电话机根据本发明的无线电话机包括第一麦克风和第二麦克风。如上所述以及下面的详细阐述,第二麦克风的音频信号输出可用于改进第一麦克风输出的音频信号的质量,或者支持改进的VAD技术。
图2和图3分别示出了本发明一实施例的无线电话机200的正面部分和背面部分。如图2所示,无线电话机200的正面部分包括第一麦克风201和扬声器203。第一麦克风201所在的位置使第一麦克风201在无线电话机200正常使用时,靠近用户的嘴部。扬声器203所在的位置使扬声器203在无线电话机200正常使用时,靠近用户的耳朵。
如图3所示,第二麦克风202位于无线电话机200的背面。无线电话机200正常使用时,第二麦克风202所在的位置比第一麦克风201的位置更远离用户的嘴部;在无线电话机200正常使用时,第二麦克风202离用户的嘴部最好尽可能地远。
通过这种麦克风位置的设置,电话机正常使用时,第一麦克风201比第二麦克风202更接近用户的嘴部,因而第一麦克风201所接收的用户语音的振幅将比第二麦克风202所接收的大。同样,第二麦克风202所接受的背景噪声的振幅比第一麦克风201所接收的大。无线电话机200使用第一麦克风201和第二麦克风202产生的信号的方式,将在下面更详细地阐述。
图2和图3示出的实施例中,第一和第二麦克风分别在安装在无线电话机的正面和背面。但是,本发明不局限于这种实施例。第一和第二麦克风可位于无线电话机的其他位置,这也在本发明的范围之内。但是,为使性能更好,安置第一和第二麦克风时,最好使无线电话机在正常使用时,第一麦克风比第二麦克风更靠近用户的嘴部。
图4是根据本发明的一个实施例配置有第一麦克风和第二麦克风的无线电话机的发射路径400的功能模块图。发射路径400包括第一麦克风201和第二麦克风202,第一A/D转换器410和第二A/D转换器412。另外,发射路径400还包括信号处理器420、语音编码器404、信道编码器405、调制器406、RF模块407、天线408。语音编码器404、信道编码器405、调制器406、RF模块407和天线408分别与图1A的发射路径中所述的语音编码器104、信道编码器105、调制器106、RF模块107和天线108类似,因此下面将不阐述它们的工作原理。
下面将结合图5的流程图500,对无线电话机的发射路径400处理音频信号的方式进行阐述。但是,本发明不局限于流程图500所提供的描述。相反,相关领域的技术人员根据这里的教导,应当知道其他的功能流程也在本发明的范围和实质之内。
流程图500的方法开始于步骤510。步骤510中,第一麦克风210输出第一音频信号,其包括语音分量和背景噪声分量。A/D转换器410接收第一音频信号并将该第一音频信号从模拟格式转换成数字格式,然后将其提供给信号处理器420。
步骤520中,第二麦克风202输出第二音频信号,其也包括语音分量和背景噪声分量。A/D转换器412接收第二音频信号并将该第二音频信号从模拟格式转换成数字格式,然后将其提供给信号处理器420。
步骤530中,信号处理器420接收和处理第一和第二音频信号,由此产生第三音频信号。特别是,信号处理器420基于第二音频信号的内容,提高第一音频信号中语音分量与背景噪声分量的比率,从而产生第三音频信号。
接着,第三音频信号被传给语音编码器404。语音编码器404和信道编码器405采用任何一种公知的语音和信道编码技术对该第三音频信号进行编码操作。接着,调制器406、RF模块407和天线408以公知的方式工作,将编码后的音频信号发射给另外的电话机。
这里将更详细地说明,信号处理器420可包括背景噪声消除模块和/或噪声抑制器。噪声噪声消除模块和噪声抑制器的工作方式将分别在第三部分和第四部分中详细阐述。
三、根据本发明的一个实施例使用双麦克风实现背景噪声消除图6所示的实施例中,信号处理器420包括背景噪声消除模块605和向下采样器615(可选)。背景噪声消除模块605接收分别由第一麦克风201和第二麦克风202输出的第一和第二音频信号。背景噪声消除模块605使用第二音频信号的内容来消除第一音频信号中的背景噪声分量,以产生第三音频信号。该消除的详情将结合后续的图7和图8进行介绍。第三音频信号被传递给发射路径400的其余部分,然后发射给远端用户的电话机。
图7是根据本发明一实施例的具有第一麦克风和第二麦克风的无线电话机处理音频信号的流程700。使用流程700能方便地描述背景噪声消除模块605消除第一麦克风201所产生的第一音频信号所包含的至少一部分背景噪声分量。
流程700开始于步骤710。步骤710中,第一麦克风201输出第一音频信号。该第一音频信号包括语音分量和背景噪声分量。步骤720中,第二麦克风202输出第二音频信号。与第一音频信号相似,第二音频信号也包括语音分量和背景噪声分量。
图8分别示出了第一和第二麦克风201和202的输出示意图,背景噪声消除模块605可对其进行处理。图8示出了第一麦克风201输出的第一音频信号800。第一音频信号800包括语音分量810和背景噪声分量820,为便于说明,图8中把该两种分量分开表示。图8还示出了第二麦克风202输出的第二音频信号850。第二音频信号850包括语音分量860和背景噪声分量870,图8中也把该两种分量分开表示。从图8中可看到,第一麦克风201接收的语音分量(即语音分量810)的振幅明显地比第二麦克风202接收的语音分量(即语音分量860)的振幅大;而背景噪声分量的刚好相反。如前面所述,第一麦克风201和第二麦克风202接收的语音分量(背景噪声分量)的相对振幅与该两个麦克风在无线电话机200的相对位置有关。
步骤730(图7)中,背景噪声消除模块605使用第二音频信号来消除第一麦克风201输出的第一音频信号中包含的至少一部分背景噪声分量。最后,背景噪声消除模块605产生的第三音频信号被发射给其他的电话机。也就是说,背景噪声消除模块605使用第二音频信号来消除第一麦克风201产生的第一音频信号中的至少一部分背景噪声分量以产生第三音频信号之后,使用如图1A所述的传统编码器/解码器技术的标准组件或处理步骤对该第三音频信号进行处理。在此不再赘述其它这些信号处理步骤。
在一个实施例中,背景噪声消除模块605包括自适应滤波器和加法器。图9描述了一个包括自适应滤波器901和加法器902的背景噪声消除模块605。自适应滤波器901接收来自第二麦克风202的第二音频信号并输出音频信号。加法器902将从第一麦克风201上接收的第一音频信号与自适应滤波器901输出的音频信号相加,以产生第三音频信号。通过将第一音频信号与自适应滤波器901输出的音频信号相加,加法器902所产生的第三音频信号至少消除了第一音频信号中的一部分背景噪声分量。
本发明的另一个实施例中,信号处理器420包括背景噪声消除模块605和向下采样器615。根据该实施例,A/D转换器410和A/D转换器412从分别由第一和第二麦克风201和202输出的第一和第二音频信号中采样,采样率比无线电话机常用的采样率高。例如,A/D转换器410和A/D转换器412以16kHz的速率对第一麦克风201输出的第一音频信号和第二麦克风202输出的第二音频信号进行采样;而大部分传统无线电话机的发射路径使用的典型信号采样率是8kHz。在背景噪声消除模块605对第一和第二音频信号进行处理以消除第一音频信号中的背景噪声分量后,向下采样器615以合适的采样率(如8kHz)对背景噪声消除模块605产生的第三音频信号进行向下采样。如果要求背景噪声消除模块605有更高的精确度和准确度,本实施例使用更高的采样率提供更准确的时间分片和更准确的时间匹配。
如上所述以及下一部分将要详细阐述的,第二麦克风输出的音频信号用于改进对第一麦克风输出的音频信号的噪声抑制。
四、根据本发明的一个实施例使用双麦克风改进噪声抑制如上所述,信号处理器420可包括噪声抑制器。图10示出的实施例中,信号处理器420包括噪声抑制器1007。根据该实施例,噪声抑制器1007接收分别由第一和第二麦克风201和202输出的第一音频信号第二音频信号。噪声抑制器1007基于第一音频信号和第二音频信号的内容至少抑制第一音频信号中的一部分背景噪声分量。下面将结合图11阐述这种背景噪声抑制的详情。
图11是根据本发明的一个实施例,使用具有第一和第二麦克风的无线电话机处理音频信号的方法流程1100。该方法用于抑制包含在第一麦克风的输出中的至少一部分背景噪声分量。
流程1100开始与步骤1110。步骤1110中,第一麦克风201输出第一音频信号,该音频信号包括语音分量和背景噪声分量。步骤1120中,第二麦克风202输出第二音频信号,其包括语音分量和背景噪声分量。
步骤1130中,噪声抑制器1007接收第一和第二音频信号,并基于第一和第二音频信号的内容抑制第一音频信号中的至少一部分背景噪声分量,以产生第三音频信号。下面将介绍该步骤的详情。
在一个实施例中,噪声抑制器1007在抑制第一音频信号的背景噪声分量之前,将第一和第二音频信号转换到频域。图12A和12B示出了典型的频谱图,以说明噪声抑制器1007的功能。
图12A示出了两种分量语音频谱分量1210和噪声频谱分量1220。语音频谱1210的频谱包络中包括基频(pitch)谐波峰(等间距峰)和3个共振峰。
图12A的曲线图仅用于概念性的说明。要意识到,实际的麦克风接收的音频信号中,语音分量1210和噪声分量1220是混在一起的和不可分的。实际上,麦克风接收的是混为一体的语音和噪音信号及其频谱。
图12B示出了噪声抑制前(即,频谱1260)和噪音抑制后(即频谱1270)的单一的、混合有语音和噪声的频谱。例如,频谱1260是第一麦克风201输出的第一音频信号的快速傅立叶转换(FFT)的幅值。
典型的噪声抑制器保留一个背景噪声频谱(如图12A的频谱1220)的估值,接着将观测到的单个的语音和噪声的频谱(如图12B的频谱1260)与所估计的背景噪声频谱作比较,以确定每个频谱分量是语音占优势还是噪声占优势。如果是噪声占优势,就削弱该频率的FFT因子的量值。如果是的语音占优势,就保持其FFT因子的量值。如图12B所示。
频谱1270在很多频谱区上位于频谱1260的上方。这些频率区被认为包括占优势的语音。另一方面,频谱1260与频谱1270位于不同位置的区域可被认为是噪声占优势的频率区。通过削弱噪声占优势的频率区,噪声抑制器1007产生第三音频信号(如,对应于频谱1270的音频信号),与第一音频信号相比较,该第三音频信号中语音分量对背景噪声分量的比率增加了。
上面最后的两个自然段中阐述的操作对应于传统单麦克风噪音抑制方案。根据本发明的实施例,噪声抑制器1007增加了利用第二麦克风接收的第二音频信号的频谱来评估背景噪声频谱1220,这比单麦克风噪声抑制方案更准确。
在传统单麦克风噪声抑制器中,在“有声期”(“talk spurt”)——即在对应于有音节发出的语音活动片断的时间间隔——之间的间隙内估测背景噪声频谱1220。这种方案仅仅在背景噪声相对固定——即在每一个有声期内噪声频谱1220的形状变化不大的情况下有良好效果。如果噪声频谱1220在有声期内变化显著,那么单麦克风噪声抑制器的效果不明显,因为在前一个“间隙”内估测的噪声频谱不可靠。因此,一般,对于不固定的背景噪声,第二麦克风接收的第二音频信号的频谱的有效性允许噪声抑制器1007得到更准确的、最新的噪声频谱1220的估值,从而获得更好的噪声抑制效果。
要说明的是,不应该把第二音频信号的频谱直接当作噪声频谱1220的估值。直接使用第二音频信号的频谱至少有两个问题首先,第二音频信号可能还包括一些语音分量;其次,第二音频信号中的噪声分量通常与第一音频信号中的噪声分量不同。
要解决第一个问题,可消除第二音频信号中的语音分量。例如,结合噪声消除方案,第一音频信号经噪声消除方案处理后的噪声消除版——也是主要语音分量的更纯净版,可经过自适应滤波器。然后将自适应滤波器产生的信号添加到第二音频信号上,以消除第二音频信号中的大部分语音分量。
要解决第二个问题,可确定第一音频信号中的噪声分量的近似值。例如,通过使用自适应滤波器901滤波第二音频信号的语音消除版。
与仅仅使用一个音频信号的传统噪声抑制方案比较,上面使用第一和第二音频信号的方法允许噪声抑制器1007在有声期获得更准确的和更新的噪声频谱1220的估值。本分明的一个替换实施例中,使用第二麦克风接收的第二音频信号帮助更准确地确定有声期以及音节之间的间隙;而反过来,更准确地确定有声期以及音节之间的间隙又产生了更可靠的噪声频谱1220的估值,从而改善了噪声抑制效果。
对于图12B的特定实施例,噪声区的频谱1260削弱10dB后,形成频谱1270。要意识到,所削弱的是10dB仅仅用于举例说明,本发明不受其所限。本领域般技术人员显然知道,对频谱1260削弱可超过或少于10dB。
最后,第三音频信号被发射给另外的电话机。第三音频信号的处理和发射方式与传统发射路径100(图1A)所述的相似。
如上所述以及如下一部分将要详细介绍的,第二麦克风输出的音频信号用于改善无线电话机中结合的VAD技术。
五、 根据
具体实施例方式使用双麦克风改善VAD图13是根据本发明的一个实施例配置有第一麦克风和第二麦克风的无线电话机的发射路径1300的功能模块图。发射路径1300包括第一麦克风201和第二麦克风202。另外,发射路径1300还包括A/D转换器1310、A/D转换器1312、噪声抑制器1307(可选)、VAD 1320、语音编码器1304、信道编码器1305、调制器1306、RF模块1307和天线1308。语音编码器1304、信道编码器1305、调制器1306、RF模块1307和天线1308分别与图1A的语音编码器104、信道编码器105、调制器106、RF模块107和天线108相似,所以不再赘述它们的操作。
该实施例中的发射路径1300中不含噪声抑制器1307,这是出于举例说明目的,本发明不局限于这种情况。在该示范性实施例中,VAD 1320接收分别由第一麦克风201和第二麦克风202输出的第一音频信号和第二音频信号。VAD 1320使用第一麦克风201输出的第一音频信号和第二麦克风202输出的第二音频信号以检测第一音频信号中的语音活动。VAD 1320发送提示信号给语音编码器1304,该提示信号指示第一音频信号的哪些时间间隔包括语音分量。下面将结合图14对VAD 1320的功能细节进行描述。
图14是根据本发明的一个实施例,具有第一麦克风和第二麦克风的无线电话机处理音频信号的方法的流程1400。该方法用于检测第一音频信号的哪些时间段包括语音分量。
流程1400开始于步骤1410。步骤1410中,第一麦克风201输出第一音频信号,该第一音频信号包括语音分量和背景噪声分量。步骤1420中,第二麦克风202输出第二音频信号,该第二音频信号也包括语音分量和背景噪声分量。
图15分别是由第一麦克风201和第二麦克风202输出的第一和第二音频信号的示意图。示意图1500表示第一麦克风201输出的第一音频信号。示意图1500所示的音频信号包括语音分量1510和背景噪声分量1520。示意图1550所示的音频信号是第二麦克风202输出的第二音频信号。示意图1550也包括语音分量1560和背景噪声分量1570。如上所述,在正常使用电话机时,第一麦克风201比第二麦克风202更靠近用户的嘴部,所以语音分量1510的振幅大于语音分量1560的振幅。相反,背景噪声分量1570的振幅要大于背景噪声分量1520的振幅。
如流程1400的步骤1430所示,基于第一音频信号(示意图1500)和第二音频信号(示意图1550)的内容,VAD 1320检测第一音频信号的那些时间段内有语音分量1510。与仅仅检测一个音频信号的VAD技术比较,使用第二音频信号以及第一音频信号来检测第一音频信号的语音活动的VAD 1320能够改善语音活动的检测。就是说,第二音频信号的附加信息(主要包括背景噪声分量1570)帮助VAD 1320更好地区分第一音频信号中包含的语音分量,从而帮助VAD 1320取得改进的性能。
例如,根据本发明的一个实施例中,VAD 1320除了检测传统单麦克风VAD通常检测的信号特性之外,还检测第一音频信号和第二音频信号之间的能量比和平均振幅比。通过比较图15的第一音频信号1500和第二音频信号1550,这种可能性是显然的。对于图15所示的音频信号1500和1550,在有声期(语音活动期间),第一音频信号1500的能量大于第二音频信号1550的能量。另一方面,在两个有声期的间隙(即背景噪声区)内,情况相反。因此,第一音频信号与第二音频信号的能量比在有声期内是高比值,在两个有声期的间隙内是低比值。能量比的变化提供了有关第一音频信号中的语音活动的有价值的线索。如果仅使用一个麦克风来获取第一音频信号,这种有价值的线索是得不到的。只有使用双麦克风,才能获得该有价值的线索,VAD 1320也才能用该能量比来提高语音活动检测的准确度。
六、本发明的一个替换实施例在一个替换的示范性实施例中(附图中没有示出),信号处理器420包括背景噪声消除模块和噪声抑制器。在该实施例中,背景噪声消除模块根据第二音频信号的内容,至少消除第一音频信号中的一部分背景噪声分量,以产生第三音频信号。接着,以相似于上述的方式,噪声抑制器接收第二和第三音频信号,并基于该第二和第三音频信号的内容至少抑制该第三音频信号中的一部分背景噪声分量。然后,噪声抑制器为如上所述的其余组件和/或处理步骤产生出第四音频信号。
在另外一个替换的示范性实施例中,具有第一和第二麦克风的发射路径还包括信号处理器(与信号处理器420类似)和VAD(与VAD 1320类似)。业内技术人员应当意识到,发射路径中,信号处理器可在VAD之前,也可在VAD之后。另外,信号处理器和VAD可同时地处理双麦克风的输出。下面将要详细介绍的实施例中,具有两个麦克风的发射路径中信号处理器在VAD之前,该实施例仅用于举例说明,不对本发明造成限制。
在所示的实施例中,信号处理器至少基于第一音频信号和第二音频信号两者之一的内容,增加第一音频信号中语音分量对背景噪声的比率,以产生第三音频信号(与上面详细介绍的信号处理器420类似)。接着,VAD接收该第三音频信号。该VAD也接收第二麦克风(例如,第二麦克风202)输出的第二音频信号。与上述的方式类似,该VAD基于第二音频信号和第三音频信号的内容检测第三音频信号中出现语音分量的时间间隔。
在另一实施例中,在具有双麦克风的发射路径中,VAD可以位于噪声抑制器前面。在该实施例中,VAD接收分别由第一麦克风和第二麦克风输出的第一音频信号和第二音频信号,以基于第一和第二音频信号的内容检测第一音频信号中出现语音分量的时间间隔,与上述的方式类似。噪声抑制器接收第一和第二音频信号,并基于第一音频信号和第二音频信号的内容抑制第一音频信号中的背景噪声分量,与上述的方式类似。
七、使用单向麦克风的实施例根据本发明的一个实施例,示范性无线电话机200所用的麦克风中,至少一个可以是单向麦克风。正如下面将要详细介绍的,单向麦克风是对特定方向传来的声波(例如,声波正对着麦克风)特别灵敏的麦克风。有关单向麦克风与全向麦克风的一些信息可在下面这个网址找到<http//www.audio-technica.com/using/mphones/guide/pattern.html>。
相关领域的技术人员应当意识到,通常根据麦克风的方向特性来区分麦克风,即根据麦克风接收各个方向的声音的能力如何。全向麦克风接收声音的能力在每个方向上都相同。因此,只要距离相等,对于正对它的对象或背对着它的对象,全向麦克风都能以同样的灵敏性接收声音。图16示出了全向麦克风的极性指向图1600。极性指向图是环形曲线,该环形曲线表示麦克风在固定声源前转动时的灵敏性,用分贝(dB)表示。极性指向图在业内也称为“拾音指向图”或“指向图”,是帮助说明麦克风方向特性的容易理解的曲线。如图16所示的极性指向图1600,全向麦克风平等地接收各个方向的声音。
与全向麦克风相反,单向麦克风被设计成对来自特定方向的声音有最大的响应,对来自其他方向的声音尽量不接收。这种定向能力通常通过在麦克风中使用外部开口和内部通道来实现,使得声音以严格控制的方式到达振动膜的两侧。因此,在示范性的单向麦克风中,从麦克风正面进来的声音将帮助振动膜振动,而从麦克风侧面或背面进来的声音将消除振动膜的振动。
单向麦克风的典型类型包括但不限于亚心型、心型、超心型和线型。图17(亚心型)、图18(心型)、图19(超心型)和图20(线型)中示出了这些类型的麦克风的极性指向图。这些图中,每副图都示出了对应的麦克风的接收角和无效角(null)。接收角是指在其中麦克风具有相同灵敏度的最大角度。接收角可随着(声波的)频率的变化而变化;但是,质量好的麦克风,接收不同频率的声波时,其极性指向图是几乎不变的。无效角定义为对到来的声音表现出最小的灵敏性的角度。
图17示出了亚心型麦克风的示范性极性指向图1700。该极性指向图1700的接收角从线1705开始,逆时针到线1708,跨越170度。该极性指向图1700的无效角不位于特定点,而是跨越一个角度范围——即,从线1718到线1730。分别以逆时针方向测定竖轴向上方向1710与线1718的夹角,以顺时间方向测定竖轴向上方向1710与线1730的夹角,都测得100度。因此,极性指向图1700的无效角跨越160度,即从线1718逆时针方向测量到线1730。
图18示出了心型麦克风的极性指向图1800。极性指向图1800的接收角跨越120度,从线1805逆时针方向测量到线1808。极性指向图1800单无效角1860位于与竖轴向上方向1810成180度的地方。
图19示出了超心型麦克风的示范性极性指向图1900。该极性指向图1900的接收角跨越100度,从线1905开始逆时针测量到线1908。该极性指向图1900具有第一无效角1920和第二无效角1930。分别以逆时针方向测定竖轴向上方向1910与第一无效角1920的夹角,以顺时间方向测定竖轴向上方向1910与第二无效角1930的夹角,都测得110度。
图20示出了线型麦克风的示范性极性指向图2000。该极性指向图2000的接收角跨越90度,从线2005开始逆时针测量到线2008。该极性指向图1900具有第一无效角2020和第二无效角2030。分别以逆时针方向测定竖轴向上方向2010与第一无效角2020的夹角,以顺时间方向测定竖轴向上方向2010与第二无效角2030的夹角,都测得120度。
单向麦克风不接收来自轴外的声音的能力提供了比全向麦克风更大的工作距离,或“距离因子”。下面的表1中,列出了不同类型的麦克风的接收角、无效角和距离因子(distance factor,DF)。如表1所示,心型麦克风的DF是1.7,而全向麦克风的DF是1.0。这意味着,在相同的噪声环境中使用全向麦克风接收10英尺处的期望声音,和在该声源17英尺处使用心型麦克风接收期望声音,这两个麦克风得到的相同的期望声音与周围噪声的比值。表1所述的麦克风类型中,亚心型麦克风在12英尺处有相同的效果,而超心型是20英尺,线型是25英尺。
表1不同类型的麦克风的属性八、麦克风阵列根据本发明的一个实施例的无线电话机可包括至少一个麦克风阵列。正如下面将要详细介绍的,所述麦克风阵列包括连接到数字信号处理器(DSP)上的多个麦克风。DSP被设置成自适应地组合麦克风阵列中麦克风输出的音频信号,以有效地调整麦克风阵列的灵敏性以接收来自特定方向的声波。下面将要提供的与麦克风阵列有关的一些信息可在这个网址查到<http//www.idiap.ch/~mccowan/arrays/tutorial.pdf>。
与单向麦克风的方式类似,麦克风阵列可用于增强对来自特定方向的声波的接收,而对来自其他方向的声音尽量不接收。与单向麦克风类似,麦克风阵列的灵敏性可用极性指向图或指向图表示。但是,与单向麦克风不同,麦克风阵列的最灵敏的方向不是固定的,而是能够动态地调整的。就是说,麦克风阵列的极性指向图或指向图的主瓣(main lobe)的朝向是可以动态调整的。
1、麦克风阵列概述图21是根据本发明的一个实施例的的麦克风阵列2100示意图。麦克风阵列2100包括多个麦克风2101,多个A/D转换器2103和数字信号处理器(DSP)2105。麦克风2101用于以传统麦克风类似的方式将碰撞到其上的声波转换成音频输出信号。A/D转换器2103从麦克风2101接收模拟音频输出信号,并采用相关领域内公知的方式将这些信号转换成数字信号。DSP 2105以下面将要介绍的方式接收和组合这些来自A/D转换器2103的数字信号。
图21中还包括了麦克风阵列2100的基准尺寸特征。在一个实施例中,麦克风阵列2100的多个麦克风2101之间以大约为d的间隔平均分隔。麦克风阵列2100中第一个麦克风和最后一个麦克风的距离设定为L。那么L与d满足以下的关系式L=(N-1)d 等式(1)其中,N是该麦克风阵列中的麦克风数目。
基准尺寸d和/或L影响麦克风阵列2100的响应。尤其是,麦克风2101的总长度与碰撞声波的波长的比值(即L/λ)影响麦克风阵列2100的响应。例如,图22A-图22D示出了具有不同L/λ值的麦克风阵列的极性指向图,示出了L/λ比值对麦克风阵列的响应的影响。
从图22A-22D可看到,与单向麦克风相似,麦克风阵列也具有方向特性。换言之,麦克风阵列对特定声源的响应取决于该声源发出的声波相对于该麦克风阵列的波达方向(DOA)。通过图21可以理解声波的DOA。图21中,用一组平行声波2110近似代表从声源发出的声波(使用远场近似,下面会介绍),平行声波2110以箭头2115所指的方向向麦克风阵列2100传播。平行声波2110的DOA可定义为箭头2115与沿麦克风2101排列形成的轴线的夹角,如图所示。
麦克风阵列的响应除了受声波的DOA的影响外,还受声波与该麦克风阵列的距离的影响。可根据距离r将碰撞到麦克风阵列的声波分类。假定这些声波相对的基准距离是L,声波波长是λ。特别地,如果r大于2L2/λ,那么该声源属于远场源,可以忽略碰撞到该麦克风阵列的声波的波阵面的曲率。如果r小于2L2/λ,那么该声源属于近场源,其波阵面的曲率不能忽略。
图22E示出了麦克风阵列对近场源(虚线)和远场源(实线)的示范性指向图。该指向图中,竖轴表示麦克风阵列的响应,横轴表示对角度的依赖。
以单向麦克风相似的方式,可以为麦克风阵列定义最大灵敏性和最小灵敏性的角度。麦克风阵列的最大灵敏性角度定义为麦克风阵列的灵敏性超过预定阈值的角度范围。麦克风阵列的最小灵敏性定义为麦克风阵列的灵敏性小于预定阈值的角度范围。
2、对麦克风阵列响应的控制如上所述,麦克风阵列2100的DSP2105可用来组合从麦克风2101接收的音频输出信号,以有效地控制麦克风阵列2100的指向图。
通常,DSP2105接收N个音频信号,并产生单个的音频输出信号,其中,N为麦克风阵列2100中的麦克风数目。DSP2105所接收的该N个音频信号中,每个音频信号都被乘以具有幅值和相位的加权因子,以产生N个音频信号与加权信号的乘积。之后,DSP2105将该N个音频信号与加权信号的乘积累加起来,从而将所接收的音频信号集合转换为单个的音频输出信号。
将乘积累加之前,DSP2015通过修改加权因子能改变麦克风阵列2100的指向图。称为波束赋形技术的各种技术,都能够以特定的方式修改加权因子。例如,通过在累加前修改加权因子的幅值,DSP2015能改变指向图的形状。另一个例子中,通过在累加前修改加权因子的相位,DSP2015能控制麦克风阵列2100的指向图中主瓣的角度位置。图23示出了通过在累加前修改加权因子的相位来控制麦克风阵列的指向图的实施例。从图23可以看到,在该实施例中,指向图的主瓣移动了约45度。
正如相关领域内广泛知晓的,波束赋形技术可以是非自适应的和自适应的。非自适应的波束赋形技术与数据无关。换言之, 无论到来的声波和产出的音频信号如何,非自适应的波束赋形技术都采用相同的算法。相反,自适应波束赋形技术是依赖于与数据的。因此,自适应波束赋形技术可用于自适应地确定声源的DOA,并有效地将麦克风阵列的指向图的主瓣控制在该声源的DOA上。典型的自适应波束赋形技术包括但不限于Frost算法、线性约束最小变量法、通用旁瓣消除法等。
要意识到,图21仅用于举例说明,本发明不受图21所限。例如,麦克风2101之间的距离不需要相同。另外,所示的麦克风阵列2100是一维阵列;但是,二维的阵列也在本发明的范围之内。正如业内技术人员所了解的,二维麦克风阵列可用于在二维空间确定声源的DOA。相反,一维阵列只能检测一维空间的DOA。
九、麦克风阵列的实施例在下面将要介绍的一个实施例中,用与图21中的麦克风阵列2100相似的麦克风阵列取代无线电话机200(图2和图3)的麦克风201和/或麦克风202。
图24是使用第一麦克风阵列201’和第二麦克风阵列202’的无线电话机的示范性发射路径2400。第一麦克风阵列201’和第二麦克风阵列202’的作用与上述的示范性麦克风阵列2100(图21)的相似。具体说,麦克风2401a-n和2411a-n用于将碰撞到其上的声波转换成音频信号。A/D转换器2402a-n和2412a-n用于将分别从麦克风2401a-n和2411a-n接收的模拟音频信号转换成数字信号。DSP2405从A/D转换器2402a-n接收数字音频信号,并将这些数字音频信号组合成第一音频输出信号,该第一音频输出信号被传递给信号处理器420’。类似地,DSP2415从A/D转换器2412a-n接收数字音频信号,并将这些数字音频信号组合成第二音频输出信号,该第二音频输出信号被传递给信号处理器420’发射路径2400的其他组件(信号处理器420’、语音编码器404’、信道编码器405’、调制器406’、RF模块407’和天线408’)的作用都与结合图4阐述的相应组件的作用相同。因此,这里不再阐述这部分组件的功能。
在本发明的一个实施例中,DSP2405基于从A/D转换器2402a-n接收的数字音频信号,使用自适应波束赋形技术确定无线电话机的用户的语音的DOA。接着,DSP2405自适应地组合这些数字音频信号,以有效地控制麦克风阵列201’的最大灵敏性的角度,使用户的嘴部处于该最大灵敏性的角度范围内。这样,与单一麦克风(如麦克风201)输出的音频信号相比,DSP2405输出的单一音频信号将包括更清晰的用户的语音。然后,与处理麦克风201(图4)输出的音频信号的方法相似,DSP2405输出的音频信号被信号处理器420’接收和处理,下面将会详细介绍。
在本发明的另一个实施例中,DSP2415从A/D转换2412a-n上接收数字音频信号,并基于这些数字音频信号使用自适应的波束赋形技术,确定无线电话机的用户的语音的DOA。接着,DSP2415自适应地组合这些数字音频信号,以有效地控制麦克风阵列202’的最小灵敏性的角度,使用户的嘴部处于该最小灵敏性的角度范围内。这样,DSP2415输出的单一音频信号将不包括用户的语音。因此,与单一麦克风(如麦克风202)输出的音频信号相比,DSP2415输出的单一音频信号将包括更纯的背景噪声。然后,与处理麦克风202(图4)输出的音频信号的方法相似,DSP2415输出的音频信号被信号处理器420’接收和处理,下面将会详细介绍。
很多场合中,背景噪声是没有方向性的,即各个方向的背景噪声是相同的。但是,有些场合中,单一噪声源(如,起重机和救护车)构成了主要的背景噪声。在这种场合下,背景噪声具有高度的方向性。在本发明的一个实施例中,DSP2405经配置用于确定具有高度方向性的背景噪声源的DOA。DSP2405还经配置用于自适应地组合数字音频信号以有效地控制麦克风阵列201’的最小灵敏性的角度,以使该高度方向性的背景噪声源处于该最小灵敏性角度之内。这样,麦克风阵列201’将不接收从该高度方向性的背景噪声源的DOA发来的声音。这样,与单一麦克风(如麦克风201)相比,麦克风阵列201’将接收更纯的用户语音。
在另一个实施例中,DSP2415经配置用于确定高度方向性的背景噪声源的DOA。DSP2415还被配置用于自适应地组合来自A/D转换器2412a-n的数字音频信号以有效地控制麦克风阵列202’的最大灵敏性的角度,以使该高度方向性的背景噪声源处于该最大灵敏性角度之内。这样,麦克风阵列202’将接收从该高度方向性的背景噪声源的DOA发来的声音。这样,与单一麦克风(如麦克风202)相比,麦克风阵列202’接收更纯的高度方向性的背景噪声。
在又一个实施例中(图中没有示出),无线电话机包括第一和第二麦克风阵列和VAD。在该实施例中,DSP经配置用于确定高度方向性的背景噪声源的DOA和用户语音的DOA。另外,与上述的方式类似,VAD检测第一麦克风阵列输出的音频信号中存在语音分量的时间间隔。在第一麦克风阵列输出的音频信号中存在语音分量的时间间隔内,与第二麦克风阵列关联的DSP自适应地控制第二麦克风阵列的最小灵敏性的角度,使用户的嘴部处于该最小灵敏性的角度范围内。在第一麦克风阵列输出的音频信号中不存在语音分量的时间间隔内,与第二麦克风阵列关联的DSP自适应地控制第二麦克风阵列的最大灵敏性的角度,使高度方向性的背景噪声处于该最大灵敏性的角度范围内。换言之,第二麦克风阵列在VAD的帮助下,自适应地进行以下切换(1)在用户说话时的时间间隔内不接收用户的语音;和(2)在用户不说话的时间间隔内优先接收高度方向性的背景噪声。这样,与单一麦克风相比,第二麦克风阵列将接收到更纯的背景噪声。
应当意识到,上述的实施例仅用于举例说明,本发明不受其限制。特别地,应当意识到,上面所用以及下面所用的的术语“数字信号处理器”、“信号处理器”和“DSP”可以是单DSP、多DSP、单DSP算法、多DSP算法及它们的组合。例如,DSP2405、DSP2415和/和信号处理器420’(图24)可表示在单个DSP上运行的不同的DSP算法。另外,相应领域的技术人员知道,可在单DSP或多DSP上实现DSP2405和DSP2415和/或信号处理器420’的各种组合。
十、根据本发明实施例的多层描述传输系统图25是根据本发明的一个实施例提供冗余以克服传输信道损失的多层描述传输系统2500的示意图。多层描述传输系统2500包括第一无线电话机2510和第二无线电话机2520。第一无线电话机2510将语音信号的多重版本2550发送给第二无线电话机2520。
图26是第一无线电话机2510的示范性发射路径2600和第二无线电话机2520的示范性接收路径2650的功能模块图。如图26所示,第一无线电话2510包括麦克风阵列2610、编码器2620和发射器2630。麦克风阵列2610的每个麦克风都经配置以接收用户的语音输入(以声波的形式)和产生对应的语音信号。例如,麦克风阵列2610可以与麦克风阵列2100(图21)相同。编码器2620连接到麦克风阵列2610上,经配置以编码每个音频信号。例如,所述编码器2620可包括分别与结合图4所述的语音编码器404、信道编码器405类似的语音编码器、信道编码器。另外,编码器2620可选地包括DSP,如类似于DSP420(图4)。
发射器2630与编码器2620连接,经配置以发射每个经编码的语音信号。例如,图25概念性地示出了示范多层描述传输系统。在图25中,第一无线电话机2510将第一信号2550A和第二信号2550B发射给第二无线电话机2520。但是,要意识到,第一无线电话机2510能发射两个以上(如三个、四个、五个等)的信号给第二无线电话机2520。例如,第一无线电话机2510的发射器2630可包括调制器、RF模块和天线,分别与结合图4所述的调制器406、RF模块407、天线408相似,它们协同工作以发射经编码的音频信号。
在替换的实施例中,第一无线电话机2510可包括多个编码器和发射器。例如,第一无线电话机2510可包括多个与发射路径100(图1A)相似的发射路径,其中,每个发射路径对应于第一无线电话机2510的麦克风阵列2610中的单个麦克风。
如图26的接收路径2650所示,第二无线电话机2520包括接收器2660、解码器2670和扬声器2680。接收器2660经配置以接收被发射的信号2550(图25)。例如,接收器2660可包括分别与图1B所述天线128、RF模块127、解调器126相似的的天线、RF模块和解调器,它们协同工作以接收被发射的信号。解码器2670与接收器2660连接,经配置以对接收器2660接收的信号进行解码,从而产生输出信号。例如,解码器2670可包括分别与结合图1B所述的信道解码器125、语音解码器124类似的信道解码器和语音编码器,它们协同工作以解码所接收的信号。另外,解码器2670可选地包括DSP。扬声器2680接收解码器2670的输出信号并产生对应的压强声波。例如,扬声器2680可以与扬声器129(图1B)相似。另外,正如相关领域技术人员所知晓的,可在扬声器2680(或扬声器129)之前设置功率放大器(没有示出)以在输出信号被送给扬声器2680(或扬声器129)之前,对信号进行放大。
在本发明的第一实施例中,解码器2670还被配置用来实现以下两个功能(1)对接收器2660接收的信号进行时差校正(time-align);和(2)将经时差校正的信号组合,以产生输出信号。正如图21所示的,因为麦克风阵列中麦克风所在位置的不同,所以用户嘴部发出的声波将在不同的时刻碰撞到麦克风阵列中的每个麦克风上。例如,参考图21,平行的波阵面2110将首先碰撞麦克风阵列2110最左边的麦克风,然后才碰撞到与最左的麦克风距离为d的麦克风。因为声波碰撞麦克风阵列2610的各个麦克风存在着时间延迟,各个麦克风输出的音频信号也会有相应的时间延迟。第二无线电话机2520的解码器2670可通过对音频信号进行时差校正处理来补偿该时间延迟。
例如,图27示出了分别与第一无线电话机2510的第一和第二麦克风对应的第一音频信号S1和第二音频信号S2。第二音频S2与第一音频信号S1相比有t1的时间延迟,其取决于第一无线电话机2510上麦克风的相对位置。可配置第二无线电话机2520的解码器2670,让其对第一音频信号S1和第二音频信号S2进行时差校正处理,例如,使第一音频信号S1在时间上延迟t1的时间量。
正如上面所提到的,根据第一实施例,第二无线电话机2520的解码器2670还被配置用来组合经时差校正的音频信号。因为假设第一音频信号S1和第二音频信号S2的语音分量是几乎相同的,而每个音频信号的噪声分量是不同的,所以语音分量将能够同相地相加,而噪声分量一般不能够同相地相加。这样,通过在时差校正后组合音频信号,组合后的输出信号将比第一音频信号S1或第二音频信号S2具有更高的信噪比。
在本发明的第二实施例中,第二无线电话机2520的解码器2670经配置以实现以下的功能首先,解码器2670经配置以基于第二无线电话机2520的接收器2660所接收的发射信号2550,检测第一无线电话机2510的用户嘴部发出的声波的波达方向(DOA)。解码器2670能以相似于图21至图24所述的方式确定声波的DOA。
其次,如上所述,可选地包括DSP的解码器2670,经配置以基于DOA自适应地组合所接收的信息以产生输出信号。通过基于DOA自适应地组合所接收的信号,第二无线电话机2520的解码器2670能有效地控制第一无线电话机2510的麦克风阵列2610的最大灵敏性角度,使第一无线电话机2510的用户的嘴部位于该最大灵敏性角度之内。如上所定义的,所述最大灵敏性角度指在该角度内,麦克风阵列2610的灵敏性超过某阈值。
在本发明的第三实施例中,对于接收器2660接收的信号的每个语音帧,第二无线电话机2520的解码器2670经配置以实现以下功能。首先,解码器2670经配置以评估信道损失(如,误码和丢帧)。即,解码器2670可用来确定相对接收信号的第一个语音帧,信道损失的程度。例如,对于指定的帧,解码器2670能够评估信道损失是否超过某阈值。该评估可基于信道的信号-噪声比(S/N)或载波-干拢比(C/I)、误码率、块误码率、帧误码率等。其次,解码器2670经配置以解码所接收的具有最小信道损失的信号,从而为对应的语音帧产生输出信号。
通过自适应地为相应的语音帧解码具有最小信道损失的信号,解码器2670可以在指定时间内解码最好的信号。也就是说,第一无线电话机2510发射的语音信号的多重版本2550在不同时间下可能遭遇不同的信道损失。例如,对于指定的语音帧,第一信号2550A可能比第二信号2550B遭遇更少的信道损失。在该语音帧内,解码第一信号2550A将得到更清晰且质量更好的语音信号。但是,在随后的语音帧内,第一信号2550A可能比第二信号2550B遭遇更多的信道损失。在该随后的语音帧内,解码第二信号2550B将得到更清晰且质量更好的语音信号。
在本发明的第四个实施例中,对于接收器2660接收的信号的每个语音帧,解码器2670经配置以评估信道损失和动态地丢弃那些信道损失超过阈值的接收信号。接着,解码器2670还被配置用来,如上面的第一实施例或第二实施例所述,组合未丢弃的接收信号。即,解码器2670可被配置用来根据第一实施例对未丢弃的接收信号进行时差校正和组合。另外,解码器2670可被配置用来组合未丢弃的接收信号以根据第二实施例有效地控制第一无线电话机2510的麦克风阵列2610。
本发明的第五实施例中,配置第一无线电话机2510的编码器2620使其以不同的比特率编码语音信号。例如,配置编码器2620使其以第一比特率(“主信道”)编码语音信号之一,以与第一比特率不相同的比特率(“辅助信道”)编码其他每一个音频信号。例如,主信道能够以与传统单信道无线电话机相同的比特率(如22kbit/s)编码和发射;而辅助信道则能够以低于传统单信道无线电话机的比特率(例如,8kbit/s或4kbit/s)编码和发射。另外,不同的辅助信道可以不同的比特率编码和发射。例如,第一辅助信道可以8kbit/s编码和发射;而第二和第三辅助信道可以4kbit/s编码和发射。接着,第二无线电话机2520的解码器2670根据以下两个例子之一解码主信道和辅助信道。
第一个例子中,对于发射信号的每个语音帧,第二无线电话机2520的解码器2670被配置用来评估信道损失。如果评估的信道损失超过阈值,那么相应的信道是被破坏的。如果(1)主信道由于信道损失而被破坏,且(2)至少一个辅助信道没有被信道损失破坏,那么,配置解码器使其解码该至少一个辅助信道,以产生输出信号。
第二个例子中,解码器2670使用主信道和一个辅助信道来改进隐蔽帧擦除法(frame erasure concealment algorithm)的性能。如果指定语音帧的信道损失程度超过预定阈值,就发生帧擦除。一些解码器采用隐蔽帧擦除法来隐蔽擦除帧的事件,这样,被擦除的语音帧内就不会输出空信号,所以该语音帧内不会导致没有声音。隐蔽帧擦除法基于被擦除的帧之前的波形,通过推断被擦除的帧的波形来尝试填充该声音缺口。一些隐蔽帧擦除法使用边信息(如,预报系数、音高周期、增益等)引导波形推断以顺利地隐蔽被擦除的帧。示范的隐蔽帧擦除法在美国专利申请号10/968,300、申请日为2004年10月20日,Thyssen et al.等人的名称为“Method For Packet Loss And/OrFrame Erasure Concealment In A Voice Communication System”中披露,此处参考并结合其全部内容。
在第二个例子中,对于发射信号的每一个语音帧,配置解码器2670使其评估信道损失。如果(1)主信道的边信息被破坏,且(2)至少一些辅助信道的对应边信息没有被破坏,就配置解码器2670使其在产生输出信号时使用主信道和其中一个辅助信道来改进隐蔽帧擦除法的性能。通过使用其中一个辅助信道的未被破坏的边信息,隐蔽帧擦除法能更有效地隐蔽被擦除的帧。
十一、结论前面描述所用的具体实施方式
及附图仅用于示范目的,本发明不受其限制。即,本发明完整的范围与实质由权利要求决定。
交叉参考文本本申请是以下美国专利申请的后续部分美国专利申请号11/135,491、申请日2005年5月24日、名称为“Wireless Telephone with AdaptiveMicrophone Array”;美国专利申请号11/065,131、申请日2005年2月24日、名称为“Wireless Telephone with Uni-Directional andOmni-Directional Microphones”;美国专利申请号11/018,921、申请日期为2004年12月22日、名称为“Wireless Telephone Having MultipleMicrophones”。本申请参考并结合上述全部申请的内容。
权利要求
1.一种无线电话机,包括麦克风阵列,该麦克风阵列中的每个麦克风都被配置以接收用户的语音输入并产生对应的语音信号;编码器,其被配置以编码每个语音信号;和发射器,其被配置以发射每个被编码的语音信号。
2.根据权利要求1所述的无线电话机,其中,该编码器被配置以用第一比特率编码其中一个语音信号,以与第一比特率不相同的比特率编码其它的语音信号。
3.一种无线电话机,包括接收器,其被配置以接收语音信号的多重版本,其中,每个版本都由第二无线电话机的麦克风阵列中的麦克风产生;解码器,其连接到所述接收器,被配置以解码所述语音信号的多重版本,以产生输出信号;和扬声器,其被配置以接收所述输出信号和产生对应的声波。
4.根据权利要求3所述的无线电话机,其中,所述解码器还被配置以对所述语音信号的多重版本进行时差校正以产生输出信号,其中,与该语音信号的多重版本中的任何一个相比,该输出信号具有更高的信噪比。
5.根据权利要求3所述的无线电话机,其中所述解码器还被配置以基于所述语音信号的多重版本检测从所述第二无线电话机的用户嘴部发出的声波的波达方向(DOA),并根据该DOA自适应地组合所述多重版本以产生输出信号;和所述解码器还被配置以基于所述DOA自适应地组合所述多重版本以有效地控制所述第二无线电话机的麦克风阵列的最大灵敏性角度,使所述第二无线电话机的用户嘴部位于该最大灵敏性角度范围内,其中,所述最大灵敏性角度定义为在该角度范围内,麦克风阵列的灵敏性大于阈值。
6.根据权利要求3所述的无线电话机,其中,对于所述语音信号的多重版本中的每个语音帧,解码器还被配置以评估信道损失,并将具有最小信道损失的语音信号的版本解码,该被解码的版本作为相应语音帧的输出信号。
7.一种多层描述无线通信传输系统,包括第一无线电话机,包括麦克风阵列,该麦克风阵列中的每个麦克风都被配置以接收用户的语音输入并产生对应的语音信号;编码器,其与所述麦克风阵列相连接,被配置以编码每个语音信号;和发射器,其与所述编码器相连接,被配置以发射每个被编码的语音信号;第二无线电话机,包括接收器,其被配置以接收发射信号;解码器,其与所述接收器相连接,被配置以解码所述接收器接收的信号,从而产生输出信号;和扬声器,其被配置以接收所述输出信号和产生对应的声波。
8.根据权利要求7所述的系统,其中,所述解码器还被配置以对所述接收器接收的信号进行时差校正,并将时差校正后的信号组合以产生输出信号,其中,与所述接收器接收的任一发射信号相比,该输出信号具有更高的信噪比。
9.根据权利要求7所述的系统,其中所述解码器还被配置以(1)基于所述第二无线电话机的接收器接收的信号检测从所述第一无线电话机的用户嘴部发出的声波的波达方向(DOA);和(2)基于所述DOA自适应地组合所接收的信号以产生输出信号;和所述解码器还被配置以基于所述DOA自适应地组合所接收的信号以有效地控制所述第一无线电话机的麦克风阵列的最大灵敏性角度,使所述第一无线电话机的用户嘴部位于该最大灵敏性角度内,其中,所述最大灵敏性角度定义为在该角度范围内,麦克风阵列的灵敏性大于阈值。
10.根据权利要求7所述的系统,其中,对于所述接收器接收的信号的每个语音帧,所述解码器还被配置以评估信道损失,并将接收器所接收的具有最小信道损失的信号解码,从而产生相应语音帧的输出信号。
全文摘要
本发明涉及提供冗余以克服传输信道损失的多层描述传输系统。多层描述传输系统包括第一和第二无线电话机。所述第一无线电话机包括麦克风阵列、编码器和发射器。所述麦克风阵列中每个麦克风经配置以接收用户的语音输入并产生对应的语音信号。所述编码器与所述麦克风阵列相连接,经配置以编码每个语音信号。所述发射器与所述编码器连接,经配置以发射每个已编码的语音信号。所述第二无线电话机包括接收器、解码器和扬声器。所述接收器经配置以接收发射信号。所述解码器与所述接收器相连接,经配置以解码接收器所接收的信号,从而产生输出信号。所述扬声器接收输出信号并产生对应的声波。
文档编号H04M1/60GK1874368SQ20061008412
公开日2006年12月6日 申请日期2006年5月24日 优先权日2005年5月24日
发明者朱因韦·陈, 詹姆士·D·贝内特 申请人:美国博通公司