在免提通信中的重噪声条件下改善话音质量的制作方法
【专利摘要】本发明涉及在免提通信中的重噪声条件下改善话音质量。当由话音和噪声两者组成的语音信号中的噪声被抑制时,语音信号中的话音质量通常退化。通过确定不进行噪声抑制或者噪声抑制前的语音信号的线性预测编码(LPC)特性,以及通过确定噪声抑制后的语音的LPC特性,改善从噪声抑制后的语音信号得到的话音。那些不同特性的卷积提供改善质量后的话音信号,该话音信号具有被消减或被抑制的原始噪声水平。
【专利说明】
在免提通信中的重噪声条件下改善话音质量
【背景技术】
[0001]机动车辆或汽车中的扬声器所产生的话音清晰度和在这种环境中由麦克风所检测的话音清晰度被陪伴移动车辆的几个噪声源削减,噪声源的例子包括马路噪声、风噪和发动机噪声。尽管已有现有技术的估计和减少话音中噪声的噪声抑制算法,它们还易于抑制至少一些话音,并且因此使其逼真度退化。更特别地,现有技术的噪声抑制技术降低了从其形成话音的元音、辅音和其他声音的识别特征的可听性。一种用于在伴随话音的噪声被抑制之后改善或恢复声音或话音逼真度或话音质量的方法和装置将会是对现有技术的改进。
【附图说明】
[0002]图1是提供有“免提”语音系统的机动车辆内部的侧视图;
[0003]图2是用于改善从包括话音和噪声两者的语音信号中获取的话音质量的装置框图;
[0004]图3描绘了用于改善由话音和噪声两者构成的语音信号中的话音质量的方法步骤和装置两者。
[0005]图4是用于改善包含话音和噪声的语音信号中的话音质量的装置和方法两者的可替换实施例。
【具体实施方式】
[0006]如在此使用的,“话音质量”是指声音(例如元音声音和/或辅音声音)的识别特性,该识别特性主要由产生它们的声室的谐振而确定。当识别出元音和辅音特性是清晰可听到的(即被听到或能够被听到),则话音质量被认为是良好的。当这些相同特性变得不可听(即不可听到或它们的可听性降低)时,则话音质量被认为是拙劣的。当元音、辅音或其他声音的识别特性被改善或成为更可听时,则话音质量被改善。
[0007]可通过抑制易于模糊识别特性的噪声来改善话音的可听性。然而,模糊噪声典型地模糊了声音的至少一些识别特性。换种方式说,模糊噪声易于使话音质量退化。在抑制噪声之后恢复元音声音和辅音声音的识别特性改善话音质量。
[0008]图1描绘了机动车辆100,其乘客舱102或“内部”被提供有麦克风104和扬声器106。麦克风104和扬声器106共同親合到传统蜂窝电话108。麦克风104和扬声器106组成蜂窝电话108的“免提”语音系统的一部分。
[0009]麦克风104被绘制为安装到后视镜110上,但是它可位于车辆100的任何地方,只要其能够检测来自驾驶员或其他使用者的语音信号。安放麦克风以使其能够检测来自基本上车辆100任何地方的车辆使用者的话音112,但是,这导致乘客舱102内的背景噪声114被检测到。
[0010]如在此使用的,背景噪声至少包括风噪、道路噪声和发动机噪声。依靠麦克风104的位置,它将声波转换成包含话音和背景噪声两者的音频电信号。该电信号从麦克风104输出由此表示了话音和噪声。
[0011]现参见扬声器106,它将来自蜂窝电话108的电信号116转换成可听到的声波118。来自扬声器的声波118被投射到车辆110内部102,其中它们与前述的背景噪声114 “混合”。
[0012]机动车辆中的背景噪声114基本上不可能防止或消除。因此在背景噪声114被麦克风104拾取之后但在其到达由蜂窝电话108所提供的连接的远端之前,抑制背景噪声114是重要的。
[0013]图2是用于在汽车环境中抑制背景噪声并用于在背景噪声被抑制之后改善话音质量的装置200的框图。该装置200包括耦合到非暂时性存储设备212的传统处理器202,该存储设备存储处理器202的可执行指令。
[0014]处理器从传统麦克风206接收时域语音信号204,该麦克风的例子包括免提语音系统的麦克风部分。该麦克风206位于机动车辆的乘客舱内部,该乘客舱例如是图1所示的乘客舱102。
[0015]除了从麦克风206接收信号之外,处理器202还将时域音频信号210提供或“输出”到传统扬声器208,清晰的语音能够由机动车辆使用者从该扬声器收听到。模拟或时域的语音信号210是由处理器202响应于程序指令从频域信号生成的,该程序指令由处理器202执行并且促使处理器202处理从传统蜂窝电话216接收到的语音信号214。那些指令存储在经由传统总线215耦合到处理器202的非暂时性存储设备212中,该总线被熟知为计算机系统中的一系列电气并联的导体,并构成计算机系统的主要传输路径。
[0016]处理器202以及其从存储器212获取并执行的指令本质上用作为麦克风206和蜂窝电话216之间的接口,该电话也经由同一总线215耦合到处理器。处理器202及其执行的程序指令由此提供了从麦克风206接收语音信号、处理那些信号以抑制噪声并产生“噪声削减后的”语音信号、重新处理噪声削减后的语音信号以产生改善质量的话音,以及向蜂窝电话216提供改善质量后的话音的电子机制。蜂窝电话216将改善质量的话音调制到射频信号上。
[0017]现在参考图3,如其所绘制的,它描绘了用于在语音信号中的噪声被抑制之后改善语音信号中的话音质量的电气组件和方法步骤两者,该语音信号例如是来自图1和2所示麦克风并且包括话音和噪声两者的语音信号。图3中,该装置包括接收语音信号304的麦克风302。该语音信号304包括话音和背景噪声两者。该背景噪声不是白噪声,而是风噪、道路噪声和发动机噪声中的一个或多个。
[0018]从麦克风306输出的时域语音信号306被提供至传统快速傅里叶变换(FFT)计算器308,该计算器308的输出信号310是一串系数,该系数中的每个表示语音信号306的采样的频率分量。来自FFT计算器的输出信号310被提供至噪声抑制器312,该噪声抑制器处理FFT计算器的频域输出310以提供噪声削减后的输出语音信号314,该信号仍旧是频域的。噪声抑制器312的输出314被提供至逆快速傅里叶变换(IFFT)转换器316JFFT 316的输出318是从麦克风302所接收的语音信号306的时域表述,但是带有削减的噪声以及退化的话音质量。输出318因此是由麦克风302所接收的语音信号304的话音分量的经噪声削减后的但是轻微失真的版本或复制品。
[0019]执行快速傅里叶变换、使用FFT抑制语音信号306的频域表示中的噪声以及通过逆傅里叶变换316将噪声抑制后的信号转换回时域的元件和处理在
【申请人】的申请号为13/012,062、命名为“用于模糊风噪的方法和装置”、申请日为2011年I月24日的共同未决专利申请中公开,该专利申请的内容以其整体通过引用并入本文。还参见
【申请人】的申请号为14/074,495、申请日为2013年11月7日、命名为“改善基于Log-MMSE的噪声抑制性能的话音概率存在修正器”、代理案号为2013P03107US的共同未决专利申请,该专利申请的内容同样以其整体并入本文,以及参见申请号为14/074,423、申请日为2013年11月7日、命名为“基于MMSE话音概率存在的准确正向SNR估计”、代理案号为2013P03103US的申请,该申请的内容同样以其整体并入本文。
[0020]线性预测编码或“LPC”是熟知的。它开始于假设话音信号由管末端处的蜂鸣器产生,带有不定期性添加的杂音和爆音(已知为喔音和爆破声)。声带裙(vocal fold)之间暂时的间隙产生蜂音,该蜂音以强度或响度以及频率或音高为特征。声道(嗓子和嘴)构成管,它以其谐振为特征,引起频带处于所产生的声音中的“共振峰(formant)”。杂音和爆音由舌头、嘴唇和嗓子在咝音和爆破声过程中的动作产生。
[0021]LPC通过估计共振峰,将它们的影响从话音信号中去除,以及估计剩下的蜂音的强度和频率来分析话音信号。除去共振峰的过程称之为反向滤波,并且已滤除模式信号的减法后的剩余信号称之为残余(residue)。描述蜂音、共振峰和残余信号的强度和频率的数字可被存储或发送到别的地方。话音可通过反向处理进行合成:使用蜂音参数和残余以产生源信号,使用共振峰创建表示管的滤波器,并且运行源通过滤波器,产生话音。
[0022]由于话音信号随时间变化,LPC编码和话音合成的过程在称之为帧的话音信号的短片上完成。它们通常大于50帧每秒,并且在这样的速率下它们可产生清晰话音。
[0023]仍旧参见图3,线性预测编码(LPC)是由线性预测编码估计器320对从逆快速傅里叶变换转换器316输出的噪声抑制后的语音信号318执行。LPC估计器步骤320得到的“LPC”系数或线性预测编码包括误差信号322。
[0024]再次参考麦克风302,其输出信号306通过延迟线或缓冲器324被提供至LPC分析器326IPC分析器326从原始输入信号306(即由麦克风302所“收听”的话音和背景噪声)产生线性预测编码系数,并且将几个(至少十个)LPC系数328输出到LPC合成器33(LLPC系数本质上表示原始语音信号304,即从误差信号322中抑制的背景噪声和话音。
[0025]延迟线324确保产生从LPC分析器326输出的LPC系数328所需的时间是与由LPC估计器320所提供的LPC系数同步的时间。由于以下事实:由附图标记308-316所标识的步骤和结构在表不从麦克风302输出的时域信号306的数据的不连续帧上执行(典型地大约五十帧每秒),延迟线324由此执行帧同步。
[0026]在LPC合成器330中使用传统现有技术的卷积将从LPC分析器326输出的系数328“应用于”误差信号322。使用了系数328的误差信号322的LPC合成产生时域信号332,该时域信号作为对蜂窝电话334的输入被提供。蜂窝电话332将改善质量的话音信号332调制到载波上以用于发送到接收器。
[0027]已发现从由原始输入信号306得到的LPC系数以及从噪声或部分噪声抑制后的信号322得到的LPC系数所重构的话音具有超出并且高于从逆快速傅里叶变换转换器316由其自身输出的话音的改善的或较高的音质。增加了元音、辅音和其他话音声音的各种识别特性的可听性。
[0028]图4示出图3中所示装置和方法的稍微修改的、但尽管如此是可替换的实施例。在图4中,图3所示的麦克风302使其输出信号306被提供至附加的FFT计算器308。从FFT计算器308输出的频域信号310是表示由麦克风接收的语音信号中的话音和噪声的频率分量的系数。那些系数被提供至第一部分噪声抑制器402。第一噪声抑制器402的输出是频域信号404,其噪声水平至少部分地被抑制以至少部分地改善由麦克风302所接收的语音信号304的话音质量。第二噪声抑制器312、逆快速傅里叶变换转换器314和LPC系数估计器316在以上描述并绘制在图3中。因此为了简洁省略对它们的进一步说明。
[0029]与图3所示的电路不同,从第一噪声抑制器402输出的频域信号在被提供至第二逆快速傅里叶变换转换器408之前被提供至延迟线406。从第二逆快速傅里叶变换转换器408输出的时域信号410被提供至以上描述并且在图3中所示的LPC分析器326。
[0030]从LPC分析器306输出的LPC系数328被提供至以上描述并且在图3中绘制的LPC合成器,该合成器的输出是被提供至蜂窝电话334作为语音输入调制信号的改善质量后的话音信号412。
[0031]与图3所示实施例类似,已发现使用从部分处理过的话音404和误差信号322获取的LPC系数、由包含话音和噪声的语音信号304重构话音生成话音信号,其质量或逼真度优于简单地从语音信号的噪声抑制后的版本所得到的。增加了元音、辅音和其他声音的识别特征的可听性。
[0032]电气领域普通技术人员知晓处理器所执行的功能和操作也可使用数字逻辑门和时序逻辑设备来实施。然而,改变或修改处理器的操作比改变硬件连接的电路造价低得多。
[0033]再次参见图2,处理器202可以是通用微处理器、微控制器或数字信号处理器。它被绘制为经由总线215耦合到非暂时性存储设备212。处理器202执行存储设备212中存储的程序指令。那些指令促使处理器202执行以上描述的操作。更具体地,处理器202在许多微处理器、微控制器和数字信号处理器上常见的模拟输入端口处接收包含话音和噪声的时域语音信号204。
[0034]所存储的程序指令促使处理器计算到来的语音信号204的FFT,使用前述的噪声抑制技术在频域中抑制噪声,估计LPC系数用于噪声抑制后的信号和产生从麦克风206接收的“干净的”语音信号204。“干净的”输出信号由图3中的附图标记318所标识的输出信号表示。
[0035]卷积是公知的处理。存储设备212中存储的指令促使处理器202对已滤波的语音和未滤波或“干净的”语音“卷积”该LPC系数,其结果就是原始话音的重构而无噪声抑制引起的伪像或失真。处理器202以及存储设备212中存储的指令由此包括:噪声抑制器、自身包括LPC估计器的线性预测编码(LPC)分析器以及误差信号生成器。改善质量后的话音210被提供至扬声器或其他形式的语音信号换能器,该换能器从语音频率电信号生成可听声波。
[0036]在优选实施例中,来自麦克风206的语音信号214以及发送到扬声器208的语音信号经过处理器202,并在处理器202和传统蜂窝电话216之间交换。
[0037]在前的描述仅仅出于说明的目的。本发明的真实范围在随后的权利要求中被阐述。
【主权项】
1.一种在语音信号中的噪声被抑制之后改善包含话音和噪声的语音信号中的话音质量的方法,该方法包括: 接收包含话音和噪声的第一语音信号; 确定第一语音信号的特性并产生所述第一语音信号的线性预测编码(LPC)表示; 向噪声抑制器提供第一语音信号,该噪声抑制器被配置成抑制第一语音信号中的至少一些噪声并且由此产生噪声削减后的语音信号; 使用线性预测编码(LPC)估计方法从噪声削减后的语音信号生成误差信号,该误差信号包括第一语音信号中的至少一些噪声被去除之后的第一语音信号中的话音; 将该误差信号应用到第一语音信号的LPC表示以合成第二语音信号,该第二语音信号具有削减后的失真话音并且话音质量优于第一语音信号中的话音;以及 将该第二语音信号提供至被配置成从第二语音信号生成可听声波的语音信号换能器。2.如权利要求1的方法,其中将误差信号应用到LPC的步骤导致元音、辅音和其他声音的识别特性的可听性增加。3.如权利要求1的方法,其中接收包含话音和噪声的第一语音信号的时域表示的步骤发生在机动车辆中,并且其中将第二语音信号提供至语音信号换能器的步骤发生在所述车辆中。4.如权利要求1的方法,其中确定第一语音信号特性的步骤包括确定第一语音信号中的话音共振峰并产生话音共振峰的LPC表示。5.如权利要求1的方法,其中生成误差信号的步骤包括接收第一语音信号的噪声削减后的失真版本的时域表不。6.如权利要求1的方法,其中将误差信号应用到第一语音信号的LPC表示的步骤包括由第一语音信号对误差信号进行卷积。7.—种在抑制语音信号中的噪声之后改善语音信号中的话音质量的方法,该方法包括: 接收包含话音和噪声的第一语音信号,该第一语音信号由数字数据帧来表示; 对第一语音信号执行第一部分噪声抑制用于提供第一部分噪声削减后的语音信号;对第一部分噪声削减后的语音信号执行第二部分噪声抑制以提供第二噪声削减后的语音信号; 确定第一部分噪声削减后的语音信号的线性预测编码(LPC)表示; 从第二噪声削减后的语音信号生成误差信号; 将该误差信号应用到第一部分噪声削减后的语音信号的LPC表示,以从第一语音信号合成改善质量后的话音信号; 接收包含话音和噪声的第一语音信号,该第一语音信号由数字数据帧来表示; 对第一语音信号执行第一部分噪声抑制用于提供第一部分噪声削减后的语音信号;对第一部分噪声削减后的语音信号执行第二部分噪声抑制以提供第二噪声削减后的语音信号; 确定第一部分噪声削减后的语音信号的线性预测编码(LPC)表示; 从第二噪声削减后的语音信号生成误差信号; 将该误差信号应用到第一部分噪声削减后的语音信号的LPC表示,以从第一语音信号合成改善质量后的话音信号;以及 将该改善质量后的话音信号提供至语音信号换能器,该语音信号换能器被配置成从时域改善质量后的语音信号产生可听声波。8.如权利要求7的方法,其中将误差信号应用到LPC表示的步骤包括由LPC表示对误差信号进行卷积。9.如权利要求7的方法,其中接收第一语音信号的步骤以及将改善质量后的话音信号提供至语音信号换能器的步骤发生在机动车辆中。10.—种用于在第一语音信号中的噪声被抑制之后改善从具有话音和噪声的第一语音信号得到的话音质量的装置,该装置包括: 第一噪声抑制器,被配置成: 抑制第一语音信号中的至少一些噪声以由此产生噪声削减后的第一语音信号,噪声削减后的第一语音信号包含从第一语音信号得到的已失真的话音; 线性预测编码(LPC)分析器,包括: 被配置成接收第一语音信号并提供第一语音信号的线性预测编码(LPC)表示的LPC估计器; 误差信号生成器,包括: 被配置成在第一语音信号中的噪声至少部分被抑制之后产生噪声削减后的第一语音信号的线性预测编码(LPC)表示的线性预测编码(LPC)估计器; 被配置成从第一语音信号的LPC表示以及在第一语音信号中的噪声至少部分被抑制之后的语音信号的LPC表示来合成话音信号的LPC合成器;以及 被配置成从合成后的话音信号生成可听声波的语音信号换能器。11.如权利要求10的装置,其中第一噪声抑制器、线性预测编码分析器以及误差信号生成器中的至少一个包括处理器。12.如权利要求10的装置,进一步包括机动车辆中的麦克风和蜂窝电话,该麦克风可操作地耦合到第一噪声抑制器,并且该蜂窝电话可操作地耦合到语音信号换能器,其中从麦克风得到的语音信号中的噪声被削减,且从麦克风得到的语音信号中的话音被提供至蜂窝电话。13.如权利要求10的装置,其中噪声抑制器被配置成抑制风噪、马路噪声和发动机噪声。
【文档编号】G10L15/02GK105938714SQ201610205907
【公开日】2016年9月14日
【申请日】2016年3月3日
【发明人】B·乔希
【申请人】大陆汽车系统公司